什么是Apache Pig

本文概述

  • Apache Pig的功能
  • Apache MapReduce和PIG之间的区别
  • Apache Pig的优点
Apache Pig是用于执行Hadoop的MapReduce程序的高级数据流平台。 Pig的语言是Pig Latin。
Pig脚本在内部转换为Map Reduce作业, 并在HDFS中存储的数据上执行。除此之外, Pig还可以在Apache Tez或Apache Spark中执行其工作。
Pig可以处理任何类型的数据, 即结构化, 半结构化或非结构化数据, 并将相应结果存储到Hadoop数据文件系统中。使用PIG可以完成的每个任务, 也可以使用MapReduce中使用的java来实现。
Apache Pig的功能让我们看看Pig技术的各种用途。
1)易于编程
对于非程序员来说, 编写复杂的Java程序以进行map reduce相当困难。 Pig使此过程变得容易。在Pig中, 查询在内部转换为MapReduce。
2)优化机会
任务的编码方式使系统可以自动优化其执行, 从而使用户可以专注于语义而不是效率。
3)可扩展性
编写了用户定义的函数, 其中用户可以编写其逻辑以对数据集执行。
4)灵活
它可以轻松处理结构化和非结构化数据。
5)内置运营商
【什么是Apache Pig】它包含各种类型的运算符, 例如sort, filter和join。
Apache MapReduce和PIG之间的区别
Apache MapReduce 阿帕奇猪
它是低级数据处理工具。 它是高级数据流工具。
在这里, 需要使用Java或Python开发复杂的程序。 不需要开发复杂的程序。
在MapReduce中执行数据操作很困难。 它提供了内置的运算符来执行数据操作, 例如联合, 排序和排序。
它不允许嵌套数据类型。 它提供了嵌套的数据类型, 例如元组, 包和地图。
Apache Pig的优点
  • 更少的代码-Pig花费更少的代码行来执行任何操作。
  • 可重用性-Pig代码足够灵活, 可以再次重用。
  • 嵌套数据类型-Pig提供了一个有用的概念, 如元组, 包和地图等嵌套数据类型。

    推荐阅读