本文概述
- Apache Pig的功能
- Apache MapReduce和PIG之间的区别
- Apache Pig的优点
Pig脚本在内部转换为Map Reduce作业, 并在HDFS中存储的数据上执行。除此之外, Pig还可以在Apache Tez或Apache Spark中执行其工作。
Pig可以处理任何类型的数据, 即结构化, 半结构化或非结构化数据, 并将相应结果存储到Hadoop数据文件系统中。使用PIG可以完成的每个任务, 也可以使用MapReduce中使用的java来实现。
Apache Pig的功能让我们看看Pig技术的各种用途。
1)易于编程
对于非程序员来说, 编写复杂的Java程序以进行map reduce相当困难。 Pig使此过程变得容易。在Pig中, 查询在内部转换为MapReduce。
2)优化机会
任务的编码方式使系统可以自动优化其执行, 从而使用户可以专注于语义而不是效率。
3)可扩展性
编写了用户定义的函数, 其中用户可以编写其逻辑以对数据集执行。
4)灵活
它可以轻松处理结构化和非结构化数据。
5)内置运营商
【什么是Apache Pig】它包含各种类型的运算符, 例如sort, filter和join。
Apache MapReduce和PIG之间的区别
Apache MapReduce | 阿帕奇猪 |
---|---|
它是低级数据处理工具。 | 它是高级数据流工具。 |
在这里, 需要使用Java或Python开发复杂的程序。 | 不需要开发复杂的程序。 |
在MapReduce中执行数据操作很困难。 | 它提供了内置的运算符来执行数据操作, 例如联合, 排序和排序。 |
它不允许嵌套数据类型。 | 它提供了嵌套的数据类型, 例如元组, 包和地图。 |
- 更少的代码-Pig花费更少的代码行来执行任何操作。
- 可重用性-Pig代码足够灵活, 可以再次重用。
- 嵌套数据类型-Pig提供了一个有用的概念, 如元组, 包和地图等嵌套数据类型。
推荐阅读
- 什么是Sqoop
- 什么是HIVE
- 什么是HBase
- 什么是Hadoop
- 什么是大数据
- 启动Sqoop
- Sqoop where
- 购车指南(如何找到划算的交易和要寻找的11件事)
- 如何估价古董车(它有什么特别之处?终极指南)