本文概述
- 蜂巢的特征
- 蜂巢的局限性
- 蜂巢和猪之间的区别
Hive提供读取, 写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询, 称为HQL(Hive查询语言), 在内部将其转换为MapReduce作业。
使用Hive, 我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL), 数据操作语言(DML)和用户定义的函数(UDF)。
蜂巢的特征这些是Hive的以下功能:
- Hive快速且可扩展。
- 它提供了类似SQL的查询(即HQL), 这些查询已隐式转换为MapReduce或Spark作业。
- 它能够分析存储在HDFS中的大型数据集。
- 它允许使用不同的存储类型, 例如纯文本, RCFile和HBase。
- 它使用索引来加速查询。
- 它可以对存储在Hadoop生态系统中的压缩数据进行操作。
- 它支持用户定义的功能(UDF), 用户可以在其中提供其功能。
- Hive无法处理实时数据。
- 它不是为在线交易处理而设计的。
- 配置单元查询包含高延迟。
蜂巢 | 猪 |
---|---|
Hive是数据分析师常用的。 | Pig是程序员常用的。 |
它遵循类似SQL的查询。 | 它遵循数据流语言。 |
它可以处理结构化数据。 | 它可以处理半结构化数据。 |
它在HDFS群集的服务器端工作。 | 它适用于HDFS群集的客户端。 |
蜂巢比猪慢。 | 猪比蜂巢要快。 |
推荐阅读
- 什么是Apache Pig
- 什么是HBase
- 什么是Hadoop
- 什么是大数据
- 启动Sqoop
- Sqoop where
- 购车指南(如何找到划算的交易和要寻找的11件事)
- 如何估价古董车(它有什么特别之处?终极指南)
- 最好的3排SUV有哪些(哪款最适合你?综合列表)