什么是HIVE

本文概述

  • 蜂巢的特征
  • 蜂巢的局限性
  • 蜂巢和猪之间的区别
【什么是HIVE】Hive是一个数据仓库系统, 用于分析结构化数据。它建立在Hadoop的顶部。它是由Facebook开发的。
Hive提供读取, 写入和管理驻留在分布式存储中的大型数据集的功能。它运行类似于SQL的查询, 称为HQL(Hive查询语言), 在内部将其转换为MapReduce作业。
使用Hive, 我们可以跳过编写复杂MapReduce程序的传统方法的要求。 Hive支持数据定义语言(DDL), 数据操作语言(DML)和用户定义的函数(UDF)。
蜂巢的特征这些是Hive的以下功能:
  • Hive快速且可扩展。
  • 它提供了类似SQL的查询(即HQL), 这些查询已隐式转换为MapReduce或Spark作业。
  • 它能够分析存储在HDFS中的大型数据集。
  • 它允许使用不同的存储类型, 例如纯文本, RCFile和HBase。
  • 它使用索引来加速查询。
  • 它可以对存储在Hadoop生态系统中的压缩数据进行操作。
  • 它支持用户定义的功能(UDF), 用户可以在其中提供其功能。
蜂巢的局限性
  • Hive无法处理实时数据。
  • 它不是为在线交易处理而设计的。
  • 配置单元查询包含高延迟。
蜂巢和猪之间的区别
蜂巢
Hive是数据分析师常用的。 Pig是程序员常用的。
它遵循类似SQL的查询。 它遵循数据流语言。
它可以处理结构化数据。 它可以处理半结构化数据。
它在HDFS群集的服务器端工作。 它适用于HDFS群集的客户端。
蜂巢比猪慢。 猪比蜂巢要快。

    推荐阅读