hive离线分析,基于hive的学生成绩分析

用hive微博数据统计分析 Case Hive,Hive 分析函数滞后和超前来详细解释Hive的分析函数,也叫窗口函数,oracle中有这样的函数 。为什么hive是hadoop数据仓库,Spark已经取代Hadoop成为最活跃的开源大数据项目,然而,在选择大数据框架时,企业不能厚此薄彼,著名大数据专家BernardMarr在一篇文章分析中阐述了Spark和Hadoop的异同,Hadoop和Spark都是大数据框架 , 都提供了一些工具来执行常见的大数据任务,但确切地说,它们执行的任务并不相同 , 也并不相互排斥,虽然据说Spark在某些情况下比Hadoop快100倍,但是它本身并没有分布式存储系统 , 分布式存储是当今很多大数据项的基础 。它可以在普通电脑几乎无限的硬盘上存储PB级的数据集,并提供良好的可扩展性 , 只需要随着数据集的增加而增加硬盘,所以Spark需要一个第三方分布式存储,也正是这个原因,很多大数据项目在Hadoop上安装Spark,这样Spark的advanced 分析应用程序就可以使用存储在HDFS的数据,与Hadoop相比,Spark真正的优势在于速度 。Spark的大部分操作都在内存中 , 每次操作之后都会用到Hadoop的MapReduce系统 。

1、为什么说 hive是hadoop数据仓库,从方面理解 hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成数据库表,提供简单的sql查询功能,将sql语句转换成MapReduce任务运行 。它的优点是学习成本低,不需要开发专门的MapReduce应用 , 通过类似SQL的语句就可以快速实现简单的MapReduce统计,非常适合数据仓库统计 。它提供了一系列可用于数据提取、转换和加载(ETL)的工具 , ETL是一种可以在Hadoop中存储、查询和分析存储大规模数据的机制 。

【hive离线分析,基于hive的学生成绩分析】(2).hive是一个基于hadoop的数据仓库工具,可以将结构化的数据文件映射到一个表中,并提供类似SQL的查询功能 。(3).hive是建立在hadoop上的数据仓库:HQL语句作为查询接口,HDFS用于存储,mapreduce用于计算 。(4).hive本质是将HQL转换成MapReduce程序 。(5)良好的灵活性和扩展性:支持UDF,自定义存储格式 。

2、HiveSQL执行计划深度解析HiveSQL实施方案深度分析安的专栏博客频道美团 。com科技陈淳大作值得拥有 。Hive是基于Hadoop的数据仓库系统,广泛应用于各大公司 。美团的数据仓库也是基于Hive构建的,每天执行HiveETL计算过程近万次,每天负责存储数百GB的数据和分析 。Hive的稳定性和性能对我们的数据分析至关重要 。

    推荐阅读