Hadoop介绍
狭义上Hadoop指的是Apache软件基金会的一款开源软件。 用java语言实现,开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
Hadoop核心组件
- Hadoop HDFS(分布式文件存储系统):解决海量数据存储
- Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
- Hadoop MapReduce(分布式计算框架):解决海量数据计算
官网
http://hadoop.apache.org
广义上Hadoop 指的是围绕Hadoop打造的 大数据生态圈
文章图片
Hadoop发展简史
Hadoop 之父: Doug Cutting
- Hadoop起源于Apache Lucene子项目:Nutch
- Nutch的设计目标是构建一个大型的全网搜索引擎。
- 遇到瓶颈:如何解决数十亿网页的存储和索引问题
文章图片
Google三篇论文
- 《The Google file system》:谷歌分布式文件系统GFS
- 《MapReduce: Simplifified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
- 《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
- HDFS:作为分布式文件存储系统,处在生态圈的底层与核心地位;
- YARN:作为分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop地位;
- MapReduce:作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。
- scalability (扩容能力)
- Economical (低成本)
- efficiency(高效率)
- reliability (高可靠性)
【大数据|【大数据开发笔记1】什么是Hadoop?】
推荐阅读
- 分布式计算框架Map/Reduce
- 大数据|Yarn 资源调度器概述
- Pandas数据处理—Series、DataFrame对象索引
- GIS+=地理信息+行业+大数据——基于云环境流处理平台下的实时交通创新型app
- Hadoop教程目录
- 大数据|前后端分离架构中的接口安全_如何立即确保您的应用架构安全(分离,配置和访问)
- 资讯|中国 AI 的“黄埔军校”(MSRA 被曝停招“国防七子”及北邮学生)
- 什么是yarn
- 什么是Sqoop