目录
- MapReduce定义
-
- 优点
- 缺点
- 核心思想(概述,以WordCount为例)
- 进程
- 阅读官方WordCount源码
-
- 下载并反编译
- 序列化类型
- MapReduce编程概述
-
- Mapper阶段
- Reducer阶段
- Driver阶段
MapReduce定义 【数据仓库|Hadoop 3.x|第七天|MapReduce概述】MapReduce 是一个分布式运算程序的编程框架,是“基于 Hadoop 的数据分析应用”的核心框架。
MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。
优点
- 易于编程
- 良好的扩展性
- 高容错性
- 适合 PB 级以上海量数据的离线处理
- 不擅长实时计算:无法像 MySQL 一样,在毫秒或者秒级内返回结果。
- 不擅长 DAG(有向无环图)计算:多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。
在这种情况下,MapReduce 并不是不能做,而是使用后,每个 MapReduce 作业的输出结果都会写入到磁盘,会造成大量的磁盘 IO,导致性能非常的低下。 - 不擅长流式计算:流式计算的输入数据是动态的,而 MapReduce 的输入数据集是静态的,不能动态变化。
这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。
后面学的Spark能够解决
- 分布式的运算程序往往需要分成至少2个阶段
- 第一个阶段的 MapTask 并发实例,完全并行运行,互不相干。
- 第二个阶段的 ReduceTask 并发实例,互不相干,但是他们的数据依赖于上一个阶段的所有 MapTask 并发实例的输出。
- MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段,如果用户的业务逻辑非常复杂,那就只能多个 MapReduce 程序,串行运行。
文章图片
- MrAppMaster:负责整个程序的过程调度及状态协调。
- MapTask:负责 Map 阶段的整个数据处理流程。
- ReduceTask:负责 Reduce 阶段的整个数据处理流程。
里下载hadoop-mapreduce-examples-3.1.3.jar
打开反编译工具,把此jar包放进去。
文章图片
序列化类型 WordCount 案例有 Map 类、Reduce 类和驱动类。且数据的类型是 Hadoop 自身封装的序列化类型。
文章图片
MapReduce编程概述 用户编写的程序分成三个部分:Mapper、Reducer 和 Driver。
Mapper阶段
- 用户自定义的Mapper要继承自己的父类(即原本定义的Mapper)
- Mapper的输入数据是KV对的形式(KV的类型可自定义)
- Mapper中的业务逻辑写在map()方法中
- Mapper的输出数据是KV对的形式(KV的类型可自定义)
- map()方法(MapTask进程)**对每一个
**调用一次
- 用户自定义的Reducer要继承自己的父类
- Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
- Reducer的业务逻辑写在reduce()方法中
- ReduceTask进程对每一组相同k的
组调用一次reduce()方法
推荐阅读
- 数据仓库|如何提升数据质量
- 数据建模|数仓数据指标和标签体系区别
- 数据仓库|基于Hive数据仓库的标签画像实战
- StarRocks|使用StarRocks内置工具Routine Load同步Mysql/TiDB/PG等增量更新数据到StarRocks
- 数据库|开源数据计算引擎,实现媲美ElasticSearch的高性能并发查询
- 数据仓库|实时BI(四)低成本的数据准实时处理思路
- python|LeetCode 删除链表的倒数第 N 个节点
- 信息化建设|业务发展陷入停滞,决策没有信息支撑,数据分析才是解决方案
- LeetCode5最大回文子串(中心扩散法)