MapReduce教程介绍

本文概述

  • 什么是MapReduce?
  • Map Reduce的步骤
  • 排序和随机播放
  • MapReduce的用法
  • 先决条件
  • 听众
  • 问题
MapReduce教程提供了MapReduce的基本和高级概念。我们的MapReduce教程专为初学者和专业人士设计。
我们的MapReduce教程包含MapReduce的所有主题, 例如MapReduce中的数据流, Map Reduce API, 字数示例, 字符数示例等。
什么是MapReduce? MapReduce是一种数据处理工具, 用于以分布式形式并行处理数据。它是在2004年根据Google出版的名为“ MapReduce:大型集群上的简化数据处理”的论文开发的。
MapReduce是具有两个阶段的范例, 即映射器阶段和简化器阶段。在Mapper中, 输入以键值对的形式给出。映射器的输出作为输入馈送到减速器。减速器仅在Mapper结束后才运行。减速器也接受键值格式的输入, 减速器的输出是最终输出。
Map Reduce的步骤
  • 映射以对的形式获取数据, 并返回< key, value> 对的列表。在这种情况下, 键将不是唯一的。
  • 使用Map的输出, Hadoop体系结构可应用排序和混洗。这种排序和混洗对< key, value> 对的这些列表起作用, 并发出唯一键和与此唯一键< key, list(values)> 相关联的值的列表。
  • 分类和混洗的输出发送到减速器阶段。精简器在唯一键值列表上执行已定义的功能, 并且最终输出< 键, 值> 将被存储/显示。
MapReduce教程介绍

文章图片
MapReduce教程介绍

文章图片
排序和随机播放 排序和混洗发生在Mapper的输出上, 以及在reducer之前。当Mapper任务完成时, 结果将按键排序, 如果有多个化简器, 则将其分区, 然后写入磁盘。使用每个Mapper < k2, v2> 的输入, 我们收集每个唯一键k2的所有值。来自混洗阶段的此输出以< k2, list(v2)> 的形式作为输入发送到减速器阶段。
MapReduce的用法
  • 它可以用于各种应用程序, 例如文档聚类, 分布式排序和Web链接图反转。
  • 它可用于基于模式的分布式搜索。
  • 我们还可以在机器学习中使用MapReduce。
  • 谷歌使用它来重新生成谷歌对万维网的索引。
  • 它可以用于多种计算环境中, 例如多集群, 多核和移动环境。
先决条件 在学习MapReduce之前, 你必须具有大数据的基本知识。
听众 我们的MapReduce教程旨在帮助初学者和专业人士。
问题 【MapReduce教程介绍】我们保证你不会在本MapReduce教程中找到任何问题。但是, 如果有任何错误, 请在联系表格中发布问题。

    推荐阅读