sx是什么意思 shuffle什么意思( 三 ) _生活知识

在土豆车间洗牌
读者不禁要问:DAGScheduler是如何判断RDD之间的转换是否会洗牌的？这位读者说，“前一份文件说，接线员半天是RDD之间转换的关键。是不是要根据运营商来判断是否会发生洗牌？”你真的猜错了。运算符和Shuffle之间没有对应关系。以连接操作符为例。在大多数情况下，连接会引入洗牌；；但是在同位连接中，当左右表的数据分布一致时，就不会发生Shuffle 。所以，你看，DAGScheduler真的不能依靠运营商本身来判断是否发生洗牌。要回答这个问题，我们还是要回到上一篇文献《内存计算的起源——RDD》中介绍RDD时提到的五个属性。
名称成员类型属性含义相关性变量生成RDD所依赖的父RDD 。Compute方法生成RDD的计算接口分区变量。RDD的所有数据片段。实体划分器方法划分数据片段的规则。数据片段的可变物理位置偏好
RDD的五种属性及其含义
其中，第一种属性依赖可以细分为窄依赖和洗牌依赖。窄依赖(NarrowDependency)也叫“窄依赖” ，是指RDD所依赖的数据不需要分布，基于当前已有的数据切片就可以实现compute attribute封装的功能。另一方面，ShuffleDependency意味着RDD所依赖的数据碎片需要分布在集群中，然后才能执行RDD的compute函数来完成计算。因此，RDD之间的转换是否是无序的取决于子RDD的依赖类型。如果依赖类型是ShuffleDependency ，那么DAGScheduler决定RDD和RDD之间的转换将引入Shuffle 。在回溯到DAG的过程中，一旦DAGScheduler发现RDD的依赖类型是ShuffleDependency，它将依次执行以下三个操作:
沿着 Shuffle 边界的子 RDD 方向创建新的 Stage 对象把新建的 Stage 注册到 DAGScheduler 的 stages 系列字典中，这些字典用于存储、记录与 Stage 有关的状态和元信息，以备后用沿着当前 RDD 的父 RDD 遵循广度优先搜索算法继续回溯 DAG
以土豆工坊为例。其尾节点flavouredBakedChipsRDD依赖于两个父RDD bakedChipsRDD和flavoursRDD ，依赖类型为ShuffleDependency 。然后，根据DAGScheduler的执行逻辑，此时将执行以下三个具体操作:
DAGScheduler在DAG过程中遇到ShuffleDependency时，会回撤主操作流程。
DAGScheduler沿着尾节点回溯并划分为stage0 。
完成第一阶段(stage0)的创建和注册后，DAGScheduler继续向bakedChipsRDD方向回溯。当我们沿着这条路跑的时候，我们的DAGScheduler向导惊讶地发现:“我去！去马平川的一路上，风景很好，站与站之间没有障碍，交通也很顺畅。真是好地形！”——沿路遇到的所有RDD(Bakedchipsrdd，chipsrdd，cleanedPotatosRDD，PotatosRDD)都是窄依赖。
回溯结束时，DAGScheduler也会重复上述三个步骤。根据DAGScheduler以Shuffle为界划分阶段的原理，将沿途所有RDD归为同一阶段，暂记为stage1 。值得一提的是，Stage对象的rdd属性对应的数据类型是RDD[] ，而不是列表[RDD[]] 。对于逻辑上包含多个RDD的阶段，其RDD属性存储路径末端的RDD节点，在我们的例子中是bakedChipsRDD 。
DAGScheduler沿着bakedChipsRDD方向回溯，划分stage1 。
勤奋的DAGScheduler，在成功创建stage1之后，还在不忘初心，牢记使命，继续向未探索的路线前进。从上图中，我们可以清楚地看到， flavoursRDD方向的路径保留在整个地形中，不包含在DAGScheduler的视图中。我们的DAGScheduler向导记忆力很好。早在stage0划分的时候，他就在笔记本(栈)上写下:“这个路口有个岔口。先沿着bakedChipsRDD走，再回头沿着flavoursRDD探索。”记住，记?。贝耸保?向导拿出之前的笔记本，用横线划掉了bakedChipsRDD方向的路径——表示这个方向的路径已经探索过了，然后沿着flavoursRDD方向大步走去。一脚下去，发现:“我去！结束了！” ，然后按照通常的“三招一套”流程——创建阶段、注册阶段、继续回溯。随着DAGScheduler创建最后一个阶段:stage2，地形上的所有路径都已被探索。
DAGScheduler创建最后一个阶段:阶段2
到目前为止，我们的向导几乎断了腿，按照首尾相连的顺序搜索了整个地形，最后把地形划分为三个战略阶段。那么，问题来了。指南划分的三个区域有什么用？DAGScheduler他老爸一直这样跑。有什么意义？如前所述，DAGScheduler的核心职责是将抽象的DAG计算图转化为可以并行计算的具体分布式任务。追溯到DAG和创建Stage只是这个核心职责的第一步。DAGScheduler以Stage(TaskSet)作为任务调度的粒度，与TaskScheduler、SchedulerBackend等众多bosses协同作战，运筹帷幄，调兵遣将。不过，毕竟这篇文章的主题是DAG，距离星火调度系统的核心还有一段距离，所以暂且在这里挖个坑，稍后再单独打开(星火调度系统) ，讲讲几位大佬之间的趣闻轶事。填坑的路很长，修远，我会上下挖掘这个坑。

sx是什么意思 shuffle什么意思( 三 )

推荐阅读

不粘锅和铸铁锅的区别不粘锅和铸铁锅不同点

安卓手机便笺,下载安卓手机怎么用?

g三星Galaxy S22系列国行版发布，S22 Ultra 9699元起售

discuz论坛破解隐藏内容 discuz破解插件

阿里斯顿电热水器放空水步骤图是什么故障？怎么解决

泡打粉的用法

高中生在校周记300字高中生在校周记300字范文

灰皂散的组成及作用

佳能sx720hs相机使用教程佳能sx720光圈怎么调

申请马德里商标有什么弊端马德里商标是什么意思，马德里国际商标有用吗

mysql怎么修改安装路径 mysql如何修改安装路径

用C语言实现最大公因数与最小公倍数

小青柑属于哪一类茶小青柑的冲泡方法

我发现我最近双眼无神怎么办？

啤酒种类和品牌

超精小麦粉是高筋还是低筋超精小麦粉是高筋还是低筋面粉?

萝卜家园win10系统64位旗舰版下载

医用酒精的味道越大越好吗

有效去痘印

方差分析excel2010,可重复双因素方差分析Excel