分布式机器学习(PageRank算法的并行化实现(PySpark))
目前对图算法进行并行化的主要思想是将大图切分为多个子图,然后将这些子图分布到不同的机器上进行并行计算,在必要时进行跨机器通信同步计算得出结果。学术界和工业界提出了多种将大图切分为子图的划分方法,主要包括两种,边划分(Edge Cut)和点划分(Vertex Cut)。总而言之,边划分将节点分布到不同机器中(可能划分不平衡),而点划分将边分布到不同机器中(划分较为平衡)。接下来我们使用的算法为边划分。我们下面的算法是简化版,没有处理悬挂节点的问题。
推荐阅读
- 谷粒商城学习日记(18)——Vue语法入门
- 谷粒商城学习日记(21)——Vue生命周期
- 谷粒商城学习日记(20)——Vue语法入门
- 跟着动画学习 GO 数据结构之 Go 链表
- 分布式专题——分布式限流解决方案
- 学习笔记——数据库系统概论知识点总结
- 数据库学习|数据库系统概论学习笔记——数据完整性
- 数据库系统概论|[数据库系统概论学习笔记]3.关系
- 数据库系统概论|[数据库系统概论学习笔记]2.数据库系统结构及数据模型
- #|数据库系统概论学习笔记(1)