分布式机器学习(逻辑回归的并行化实现(PySpark))
逻辑回归的目标函数常采用梯度下降法求解,该算法的并行化可以采用Map-Reduce架构。先将第t轮迭代的权重广播到各worker,各worker计算一个局部梯度(map过程),然后再将每个节点的梯度聚合(reduce过程),最终对参数进行更新。在Spark中每个task对应一个分区,决定了计算的并行度。在Spark的实现过程中,map阶段各task运行map()函数对每个样本(,)计算梯度, 然后对每个样本对应的梯度运行进行本地聚合,以减少后面的数据传输量。
推荐阅读
- 学习Python的 14 张思维导图
- 学习日记|java 课后习题 直线斜率 以及判断坐标是否在直线上点到直线的距离
- 定制个机器人帮你和Ta聊天
- Linux 学习 14
- 华维单片机原创经验大全|Arduino和树莓派单片机,第一次学习如何选()
- 基本命令学习 -查看文件内容的六种方法
- HTML至WordPress 3流程
- 学习二分法的完美例题 leetcode 4 寻找两个正序数组的中位数
- MySQL基础学习教程,30分钟快速入门mysql数据库
- 云计算奇妙学习之旅第六期(各级别RAID详解)