分布式机器学习(逻辑回归的并行化实现(PySpark))

逻辑回归的目标函数常采用梯度下降法求解,该算法的并行化可以采用Map-Reduce架构。先将第t轮迭代的权重广播到各worker,各worker计算一个局部梯度(map过程),然后再将每个节点的梯度聚合(reduce过程),最终对参数进行更新。在Spark中每个task对应一个分区,决定了计算的并行度。在Spark的实现过程中,map阶段各task运行map()函数对每个样本(,)计算梯度, 然后对每个样本对应的梯度运行进行本地聚合,以减少后面的数据传输量。

    推荐阅读