随机梯度下降(SGD)是对样本进行逐个计算,感觉效率还有提升的空间。SGD可以被并行计算吗?
1个回答
2010年的NIPS就有关于SGD并行的论文了。论文Parallelized Stochastic Gradient Descent传送门。
论文里回顾了之前的做法,就是把数据分成k份,各自计算,然后最后做一个平均。(论文中的Algorithm 2)
他们提出的是算法是在算法的过程中不断汇总平均,而不是只在最后做平均。(论文中的Algorithm 3)
具体算法如下:
随机梯度下降(SGD)是对样本进行逐个计算,感觉效率还有提升的空间。SGD可以被并行计算吗?
2010年的NIPS就有关于SGD并行的论文了。论文Parallelized Stochastic Gradient Descent传送门。
论文里回顾了之前的做法,就是把数据分成k份,各自计算,然后最后做一个平均。(论文中的Algorithm 2)
他们提出的是算法是在算法的过程中不断汇总平均,而不是只在最后做平均。(论文中的Algorithm 3)
具体算法如下: