全部问题问题热门未解答所有标签标签收藏收藏我要提问

对于小批量随机剃度下降法(mini-batch SGD)，如何选择每批样本的数量？

数学数值计算最优化浏览次数：7876 分享

二维码

手机扫描二维码

机器学习面试也能刷题？

随机剃度下降法是每次使用一个样本，小批量随机剃度下降是每次使用m个样本。这个m一般怎么选择？有什么技巧？

MeganC 2017-05-03 22:26

2个回答

这篇论文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima给出了关于mini-batch样本点的一些观察：

1. 样本点太少，训练时间长；样本点太多，训练时间也太长。

2. 样本点多，训练单个epoch时间更短

3. 样本点越小，模型的泛化越好。

理论归理论，实际上还是自己选一些比较小的数值，比如8，12，32，64。

SofaSofa数据科学社区 DS面试题库 DS面经

可爱多 2017-05-09 09:36

一般来说是16到256之间。

SofaSofa数据科学社区 DS面试题库 DS面经

xiaosu 2019-08-14 23:46

相关讨论

学习率不当会导致sgd不收敛吗？

为什么梯度的反方向是函数下降最快的方向？

RMSProp的直白解释

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

最速下降法与梯度下降法

Adam优化算法

用SGD时陷入局部最优解的解决方法

nesterov’s momentum和momentum的区别？

牛顿法到底是一阶优化算法还是二阶优化算法？

随机梯度下降(sgd)的收敛问题

随便看看

roc auc小于0.5是什么情况？

python怎么对list中的元素做连乘？

KNN中K值的选择

支持向量机（SVM）里的支持向量是什么意思

医学统计里的c-index或者c-statistic是什么意思？