随机剃度下降法是每次使用一个样本,小批量随机剃度下降是每次使用m个样本。这个m一般怎么选择?有什么技巧?
2个回答
这篇论文On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima给出了关于mini-batch样本点的一些观察:
1. 样本点太少,训练时间长;样本点太多,训练时间也太长。
2. 样本点多,训练单个epoch时间更短
3. 样本点越小,模型的泛化越好。
理论归理论,实际上还是自己选一些比较小的数值,比如8,12,32,64。
SofaSofa数据科学社区DS面试题库 DS面经