把训练集分成n份，用同种算法在每个子训练集上训练再把预测平均，效果如何？-SofaSofa

相比同种算法在整个训练集上训练哪个精度高呢，是否存在一个最佳的n？

居十方 2019-05-13 09:27

要看你的数据量，如果你的数据很小的话，把数据集切成n份，可能效果并不好。

数据量大的话，切成n份，分别训练n个模型，最后用n个模型的均值作为输出，应该是会降低预测的variance。

你的这个想法再进一步就会类似于random forest的bootstrap过程，所以我猜测你这么做之后的效果不一定比random forest好，但是应该比单独的一棵决策树好。

abuu 2019-05-13 10:10

把训练集分成n份，用同种算法在每个子训练集上训练再把预测平均，效果如何？