相比同种算法在整个训练集上训练哪个精度高呢,是否存在一个最佳的n?
1个回答
要看你的数据量,如果你的数据很小的话,把数据集切成n份,可能效果并不好。
数据量大的话,切成n份,分别训练n个模型,最后用n个模型的均值作为输出,应该是会降低预测的variance。
你的这个想法再进一步就会类似于random forest的bootstrap过程,所以我猜测你这么做之后的效果不一定比random forest好,但是应该比单独的一棵决策树好。
SofaSofa数据科学社区DS面试题库 DS面经相比同种算法在整个训练集上训练哪个精度高呢,是否存在一个最佳的n?
要看你的数据量,如果你的数据很小的话,把数据集切成n份,可能效果并不好。
数据量大的话,切成n份,分别训练n个模型,最后用n个模型的均值作为输出,应该是会降低预测的variance。
你的这个想法再进一步就会类似于random forest的bootstrap过程,所以我猜测你这么做之后的效果不一定比random forest好,但是应该比单独的一棵决策树好。
SofaSofa数据科学社区DS面试题库 DS面经