我现在有训练集和测试集,怎么来判断或者说验证训练集和测试集是同一个分布?
这个“分布”我是指的这个问题里的分布(机器学习中,数据的分布是指什么呢?)
2个回答
如果你不知道测试集的真实值/目标变量,可能比较难判断。这样你只能比较训练集的$X$和测试集的$X$。
假如你有测试集的目标变量的真实值,你可以用训练集拟合一个模型,测试集拟合另一个模型,然后对比两个模型的参数。
另一个思路是你对训练集进行bootstrap,拟合出多个模型,然后再看测试集拟合出的模型的参数在不在训练集bootstrap出来的模型参数的范围内。
SofaSofa数据科学社区DS面试题库 DS面经
好的,谢谢你的思路
-
何立诚
2019-01-17 14:16
SofaSofa数据科学社区DS面试题库 DS面经
谢谢您的回复,我这里的“分布”不是概率分布,而是数据集的分布,我的问题里贴出了一个链接,就是指那个链接的分布
-
何立诚
2019-01-12 15:05