怎么判断训练集和测试集是同一个分布?

  统计/机器学习 概率分布 模型验证 开放问题    浏览次数:8188        分享
0

我现在有训练集和测试集,怎么来判断或者说验证训练集和测试集是同一个分布?

这个“分布”我是指的这个问题里的分布(机器学习中,数据的分布是指什么呢?

 

何立诚   2019-01-07 04:04



   2个回答 
4

如果你不知道测试集的真实值/目标变量,可能比较难判断。这样你只能比较训练集的$X$和测试集的$X$。

假如你有测试集的目标变量的真实值,你可以用训练集拟合一个模型,测试集拟合另一个模型,然后对比两个模型的参数。

另一个思路是你对训练集进行bootstrap,拟合出多个模型,然后再看测试集拟合出的模型的参数在不在训练集bootstrap出来的模型参数的范围内。

SofaSofa数据科学社区DS面试题库 DS面经

kykix   2019-01-15 14:34

好的,谢谢你的思路 - 何立诚   2019-01-17 14:16
2

如何检验两个样本是同分布的?

SofaSofa数据科学社区DS面试题库 DS面经

yaya   2019-01-11 19:22

谢谢您的回复,我这里的“分布”不是概率分布,而是数据集的分布,我的问题里贴出了一个链接,就是指那个链接的分布 - 何立诚   2019-01-12 15:05


  相关讨论

现实生活中有哪些例子是服从帕累托分布的?

模型调参时常用到的Grid Search是什么意思?

建模时一定需要验证集或者测试集吗?

当数据量很小的时候,怎么做模型验证?

训练误差、测试误差、泛化误差的区别

两个独立的正态随机变量的乘积服从什么分布?

怎么判断一个数据集是双峰分布的?

长尾分布、肥尾分布、重尾分布?

Weibull分布是什么分布?现实中有什么例子?

怎么理解tweedie分布?

  随便看看

随机梯度下降(sgd)的收敛问题

怎么理解tweedie分布?

序列的autocorrelation(自相关系数)的计算公式

pip install opencv-python失败,难道非要编译安装?

回归问题中R方可以小于0吗?