问个问题 求大神告知
这里的 yD 和 y 的区别是什么?我们的数据集不是只有一个标签的吗?
还有关于方差和偏差
我们令
y_i 是第i行数据真实标签
y_pred_i 是第i行数据预测标签,mean_y_pred是所有预测值的均值
我们知道方差是针对一个数据集的,那么 方差是所有预测值数据集的方差吗?
就是说 方差=sum((y_pred_i-mean_y_pred))/n i从1->n 吗?
然后偏差是针对数据集的还是针对单个数据实例的?
就是说 第i行数据的偏差=(mean_y_pred-y_i)^2 ?
还是说 所有数据的偏差=sum((mean_y_pred-y_i)^2)/n ?
然后噪声又是怎么求的?机器学习书上的噪声是 (yD-y)^2/n 这里的yD和y就是我上面提问的,不是一样的嘛?
1个回答
你截图里的$y_D$应该是观测值,$y$是真实值,具体的前后文不知道,我觉得应该是有观测误差,所以$y$和$y_D$不一定相等。
一般偏差是指总体的均值和预测的均值的差,假设$y_i$是真值,$\hat y_i$是预测值,偏差的式子为
$$\sum_{i=1}^n\frac{y_i-\hat y_i}{n}$$
你说的方差是
$$\sum_{i=1}^n\frac{(\hat y_i-\text{mean}(\hat y))^2}{n-1}$$
SofaSofa数据科学社区DS面试题库 DS面经