大家好,我现在有一个回归问题,目标变量y是固定了上下界的,也就是说y是有一个取值范围的。所以我的预测值也一定要在这个范围之内。
对于这种回归问题,该怎么处理呢?需要对y做变换吗?
3个回答
既然y取值有固定范围,那么训练集的y肯定是在这个范围之内的。
可以考虑用决策树或者随机森林,它们的预测值肯定是在训练集y的范围之内的。
也可以考虑kNN模型,这种投票算法也能确保预测值不会超过训练集的范围。
SofaSofa数据科学社区DS面试题库 DS面经1. 如maxroot说的用基于nearest neighbor类的方法,不会超过训练y范围。
2.基于最小二乘类方法,有可能超过训练y范围,这时要考虑:
2.1如果y有物理意义,或测试y超出范围的概率、幅度都很小,对结果影响不大,可以用训练y的最大最小值去限制。
2.2可以对y作变换,比如y-d,y+d作为最小最大值,为测试y留出一定富余范围。
SofaSofa数据科学社区DS面试题库 DS面经可以尝试用归一化。
训练集的预测值做归一化,训练模型,然后对测试集预测,预测值用刚刚的归一化映射回去,比如用Min-Max。理论上就可以通过训练集的y值的范围来控制测试集的y值的范围了。
如有错误,欢迎指出。
SofaSofa数据科学社区DS面试题库 DS面经