对于预测结果是有序的情况,比如对年龄段的预测,是每一个年龄段作为一类好,还是按二进制编码每个段预测,或者年龄段从小到大当作回归?
2个回答
最好是多分类问题,因为你最后想知道的也是分类信息。而且每个年龄段数据的特性可能不一样,多个分类器才可学习出这些特性。用一个回归模型去拟合这些不同的特性,得到也是比较中庸的结果。比如说三条线段$x\in [0,1],y=1$,$x\in [1,2],y=2$,,$x\in [2,3],y=3$,如果分三段处理要简单点;如果用一条曲线去拟合(regression),曲线是非线性的,而且误差会很大。
唯一想到的问题是数据量是否足够去学习这些参数。数据量越多,分类器或回归模型参数估计的可信度越高。可以用置信区间区间来衡量。具体的置信区间公式我不清楚,印象中它宽度和$\frac{1}{\sqrt(n)}$成正比,大概需要50个点。
如果每年龄段的数据个数不多,学到的分类器参数误差很大,还不如合并数据变为一个回归问题。回归问题中要求输出值是线性的。你可以用年龄段的均值或中位数代表年龄段。比如0-9,10-19,20-29,...,你可以用[5,15,25,..]代表年龄段,除以5变为[1,3,5,...];如果是0-9,10-24,25-29,...,可映射为[5,17.5,27.5,...],除以5最后可变为[1,3.5,5.5,...]。
SofaSofa数据科学社区DS面试题库 DS面经如果你知道原始的年龄的数值,当然是用回归问题的处理方式更好。
如果你只知道年龄区间的话,那就当作多分类问题处理。
可以参考下这个问题:有序的分类变量的预测是回归问题还是多分类问题?
SofaSofa数据科学社区DS面试题库 DS面经