有序多分类问题-SofaSofa

对于预测结果是有序的情况，比如对年龄段的预测，是每一个年龄段作为一类好，还是按二进制编码每个段预测，或者年龄段从小到大当作回归？

无限不循环 2018-09-30 15:51

2个回答

最好是多分类问题，因为你最后想知道的也是分类信息。而且每个年龄段数据的特性可能不一样，多个分类器才可学习出这些特性。用一个回归模型去拟合这些不同的特性，得到也是比较中庸的结果。比如说三条线段$x\in [0,1],y=1$,$x\in [1,2],y=2$,,$x\in [2,3],y=3$,如果分三段处理要简单点；如果用一条曲线去拟合（regression），曲线是非线性的，而且误差会很大。

唯一想到的问题是数据量是否足够去学习这些参数。数据量越多，分类器或回归模型参数估计的可信度越高。可以用置信区间区间来衡量。具体的置信区间公式我不清楚，印象中它宽度和$\frac{1}{\sqrt(n)}$成正比，大概需要50个点。

如果每年龄段的数据个数不多，学到的分类器参数误差很大，还不如合并数据变为一个回归问题。回归问题中要求输出值是线性的。你可以用年龄段的均值或中位数代表年龄段。比如0-9,10-19,20-29,...，你可以用[5,15,25,..]代表年龄段，除以5变为[1,3,5,...]；如果是0-9,10-24,25-29,...,可映射为[5,17.5,27.5,...],除以5最后可变为[1,3.5,5.5,...]。

SofaSofa数据科学社区 DS面试题库 DS面经

Zealing 2018-10-04 17:17

如果你知道原始的年龄的数值，当然是用回归问题的处理方式更好。

如果你只知道年龄区间的话，那就当作多分类问题处理。

可以参考下这个问题：有序的分类变量的预测是回归问题还是多分类问题？

SofaSofa数据科学社区 DS面试题库 DS面经

Jiho 2018-10-04 12:38

有序多分类问题

Warning

2个回答

Warning

Warning