有序多分类问题

  统计/机器学习 监督式学习    浏览次数:5017        分享
0

对于预测结果是有序的情况,比如对年龄段的预测,是每一个年龄段作为一类好,还是按二进制编码每个段预测,或者年龄段从小到大当作回归?

 

无限不循环   2018-09-30 15:51



   2个回答 
1

最好是多分类问题,因为你最后想知道的也是分类信息。而且每个年龄段数据的特性可能不一样,多个分类器才可学习出这些特性。用一个回归模型去拟合这些不同的特性,得到也是比较中庸的结果。比如说三条线段$x\in [0,1],y=1$,$x\in [1,2],y=2$,,$x\in [2,3],y=3$,如果分三段处理要简单点;如果用一条曲线去拟合(regression),曲线是非线性的,而且误差会很大。

唯一想到的问题是数据量是否足够去学习这些参数。数据量越多,分类器或回归模型参数估计的可信度越高。可以用置信区间区间来衡量。具体的置信区间公式我不清楚,印象中它宽度和$\frac{1}{\sqrt(n)}$成正比,大概需要50个点。

如果每年龄段的数据个数不多,学到的分类器参数误差很大,还不如合并数据变为一个回归问题。回归问题中要求输出值是线性的。你可以用年龄段的均值或中位数代表年龄段。比如0-9,10-19,20-29,...,你可以用[5,15,25,..]代表年龄段,除以5变为[1,3,5,...];如果是0-9,10-24,25-29,...,可映射为[5,17.5,27.5,...],除以5最后可变为[1,3.5,5.5,...]。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-10-04 17:17

0

如果你知道原始的年龄的数值,当然是用回归问题的处理方式更好。

如果你只知道年龄区间的话,那就当作多分类问题处理。

可以参考下这个问题:有序的分类变量的预测是回归问题还是多分类问题?

SofaSofa数据科学社区DS面试题库 DS面经

Jiho   2018-10-04 12:38



  相关讨论

adaboost里的learning rate是什么意思?

k-NN的k取1会怎么样

stacking模型里每个子模型的权重如何确定?

怎么理解platt scaling?

线性可分是什么意思?

为什么说knn是惰性算法

KNN中K值的选择

kNN的k=1为什么训练误差为0?

欠采样后概率还原问题

MLR分片模型是什么模型?

  随便看看

怎么对2维的numpy array取整?

VGG16和VGG19的区别?

把tf.Tensor转换为numpy array

除了PCA,还有什么降维的方法?

人工神经网络有哪些常用的激活函数?