假如我们的预测变量是有序的分类变量,那么这个问题是回归问题还是分类问题?
更直接的说,我们应该用回归模型还是用分类模型来做预测?
比如说,我们的预测变量的结果有“高”“中”“低”,这个是3类,但是也可以看作是3,2,1。
比如说,预测学生的考试成绩,有“A+”“A”“A-”“B+”“B”“B-”“C+”“C”“C-”“D+”“D”“D-”“F”这么多类,那么是看作回归来做呢还是分类来做?
我是受地震后建筑修复建议有感而发,但是讨论不局限于这个项目。
3个回答
我想应该是分类问题吧。之前学计量经济学的时候,老师给过我这样一个观点:在连续变量中比如1和2,2和3这种值之间的差异是相同的,相差1就是1。但是一些有序的分类变量,比如楼主提到的“A+”“A”“A-”“B+”“B”等等,他们之间的差异意义是相同的吗?很多时候应该是不同的。
SofaSofa数据科学社区DS面试题库 DS面经我也觉得算是分类问题。
比如“A”“B”“C”“D”“F”,如果用回归,那么预测结果肯定也是连续的,比如说预测结果中最有可能的是的“A”的话,其次就是“B”,然后是“C”,等等。
但实际情况未必如此,应该让模型和数据自己去说话。
用多分类模型可能预测为最有可能为“A”其次为“C”,然后是“B”。这样的非连续结果可以是根据模型学习得到的,而非强迫它设置为连续的。
其次还有s3040608090提到的,虽然是有序分类变量,但是它们的间距未必是等距的。