如果存在四类样本X1,X2,X3,X4数据,每类样本数据都有40个样本,如果我想用其中32*4个样本进行训练,用剩余8*4个样本进行验证,来检测分类结果的准确度。
我想首先用LDA进行降维,然后在用SVM对降维数据进行分类。这里我有一个疑问,在使用LDA进行降维的时候,
1)我是直接把所有40*4个样本都一起进行降维,然后在导入SVM进行分类呢?
2)还是把32*4个训练样本使用LDA进行降维,得到映射向量w,然后再把剩余8*4个样本乘以w之后进行降维,在导入SVM进行分类呢?
3)在进行降维的时候,是否需要对数据进行归一化处理呢?
1个回答
我感觉你的数据量可能不够多,无法支持你做验证,验证的结果未必可信度高。如果你没有更多数据的话,你可以试试交叉验证。
你的第一个问题是关于机器学习信息泄漏。你应该只用训练集的数据进行降维。所以你应该采用你说的(2)。
至于第(3)个问题,一般来说是需要先进行归一化处理的。
SofaSofa数据科学社区DS面试题库 DS面经
好的,明白了,感谢回答。
-
YihanMa
2019-07-09 15:16