在网上看到说可以利用卡方分布来进行特征选择,请问有了解的吗?可以具体讲讲?
2个回答
准确来说不是$\chi^2$分布,而是$\chi^2$ test。
$\chi^2$ test是用来检测两个categorical特征的独立性。每个$\chi^2$ test会对应一个$\chi^2$ statistic,这个数值越大说明两个特征的相关性越大。
对于分类问题,我们可以用$\chi^2$ test得到每个categorical特征和y的$\chi^2$ statistic,我们最终只保留$\chi^2$ statistic比较大的特征。这个就是特征选择的过程。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢解答
-
zzzz
2019-07-16 08:05
也不一定只能是分类问题,对于回归和数值特征也可以,但是我们要先做分箱处理,把连续特征和y进行离散化,然后再用卡方检测进行特征选择。
SofaSofa数据科学社区DS面试题库 DS面经
谢谢解答
-
zzzz
2019-07-16 08:05