我想用朴素贝叶斯做二元分类,大概有200个特征。对于朴素贝叶斯分类器,有什么好的特征选择的方法或者特征工程的方法?
2个回答
关于特征筛选
首先建议做成对的相关系数计算,如果这一对特征的相关系数大于某个阈值,就删除其中一个。正如另外一个答案讲的,朴素贝叶斯需要特征独立性假设。
其次还可以考虑backward stepwise特征选择,一开始用全部特征,然后去遍历每个特征,选一个最差的特征删掉,然后反复进行,直到保留适当数量的特征。这个要根据你的评价metric来决定的。
关于特征工程
数值变量应该进行离散化处理。
此外还要考虑到零概率的特征,这个要做laplace平滑。
你有200个特征,其实根本就不适合用naive bayes。因为naive bayes要求特征是独立的,你有这么多特征,怎么可能都是独立的。
建议你换个方法。
如果非要用naive bayes,那你先用pca降维吧