关于朴素贝叶斯特征工程、特征选择的问题

  统计/机器学习 贝叶斯 监督式学习 数据降维 特征选择    浏览次数:7236        分享
1

我想用朴素贝叶斯做二元分类,大概有200个特征。对于朴素贝叶斯分类器,有什么好的特征选择的方法或者特征工程的方法?

 

想当小五哥   2017-06-08 09:53



   2个回答 
4

关于特征筛选

首先建议做成对的相关系数计算,如果这一对特征的相关系数大于某个阈值,就删除其中一个。正如另外一个答案讲的,朴素贝叶斯需要特征独立性假设。

其次还可以考虑backward stepwise特征选择,一开始用全部特征,然后去遍历每个特征,选一个最差的特征删掉,然后反复进行,直到保留适当数量的特征。这个要根据你的评价metric来决定的。


关于特征工程

数值变量应该进行离散化处理。

此外还要考虑到零概率的特征,这个要做laplace平滑


SofaSofa数据科学社区DS面试题库 DS面经

Arsjun   2018-02-05 13:46

2

你有200个特征,其实根本就不适合用naive bayes。因为naive bayes要求特征是独立的,你有这么多特征,怎么可能都是独立的。

建议你换个方法。

如果非要用naive bayes,那你先用pca降维吧


SofaSofa数据科学社区DS面试题库 DS面经

山中人   2018-02-05 01:27



  相关讨论

LDA线性判别分析进行信号分类时如何对训练数据和测试数据降维?

贝叶斯网络和朴素贝叶斯有什么区别?

朴素贝叶斯是线性分类器吗?

朴素贝叶斯分类器 naive_bayes.MultinomialNB() 为啥和手算的结果不一致

用贝叶斯怎么输出模型的预测准确率?

t-SNE如何实现降维?

朴素贝叶斯中的朴素是什么意思?

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?

如何用python实现贝叶斯网络优化lightgbm超参数?

朴素贝叶斯可以用来做回归吗?

  随便看看

神经网络中的dense和sparse是什么意思?

非方阵的逆是什么

线性回归是机器学习算法吗?

tf.placeholder(tf.float32, shape=(None, 1024))中的None是什么意思

如何检验两个样本是同分布的?