当我们用sklearn.feature_extraction.text.CountVectorizer对英文文本进行处理的时候,怎么自定义英语的stop_words?
谢谢
1个回答
直接设置stop_words这个参量就可以了
from sklearn.feature_extraction import text
my_stopwords = ['a', 'ab', 'abc']
text.CountVectorizer(stop_words= my_stopwords)
你也可以对系统默认的stop words添加自己的新词
my_stopwords = text.ENGLISH_STOP_WORDS.union(['a', 'ab', 'abc'])
text.CountVectorizer(stop_words= my_stopwords)
谢谢!
-
newcomer
2018-10-02 11:29