求python里得到n-grams的包?

  统计/机器学习 自然语言处理 数据预处理 Python    浏览次数:4198        分享
0

求一个python里得到n-grams的包

功能是对于给出的一段话,得到所有的n-gram

谢谢指教!

 

信春哥   2018-05-03 11:35



   2个回答 
1

nltk我不知道有没有这个轮子,不过这个就是拿来做文本

自己去看下官方文档,说不定就有

SofaSofa数据科学社区DS面试题库 DS面经

陈十一   2018-05-03 15:43

好的,我去看看! - 信春哥   2018-05-03 21:07
1

sklearn里也有的

from sklearn.feature_extraction.text import CountVectorizer 
text = "this is a foo bar sentences and i want to ngramize it"
vectorizer = CountVectorizer(ngram_range=(1,6))
analyzer = vectorizer.build_analyzer()
print(analyzer(text))

仅供参考

SofaSofa数据科学社区DS面试题库 DS面经

蓝色北方   2018-05-05 23:02



  相关讨论

如何对中文部分进行独热处理(one-hot)

python去掉中文文本中所有的标点符号

自定义CountVectorizera中默认的英语stop_words

请问NLP中这种编码方式有没有什么术语?

机器学习中文数据的训练集的预处理

怎么理解nlp里的good-turing smooth?

jieba分词怎么用?

bert里cls和sep分别是什么意思?

如何用python统计一个txt文本的行数

python里实现词云的package

  随便看看

numpy里的无穷大np.inf到底是多大呢?

pandas.DataFrame的index重新排列(从0开始)

随机森林会发生过拟合(overfitting)吗?

python(matplotlib)中如何把折线图和柱状图画在一起?

鞍点的数学定义是什么?