jieba分词中最大正向匹配法是什么?

  统计/机器学习 自然语言处理    浏览次数:3982        分享
0

非常著名的jieba分词主要是依赖于最大正向匹配法,请问如何深入浅出的来理解这个方法?谢谢!

 

ccc225   2019-06-21 16:01



   1个回答 
4

这个算法不是统计方法,也没有机器学习的模型,就是个贪婪的扫描算法。

最大正向匹配算法需要一个分词词典(也即是已经分词过的词典,包括所有的单个汉字)。

假定分词词典中的最长词有k个汉子字符串,则用被处理文档的当前字符串中的前k个字作为匹配字段,查找字典。若此时分词词典中存在这样一个字符串,则匹配成功,而此时被匹配的字段切分出来。如果匹配失败,将匹配字段中的最后一个字去掉,对此时剩下的字串重新与分词词典进行匹配,如此下去直到匹配成功。也即是切分出一个词或剩余字串的长度为零为止,这个时候才是匹配了一轮,接着进行下一个k字字串的匹配,方法同上,直到文档被扫描完为止。

这样分词的效果是让每个被分出来的词尽量长,句子被分的次数少。

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-09-13 08:50



  相关讨论

nlp里的stemming是什么意思?

文本处理中stop word什么意思

“阅读需要X分钟”这个功能是如何实现的?

文本处理中的tf是什么意思?如何计算?

怎么判断一句中文话语是否通顺

自然语言处理中的Tf-idf是什么意思

bert里cls和sep分别是什么意思?

wordcloud安装报错error: Microsoft Visual C++ 14.0 is required

有个一万段文字 有一个关键词列表 找出文字中含有关键词的那些文字

jieba.cut中use_paddle是什么模式?

  随便看看

R里线性回归结果中最后的F-statistic什么意思?有什么用?

为什么机器学习中的优化问题很少用到牛顿法?

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?

python pandas里有没有类似R的summary的函数?

什么是K-Modes(K众数)聚类法?