jieba分词中最大正向匹配法是什么？-SofaSofa

非常著名的jieba分词主要是依赖于最大正向匹配法，请问如何深入浅出的来理解这个方法？谢谢！

ccc225 2019-06-21 16:01

1个回答

这个算法不是统计方法，也没有机器学习的模型，就是个贪婪的扫描算法。

最大正向匹配算法需要一个分词词典（也即是已经分词过的词典，包括所有的单个汉字）。

假定分词词典中的最长词有k个汉子字符串，则用被处理文档的当前字符串中的前k个字作为匹配字段，查找字典。若此时分词词典中存在这样一个字符串，则匹配成功，而此时被匹配的字段切分出来。如果匹配失败，将匹配字段中的最后一个字去掉，对此时剩下的字串重新与分词词典进行匹配，如此下去直到匹配成功。也即是切分出一个词或剩余字串的长度为零为止，这个时候才是匹配了一轮，接着进行下一个k字字串的匹配，方法同上，直到文档被扫描完为止。

这样分词的效果是让每个被分出来的词尽量长，句子被分的次数少。

SofaSofa数据科学社区 DS面试题库 DS面经

abuu 2019-09-13 08:50

jieba分词中最大正向匹配法是什么？

Warning

1个回答

Warning