非常著名的jieba分词主要是依赖于最大正向匹配法,请问如何深入浅出的来理解这个方法?谢谢!
1个回答
这个算法不是统计方法,也没有机器学习的模型,就是个贪婪的扫描算法。
最大正向匹配算法需要一个分词词典(也即是已经分词过的词典,包括所有的单个汉字)。
假定分词词典中的最长词有k个汉子字符串,则用被处理文档的当前字符串中的前k个字作为匹配字段,查找字典。若此时分词词典中存在这样一个字符串,则匹配成功,而此时被匹配的字段切分出来。如果匹配失败,将匹配字段中的最后一个字去掉,对此时剩下的字串重新与分词词典进行匹配,如此下去直到匹配成功。也即是切分出一个词或剩余字串的长度为零为止,这个时候才是匹配了一轮,接着进行下一个k字字串的匹配,方法同上,直到文档被扫描完为止。
这样分词的效果是让每个被分出来的词尽量长,句子被分的次数少。
SofaSofa数据科学社区DS面试题库 DS面经