gensim.models.word2vec模块的LineSentence有什么用?
1个回答
LineSentence是按行读取文件中的每一行,
infilename = 'sample_text.txt'
lines = gensim.models.word2vec.LineSentence(infilename, max_sentence_length=10, limit=3)
max_sentence_length是返回的每句话中元素的最大个数,limit=3是说读取sample_text.txt中的前三行。
for line in lines:
print(line)
你可以用上面的方法把lines里的每句话打印说来。
假如你的文件里一共有8行,第一行有16个词,第二行有8个词,第三行有22个词。那么你lines里最终得到的是六句话,第一句是10个词,第二句是6个词,第三句是8个词,第四句是10个,第五句是10个词,第六句是2个词。
你试试就知道了。
SofaSofa数据科学社区DS面试题库 DS面经