比如说,
今 天 比 昨 天 冷
然后对每个字从1开始编号
1 2 3 4 2 5
然后每个字写成一个长度为5的向量,对应编号的位置为1,其他为0.
[1, 0, 0, 0, 0]
[0, 1, 0, 0, 0]
[0, 0, 1, 0, 0]
[0, 0, 0, 1, 0]
[0, 1, 0, 0, 0]
[0, 0, 0, 0, 1]
这种编码有没有什么术语?
1个回答
术语是One-hot encoding,中文翻译为独热编码。
在对categorical feature(分类特征)进行预处理的时候,不只是NLP,这个方法在回归、分类、聚类中都很常用。
SofaSofa数据科学社区DS面试题库 DS面经