请问NLP中这种编码方式有没有什么术语?

  统计/机器学习 自然语言处理 数据预处理    浏览次数:5662        分享
0

比如说,

今    天    比    昨    天    冷

然后对每个字从1开始编号

1    2    3    4    2    5

然后每个字写成一个长度为5的向量,对应编号的位置为1,其他为0.

[1,    0,    0,    0,    0]

[0,    1,    0,    0,    0]

[0,    0,    1,    0,    0]

[0,    0,    0,    1,    0]

[0,    1,    0,    0,    0]

[0,    0,    0,    0,    1]

这种编码有没有什么术语? 


 

开门呀是我   2017-03-10 14:05



   1个回答 
2

术语是One-hot encoding,中文翻译为独热编码。

在对categorical feature(分类特征)进行预处理的时候,不只是NLP,这个方法在回归、分类、聚类中都很常用。

SofaSofa数据科学社区DS面试题库 DS面经

高代兄   2017-03-10 23:35



  相关讨论

怎么理解nlp里的good-turing smooth?

机器学习中文数据的训练集的预处理

python去掉中文文本中所有的标点符号

求python里得到n-grams的包?

如何对中文部分进行独热处理(one-hot)

自定义CountVectorizera中默认的英语stop_words

数据批量分析提取,求指点迷津

文本分类问题怎么做data augmentation?

自然语言处理中的Tf-idf是什么意思

jieba分词中最大正向匹配法是什么?

  随便看看

pandas.DataFrame更改列名

pandas报错ValueError: Cannot convert non-finite values (NA or inf) to integer

为什么矩阵的二范数和向量的二范数的定义不同?

为什么自然常数e等于阶乘的倒数的和?

协方差矩阵一定是满秩的吗?