全部问题问题热门未解答所有标签标签收藏收藏我要提问

请问NLP中这种编码方式有没有什么术语？

统计/机器学习自然语言处理数据预处理浏览次数：6215 分享

二维码

手机扫描二维码

机器学习面试也能刷题？

比如说，

今天比昨天冷

然后对每个字从1开始编号

1 2 3 4 2 5

然后每个字写成一个长度为5的向量，对应编号的位置为1，其他为0.

[1, 0, 0, 0, 0]

[0, 1, 0, 0, 0]

[0, 0, 1, 0, 0]

[0, 0, 0, 1, 0]

[0, 1, 0, 0, 0]

[0, 0, 0, 0, 1]

这种编码有没有什么术语？

开门呀是我 2017-03-10 14:05

1个回答

术语是One-hot encoding，中文翻译为独热编码。

在对categorical feature（分类特征）进行预处理的时候，不只是NLP，这个方法在回归、分类、聚类中都很常用。

SofaSofa数据科学社区 DS面试题库 DS面经

高代兄 2017-03-10 23:35

相关讨论

怎么理解nlp里的good-turing smooth？

机器学习中文数据的训练集的预处理

python去掉中文文本中所有的标点符号

求python里得到n-grams的包？

如何对中文部分进行独热处理（one-hot）

自定义CountVectorizera中默认的英语stop_words

数据批量分析提取，求指点迷津

文本分类问题怎么做data augmentation？

自然语言处理中的Tf-idf是什么意思

jieba分词中最大正向匹配法是什么？

随便看看

pandas.DataFrame更改列名

pandas报错ValueError: Cannot convert non-finite values (NA or inf) to integer

为什么矩阵的二范数和向量的二范数的定义不同？

为什么自然常数e等于阶乘的倒数的和？

协方差矩阵一定是满秩的吗？