最近在做lookalike的模型,数据中提供了用户爱好给了标签。比如{9876,3452,1243}都是很大的数,我想用独热编码{0,1,0,.....}去生成特征的话,是不是先要重新标签化,另外,标签数据缺失的话,是不是要用{1/n,1/n,1/n,......}来代替,新手求教,希望大佬有空解答一下,万分感谢!
3个回答
希望题主能对该特征的数据给出更加详细的描述,比如每个样本此特征的取值可能是多个标签还是也就一个标签?按我的理解应该是多个标签? 然后大概分析一下每个标签的出现的频次,我们是否能选择topN个比较有效的标签从而忽略其他标签?然后做个LabelEncoder(),然后再做个onehot?关于数据缺失,是数据全部取0还是取1/n,这点我也不是很清楚,这仅仅是我的一点思考,我也是一个新手,希望大神批评指正。
ps 题主是在做腾讯的算法赛?
SofaSofa数据科学社区DS面试题库 DS面经
对的,目前我自己建立了一个字典,重新排列了标签,但好像还是有十几万维,,,
-
林小林
2018-04-21 12:15