2个回答
SMOTE论文里第6章第1节讲的就是如何处理非连续的特征(categorical feature)。
论文里讲了三种方法,实际上就是两种思路:
思路1:先只考虑continuous feature,然后算出样本点和周围点的距离。如果样本点和周围点的categorical feature不同,那么就增加一个正则项,作为惩罚。原始距离加上惩罚项,就得到最后的近邻。
思路2:同样,只考虑continuous feature,然后算出近邻。categorical feature取这些近邻的众数。