众所周知,传统机器学习的主要工作在于特征工程,其中特征工程中进行特征组合往往会对模型的结果带来提升。
举个例子,考虑第一个特征“性别”,男为1,女为0;第二个特征“是否喜欢宠物”,喜欢宠物为1,不喜欢宠物为0。那么组合后构造了“性别_是否喜欢宠物”这个新的维度的特征,这个特征的取值可以是00、01、10、11。
组合特征背后的理论基础是什么呢?怎么更好地去理解组合特征?之前有看到过组合特征可以发现特征与特征之间的关系,从而发现非线性关系,不太理解,谢谢!
1个回答
你说的这个“特征组合”实际上就是interaction term.
interaction在统计和计量经济里是个成熟的话题了,可以参考Wikipedia: Interaction