开始
4个回答
最多人参加的比赛,反而没有人讨论?!
可不可以请网主来谈一谈,写标杆模型时候的经验?
SofaSofa数据科学社区DS面试题库 DS面经
标杆模型固然可以随手写N个,但网主只公布简单线性回归,决策树,和 xgboost,应该有原因的。 例如做了一些基本的EDA后,可以推测简单线性回归不会有好效果,但為什么还要用它? 仅仅是以它作 baseline model吗? 还是网主不做EDA,直接来个单线性回归? 又决策树这非线性模型可以取得更好的效果,那么KNN 或 SVM 的效果如何?是不是决策树速度快及解释性强,所以优先考慮? 我想上述問题是可以探讨的。 事实上真的有朋友問了"既然xgboost那么好,线性回归还有存在的价值吗?" http://sofasofa.io/forum_main_post.php?postid=1001268 希望各位可以讨论一下
-
npwong
2018-04-11 09:09
估计是因为这个数据太干净了,随便跑跑就行了。
科比兄的意思是无需多做数据预处理或特征工程,直接把全套数据拿到来训练?
-
npwong
2018-04-09 23:19
兄弟你这个随便跑跑就过分了!,我特么的随便跑跑垫底啊!!!
-
陈十一
2018-04-10 11:11
我好像目前还是排第一呃
我就大概说说思路吧
我做了比较多的特征工程,合成了一些新的特征
然后用了好几个模型,大部分都是上面npwong提到的
最后就是把它们组合在一起了
当然很多地方都是要做cross valiadtion进行调参和选择特征的
一直希望官方出个stack的示例,我自己瞎j8融了几次,越融效果越差
-
陈十一
2018-04-11 16:49
比如说,在基础模型选择上,rf和梯度树,这种结果很近似的模型是否有必要,而效果很差的logis是否有必要,最后的多模型的traindata是否需要和原train进行合并,不合并的用投票号还是新的模型好,用新的模型的话采用什么样的模型好,是否还是梯度树
-
陈十一
2018-04-11 17:20