【竞赛1】讨论汇总

  板凳区 Sofa竞赛1    浏览次数:3926        分享
0

开始 

 

SofaSofa社区   2018-03-19 13:06



   4个回答 
1

最多人参加的比赛,反而没有人讨论?!

可不可以请网主来谈一谈,写标杆模型时候的经验?

SofaSofa数据科学社区DS面试题库 DS面经

npwong   2018-04-09 18:44

标杆模型固然可以随手写N个,但网主只公布简单线性回归,决策树,和 xgboost,应该有原因的。 例如做了一些基本的EDA后,可以推测简单线性回归不会有好效果,但為什么还要用它? 仅仅是以它作 baseline model吗? 还是网主不做EDA,直接来个单线性回归? 又决策树这非线性模型可以取得更好的效果,那么KNN 或 SVM 的效果如何?是不是决策树速度快及解释性强,所以优先考慮? 我想上述問题是可以探讨的。 事实上真的有朋友問了"既然xgboost那么好,线性回归还有存在的价值吗?" http://sofasofa.io/forum_main_post.php?postid=1001268 希望各位可以讨论一下 - npwong   2018-04-11 09:09
0

估计是因为这个数据太干净了,随便跑跑就行了。


SofaSofa数据科学社区DS面试题库 DS面经

曾经是科比   2018-04-09 20:51

科比兄的意思是无需多做数据预处理或特征工程,直接把全套数据拿到来训练? - npwong   2018-04-09 23:19
兄弟你这个随便跑跑就过分了!,我特么的随便跑跑垫底啊!!! - 陈十一   2018-04-10 11:11
4

我好像目前还是排第一呃

我就大概说说思路吧

我做了比较多的特征工程,合成了一些新的特征

然后用了好几个模型,大部分都是上面npwong提到的

最后就是把它们组合在一起了

当然很多地方都是要做cross valiadtion进行调参和选择特征的


SofaSofa数据科学社区DS面试题库 DS面经

岛歌   2018-04-10 23:09

一直希望官方出个stack的示例,我自己瞎j8融了几次,越融效果越差 - 陈十一   2018-04-11 16:49
比如说,在基础模型选择上,rf和梯度树,这种结果很近似的模型是否有必要,而效果很差的logis是否有必要,最后的多模型的traindata是否需要和原train进行合并,不合并的用投票号还是新的模型好,用新的模型的话采用什么样的模型好,是否还是梯度树 - 陈十一   2018-04-11 17:20
0
新特征都怎么生成出来的,求赐教SofaSofa数据科学社区DS面试题库 DS面经

大黄大黄大黄   2018-04-15 10:20



  相关讨论

第一个比赛,自行车,排名靠前的,是做了特征工程吗,

#关于公共自行车使用量预测#这个例子计算RMSE时,测试集的真实值在哪里?

第一个比赛预测自行车数量的问题

公共自行车使用量预测怎么进行特征处理?

Sofa竞赛1的排名数据修复中

怎么看自己提交的成绩呢?

XGBoost模型是如何对属性进行预测的?

求教一下:怎么进阶

如何评价大数据的未来?

有没有赚外快的方法啊

  随便看看

协方差矩阵一定是满秩的吗?

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

pandas报错: 'DataFrame' object has no attribute 'unique'

逻辑回归模型中变量的系数怎么理解?

决策树、随机森林中的多重共线性问题