新手请教各位前辈。项目是用图1的「天气预报」的数据去预测「电力故障的数量」。
1. 总的来说是一个「回归」问题,什么类型的算法预测效果会比较好呢?
2. target还挺不平衡的(如图2),2/3都是零,非零也主要集中在0-1之间,有延伸至30左右的long tail。这种情况下选模型和调参有什么需要注意的地方吗?
1个回答
参考一下这个问题怎么处理真值大部分为0的回归问题。
上面那个问题中kykix回答的可能比较适合你
1)先用所有样本做一个逻辑回归
2)然后对非零样本取log
3)再对log后的非零样本做回归
4)最后再把结果综合起来
SofaSofa数据科学社区DS面试题库 DS面经
非常感谢,我会试试看
-
ladychili
2019-07-10 09:57