如题
3个回答
questions有三个变化趋势,宏观上是接近于线性递增,局部上周末和非周末也差别很大,还有节日时会骤降。所以先增加是否为节日的变量,然后估计question的平均,最后估计每天的具体变化。
因为test是在数据空间里一块空白的区域(周围没training),估计平均时必须要是基于模型的方法,比如线性回归,不能是knn之类基于数据平均的方法。
SofaSofa数据科学社区DS面试题库 DS面经
大师出手,不同凡响
-
MangoCoke
2018-04-18 09:26
百度找了一个easybot的api,爬虫返回节假日,结果返回的是错误数据,坑爹啊
-
陈十一
2018-04-18 11:33
可以先生成一个366维的binary vector 表示日期,名字为D;然后自己设一个阈值,当question变化大于阈值时,表示当天是假日,对应的日期设为1。testing 日期也可以变为D,同时查表就可以知道是否是假日。
也可以建一个假日的hash表,然后用testing日期去查表。
-
Zealing
2018-04-18 12:22
我用了python里的holidays,里面的假日根本不能覆盖数据里的假日。有可能这是很多国家假日的集合。只能自己根据数据里的较大变化,自己生成假日的表。
-
Zealing
2018-04-18 12:27
听起来挺麻烦的。。。。。。。。。,其实那个api挺好用的,一个class,然后lambda调用就好了,不过现在要反馈码,没有反馈码,它会返回错误的脏数据,晚上看能不能用公司邮箱注册一个
-
陈十一
2018-04-18 14:06
然后估计question的平均,最后估计每天的具体变化 这个啥意思啊
-
大黄大黄大黄
2018-04-19 12:42
question的平均是低频信号,每天的变化是高频信号。比如标杆方案里先用线性回归估计低频,再用kNN估计高频。
-
Zealing
2018-04-19 13:29