问答网站问题、回答数量预测
问答网站问题、回答数量预测
比赛概述
本比赛为个人练习赛,主要针对于数据新人、尤其时间序列方面的新手进行自我练习、自我提高,与大家切磋。
练习赛时限:2017-09-06 至 2019-09-06
任务类型:时间序列、回归
背景介绍:
我们给出美国某大型问答社区从2010年10月1日到2016年11月30日,每天新增的问题的个数和回答的个数。任务是预测2016年12月1日到2017年5月1日,该问答网站每天新增的问题数和回答数。在本练习赛中,日期是唯一的特征。
数据来源:
某大型问答社区数据API,数据已经脱敏处理。标题图片来源:Google。
数据下载
数据文件(三个):
train.csv 训练集,文件大小 57kb
test.csv 预测集, 文件大小 3kb
sample_submit.csv 提交示例 文件大小 3kb
下载该数据即同意不以商业为目的传播、发布该数据集。
训练集中共有2253条样本,记录着从2010年10月1日到2016年11月30日,该网站每天新增的问题数量与回答数量。预测集中有152条样本,我们的任务是预测2016年12月1日到2017年5月1日,该网站每天新增的问题数量与回答数量。
变量说明:
变量名 | 解释 |
---|---|
id | 行编号 |
date | 年月日 |
questions | 当日新增的问题的数量。在预测集中,这是要被预测的数值。 |
answers | 当日新增的答案的数量。在预测集中,这是要被预测的数值。 |
评价方法
您提交的结果为2016年12月1日到2017年5月1日每日新增的问题数和回答数的预测值。我们采用绝对百分比误差均值(MAPE)作为评价标准。
MAPE越小,说明模型预测的结果越接近真实结果。计算公式如下 $$\text{MAPE}=\frac{1}{n}\sum_{i=1}^n\frac{|\hat y_i - y_i|}{y_{i}},$$ 其中$\hat y_i$表示预测值,$y_i$表示真实值。
模型最终评价标准是问题数的MAPE与答案数的MAPE均值。
比如说,真实情况是
2016年12月1日,问题数:1000,回答数:2000
2016年12月2日,问题数:2000,回答数:4000
2016年12月3日,问题数:3000,回答数:6000
你预测结果是
2016年12月1日,问题数:1100,回答数:2100
2016年12月2日,问题数:2400,回答数:3600
2016年12月3日,问题数:2400,回答数:6900
那么问题数预测的MAPE为 $$\text{MAPE}_Q=\frac{1}{3}\left(\frac{|1100-1000|}{1000}+\frac{|2400-2000|}{2000}+\frac{|2400-3000|}{3000}\right)=\frac{1}{3}(0.1+0.2+0.3)=0.2$$ 回答数预测的MAPE为 $$\text{MAPE}_A=\frac{1}{3}\left(\frac{|2100-2000|}{2000}+\frac{|3600-4000|}{4000}+\frac{|6900-6000|}{6000}\right)=\frac{1}{3}(0.05+0.1+0.15)=0.1$$ 最终整体的MAPE为$(0.2+0.1)/2=0.15$。