问答网站问题、回答数量预测

问答网站问题、回答数量预测


比赛概述


本比赛为个人练习赛,主要针对于数据新人、尤其时间序列方面的新手进行自我练习、自我提高,与大家切磋。

练习赛时限:2017-09-06 至 2019-09-06

任务类型:时间序列、回归

背景介绍:
我们给出美国某大型问答社区从2010年10月1日到2016年11月30日,每天新增的问题的个数和回答的个数。任务是预测2016年12月1日到2017年5月1日,该问答网站每天新增的问题数和回答数。在本练习赛中,日期是唯一的特征。

数据来源:
某大型问答社区数据API,数据已经脱敏处理。标题图片来源:Google。

   


数据下载


数据文件(三个):
train.csv 训练集,文件大小 57kb
test.csv 预测集, 文件大小 3kb
sample_submit.csv 提交示例 文件大小 3kb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有2253条样本,记录着从2010年10月1日到2016年11月30日,该网站每天新增的问题数量与回答数量。预测集中有152条样本,我们的任务是预测2016年12月1日到2017年5月1日,该网站每天新增的问题数量与回答数量。

变量说明:
变量名 解释
id 行编号
date 年月日
questions 当日新增的问题的数量。在预测集中,这是要被预测的数值。
answers 当日新增的答案的数量。在预测集中,这是要被预测的数值。



评价方法


您提交的结果为2016年12月1日到2017年5月1日每日新增的问题数和回答数的预测值。我们采用绝对百分比误差均值(MAPE)作为评价标准。

MAPE越小,说明模型预测的结果越接近真实结果。计算公式如下 $$\text{MAPE}=\frac{1}{n}\sum_{i=1}^n\frac{|\hat y_i - y_i|}{y_{i}},$$ 其中$\hat y_i$表示预测值,$y_i$表示真实值。
模型最终评价标准是问题数的MAPE与答案数的MAPE均值。

比如说,真实情况是
2016年12月1日,问题数:1000,回答数:2000
2016年12月2日,问题数:2000,回答数:4000
2016年12月3日,问题数:3000,回答数:6000
你预测结果是
2016年12月1日,问题数:1100,回答数:2100
2016年12月2日,问题数:2400,回答数:3600
2016年12月3日,问题数:2400,回答数:6900
那么问题数预测的MAPE为 $$\text{MAPE}_Q=\frac{1}{3}\left(\frac{|1100-1000|}{1000}+\frac{|2400-2000|}{2000}+\frac{|2400-3000|}{3000}\right)=\frac{1}{3}(0.1+0.2+0.3)=0.2$$ 回答数预测的MAPE为 $$\text{MAPE}_A=\frac{1}{3}\left(\frac{|2100-2000|}{2000}+\frac{|3600-4000|}{4000}+\frac{|6900-6000|}{6000}\right)=\frac{1}{3}(0.05+0.1+0.15)=0.1$$ 最终整体的MAPE为$(0.2+0.1)/2=0.15$。


提交结果


提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。文件大小不超过5mb。

您提交的结果为预测的每日新增的问题数(questions)与回答数(answers)。尽管真实值都是整数,但是预测值可以是小数。

   文件名不可以包含中文字符,长度在20字节以内。

9月6日起开始公布排行榜。排行榜每两小时更新一次。每次更新之前,参赛选手可以多次上传预测结果,但是系统只保留排行榜更新之前最后一次上传结果。

   

每次比赛为练习赛,所以评测结果是基于全部152条预测样本。