问答网站问题、回答数量预测

比赛概述
数据下载
评价方法
提交结果

问答网站问题、回答数量预测

比赛概述

本比赛为个人练习赛，主要针对于数据新人、尤其时间序列方面的新手进行自我练习、自我提高，与大家切磋。

练习赛时限：2017-09-06 至 2019-09-06

任务类型：时间序列、回归

背景介绍:
我们给出美国某大型问答社区从2010年10月1日到2016年11月30日，每天新增的问题的个数和回答的个数。任务是预测2016年12月1日到2017年5月1日，该问答网站每天新增的问题数和回答数。在本练习赛中，日期是唯一的特征。

数据来源：
某大型问答社区数据API，数据已经脱敏处理。标题图片来源：Google。

数据下载

数据文件（三个）：
train.csv 训练集，文件大小 57kb
test.csv 预测集, 文件大小 3kb
sample_submit.csv 提交示例文件大小 3kb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有2253条样本，记录着从2010年10月1日到2016年11月30日，该网站每天新增的问题数量与回答数量。预测集中有152条样本，我们的任务是预测2016年12月1日到2017年5月1日，该网站每天新增的问题数量与回答数量。

变量说明：

变量名	解释
id	行编号
date	年月日
questions	当日新增的问题的数量。在预测集中，这是要被预测的数值。
answers	当日新增的答案的数量。在预测集中，这是要被预测的数值。

评价方法

您提交的结果为2016年12月1日到2017年5月1日每日新增的问题数和回答数的预测值。我们采用绝对百分比误差均值（MAPE）作为评价标准。

MAPE越小，说明模型预测的结果越接近真实结果。计算公式如下 $$\text{MAPE}=\frac{1}{n}\sum_{i=1}^n\frac{|\hat y_i - y_i|}{y_{i}},$$ 其中$\hat y_i$表示预测值，$y_i$表示真实值。
模型最终评价标准是问题数的MAPE与答案数的MAPE均值。

比如说，真实情况是
2016年12月1日，问题数：1000，回答数：2000
2016年12月2日，问题数：2000，回答数：4000
2016年12月3日，问题数：3000，回答数：6000
你预测结果是
2016年12月1日，问题数：1100，回答数：2100
2016年12月2日，问题数：2400，回答数：3600
2016年12月3日，问题数：2400，回答数：6900
那么问题数预测的MAPE为 $$\text{MAPE}_Q=\frac{1}{3}\left(\frac{|1100-1000|}{1000}+\frac{|2400-2000|}{2000}+\frac{|2400-3000|}{3000}\right)=\frac{1}{3}(0.1+0.2+0.3)=0.2$$ 回答数预测的MAPE为 $$\text{MAPE}_A=\frac{1}{3}\left(\frac{|2100-2000|}{2000}+\frac{|3600-4000|}{4000}+\frac{|6900-6000|}{6000}\right)=\frac{1}{3}(0.05+0.1+0.15)=0.1$$ 最终整体的MAPE为$(0.2+0.1)/2=0.15$。

提交结果

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。文件大小不超过5mb。

您提交的结果为预测的每日新增的问题数(questions)与回答数(answers)。尽管真实值都是整数，但是预测值可以是小数。

文件名不可以包含中文字符，长度在20字节以内。

9月6日起开始公布排行榜。排行榜每两小时更新一次。每次更新之前，参赛选手可以多次上传预测结果，但是系统只保留排行榜更新之前最后一次上传结果。

每次比赛为练习赛，所以评测结果是基于全部152条预测样本。