公共自行车使用量预测

公共自行车使用量预测


比赛概述


本比赛为个人练习赛,主要针对于于数据新人进行自我练习、自我提高,与大家切磋。


任务类型:回归

背景介绍:
公共自行车低碳、环保、健康,并且解决了交通中“最后一公里”的痛点,在全国各个城市越来越受欢迎。本练习赛的数据取自于两个城市某街道上的几处公共自行车停车桩。我们希望根据时间、天气等信息,预测出该街区在一小时内的被借取的公共自行车的数量。

数据来源:
Laboratory of Artificial Intelligence and Decision Support (LIAAD), University of Porto, Portugal。为了公平起见,数据已经进行脱敏加工处理。标题图片来源:36氪。

   


数据下载


数据文件(三个):
train.csv 训练集,文件大小 273kb
test.csv 预测集, 文件大小 179kb
sample_submit.csv 提交示例 文件大小 97kb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有10000条样本,预测集中有7000条样本。

变量说明:
变量名 解释
id 行编号,没有实际意义
y 一小时内自行车被借取的数量。在test.csv中,这是需要被预测的数值。
city 表示该行记录所发生的城市,一共两个城市
hour 当时的时间,精确到小时,24小时计时法
is_workday 1表示工作日,0表示节假日或者周末
temp_1 当时的气温,单位为摄氏度
temp_2 当时的体感温度,单位为摄氏度
weather 当时的天气状况,1为晴朗,2为多云、阴天,3为轻度降水天气,4为强降水天气
wind 当时的风速,数值越大表示风速越大



评价方法


评价方法为RMSE(Root of Mean Squared Error)。
若真实值为$y=(y_1,y_2,\cdots,y_n)$,模型的预测值为$\hat y=(\hat y_1,\hat y_2,\cdots,\hat y_n)$,那么该模型的RMSE的计算公式为 $$RMSE=\sqrt{\frac{\sum_{i=1}^n(y_i-\hat y_i)^2}{n}}.$$ 例如,真实值$y=(15, 20, 12)$,预测值$\hat y = (17.5, 24.1, 9.6)$,那么这个预测结果的RMSE为 $$RMSE = \sqrt{\frac{(15-17.5)^2+(20-24.1)^2+(12-9.6)^2}{3}}\approx 3.0995.$$
RMSE越小,说明模型预测得越准确。


提交结果


提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。文件大小不超过5mb。

尽管真实值都是整数,但是预测值可以是小数。

   文件名不可以包含中文字符,长度在20字节以内。

排行榜每两小时更新一次。每次更新之前,参赛选手可以多次上传预测结果,但是系统只保留排行榜更新之前最后一次上传结果。

   

每次比赛为练习赛,所以评测结果是基于全部7000条预测样本。