交通事故理赔审核
交通事故理赔审核
比赛概述
本比赛为个人练习赛,适用于入门二元分类模型,主要针对于数据新人进行自我练习、自我提高,与大家切磋。
练习赛时限:2017-06-03 至 2019-06-03
任务类型:二元分类
背景介绍:
在交通摩擦(事故)发生后,理赔员会前往现场勘察、采集信息,这些信息往往影响着车主是否能够得到保险公司的理赔。训练集数据包括理赔人员在现场对该事故方采集的36条信息,信息已经被编码,以及该事故方最终是否获得理赔。我们的任务是根据这36条信息预测该事故方没有被理赔的概率。
数据来源:
我们低调的合作方——某汽车大数据网站。标题图片来源:搜狐汽车。
数据下载
数据文件(三个):
train.csv 训练集,文件大小 15.6mb
test.csv 预测集, 文件大小 6.1mb
sample_submit.csv 提交示例 文件大小 1.4mb
下载该数据即同意不以商业为目的传播、发布该数据集。
训练集中共有200000条样本,预测集中有80000条样本。
变量说明:
变量名 | 解释 |
---|---|
CaseId | 案例编号,没有实际意义 |
Q1 | 理赔员现场勘察采集的信息,Q1代表第一个问题的信息。信息被编码成数字,数字的大小不代表真实的关系。 |
Qk | 同上,Qk代表第k个问题的信息。一共36个问题。 |
Evaluation | 表示最终审核结果。0表示授予理赔,1表示未通过理赔审核。在test.csv中,这是需要被预测的标签。 |
评价方法
你的提交结果为每个测试样本未通过审核的概率,也就是Evaluation为1的概率。评价方法为精度-召回曲线下面积(Precision-Recall AUC),以下简称PR-AUC。
PR-AUC的取值范围是0到1。越接近1,说明模型预测的结果越接近真实结果。
精度和召回的定义和计算方式可参考问题:什么是混淆矩阵?中的回答。
PR-AUC的定义可参考问题:精度-召回AUC是什么?
PR-AUC的计算方法可以参考问题:Python里如何计算召回精度AUC?