钓鱼欺诈网站识别

比赛概述
数据下载
评价方法
提交结果

钓鱼欺诈网站识别

比赛概述

本比赛为个人练习赛，适用于入门二元分类模型和处理缺失值的练习，主要针对于数据新人进行自我练习、自我提高，与大家切磋。

练习赛时限：2019-10-04 至 2049-10-04

任务类型：二元分类

背景介绍:
互联网中充斥着大量钓鱼欺诈类网站。这类非法网站通常试图掩人耳目、充当正规网站，而实际上却是在窃取用户的身份、密码、交易等重要信息。
机器学习在信息安全领域中的一个重要应用就是用来识别这些钓鱼网站。

数据来源：
爬虫

数据下载

数据文件（三个）：
train.csv 训练集，文件大小 682KB
test.csv 预测集, 文件大小 461KB
sample_submit.csv 提交示例文件大小 28KB

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有10086条样本，预测集中有7000条样本。数据集共有18个变量。注意：变量中含有缺失值。

变量说明：

变量名	解释
contain_IP	网址中是否包涵ip，比如http://121.99.3.123/fake.html 包含ip。1表示包含，0表示不包含。
is_long	网址字符是否过长。1表示网址过长，0表示网址不长。
is_tinyurl	网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址，0表示不是。
contain_at	网址是否包含“@”符号。1表示包含，0表示不包含。
contain_double_slash	网址是否包含“//”符号，该符号用来表示网址跳转。1表示包含，0表示不包含。
contain_dash	网址是否包含“-”符号，该符号经常帮助用来伪装真网站，比如www.my-taobao.com 。 1表示包含，0表示不包含。
contain_subdomain	网址是否包含子域名，比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含，0表示不包含。
is_SSL	网址是否是https安全链接。1表示包含，0表示不包含。
with_long_history	网址所属的主域名存在的时间。1表示长久，0表示不长久。
contain_icon	网址网页是否有小图标。1表示包含，0表示不包含。
contain_ext_domain	该网页是否加载其他域名下的附件或者网页。1表示包含，0表示不包含。
contain_email_to	该网页是否包含发送邮件的组建。1表示包含，0表示不包含。
allow_right_click	该网页是否允许用户进行右击操作。1表示允许，0表示不允许。
contain_pop_up_windowL	该网页是否包含弹窗。1表示包含，0表示不包含。
contain_Iframe	该网页是否包含Iframe（嵌套网页）。1表示包含，0表示不包含。
has_DNSRecord	网址是否有DNS记录。1表示有，0表示无。
traffic	该网站的流量大小。1表示大，0表示小。
google_rank	该网址在google搜索中的排名。1表示高于同类网站的平均排名，0表示低于同类网站的平均排名。
y	表示网站是否是钓鱼欺诈网站，1表示是，0表示不是。在test.csv中，这是需要被预测的标签；预测时，请提交每个样本为1的概率。

评价方法

你的提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为加权对数损失(weighted log-loss)。 $$ \text{LogLoss}_w = -\frac{\sum_{i=1}^{7000}w_i\left(y_i\log(p_i) + (1- y_i)\log(1-p_i)\right)}{\sum_{i=1}^{7000}w_i} $$ 其中$p_i$是预测第$i$个测试样本为$1$的概率，$y_i$是真实标签，$w_i$是权重。如果$y_i=1$，那么$w_i=2$；如果$y_i=0$，那么$w_i=1$。换句话说，阳性样本（钓鱼网站）在评价中权重更大。

提交结果

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。文件大小不超过5mb。

您提交的结果为每个测试样本为钓鱼网站的概率。

文件名不可以包含中文字符，长度在20字节以内。

排行榜每两小时更新一次。每次更新之前，参赛选手可以多次上传预测结果，但是系统只保留排行榜更新之前最后一次上传结果。

每次比赛为练习赛，所以评测结果是基于全部7000条预测样本。