钓鱼欺诈网站识别
钓鱼欺诈网站识别
比赛概述
本比赛为个人练习赛,适用于入门二元分类模型和处理缺失值的练习,主要针对于数据新人进行自我练习、自我提高,与大家切磋。
练习赛时限:2019-10-04 至 2049-10-04
任务类型:二元分类
背景介绍:
互联网中充斥着大量钓鱼欺诈类网站。这类非法网站通常试图掩人耳目、充当正规网站,而实际上却是在窃取用户的身份、密码、交易等重要信息。
机器学习在信息安全领域中的一个重要应用就是用来识别这些钓鱼网站。
数据来源:
爬虫
数据下载
数据文件(三个):
train.csv 训练集,文件大小 682KB
test.csv 预测集, 文件大小 461KB
sample_submit.csv 提交示例 文件大小 28KB
下载该数据即同意不以商业为目的传播、发布该数据集。
训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。
变量说明:
变量名 | 解释 |
---|---|
contain_IP | 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。 |
is_long | 网址字符是否过长。1表示网址过长,0表示网址不长。 |
is_tinyurl | 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。 |
contain_at | 网址是否包含“@”符号。1表示包含,0表示不包含。 |
contain_double_slash | 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。 |
contain_dash | 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。 |
contain_subdomain | 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。 |
is_SSL | 网址是否是https安全链接。1表示包含,0表示不包含。 |
with_long_history | 网址所属的主域名存在的时间。1表示长久,0表示不长久。 |
contain_icon | 网址网页是否有小图标。1表示包含,0表示不包含。 |
contain_ext_domain | 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。 |
contain_email_to | 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。 |
allow_right_click | 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。 |
contain_pop_up_windowL | 该网页是否包含弹窗。1表示包含,0表示不包含。 |
contain_Iframe | 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。 |
has_DNSRecord | 网址是否有DNS记录。1表示有,0表示无。 |
traffic | 该网站的流量大小。1表示大,0表示小。 |
google_rank | 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。 |
y | 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。 |
评价方法
你的提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为加权对数损失(weighted log-loss)。 $$ \text{LogLoss}_w = -\frac{\sum_{i=1}^{7000}w_i\left(y_i\log(p_i) + (1- y_i)\log(1-p_i)\right)}{\sum_{i=1}^{7000}w_i} $$ 其中$p_i$是预测第$i$个测试样本为$1$的概率,$y_i$是真实标签,$w_i$是权重。如果$y_i=1$,那么$w_i=2$;如果$y_i=0$,那么$w_i=1$。换句话说,阳性样本(钓鱼网站)在评价中权重更大。