随机森林中的predict_proba

  统计/机器学习 Python 数据竞赛    浏览次数:4929        分享
0

交通事故理赔的竞赛中,用随机森林进行理赔与否的预测,标杆模型中的代码简洁明了如下:

# -*- coding: utf-8 -*-

import pandas as pd

from sklearn.ensemble import RandomForestClassifier

# 读取数据

train = pd.read_csv("C:\\python\\dataset\\random forest\\train.csv")

test = pd.read_csv("C:\\python\\dataset\\random forest\\test.csv")

submit = pd.read_csv("C:\\python\\dataset\\random forest\\sample_submit.csv")

# 删除id

train.drop('CaseId', axis=1, inplace=True)

test.drop('CaseId', axis=1, inplace=True)

# 取出训练集的y

y_train = train.pop('Evaluation')

# 建立随机森林模型

clf = RandomForestClassifier(n_estimators=100, random_state=0)

clf.fit(train, y_train)

#这里到底什么意思?

y_pred = clf.predict_proba(test)[:, 1]

# 输出预测结果至my_RF_prediction.csv

submit['Evaluation'] = y_pred

submit.to_csv('C:\\python\\dataset\\random forest\\my_RF_prediction.csv', index=False)


黄线部分的test 后面为什么跟着[:,1]是用pandas对test进行切片只取test第一列的意思么?但是test的第一列是Q1,仅用test第一列的数据导入函数中,去乞求得到predicted value,似乎说不过去啊。[:, 1] 的意思是什么?


谢谢您的回答

 

Heng Jiang   2018-08-06 19:30



   1个回答 
1

题主可以看看这个问题 如何理解predict_proba的返回值



SofaSofa数据科学社区DS面试题库 DS面经

GuoLinhui   2018-08-06 21:16

Great! Thank u very much! - Heng Jiang   2018-08-07 18:47


  相关讨论

有大佬可以分享一下竞赛的TOP解决方案吗

请教一下:关于融合stack

时下最流行的模型

模型融合问题

如何在本地判断算法效果得到优化?

用投票融合(VotingClassifier)的过程中出现问题,求帮助?

神经网络的预测结果一样,请问我应该怎么改进?

大数据建模、分析、挖掘技术应用研修

numpy.array转换为图片并显示出来

大数据建模、分析、挖掘技术应用研修班

  随便看看

如何清空pandas dataframe里的全部数据但是保留列名?

逻辑回归模型中变量的系数怎么理解?

怎么直观理解ROC AUC的概率统计意义?

cvr和ctr的区别是什么?

如何获取pyspark DataFrame的行数和列数?