表述有误,修改下,不好意思!
数据是这样的,自变量8种(比如体积/直径/周长等连续变量),因变量是二元变量(有/无),没有用复杂的模型,就是根据结果(有/无)把每个自变量分两组,两组之间做最简单的t检验,筛出有显著统计学差异的自变量,拿有意义的自变量与结果(有/无)做ROC曲线。
审稿人现在说我没有验证集啊,我之前只见过机器学习算法建模后验证的。
ROC曲线是否也是一种模型啊?ROC曲线如何拿到验证集中去评估呢?
不知道这样写,大家能否看懂,谢谢!
3个回答
我试着揣摩下楼主的用意,以及审稿人的想法。
楼主用了几个“比较显著”的自变量,在一个数据集上训练得到了一个模型(假如说逻辑回归好了)。然后楼主用这个模型在原来的数据集上进行预测,得到每个样本为“有”的概率,根据预测概率和真实信息,楼主得到了ROC曲线。
审稿人的想法是,你怎么可以同一个数据集上又训练又预测呢,你必须要划分出训练集和测试集。不然你无法公正地说明你的模型是“显著”得好。
我同意审稿人的想法。
是的,确实有问题。我用显著的自变量(1个)与因变量做了ROC曲线,这也是模型吗?医学类文章几乎都是这种做法,之前没遇到过相关质疑。现在问题是我的ROC曲线结果,如果去验证集中验证?其他模型我倒是会做,ROC曲线怎么去玩验证,我没见过,谢谢啦!
-
gerxyuan
2018-01-05 22:25
不大明白他的意思。
也许可能大概是这个意思:
你有两组数据A和B,你对A和B做T test,发现是是显著的。
他希望你把A分成两部分(A1和A2),然后B也分成两部分(B1和B2),A1和B1的T test是显著的,然后你再对A2和B2再做次T test,看看结果如何。A2和B2就是所谓的测试集(?)。
是这样理解?
原文我写的有问题,我修改了,麻烦您再看下,谢谢!
-
gerxyuan
2018-01-05 11:32
不知道上下文,t test和roc有什么关系呢?
原文我写的不对,ttest是拿来筛变量的,有意义的变量再做ROC曲线,不好意思
-
gerxyuan
2018-01-05 11:34