数据大约3w左右,8:2 split train和test, model是auto-encoder, loss是MSE, 根据train\test 的acc最终的值还是比较满意的。
1、但是model loss这块,train和test的收敛觉得还可以,但是出现val_loss比loss大的情况,尤其是图一的val_loss, 是否问题?
2、关于datasize对acc的影响,自己尝试过程中,数据量在1w多情况下,model loss情况和上面比较类似,但acc只能达到0.5, 0.6左右。是否可以说明数据量的影响还是比较大的?
3、关于数据预处理,除了特征提取和标准化外,自己在这块没怎么做。一是数据基本无缺失值,二是特殊值很大程度上就是我要找的异常点,是否有必要做聚类分析?
谢谢
2个回答
第一个问题:
你split train和test的时候是随机的吗?感觉这个loss相比于第二行的图有点大,感觉可能是有问题。
第二个问题:
对于神经网络模型,数据量大当然是很重要的,毕竟有那么多参数需要估计
第三个问题:
可以试试用autocoder中间的code来做做聚类试试
SofaSofa数据科学社区DS面试题库 DS面经
好的,觉得test可能有点过拟合,今天droput/正则试一下。auto encoder中间的code是指encode压缩的吗?和拿初始的数据做有什么区别吗?
-
yinni
2019-01-25 10:22
你第一个图里的test应该是有很多异常数据的,所以test上的mse和train的差很远,而且波动性也大(没有蓝色光滑,也没有第三幅图的橙色线光滑)。异常多,也更容易挑出来,所以acc高也正常。
数据量肯定是越多越好的,第一幅和第三幅的蓝色曲线的取值范围也不同,第一个似乎到了0.25,而第三个图好像还在0.3以上。也就是说数据多的时候拟合的更好。
SofaSofa数据科学社区DS面试题库 DS面经