关于autoencoder做无监督学习的验证问题

  统计/机器学习 无监督学习 数据预处理 模型验证    浏览次数:4988        分享
0


1、keras训练的autoencoder模型,损失基于mse,数据量选了约10w。之前发过帖子,这是经优化过的model,之前的问题是:loss和val_loss收敛的不好且震荡,val_acc比较震荡,自己按如下方式试过:

        修改autoencoder神经网络结构;

        降低batch-size, val_loss的学习率;

        加了L1正则;

        最主要的:怀疑数据集样本分布不均,进行聚类然后用过几个算法筛选训练数据;


2、结果:如现在,loss和val_loss大致在0.08左右,还是会有轻微震荡,acc和val_acc在0.95左右,但也不是太平滑,考虑已经处理过数据集,怀疑还是验证集存在问题,由于自己缺乏调参和分析经验,求大神指点!

 

yinni   2019-02-28 17:50



   1个回答 
1

可以描述下应用吗?比如是regression/ segmentation/ classification,输入输出是什么,具体loss funtion。我印象是以accuracy作指标的应该用entropy类loss,比如softmax entropy。

如果你问题是想让loss和accuracy线更平滑,可以试试加大batch size,加大regularization,作data augmentation,加大优化算法的momentum,减小learning rate,用batch normalization,shuffle训练数据。


SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-02-28 21:42



  相关讨论

学习auto-encoder, 自己写的demo, 关于拟合的问题,帮忙看下loss-acc图?

autoencoder 架構問題

auto-encoder异常检测的问题,无标签情况下怎么进行预测?

关于那个autoencode有没有出来解惑一下的。

怎么理解聚类算法的评价指标Rand Index(RI)?

聚类问题需不需要分出测试集?

怎么评价一个聚类算法?

EM

dbscan 中的参数值如何确定?

层次聚类中的Ward's method是什么意思

  随便看看

神经网络里为什么隐藏层越多越好?

python sklearn模型中random_state参数的意义

什么是SMOTE sampling方法?

推荐系统里的ALS是什么意思?

python或者numpy求数值的中位数、四分位数