tsne被忽视?tsne有什么缺点?

  统计/机器学习 无监督学习 数据降维 开放问题 数据可视化    浏览次数:6557        分享
3

tsne作为降维方法,效果感觉比pca要好不少,特别是mnist的例子上

但是tsne好像不被重视,课上不讲,很多人也不用,降维都是pca,为什么呢?是有什么明显的缺点吗?

 

我是雷哥   2019-07-25 00:31



   3个回答 
14

除了其他人提到的那些缺陷,tsne的稳健性和一致性不是太好。

1. tsne对超参的设置比较严苛,设置不当,会导致结果很差。

最左是原始的数据,剩下五个是tsne处理后的数据,明显看出在一些参数下,结果并不理想

2. tsne后聚类的大小没有实际意义

最左是原始的数据,蓝色较大,黄色较小。剩下五个是tsne处理后的数据,每簇的大小看起来很随机。

3. tsne后聚类间的距离没有意义

最左是原始的数据,黄色蓝色较近、绿色分隔得比较远。剩下五个是tsne处理后的数据,原图中的距离并没有被保留。

4. 随机噪音在tsne处理之后看起来不像随机噪音

最左是原始的数据,正态分布的随机点。剩下五个是tsne处理后的数据,似乎还能看出各种不同的规律,并不像是完全的杂乱无章。

5. tsne后聚类出现不规律的形状

最左是原始的数据,杂乱无章,没有明显的分布。剩下五个是tsne处理后的数据,出现了各种形状,有的似乎还出现了聚类。

上面种种问题让tsne显得难以驾驭。在工程中,使用得并不广泛。

参考文献:如何高效使用tsne

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-10-08 09:44

这几年tsne都不怎么听到了 - 我小宋   2022-03-25 14:47
11

我觉得主要有三个大问题:

1)tsne太慢,不适合于大规模计算或者大数据

2)tsne不能对test data做transform。比如说我们对training data进行pca,然后可以利用刚刚得到的pca分解矩阵直接对test data进行变换。但是tsne不行。

3)tsne的结果具有一定的随机性,而不是像pca,结果一致性很好。

SofaSofa数据科学社区DS面试题库 DS面经

kidd23   2019-08-07 10:52

3

tsne明显是比pca更高阶的降维算法,要是说缺点的话,tnse占用内存比较大,耗时比pca要长。

SofaSofa数据科学社区DS面试题库 DS面经

京东   2019-08-02 17:14



  相关讨论

kNN算法有哪些缺点?

在使用PCA降维时,有哪些坑?

决策树有哪些缺点?

K Means算法有哪些缺陷、劣势?

相比xgboost,GBDT有什么优势

最小二乘法与最小二乘支持向量回归的优劣

二阶优化算法比一阶的优化算法比有什么优缺点?

随机森林(random forest)和支持向量机(SVM)各有什么优劣

激活函数ReLU和Sigmoid的优劣对比

坐标下降法和最小角回归求取L1范数正则化问题时的优劣?

  随便看看

【站务】我们回来了

把tf.Tensor转换为numpy array

Python计算两个数组的相关系数

用户人群分层分析的RFM模型是什么?

单一变量下的异常检测该怎么做?