tsne作为降维方法,效果感觉比pca要好不少,特别是mnist的例子上
但是tsne好像不被重视,课上不讲,很多人也不用,降维都是pca,为什么呢?是有什么明显的缺点吗?
3个回答
除了其他人提到的那些缺陷,tsne的稳健性和一致性不是太好。
1. tsne对超参的设置比较严苛,设置不当,会导致结果很差。
最左是原始的数据,剩下五个是tsne处理后的数据,明显看出在一些参数下,结果并不理想
2. tsne后聚类的大小没有实际意义
最左是原始的数据,蓝色较大,黄色较小。剩下五个是tsne处理后的数据,每簇的大小看起来很随机。
3. tsne后聚类间的距离没有意义
最左是原始的数据,黄色蓝色较近、绿色分隔得比较远。剩下五个是tsne处理后的数据,原图中的距离并没有被保留。
4. 随机噪音在tsne处理之后看起来不像随机噪音
最左是原始的数据,正态分布的随机点。剩下五个是tsne处理后的数据,似乎还能看出各种不同的规律,并不像是完全的杂乱无章。
5. tsne后聚类出现不规律的形状
最左是原始的数据,杂乱无章,没有明显的分布。剩下五个是tsne处理后的数据,出现了各种形状,有的似乎还出现了聚类。
上面种种问题让tsne显得难以驾驭。在工程中,使用得并不广泛。
参考文献:如何高效使用tsne
SofaSofa数据科学社区DS面试题库 DS面经
这几年tsne都不怎么听到了
-
我小宋
2022-03-25 14:47
我觉得主要有三个大问题:
1)tsne太慢,不适合于大规模计算或者大数据
2)tsne不能对test data做transform。比如说我们对training data进行pca,然后可以利用刚刚得到的pca分解矩阵直接对test data进行变换。但是tsne不行。
3)tsne的结果具有一定的随机性,而不是像pca,结果一致性很好。
SofaSofa数据科学社区DS面试题库 DS面经