论文学习笔记|论文学习笔记-t-SNE-1

在机器学习任务中,通常情况下,数据具有很高的维度,直接展示数据的分布情况很困难,可通过统计分析数据的分布情况来了解数据。统计分析概率分布固然好,也仅仅是个抽象的表示,始终不能对数据有个直观的认识。数据可视化通过降维,在低维空间直观展示数据,大大促进对数据的认识。
t-SNE(t-Distribution Stochastic Neighbor Embedding)是在SNE(Stochastic Neighbor Embedding)基础上演变而来,是一种非线性参数化降维技术,基于流形理论,当然,t-SNE和SNE关于降维的应用很少,而在可视化方面得到大量应用。
高维数据,比如词向量、文档向量、图像等,各个维度关系错中复杂。传统的线性降维技术,比如PCA,往往只关注于均值和方差,并不能很好地保持数据原有的局部结构和全局结构,比如相互靠近的高维相似数据点,在低维表示也应该是相互接近的;不同类别的数据点,应该相互区别。而SNE则解决了这个问题,t-SNE则在SNE的基础上进一步解决了拥挤问题。
SNE将距离转化为概率。高维数据点 xi、xj,其对应的低维数据点 yi、yj,那么其对应的高维空间(对应于方程中的下标h)和低维空间(对应于方程中的下标l)距离为:
论文学习笔记|论文学习笔记-t-SNE-1
文章图片

通过softmax,可将其转化为概率,其中论文学习笔记|论文学习笔记-t-SNE-1
文章图片
表示方差:
论文学习笔记|论文学习笔记-t-SNE-1
文章图片

其中方差的计算并不是简单的样本方差,相关计算方程如下:
论文学习笔记|论文学习笔记-t-SNE-1
文章图片

其中H表示熵,Perp表示困惑度(perplexity)。
高维空间中的数据点降维之后,要保持数据的分布不变,那么显然就要使用KL散度(Kullback-Leibler divergences)损失了。可通过SGD等优化算法来优化t-SNE的参数。
论文学习笔记|论文学习笔记-t-SNE-1
文章图片

从以上方程可见,SNE是非对称的,即
论文学习笔记|论文学习笔记-t-SNE-1
文章图片

并且SNE假设高维空间和低维空间中的数据均服从高斯分布。将高维映射到低维后,会出现拥挤问题,即高维空间中距离相近的点,在低维空间中距离更加接近。
基于SNE,t-SNE则将概率的非对称改为对称,如下方程。此外,再将低维空间中的概率分布假设为高斯分布改为t分布,而高维空间中任然是高斯分布。低维空间概率计算方程如下,其中t分布自由度为1。相比于高斯分布,t分布的严重拖尾解决了低维空间中的拥挤问题。
【论文学习笔记|论文学习笔记-t-SNE-1】论文学习笔记|论文学习笔记-t-SNE-1
文章图片

t-SNE论文中展示了和其他几种非线性降维技术的效果对比图,下图是t-SNE可视化6000个minist样本。由图中可见,t-SNE很好地将0-9的数字分别开来,且具有较好的全局和局部结构,不同类别的样本之间具有较大间隔,同类样本之间距离很小。
论文学习笔记|论文学习笔记-t-SNE-1
文章图片

t-SNE是一种高维数据可视化技术,在处理复杂数据时,明显优于线性降维和其他非线性降维。t-SNE提供了一种可视化方法,保持高维空间和低维空间中数据概率分布不变,或差异最小。

参考文献:
Laurens van der Maaten, Geoffrey Hinton. Visualizing Data using t-SNE

    推荐阅读