sklearn|t-SNE非线性降维

1、将高维空间中的数据映射到低维空间中,并保留数据集的局部特性。当我们想对高维数据集进行分类,但又不清楚这个数据集有没有很好的可分性(同类之间间隔小、异类之间间隔大)时,可以通过t-SNE将数据投影到2维或3维空间中观察一下:如果在低维空间中具有可分性,则数据是可分的;如果在低维空间中不可分,则可能是因为数据集本身不可分,或者数据集中的数据不适合投影到低维空间。
2、t-SNE的缺点:占用内存较多、运行时间长。
【sklearn|t-SNE非线性降维】3、Manifold learning sklearn官方文档
sklearn|t-SNE非线性降维
文章图片

4、t-SNE实践(可视化两个图片数据集合的差异)
5、手写数据集降维案例

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.manifold import TSNE# 加载数据 def get_data(): """ :return: 数据集、标签、样本数量、特征数量 """ digits = datasets.load_digits(n_class=10) data = https://www.it610.com/article/digits.data# 图片特征 label = digits.target# 图片标签 n_samples, n_features = data.shape# 数据集的形状 return data, label, n_samples, n_features# 对样本进行预处理并画图 def plot_embedding(data, label, title):""" :param data:数据集 :param label:样本标签 :param title:图像标题 :return:图像 """ x_min, x_max = np.min(data, 0), np.max(data, 0) data = https://www.it610.com/article/(data - x_min) / (x_max - x_min)# 对数据进行归一化处理 fig = plt.figure()# 创建图形实例 ax = plt.subplot(111)# 创建子图 # 遍历所有样本 for i in range(data.shape[0]): # 在图中为每个数据点画出标签 plt.text(data[i, 0], data[i, 1], str(label[i]), color=plt.cm.Set1(label[i] / 10), fontdict={'weight': 'bold', 'size': 7}) plt.xticks()# 指定坐标的刻度 plt.yticks() plt.title(title, fontsize=14) # 返回值 return fig# 主函数,执行t-SNE降维 def main(): data, label, n_samples, n_features = get_data()# 调用函数,获取数据集信息 print('Starting compute t-SNE Embedding...') ts = TSNE(n_components=2, init='pca', random_state=0) # t-SNE降维 reslut = ts.fit_transform(data) # 调用函数,绘制图像 fig = plot_embedding(reslut, label, 't-SNE Embedding of digits') # 显示图像 plt.show()# 主函数 if __name__ == '__main__': main()

sklearn|t-SNE非线性降维
文章图片

    推荐阅读