基于张量网络的机器学习(二)

? ?在前面的学习中,已经大致了解到了张量怎么来的,也学习到了一些张量的代数运算,本次对张量分解进行初步的学习。
一.张量分解的知识铺垫 ? ?开始学习CP分解知识,我们有必要了解一些基础知识。
1.纤维和切片 前面的学习已经提到,张量是多维数组:
基于张量网络的机器学习(二)
文章图片

这有利于接下来新知识的学习。

  • 纤维(fiber)
    ? ?纤维是指从张量中抽取向量的操作,只保留一个维度变化,固定其它维度,可以得到向量,这个向量即为张量的纤维。比如对于1个3阶张量,分别只保留i,j,k维度的变化,可以得到:
    基于张量网络的机器学习(二)
    文章图片

  • 切片(slice)
    ? ? 切片操作是指在张量中抽取矩阵的操作。在张量中如果保留两个维度变化,其它的维度变化可以得到一个矩阵,这个矩阵即为张量的切片。 对一个三阶张量分别按照i,j,k三个方向进行操作可以得到如下图所示的三个维度的切片。
【基于张量网络的机器学习(二)】基于张量网络的机器学习(二)
文章图片

以上这两个概念是便于理解且直观的。
2.张量的展开(矩阵化) ? ?有看过刘慈欣的《三体》吗?在《三体》中,展开这一概念有了我所认为很好的描述。三体人将十一维的质子展开成二维球面,包裹整个三体星,然后用飞船在上面蚀刻电路,完成后再缩回十一维,质子就有了智能;再比如二向箔,在未激活状态下由特制力场束缚,看起来就像是一张完全无害的二维薄膜。但当二向箔抵达目标空间后,束缚力场就会消失,此武器不可逆地发动,将接触到的三维空间中的一个维度无限蜷缩,导致三维立体空间塌陷,变成二维平面空间并不断扩展。需要注意的是,无论是将一个物体怎么展开,信息始终没有消失,你不能说把一个三维的实心球二维展开得到的仅仅是这个实心球的表面的那部分,还应该包含了实心球的内部结构。
? ?类比张量,将一个N阶张量矩阵化就类似二维化,展开后得到的张量包含的信息也并未消失,再联系到在前面学习中我所描述的张量可以表示万物,竟感觉有点奇妙(我有一个大胆的想法,但是我不说),接着进入这一小节的正题,就是张量的展开以及如何展开。
? ?将一个N阶张量 χ \chi χ沿着某一个维度展开成矩阵,这就是张量的展开,你可以想象不断从一个高阶张量沿着某一个维度抽取向量,然后将其平铺,这样得到的就是一个高阶张量的一种展开方式,现在以一个三阶张量为例(不要混淆张量的阶、维数和维,张量的阶等价于维但不等价于维数),毕竟在前面用抽向量并平铺这种说法对于三阶张量是比较准确的,对于更高阶的张量来说可能就不是对的了。
下面的是一个(二维)三阶张量
基于张量网络的机器学习(二)
文章图片

采用数据可以表示为:
基于张量网络的机器学习(二)
文章图片

若要用数据来更直观的表示一个三阶张量,可以使用三个索引,就像是面包切片切出一个个面包片,比如下面这个表示是固定了第三个索引得来的,它切出了两片(一片4个数据),分别是前面和后面:
基于张量网络的机器学习(二)
文章图片

类比一下,固定第一个索引,切出的是上面和下面,固定第二个索引,切出的是左面和右面, 这是比较好理解的。
还有一个地方需要注意,对于下面这两个张量,
基于张量网络的机器学习(二)
文章图片

前者固定第三个索引为1,后者固定了第三个索引为2,现在看到的这种表示方法很重要。
3.超对称和超对角
  • 超对称
    对于一个立方张量(阶数和维数均为3),如果其元素在下标的任意排列下,都有
    基于张量网络的机器学习(二)
    文章图片

    那么这个立方张量是超对称的。
  • 超对角
    对于一个立方张量(阶数和维数均为3),如果
    基于张量网络的机器学习(二)
    文章图片

    那么么这个立方张量是超对角的。
4.张量的秩以及秩一张量/可和张量 下面是秩一张量的定义:
基于张量网络的机器学习(二)
文章图片

? ?如果一个张量可以由n个秩一张量的和表示,那么这个张量的秩为n,因此,如果一个张量能够以三个秩一张量的和表示,那么其秩为3,下面这张图展示的就是一个秩为3的张量的分解:
基于张量网络的机器学习(二)
文章图片

其中,图中的每一个量都是向量,这为CP分解的张量形式作了铺垫。
? ?目前还没有方法能够直接求解一个任意给定张量的秩,这被证明是一个NP-hard问题,而且张量的秩是指所需秩一张量的最小个数。
二.CP分解 1.CP分解
  • 张量形式
CP分解的张量形式见下图:基于张量网络的机器学习(二)
文章图片
表示成公式就是:
基于张量网络的机器学习(二)
文章图片

其中:
基于张量网络的机器学习(二)
文章图片

其中 A,B,C 都是矩阵,每一项里的圈是外积符号。
  • 矩阵形式
    ? ?上面的矩阵 A,B,C 又称为该张量的因子矩阵,通过因子矩阵可以将一个张量的CP分解展开成相应的投影矩阵:
    基于张量网络的机器学习(二)
    文章图片

    其中那个长相怪异的符号(圈里有个点)是我没有介绍过的Khatri-Rao积,张量的下标1,2,3代表3阶张量的三个维度。
    在装了tensor toolbox后举个例子:
    基于张量网络的机器学习(二)
    文章图片

    基于张量网络的机器学习(二)
    文章图片

    上面的三个矩阵是3个因子矩阵,还可以看到后面那个引号不可以省略,否则会报错。
  • 切片形式
    3阶张量有时会按照正面进行切片,并写成如下形式:
    基于张量网络的机器学习(二)
    文章图片

    并以下图作为参考:
    基于张量网络的机器学习(二)
    文章图片
  • CP带权分解形式
    这种形式理解起来也简单,假设因子矩阵的列是单位长度,然后引入一个权重向量 基于张量网络的机器学习(二)
    文章图片

    使得:
    基于张量网络的机器学习(二)
    文章图片

    上面叙述仅仅是针对三阶张量,对于更高阶的张量,增加因子矩阵即可。
  • CP分解的秩分解
    张量CP分解的秩分解是指在张量的秩最小的情况下的CP分解,见下图:
    基于张量网络的机器学习(二)
    文章图片

    需要注意的是,这里的分解是在实数域进行分解的,如果在复数域进行分解,结果又可能会有所不同。
  • CP分解的 低秩近似
    ? ?顾名思义,低秩近似即 用最少的秩一张量去逼近一个高阶张量(注意不是等于,因为一般情况下只能做到尽量去逼近或是无限逼近,很难等于),或者说所需因子矩阵个数最少,从而有了一种描述:张量的秩-n近似,其中n为选取的秩。
2.CP分解的计算 ? ?CP分解的计算又可以视为CP分解的求解,如何求解?首先,我们需要确定秩一张量的个数,通常我们通过迭代的方法从1开始遍历直到找到一个合适的解,之后再通过交替最小二乘方法(ALS)对CP分解进行求解。
? ?对于一个三阶张量
基于张量网络的机器学习(二)
文章图片

给定目标表达式或者说限制条件,
基于张量网络的机器学习(二)
文章图片

然后通过ALS先固定矩阵 B,C 找到 A,接着固定矩阵 A,C 找到 B,然后固定矩阵 A,B 找到 C,分别得到最优矩阵 A,B,C 以及对应的 λ \lambda λ值。
下面是matlab的实现:
基于张量网络的机器学习(二)
文章图片

基于张量网络的机器学习(二)
文章图片

第一行代码:随机生成一个345的稀疏3维张量,且具有近似25个非零项,代表张量里面存的不一定是25个非零项,但一定不超过25个非零项。
第二行代码:使用ALS算法求解,其中2表示将该张量通过CP分解分解为两个秩一张量。
3.CP分解的应用
  • 语音分析
  • 网络压缩
  • 独立成分分析
  • 视频处理
  • 去噪
以网络压缩和去噪为例:
  • 网络压缩
    ? ?通过CP分解将一个4D张量分解成多个低维度的张量,小幅降低识别精度,大幅提高识别效率。
  • 去噪
    ? ?高光谱图像(HSI)是上个世纪80年代以来新兴的一种新型成像技术,它包括了可见光和不可见光范围的几十到几百个连续光谱窄波段构成,形成了一种数据立方体结构的图像。高光谱图像可以看作是一个三阶张量,图像的空间域和光谱域构成了数据的三个维度。采用低秩CP分解对高光谱图像去噪认为低秩的部分是无噪声的部分,剩下的部分认为是噪声数据,见图:
    基于张量网络的机器学习(二)
    文章图片

    由此,一个高光图谱的数据张量可以分解为两部分:低秩干净的部分和高秩噪声多的部分。
三.matlab tensor toolbox的安装 下载地址:https://www.sandia.gov/~tgkolda/TensorToolbox/downloads/tensor_toolbox_2.6.zip
下载完压缩包就解压,注意解压路径。
matlab命令:
基于张量网络的机器学习(二)
文章图片

查看帮助文档输入命令:
基于张量网络的机器学习(二)
文章图片

基于张量网络的机器学习(二)
文章图片

这个专栏的下一篇我会讲解其他张量分解,并对各种张量分解进行整理。

    推荐阅读