Compressive|Compressive Sensing

“People Hearing Without Listening:”
An Introduction to Compressive Sampling
Emmanuel J. Cand`es and Michael B. Wakin
Applied and Computational Mathematics
California Institute of Technology, Pasadena CA 91125
I.Introduction
文章描述了乃奎斯特采样定理。
Compressive Sensing依赖于两个原则:稀疏性(sparsity)和不连贯性(incoherence),前者由信号本身决定,后者由感知系统决定。
Sparsity:表明连续时间信号的“information rate”(信息比率)远小于带宽,离散时间信号自由度远小于其有限的长度。CS揭示了很多自然信号是稀疏的或者是可压缩的,在合适的基-*下可以有简洁的表达式。
Incoherence:扩充了、延伸了时域与频域的二元性,表达了如下观点:在基 下具有稀疏表示的信号一定可以在其获取的域展开,就像时域里面的Dirac或者冲击型号在频域可以展开表示。不同的,Incoherence表明与感兴趣的信号不同,采样/感知波形在基 下具有相当稠密的表示。(这个特性表明要想信号在一个基下有稀疏表示,)
这些协议是非自适应的,仅仅要求将信号与少量的固定波形相关联,这些波形是与基Incoherence的,使得信号具有稀疏的表示。使用数值优化进行信号全长度重建。
本文的意图是概览CS理论的基础理论,产生于【1】【2】,表达理论的主要的数学观点,调查该领域的一些重要问题。
II.信号感知问题(The Sensing Problem)
信号 ,获取值 (1)
波形 ,标准设置。如果感知波形为单位脉冲函数(Spike),那么 是 在时域或者空域的一个采样值向量。如果感知波形为像素的指标函数(Indicator Function),那么 是数码相机中传感器获取的信号。最后,如果波形是正弦函数, 是Fourier系数矢量,这对应了MRI中的感知形式,尚有很多其他的实例。
尽管可以发展对于连续时间/空间信号的CS理论,我们将精力关注与离散信号 。原因为两方面:这样概念上简单,而且已有的CS理论在这方面发展较多(我们在第七部分简要回顾模拟CS问题)。由上所述,我们对未采样情形感兴趣,在这里可用观测数量 远小于信号 的维数 。例如,传感器数量有限。或者观测极其昂贵。或者感知过程很慢以至于几分钟才能获得一次观测。
这些情形提出了重要的问题。对于 的情形准确的重建是否可能?设计 个观测波形是否能获取 的几乎所有信息?如何逼近 ?公认的,这件事看上去相当使人畏缩,需要求解不定线性方程系统。令 表示 感知矩阵,行为 , 表示 的复数转置,从 恢复 在原则上是个病态问题当 时;存在无数的候选信号 满足 。
III. Incoherence and the sensing of sparse signals
A. Sparsity
很多自然信号在适合的基下展开时具有简洁的表达式。考虑一下,比如,图1及其小波变换。尽管原始图像几乎所有的像素值都不为零,小波系数提供了一个简洁的表示,大多数小波系数是小的,很少的大系数抓住了物体大多数的信息。

数学上讲,我们有矢量 (正如图像一中的n像素图像),我们在正交基(比如小波基)下展开
(2)
其中 为 的系数序列, 。 。
当信号具有稀疏表示的时候,我们可以抛弃小系数而不会带来可以感觉的损失。形式上考虑 ,该信号由保存 的 个最大值对应的项组成。定义 ,其中 是出了最大的 个之外全设置成0的系数向量 。
我们称最多 个非零项的对象为S-sparse。由于 是正交基,我们有 ,并且如果 是稀疏的或者可压缩的意味着排序后的系数幅值快速衰减,那么 可以由 很好的逼近,因此,误差 很小。简单的说,我们可以无损的去处很多系数。图1显示了一个实例,其中视觉损失很难注意到,从百万像素图像到其近似去除了97.5%的系数。

B.Incoherence sampling
假设给定我们 的正交基对 。第一个基 用于感知 如(1),第二个基 用于表达 。正交基对的约束不是本质上的,仅仅在于简化我们的处理。
定义3.1.感知系统 和表达系统 的一致性定义为
(3)
通俗的讲,一致性测度了 的任意两项之间的最大相关性,见【5】。如果 包含相关的项,一致性就大。否则,很小。置于多大多小,观测到 。上端点决定于内积 小于等于1.下端点决定于Parserval关系,对于每一个 , 。Compressive sampling主要关注低一致性正交基对,我们给出如下实例。
我们的第一个实例中, 是规范或者Spile基 , 为Fourier基, 。由于 为感知矩阵,这对应着经典的时域或者空域采样理论。时频对付从 ,这样我们获得了最大非一致性。进一步,Spike和正弦在1维,2维,3维等都是最大非一致性。
我们的第二个例子为选择小波基为 ,和Noiselets【6】为 。这里,Noiselets和Harr小波之间的一致性为 ,Noiselets与DaubechiesD4 D8小波间的一致性为2.2,2.9。这也可以延伸到更高的维数。(Noiselets与Spikes,Fourier基同样达到最大非一致性)。我们对Noiselets的兴趣来自以下事实(1)它们与系统非一致性(2)它们来自快速算法;Noiselet变换运行时间为o(n)时间,正如Fourier变换,Noiselets矩阵不必存成向量应用。这对于有效的数值计算是至关重要的。
最后,随机矩阵与任何固定基 间均有较大的非一致性。均匀随机的选择正交基 ,这可以通过独立均匀的在单位球面上采样 个正交化的向量得到。然后很大概率上, 间的一致性大约为 。延伸的,具有独立同分布项的随机波形 ,高斯或者 二值项,将与任意固定表述 之间具有低的一致性。

C.Undersampling and spare signal recovery
理想的,我们想测量 的所有 个系数,但是我们只能观测这些数据的子集,获取数据
(4)
其中 是子集。具有这样的信息,我们决定通过 范数最小恢复信号;提出的重建 为 ,其中 是Convex最优规划的解( )
(5)
这就是说在所有 ,我们选择1范数最小的系数序列。
使用 范数作为系数促进方程可以追溯到几十年前。一个早期的应用是反射地震学。然而 范数不是恢复稀疏结果的唯一方法,其他方式比如贪婪算法[9]也已经提出了。
我们的第一个结果断言当 足够稀疏时,经过 范数最小的恢复是准确的。
定理1[10]:固定 ,假设 在基 下的系数序列 是 稀疏的。在 域均匀随机的选择 个测度。然后如果
(6)
对于正常量 ,(5)的解极大概率下是准确的。
我们作三个注释:(1)一致性的角色是完全显然的;一致性越小,需要的样本越小,因此我们的重点在前面部分的低一致性系统。(2)我们可以无损的利用任意 个系数。如果 等于或者接近1,那么 的次数代替 。(3)信号 可以从我们压缩的数据中准确恢复通过最小化Convex函数,这个函数没有假设关于 非零坐标的任何先验信息,他们的位置,他们的幅度我们假设全部没有先验知识。我们运行算法,如果信号正好是足够稀疏的,精确恢复发生。
这个定理确实表明了一个具体的获取协议:在非一致域中非自适应的采样,在采样后调用线性规划。按照这样的协议将获取到具有压缩形式的信号。需要的是一个解码器去解压数据,这是1范数最小的角色。
事实上,这个非一致采样理论拓展了早期关于谱稀疏信号采样的结果[1],这触发了很多CS的发展者。假设我们采样超宽带信号但是谱稀疏形式

其中 很大但是非零项 的数量小于等于 (我们可以想必较小)。我们不知道在哪些频率上是活跃的而且不知道其幅度。因为活跃集合不一定是连续整数的子集,乃奎斯特/香浓采样定理很可能没有用(因为无法先验带宽,可能导致所有的 时间采样都是需要的。在这种特定情形下,定理1主张我们可以重建具有任意未知频率支撑集 的信号,利用 阶,见【1】。更多的是,这些采样是不必仔细选择的;几乎任何具有这样采样集合大小的采样都可以。图2显示了一个实例。对于这方面的其他类型使用完全不同的观点,见【11】【12】。
现在是讨论以上内容中概率角色的时候了。要点是为了得到有用而且强大的结果,我们需要诉诸于概率因为我们不能希望所有大小为 的测量集合都有合适的结果。这就是原因。存在在 域内几乎处处消失的稀疏信号。换句话说,我们可以找到稀疏信号 和规模几乎为 的大量子集满足 。感兴趣的读者可能想检查在【13】【11】中讨论的Dirac梳子实例。一方面,给定这样的子集,我们看到一串0,没有算法可以重建信号。另一方面,理论保证集合的小部分精确恢复不发生的概率是可以忽略的。这样,我们只需要忍受一个很小的失败概率。对于实际应用,假设采样数量足够大那么失败的概率为0.

有趣地,对于特定稀疏信号的研究表明我们至少需要阶采样。如果更少,信息损失的概率会很高,然和重建算法无论多么复杂都是不可能的。总结一下,当一致性为1时,我们不需要多于 采样,但是也不能更少。
我们采用一个非一致性采样的例子总结这一部分,考虑图3所示的稀疏Comedian图像,压缩的百万像素图像如图1(右侧)。我们回想这个研究的物体是稀疏的因为它只有25000个非零小波系数。我们然后获取图像通过采取96000非一致测量(我们推荐读者到[10]中看细节)并且求解(5)。这个实例表明大约4倍于稀疏系数的采样。这就是事实上的4-1实际规则,对于精确恢复,我们至少需要大约4倍的非一致采样。

IV.Robust Compressive Sampling
我们已经展示我们可以利用少量的测量恢复稀疏信号,但是为了真正强大,CS需要处理近稀疏信号和具有噪声的信号。
1) 首先,感兴趣的一般物体都是近似稀疏而不是准确稀疏。这里的问题是能不能获得这些物体准确的重建利用高度未采样测量;
2) 其次,在任何实际应用中,测量数据将总是至少受到少量噪声的干扰因为感知设备不可能是无限精度的。因此CS需要对于这样的非理想情形具有Robust。总结为一点,数据中的小扰动应该引起重建中的小扰动。
这部分同时调查这两件事情。在我们开始之前,然而,考虑恢复信号的绝对问题 , ,形式为:
(7)
其中 为 感知矩阵给我们关于 的信息, 为随机或者确定性未知误差项。上一部分的设置利用这种形式表述,因为 , (为提取 中采样坐标的 矩阵)。可以写为 ,其中 。因此,我们可以处理绝对模型(7)考虑着 是物体在合适基下的系数序列。

A. 受限制的等距性
在这一部分,我们引入一个关键的表示,这个表示被证明是研究Compressive Sampling中一般鲁棒性的有效工具:所谓的RIP(受限制的等距特性)[15]。
定义4.1:对于每一个整数 定义 矩阵的等距常量 为满足下式的最小数字
(8)
对于所有的s稀疏向量 都具有。
我们将宽松地说矩阵 服从s阶的RIP如果 不是非常接近1。当具有这个特性的时候,矩阵 近似保存了s稀疏信号的欧氏长度,这意味着s稀疏向量不能在矩阵 的NullSpace 中(这时有用的否则无法重建这些向量)。一个等价的RIP描述是来自矩阵 的所有s列子集事实上几乎正交(矩阵 的列不会精确正交因为矩阵 的列比行多)。
为了看到RIP与CS之间的联系,设想我们想用矩阵 获得S稀疏信号。首先假设 ;然后我们声称可以从数据 中恢复 。确实的, 是系统 的唯一的稀疏解,比如具有非零项数量最小。为了证实这一点,考虑才随意解 。然后 ,因此, 至少有 个非零项。然后 必须至少有 个非零项。反过来,假设 ,然后矩阵 的 列可能是线性独立的,这样存在一个2S稀疏向量 满足 。我们下面可以将 分解为 ,其中 都是S稀疏的。这意味着 ,我们已经找到了给出同样测量的一对S稀疏向量。清楚地,我们不能重建这样的稀疏物体。因此,我们恢复S稀疏信号,我们需要满足 或者最起码(8)中的 在界线下。(4)
B. 从未压缩信号的一般恢复
如果满足RIP特性,那么通过求解下面的线性规划得到的重建是准确的。
(9)
定理2:([16]):假设 ,那么(9)的解 满足
(10)
对于某个常数 ,其中 是将向量 中最大的 成分外全部设置为0。这个定理得结论比定理1的结论强。如果向量 是S稀疏的,那么向量 ,并且因此重建是准确的。但是这个定理处理所有的信号。如果向量 不是S稀疏的,那么(10)声称重建的信号的质量会好如果我们实现知道S最大值的位置并且决定直接测量他们。换句话说,重建就像预言一样好,具有完善的知识,将提取S最重要的信息。
另一项与之前结果不同的显著结果是它是确定性的;它不涉及概率。如果我们幸运的拥有一个满足定理假设条件的感知矩阵 ,我们可以应用它,我们保证可以恢复所有S稀疏向量,当然是S最大向量,不存在失败的概率。进一步,由于相同的感知矩阵 对 空间的所有向量都有效,是通用的。
在这一点上缺失的是S(可以有效恢复的分量数量)服从假设与观测数量 或者矩阵行数的关系。为了得到强大的结果,我们想寻找满足RIP具有 接近 的矩阵。我们能设计这样的矩阵吗?在下面一部分,我们将证明这是可能的,但是首先我们将验证CS对数据污染的鲁棒性。

C. 从噪声数据中鲁棒的恢复信号
我们给定(7)中描述的噪声数据,使用具有松弛约束的 最小进行重建:
(11)
其中 限制了数据中噪声的强度。问题(11)也可以在[21]后称为LASSO;见[22]。按照我们最好的理解,这是在[8]钟首次引入的。这又是一个Convex问题,一个二阶锥规划问题,存在很多有效的算法求解。
定理3([16]):假设,那么(11)的解满足
(12)
对于某个常量

这很难再简化。重建误差受到两项和的限制。第一项是没有噪声时发生的误差,第二项与噪声水平成正比。进一步,常数 小。对于 的例子, 。图4显示了对于噪声干扰数据的重建。
这个最后的结果建立CS为实用而且有效的感知机制。它是鲁棒的因为它不仅可以处理不一定稀疏的信号而且能够处理噪声信号。尚待完善的是设计有效的感知矩阵满足RIP。这是下一部分讨论的内容。
V.随机感知
回到RIP的定义,我们想寻找具有任选列向量子集近似正交的感知矩阵。这些子集越大越好。这里随机性再次进入画面。
考虑一下感知矩阵 :
1) 通过在 空间的单位球上均匀随机采样 个列向量形成;
2) 通过采样具有零均值,方差为 的正态分布独立同分布形成;
3) 通过采样III-B部分的随机投影 ,规则化为 ;
4) 通过采样独立同分布向从对称贝努力分布 或者其他子高斯分布。
然后以压倒性优势的概率(overwhelming probability),所有这些矩阵服从受限制的等距特性(restricted isometry property)(例如我们定理的条件)当满足下式时
(13)
其中是依赖于每一个情形的常数。1)2)3)使用概率论中相当标准化的结果;对于4)则更加精妙一些,参见[23][24]。所有这些实例中,采样到满足(13)而不满足RIP的概率是的指数次小。有意思的,不存在测量矩阵和重建算法无论如何给出定理2的结论采用少于(13)左端的采样[2][3]。这样,使用上面的传感矩阵加上最小是一种近似最优感知策略。
我们可以采用第三部分中的正交基对建立RIP。对于其中随机抽取个坐标,可以得到
(14)
使得RIP很大概率上保证,见[25][2]。如果要求失败的概率不大于对于某个,然后(14)已知的最好的指数是5而不是4(14具有)。这证明可以稳定而且精确的从非一致域的未采样数据中重建几乎稀疏的信号。
最后,RIP对于感知矩阵,其中为任意正交基,为冲一个合适的分布得到的随机观测矩阵保证。如果固定基,利用1)-4)组装测度矩阵,那么很大概率上,矩阵服从RIP特性如果
(15)
其中为依赖于每一情形的常数。这些随机观测在某种意义下是通用的[23];稀疏基不必已知即使设计观测系统的时候。
VI.什么是压缩感知?
典型的数据获取过程如下:搜集到大量的数据,在压缩阶段大部分数据被丢弃,这对于存储和传输目的是必须的。用本文的语言讲,我们获得一个高分辨率像素阵列,计算传输系数的完整集合,编码最大的系数去处其他系数,本质上以告终。这种数据大量获取然后压缩的过程相当浪费(可以设想具有百万像素的数码相机,像素,最后编码图片使用几百KB)。
CS操作则不同了,完成“如果能够直接获取感兴趣物体的重要信息”。通过采取次随机投影如第五部分,我们拥有足够的信息重建信号具有精度像提供的,最好的S近似,最好的压缩表示。换句话说,CS数据获取协议本质上将模拟数据翻译为已压缩的数字信号形式,最起码在原理上,从少数传感器获取朝分辨率信号。在获取步骤后需要的是解压观测的数据。意想不到的是获取步骤是固定的,特别的,不需要求解信号结构,正如听到而没有听。
CS与编码理论中的观点有一些表面上的相似性,正似Reed-Solomon理论与实践[26]。在Nutshell和本文内容中,我们可以将编码理论中的观点改写过来:我们可以采用其前个Fourier系数唯一的重建任意稀疏信号,
(16)
或者利用任意2S个连续频率(恢复问题的计算成本为求解一个 Toeplitz系统和一个点FFT)。这是否意味着我们可以利用这个技术感知可压缩信号呢?答案是否定的,主要的两个原因如下。首先,Reed-Solomon解码是一个算术技术,不能处理非稀疏信号(解码通过求解多项式求根);第二,寻找信号的支撑的问题-即使当信号准确稀疏时-从前2S个Fourier系数是格外病态的(同样的问题利用高度聚簇的少量数据外推一个高自由度的多项式)。这些系数的小扰动将给出完全不同的结果这样对于有限精度数据,可信赖的支撑集估计实践上是不可能的。尽管完全代数方法忽略了信息操作符的条件作用,拥有Well-Conditioned矩阵,对于精确估计是必须的,是CS中的核心考虑正如RIP扮演的角色。
VII.应用
可压缩信号可以通过与其信息级成比例的非一致性测量有效采集的事实意味着大量可能的应用。
l 数据压缩。在某些情形下,稀疏基在解码端可能是未知的或者对于数据压缩来说是难以实际执行的。正如我们在第五部分讨论的,然而,一个随机设计的可以被认为是一个通用的编码方案,因为它不需要根据结构进行设计。(对于的知识和能力只有载解码恢复的时候需要)。这种通用性对于像传感器网络[27]一类的分布式多信号编码。我们建议读者查阅Nowak和Goyal的文章。
l 信道编码。正如[15]钟讨论的,CS原理(稀疏,随机,Convex最优化)可以转向并且应用于设计快速纠错码以防止传输过程中出现的错误。
l 逆问题。在其他条件下,获取的唯一方式是使用特定形态的观测系统。然而,假设信号的稀疏基存在且与非一致,然后有效的感知是可能的。这样的应用包括MR血管造影术[1]和其他类型的MR设置[28],其中记录了Fourier变换的子集,需要的图像在时域或者小波域是稀疏的。Lustig更加深刻的讨论了这个问题。
l 数据获取。最后,在某些重要条件下对于模拟信号完全采集个离散时间样本是困难得(可能对于随后的压缩也是困难的)。这里,设计直接记录离散、低码率的非一致观测是有益的。
最后这些子弹表明数学和计算方法可以在常规的硬件设计具有显著限制的领域发挥重要的作用。例如,使用CCD或者CMOS的常规的成像设备限制在感知可见光光谱。然而,一个CS相机[29]使用数字微镜阵列采集非一致测量(只需要一个感光元器件而不是百万个)可以显著的拓展这些特性。在别处,Baraniuk更加深刻的介绍了这个相机。
沿着同样的线,我们的部分研究注重在于对于宽带信号进行“模拟---信息”转换得设备(见Healy的文章。),我们的目标是减轻对于常规模拟-数字转换技术的压力,现在受限制到采样率为GHZ。作为一个选项,我们提出了两种用于A/I的特定结构,在其中离散、低码率非一致测量序列从宽带模拟信号采集而来。在很大程度上近似,每一个测量值可以解释为入射模拟信号与模拟测量波形的内积。在离散CS框架下,我们的初步结果表明服从稀疏或者可压缩模型的模拟信号(在某个模拟字典)可以通过以与其信息级别而不是Nyquist率成比例的采样率获取。当然,我们必须提到应用离散CS方法恢复稀疏模拟信号时面临的挑战。对于这些事情的彻底讨论超过了本文的讨论,作为一个初步,我们可以简单的接受这样一个观点:在很多情况下,对于稀疏字典的离散化/采样有合适的恢复。
我们的两个结构如下:
【Compressive|Compressive Sensing】1)非均匀采样器(NUS):我们的第一个结构简单的在随机时间点上对信号进行数字化。就是说,。有效的,这些随机或者伪随机时间点是通过位于规则格子上的点。由于冲击函数与正弦函数之间的非一致性,这种结构可以用于采样稀疏频谱在Nyquist之下的信号。这样可以带来很大的好处,包括降低采样率,增加电路设置时间,降低噪声等级。
2)随机预综合(RPI)。我们的第二种结构适用于更为广泛的稀疏域,最值得注意的是,那些在时间-频率平面具有稀疏特性的信号。尽管不大可能用很高的率数字化模拟信号,非常有可能在高的码率改变其极性。RPI结构的想法(见图5)然后是将信号与正1和负1的伪随机序列相乘,在时间窗上对积进行积分,数字化每一个时间段内的积分。这是一个并行结构,我们可以并行运行多个乘法器-积分器对采用独特的或者几乎独立的伪随机信号序列。事实上,RPI结构将信号与序列进行相关,其中的一个随机CS测量过程是通用的。

对于以上任何一种结构,我们已经在数字上(某些情况下物理上)确信这样的系统对于受到热噪声,时钟误差,干涉和放大器非线性影响的非理想电路是具有鲁棒性的。
A/I结构在实际获取场景中的应用将要求CS算法和理论的继续发展,包括模信号的合适的稀疏表示集合。我们用一个离散实例进行总结强调一些最近的有前景的方向。对于这个实例,我们选择为一个长度为512点包含2个调制脉冲的1维信号(见图6左边)从这个信号,我们采集次测量,应用一个由独立同分布的贝努力项组成的观测矩阵。这是不合理的少量数据对应着为采样因子超过17(512/30)17)。对于重建,我们考虑一个时频Gabor基,包含了大量受到高斯窗限制的正弦波形,具有不同的位置和尺度。全面地字典近似超完成,并且不包含组成的两个冲击。图6的中间显示了最小化的结果。重建结果明显很差,我们看到。然而,我们可以通过对于恢复程序的两项改变来优化结果。首先我们代之以(这项改变在为正交基时没有影响)。其次,在得到一个估计后,我们改变范数的权值并进行重建,低的惩罚施加于我们希望比较大的系数上。图6的右部分显示了四次变权值循环后的结果;我们看到。我们建议读者可以从[30]中获得更多的关于这些方向的信息。这里的一点是及时数据量相当小,我们仍然获得了信号中包含的大部分信息。这就是CS对于现在和将来的应用具有广阔前景的原因。

    推荐阅读