对抗样本生成算法之BIM算法对抗样本

论文主要内容
BIM算法原理
ILCM算法原理
实验效果
物理世界实验

论文 2017ICLR-Adversarial Examples in the physical world.
论文主要内容

提出了BIM攻击算法，即迭代FGSM（I-FGSM）算法
提出ILCM最相似迭代算法（Iterative Least-likely Class Method）
进行实验，验证了在真实物理环境中，通过图像采集得到的对抗样本是否依旧能够使得分类器分类错误。

相对于FGSM的单步攻击，I-FGSM分多步添加噪声，更能拟合模型参数，因此通常表现出比FGSM更强的白盒能力。
BIM算法原理 FGSM里面，每次寻找对抗样本的时候，直接是 x + ? ? s i g n ( ? x J ( x , y ) ) x+\epsilon*sign(?_xJ(x,y)) x+??sign(?x?J(x,y))，这样是把每个像素点都变化了 ? \epsilon ? 这么大。这个改动其实是挺大，因为每个像素点都动了。
FGSM提出的理论假设：假设目标损失函数 J ( x , y ) J(x,y) J(x,y)与 x x x之间是近似线性的，即 J ( x , y ) ≈ w T x J(x,y)≈w^Tx J(x,y)≈wTx，然后我们想往 x x x加上一个小的扰动 η \eta η，使得 J ( x , y ) J(x,y) J(x,y)变化最大。而 J ( x + η , y ) ? J ( x , y ) ≈ w T η J(x+\eta,y)?J(x,y)≈w^T\eta J(x+η,y)?J(x,y)≈wTη，要使最大，最好是直接 η = ? ? s i g n ( ? x J ( x , y ) ) \eta=\epsilon*sign(?_xJ(x,y)) η=??sign(?x?J(x,y))。
然而，这个线性假设不一定正确，如果 J J J和 x x x不是线性的，那么在 ( 0 ， ? ? s i g n ( ? x J ( x , y ) ) ) (0，\epsilon*sign(?_xJ(x,y))) (0，??sign(?x?J(x,y)))之间是否存在某个扰动，使得 J J J增加的也很大，此时 x x x的修改量就可以小于 ? \epsilon ?。
【对抗样本生成算法之BIM算法】于是，作者就提出迭代的方式来找各个像素点的扰动，而不是一次性所有像素都改那么多，即迭代式的FGSM，也就是I-FGSM(Iterative FGSM)或BIM(Basic Iterative Method)。公式如下：

文章图片

迭代的含义：每次在上一步的对抗样本的基础上，各个像素增长 α \alpha α（或者减少），然后再执行裁剪，保证新样本的各个像素都在 x x x的 ? \epsilon ? 邻域内。这种迭代的方法是有可能在各个像素变化小于 ? \epsilon ? 的情况下找到对抗样本的，如果找不到，最差的效果就跟原始的FGSM一样。
裁剪(Clip)：在迭代更新过程中，随着迭代次数的增加，样本的部分像素值可能会溢出，比如超出0到1的范围，这时需将这些值用0或1代替，最后才能生成有效的图像。该过程确保了新样本的各个像素在原样本各像素的某一领域内，不至于图像失真。
ILCM算法原理该算法是I-FGSM的难度升级版，将输入图像分类成原本最不可能分到的类别，公式如下所示。原本No-targeted Attacks只需要让模型分类错误就算攻击成功，而现在需要模型将攻击图像分类成原本分类概率极低的类别，难度可想而知。当然，这部分内容其实是有Targeted Attacks的雏形，因为可以指定攻击类别。从公式中可以看到和前面无目标攻击公式的最大区别在于 α \alpha α前面的加号变成减号，同时原本的真实标签 y t r u e y_{true} ytrue?变成 y L L y_{LL} yLL?，这2个修改使得模型优化的目标是最终对应类别为 y L L y_{LL} yLL?的分类概率越来越大，这和常规的分类模型训练类似，只不过监督信息并不是真实标签，而是指定的一个标签。

文章图片

这个 y L L y_{LL} yLL?是原输入图像在分类模型中分类概率最小的类别，可以通过如下式子计算得到：

文章图片

实验效果当 ? \epsilon ?比较小的，I-FGSM的攻击效果比原始的FGSM好，而且ILCM的攻击效果最好，从图片上也能看出ILCM的改动是最小的。

文章图片

物理世界实验以往在机器学习的对抗样本研究都是直接在图像本身上研究的。生成的对抗样本通过直接调用API输入到DNN中。然而，在现实中，图像都是基于感光设备采集的。在其生成图像时，由于光线的影响、摄像头位置的影响等等，使得引入噪声，造成攻击者千方百计在图像中添加的微小干扰被破坏掉。
作者直接对对抗图片进行拍照，让模型对拍照结果进行分类，观察被照相机拍照后是否还具有对抗效果。
实验步骤：

使用ImageNet训练一个Inception V3网络。
寻找验证集里面特定样本的对抗样本（使用不同的对抗方法以及不同的 ? \epsilon ?）
把原始样本和对抗样本打印出来，并用手机拍这些打印出来的图片，图片有二维码定位用。
使用Inception V3模型识别手机拍出来的图片。

实验结果：

文章图片

作者把这种感光设备采集图像中引入噪声的过程叫做 photo transformation，然后这些transformation又可以看作是改变光照、模糊、加入噪声的这些子变化的合成，并做实验量化这些transformation的影响。
从表中可以看到，Photo Transformation对对抗样本的对抗性有一定的损失作用。其中FGSM的影响相对比较小，因为FGSM改动大。而对I-FGSM的影响比较大，这是因为它们的扰动值更小，比较容易被破坏。