今天看的一篇是课程要求的《Intriguing properties of neural networks》,其核心观点有以下两点:

  1. 对于神经网络可解释性的研究:

    神经网络单个高层单元(靠近输出层)并不代表具体的语义信息(这里的语义信息是指如猫的耳朵等);神经网络整体高层的特征空间(高层所有经过激活函数产生的激活值构成的空间)构成了语义空间。

  2. 对抗样本具有泛化性:

    每张图片都可以产生对抗样本,对抗样本可以跨模型、跨数据集“作案”。

    原因:极小的扰动经过神经网络的传递,放大,造成最后结果的错误。

神经网络:高表达能力,低可解释性、低鲁棒性。

证明观点1(反证法)

引入两个公式

  • $x' = \underset{x \in \mathcal{I}}{\arg \max} \langle \phi(x), e_i \rangle$

  • $x' = \underset{x \in \mathcal{I}}{\arg \max} \langle \phi(x), v \rangle$

两个公式的区别在于求内积的对象,一个是$e_i$,一个是$v$,前者是自然基数,后者是随机基数。

$\mathcal{I}$表示所有输入图像的集合$x$则为当前输入的图片,$ \phi(x)$为输入图像$x$得到的激活值

该公式(第一个公式)意在找出单个高层神经网络的最强激活图(找到那个能过最大化该单元激活值的图像)。

为什么要找单个高层神经网络的最强激活图?

传统计算机视觉中,人工设计的特征空间里每一维度(自然基)都对应一个可解释的具象图片特征,研究人员将这一思路直接迁移到神经网络的分析中,默认神经网络隐藏层 / 高层的特征空间,其自然基(即单个神经元对应的维度)也和传统视觉一样对应着输入的某一个具象、独立的可解释语义特征。

因此,研究人员采用寻找最强激活图的方法(即寻找能让目标神经元激活值最大化的输入图像),试图通过这个激活图,精准确认该单个神经元具体对应人类可理解的哪一个具象语义特征(如猫的耳朵、水平边缘、圆形轮廓等)。

自然基(说人话):自然基就是目标高层神经网络的维度坐标,比如目标的高层神经网络在第一维度,若有n个维度,则其自然基为[1,0,0…n-3个0]。

这样通过激活值与自然基做内积便可求得目标高层神经网络对于当前输入图像$x$的值。

第二个公式则采用随机基(包含多个维度,也就是多个高层神经单元的坐标),内积运算产生的是多个高层神经单元的激活值之和。

结果:通过第二个公式找到的随机基激活图x′,和第一个公式的自然基激活图x′一样,都会呈现出清晰的语义关联性。故单个的高层神经网络并不具备更高的语义关联性,得证。

对抗样本

首次系统性定义了对抗样本:

对一张网络能正确分类的正常图片 x,施加一个人类视觉完全无法察觉的微小扰动 r,得到新图片 x+r;这个新图片人眼看和原图没区别,但网络会彻底错误分类,这个 x+r 就是对抗样本。

构造对抗样本的方案:

定目标:选一张正常图 x(比如熊猫),定一个目标错误标签 l(比如鸵鸟),要让网络把 x+r 分类成 l;
加约束:第一,扰动 r 要尽可能小(保证人眼看不出来);第二,改后的图片 x+r 的像素值符合正常图片的像素范围 找扰动:用优化算法一点点调整像素,直到满足 “网络分类为 l”,同时扰动达到最小 —— 这个最小的 r,就是我们要的对抗扰动,x+r 就是对抗样本。

未完…待补充,这篇有点头疼