第二章 · 对抗样本的数学基础:梯度、范数与最小扰动
第二章 · 对抗样本的数学基础:梯度、范数与最小扰动
理解对抗样本,必须从“数学结构”层面入手。为什么极微小的扰动能欺骗模型?为什么机器学习模型对高维输入如此脆弱?本章将从梯度、Lp 范数、最小扰动理论等关键概念入手,为后续章节的攻击算法铺路。
1. 什么是对抗扰动(Adversarial Perturbation)
给定一个输入图像 ( x ) 和一个训练好的分类模型 ( f(\cdot) ):
我们希望找到一个 对人眼不可察觉但能误导模型的扰动:
[ x’ = x + \delta ]
使模型预测错误:
[ f(x’) \ne f(x) ]
并且扰动极小:
[ |\delta|_p \le \epsilon ]
其中:
- ( \delta ):对抗扰动
- ( \epsilon ):扰动限制(非常小,如 (8/255))
- ( |\cdot|_p ):Lp 范数
这个数学式子就是对抗攻击的核心。
2. 梯度为何能“制造错觉”?
深度模型的预测依赖于输入的 梯度敏感性。
对于一个分类模型,其 loss 为:
[ L(f(x), y) ]
如果对输入求梯度:
[ \nabla_x L ]
它表示:
如何改变输入能让模型损失最大、最不稳定。
对抗攻击的核心思想:
顺着梯度方向,让模型“痛点最大化”,就能制造对抗样本。
例子:FGSM(最基础的攻击)
使用符号梯度:
[ x’ = x + \epsilon \cdot \text{sign}(\nabla_x L) ]
只需一次梯度计算,就能让模型完全错误。
3. 为什么“微小扰动”在人眼不可见?
人类的视觉不是按像素独立看的,而是做模式识别。
但深度神经网络计算的是:
高维输入上的线性近似。
比如对于一张 224×224×3 的 RGB 图像,维度是:
[ 224 \times 224 \times 3 = 150,528\text{ 维} ]
在如此高维空间中:
- 微小扰动在每个维度都极小
- 但它们叠加的影响可能巨大
数学上:
[ w^T(x + \delta) = w^T x + w^T \delta ]
即使 (\delta) 看起来很小,
但内积 ( w^T\delta ) 会在高维空间中被 成千上万个维度放大。
4. Lp 范数的作用:衡量扰动“大小”的方式
对抗攻击中常见的三种范数:
### 1)L∞ 范数(最常用)
[ |\delta|_\infty = \max_i |\delta_i| ]
限制每个像素最大变化量,例如:
- ( \epsilon = 8/255 )
- 每个像素最多改动 3% 的灰度
- 人类几乎看不见
- 却能让模型完全失效
绝大多数对抗攻击都是 L∞ 的。
### 2)L2 范数(欧几里得距离)
[ |\delta|_2 = \sqrt{\sum_i \delta_i^2} ]
优势:
- 允许每个像素变化更自然
- 图像更加真实
经典攻击:C&W(Carlini & Wagner)
### 3)L0 范数(改动的像素数量)
[ |\delta|_0 = \text{number of non-zero pixels} ]
只改动少量像素,但改动幅度大。
常用于:
- patch 攻击
- 改小块区域
- 人脸眼镜贴纸攻击
5. 最小扰动问题(Optimization View)
对抗攻击本质上是一个 优化问题:
[ \text{minimize } |\delta|_p ]
[ \text{subject to } f(x+\delta) \ne y ]
这是一个困难的非凸优化问题。
不同攻击方法,就是用不同的方法近似求解这个问题:
- FGSM:一次梯度更新
- BIM / PGD:多步梯度下降
- C&W:直接优化扰动的数值
- NES / ZOO:黑盒估计梯度
- HSJ / Boundary:不看梯度,用几何逼近
6. 为什么“最小扰动”是对抗攻击成功的关键?
如果扰动太大,人眼会看到。
但最小扰动有三个优势:
✔ 隐蔽性强:难以人工检查
✔ 迁移性强:能在不同模型上成功
✔ 更难检测:传统去噪方法难以防御
许多攻击甚至可以把扰动缩在 1/255 量级以下。
7. Loss Landscape:对抗攻击的“地形图”
可以把模型的输出看作一个地形:
- “山谷”代表正确预测
- “山脊”代表错误预测区域
模型往往在山谷中非常狭窄:
稍微推动一下,就会掉进山谷外。
对抗扰动就是在高维地形上“轻轻一推”,
就能让模型掉进错误区域。
我们后续章节会展示不同攻击如何利用这个地形结构。
8. 小结:本章的关键要点
- 对抗样本的数学定义:
[ x’ = x + \delta, \quad |\delta|_p \le \epsilon ] - 梯度是寻找脆弱方向的关键
- 高维空间让“微扰动”产生巨大影响
- Lp 范数定义扰动大小
- 最小扰动是优化问题
- 对抗攻击的核心是:
利用模型的高维脆弱性 + 梯度敏感性