范数|人工智能的梦魇：对抗攻击( 二 )

不同任务间
对抗样本在执行不同任务的模型之间也存在可迁移性，如语义分割、图像分割、目标检测等任务之间
不同技术间
对抗样本在不同机器学习技术之间，比如SVM和DNN之间存在迁移性
对抗样本可迁移性的程度与以下因素有关：
对抗程度
[18]指出误分类率高的对抗样本其可迁移性反而较差
模型类型
[19]指出神经网络、k近邻这类机器学习技术，其对抗样本在跨技术的模型中迁移性更强；而线性回归、支持向量机、决策树等方法，其生成的对抗样本在相同技术模型内的可迁移性更强
攻击类型
[17]指出执行非定向攻击得到的对抗样本其可迁移性比进行定向攻击得到的对抗样本更强
统计规律
[16]指出在同一数据集上训练的不同模型间的可迁移性较强，因为这些模型学习的是相同的统计信息，所以会被同一对抗样本欺骗
评估生成对抗样本的方案这么多，那么怎么对其进行评估呢？一般我们主要考虑以下方面
误分类
对抗样本的产生就是为了让模型对其误分类，所以评估误分类是首要的，这方面主要考虑两个指标，一个是误分类率，即能够成功欺骗模型的样本数占总样本数的比例，另一个是误分类置信度，其表示成本使模型误分类的对抗样本输入模型时，模型给出的置信度水平。
隐蔽性
对抗样本在让模型误分类的同时还需要确保人类不会发觉，所以需要衡量其隐蔽性，一般使用Lp范数进行度量。
鲁棒性
对抗样本在实际应用过程中可能会受到各种因素干扰，所以需要评估此时对抗样本的鲁棒性，一种常见的做法就是对其进行处理，如加噪声、压缩等，测试处理后的对抗样本是否仍能被模型误分类。
效率
不同方案对攻击能力、知识等要求不同，在生成对抗样本的时间、资源要求上也不一样，这也是需要考虑的一方面。
攻击根据攻击的目标可以分为定向攻击和非定向攻击，根据攻击频率可以分为单步攻击和迭代攻击，根据攻击攻击者的知识，将攻击分为白盒、灰盒、黑盒。
在黑盒模型中，攻击者仅能与模型进行交互，得到样本的预测结果，然后使用成对的数据集(样本，预测结果)等训练替代分类器，在替代分类器上进行对抗攻击，由于对抗样本的可迁移性，由此生成的对抗样本可以对目标模型实现攻击。对抗样本在不同模型间的迁移能力或者说泛化能力是对抗扰动与模型的
在灰盒模型中，攻击者除了可以与模型交互外，还知道模型的结构或者攻击者知识的部分，此时攻击者可以利用已知的结构信息构造更精确的替代分类器，然后进行攻击，显而易见，其攻击性能优于黑盒模型。
在白盒模型中，攻击者知道模型的全部信息，所以其攻击效果是最强的。
典型对抗攻击算法L-BFGS[1]首先发现某些人类难以察觉的扰动会引起模型对图片的错误分类，并提出一种称为L-BFGS的方法，通过最小化Lp范数找到这种扰动，公式为：

文章插图
但是该问题不易求解，所以使用最小化混合损失，即用下式来替代求解

文章插图
并通过线性搜索找到最优解
作者实验中给出的的生成的对抗样本如下

文章插图
FGSM[2]通过在原样本的L_infty范数限制下生产对抗样本，这是一种典型的一步攻击算法，通过沿着对抗损失函数的梯度方向(符号方向)执行一步更新，以增加最陡峭方向上的损失，其公式如下
这本身是一种非定向攻击，通过降低