Adversarial Input(对抗性输入)
一、定义
Adversarial Input是指在机器学习和人工智能领域中,经过精心设计或修改的输入数据,其目的是使机器学习模型(如神经网络、分类器等)产生错误的输出或行为。这些输入数据通常是在原始正常数据的基础上添加了微小的、难以察觉的扰动,从而欺骗模型做出不准确的预测或决策。
二、产生原理
(一)基于梯度的扰动生成
- 快速梯度符号法(FGSM)原理
- 对于一个给定的机器学习模型(f(x)),其输入为(x),输出为预测结果(如分类结果)。假设模型的损失函数为(L(f(x),y))(其中(y)是真实标签)。FGSM通过计算损失函数对输入(x...