Black-Box Attack-Based Security Evaluation Framework forCredit Card Fraud Detection Models

动机

AI模型容易受到对抗性攻击（对样本添加精心设计的扰动生成对抗性示例）

现有的对抗性攻击可以分为白盒攻击和黑盒攻击。

白盒攻击：攻击者可以访问有关目标模型的所有信息，包括训练集、类型、结构和参数。

黑盒攻击：只知道给定输入样本的输出。

其中黑盒模型可以分为三类：迁移、分数、决策。

黑盒攻击所需的信息更少，更难以实现。但是一旦实现了较好的黑盒攻击，将会使得银行和个人更加难以察觉盗刷、进而造成更大的损失。

一方面，难以确认现有算法在面对黑盒攻击时是否存在风险。另一方面，现有的黑盒算法来评估模型的安全性也并不容易，因为既不能直接得到预测分数，又会需要对模型进行大量的查询。没有分数，基于分数和决策的黑盒算法直接失效，而大量的测试会影响效率，也会增加被抓的风险，基于迁移的算法也难以实现。

因此，文章的目标是设计一种不需要大量查询的迁移算法，实现更强大的攻击模型。

这个流程图画得挺乱的。

模型的流程：

银行使用训练集\(D_{tr}\)和验证集\(D_{va}\)训练和优化目标模型O
欺诈者随机选择\(\tau\)个训练集中的数据，并只保留\(\beta\)个特征，得到样本集\(D'_{tr}\)，从中选取\(\delta\)个样本使用O得到标签\(L\)，其余得构成无标签数据集\(U\)，再使用半监督学习模型对\(U\)进行选择性标记，增强\(L\)得到增强数据集\(L_{aug}\)
使用\(L_{aug}\)训练替代模型\(C\)，文章尝试了Linear-SVM和RBF-SVM两种替代模型。
基于替代模型\(C\)生成对抗样本集\(D_{adv}\)，使用改进的非线性优化模型求解生成每个正样本的对抗样本。
评估O的安全性。在不同攻击强度\(p\)下计算O在\(D_{adv}\)上的分类准确率Acc(p)，以及模型的安全性SEI