人工智能学术顶会——NeurIPS 2022 议题（网络安全方向）清单、摘要与总

栏目：人物资讯时间：2023-08-09

　　按语：随着大模型的崛起，将AI再次推向一个高峰，受到的关注也越来越大。在网络安全领域，除4大安全顶会外，一些涉及AI的安全话题，包括对AI的攻防研究，以及应用AI做安全的研究方向，也会发表在AI顶会上。但是，像NeurIPS 2022年的议题就有2834个（2023年还在 call for papers），手工翻一遍都得很久，何况还要分类出安全主题的，更是费劲，因此我利用AI去做主题分类，把感兴趣的议题识别出来并自动翻译，可以大大地节省议题筛选的时间。其它AI顶会每年的议题量也是数以千计，多得根本看不过来。在这个论文主题分类上，发现还是GPT4比较准确，其它都不行，排第二名的是Claude+，其次是ChatGPT。奈何GPT4的用量有限，没法直接用来分析这近3千个议题。总之，用大模型来洞察行业技术发展也是个不错的尝试，下次有时间可以开发个“基于AI的网络安全技术洞察系统”，AI都帮我起好名称了——“鹰眼”。

　　总结

　　NeurIPS顶会中关于网络安全的议题，主要涵盖以下方向:

　　对抗样本攻击与防御:仍然是热门问题,包括对抗训练、对抗性防御、量化鲁棒性等。当前基本解决攻击者已知的情况,但面对未知攻击尚无有效方法。

　　数据毒化、后门攻击与防御:后门攻兴起已久,但仍存在难以消除和检测已有后门的问题。目前防御仍需要改进。

　　隐私机器学习:差分隐私机器学习和联邦学习持续不断地改进,但仍存在难题。

　　强化学习安全性:针对强化学习中的后门与对抗等挑战方面仍少量工作。

　　热门方向:

　　对抗样本攻击与防御；

　　数据毒化攻击与防御；

　　隐私机器学习。

　　冷门方向:

　　利用频域重新思考CNN的鲁棒性;

　　利用社交媒体评论增强文本分类;

　　考虑新增量子对抗曲率加密的攻击方法。

　　值得更多关注的是强化学习安全性、未知攻击下的鲁棒性、可解释性下的网络安全。

　　1、A General Framework for Auditing Differentially Private Machine Learning

　　Fred Lu, Joseph Munoz, Maya Fuchs, Tyler LeBlond, Elliott Zaresky-Williams, Edward Raff, Francis Ferraro, Brian Testa

　　我们提出了一个框架，用于在实践中统计审核差分隐私机器学习器所提供的隐私保证。虽然以前的研究已经采取措施通过污染攻击或成员推断来评估隐私损失，但它们都是针对特定模型进行了定制，或者证明了低统计功率。我们的工作开发了一种通用方法，结合改进的隐私搜索和验证方法以及基于影响的污染攻击工具包，来实证评估差分隐私机器学习实现的隐私性。我们在包括逻辑回归、朴素贝叶斯和随机森林在内的各种模型上展示了显著改进的审核能力。我们的方法可以用于检测由于实现错误或误用而造成的隐私违规。当没有违规时，它可以帮助理解给定数据集、算法和隐私规范泄漏的信息量。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/1add3bbdbc20c403a383482a665eb5a4-Paper-Conference.pdf

　　2、A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks

　　Ganqu Cui, Lifan Yuan, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun

　　文本后门攻击是NLP系统面临的一种实际威胁。通过在训练阶段注入后门，攻击者可以通过预定义的触发器控制模型预测。由于已经提出了各种攻击和防御模型，因此进行严格的评估非常重要。然而，我们强调先前的后门学习评估存在两个问题：（1）忽略了现实世界场景的差异（例如发布有毒的数据集或模型），我们认为每个场景都有自己的限制和关注点，因此需要特定的评估协议；（2）评估指标仅考虑攻击是否能够翻转模型对有毒样本的预测并在良性样本上保持性能，但忽略了有毒样本也应该是隐蔽和语义保持的。为了解决这些问题，我们将现有工作分为三个实际场景，其中攻击者分别发布数据集、预训练模型和微调模型，然后讨论它们独特的评估方法。在指标方面，为了完全评估有毒样本，我们使用语法错误增加和困惑度差异来衡量隐蔽性，以及文本相似性来衡量有效性。在规范化框架之后，我们开发了一个开源工具包OpenBackdoor，以促进文本后门学习的实现和评估。使用此工具包，我们进行了广泛的实验，以基准测试建议范例下的攻击和防御模型。为了促进针对有毒数据集的未开发防御，我们进一步提出了CUBE，一个简单而强大的基于聚类的防御基线。我们希望我们的框架和基准测试可以作为未来模型开发和评估的基石。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/2052b3e0617ecb2ce9474a6feaf422b3-Paper-Datasets_and_Benchmarks.pdf

　　3、Accelerating Certified Robustness Training via Knowledge Transfer

　　Pratik Vaishnavi, Kevin Eykholt, Amir Rahmati

　　训练深度神经网络分类器以在对抗攻击下具有可证明的鲁棒性对于确保AI控制系统的安全性和可靠性至关重要。虽然已经开发了许多最先进的认证训练方法，但它们在计算上是昂贵的，并且在数据集和网络复杂性方面的扩展性较差。认证训练的广泛使用受到定期重新训练是必要的以纳入新数据和网络改进的事实的进一步阻碍。在本文中，我们提出了一种名为Certified Robustness Transfer（CRT）的通用框架，通过知识转移来降低任何可证明的鲁棒训练方法的计算开销。给定一个鲁棒的老师，我们的框架使用一种新的训练损失将老师的鲁棒性转移到学生身上。我们提供CRT的理论和实证验证。我们在CIFAR-10上的实验表明，CRT在三个不同架构代的情况下平均加速了8倍的认证鲁棒性训练，同时实现了与最先进方法相当的鲁棒性。我们还表明，CRT可以扩展到像ImageNet这样的大规模数据集。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/22bf0634985f4e6dbb1fb40e247d1478-Paper-Conference.pdf

　　4、Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face Recognition

　　Shuai Jia, Bangjie Yin, Taiping Yao, Shouhong Ding, Chunhua Shen, Xiaokang Yang, Chao Ma

　　深度学习模型在应对对抗攻击时表现出了其脆弱性。现有的攻击几乎都是在低级实例（如像素和超像素）上进行的，并且很少利用语义线索。对于面部识别攻击，现有的方法通常在像素上生成l_p范数扰动，然而，这导致攻击可转移性较低，对去噪防御模型的脆弱性较高。在这项工作中，我们不是在低级像素上进行扰动，而是建议通过扰动高级语义来生成攻击，以提高攻击可转移性。具体而言，我们设计了一个统一的灵活框架——Adversarial Attributes (Adv-Attribute)，用于在面部识别中生成不引人注目且可转移的攻击，该框架通过根据目标的面部识别特征差异来设计对抗性噪声，并将其添加到不同的属性中。此外，我们引入了重要度感知的属性选择和多目标优化策略，以进一步确保隐秘性和攻击强度的平衡。在FFHQ和CelebA-HQ数据集上进行了大量实验证明，所提出的Adv-Attribute方法在维持较好的视觉效果的同时，实现了最先进的攻击成功率。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/dccbeb7a8df3065c4646928985edf435-Paper-Conference.pdf

　　5、Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks

　　Sizhe Chen, Zhehao Huang, Qinghua Tao, Yingwen Wu, Cihang Xie, Xiaolin Huang

　　基于分数的查询攻击（SQAs）通过在数十个查询中仅使用模型的输出分数来制作对抗扰动，对深度神经网络构成实际威胁。然而，我们注意到，如果输出的损失趋势稍微受到干扰，SQAs就可能很容易被误导，从而变得不太有效。基于这个想法，我们提出了一种新颖的防御方法，即针对攻击者的对抗攻击（AAA），通过轻微修改输出 logits 来混淆 SQAs，使其朝错误的攻击方向发展。通过这种方式，(1)无论模型的最坏情况下的鲁棒性如何，都可以防止 SQAs; (2)原始模型的预测几乎不会改变，即干净准确率不会降低; (3)同时可以改善置信度分数的校准。我们进行了大量实验来验证上述优点。例如，在 CIFAR-10 上将 ?∞=8/255 设置为 AAA，我们的提出的 AAA 可以帮助 WideResNet-28 在 Square 攻击（2500 次查询）下获得80.59%的准确率，而最佳的先前防御（即对抗性训练）仅获得67.44%的准确率。由于 AAA 攻击了 SQAs 的通用贪婪策略，因此 AAA 相对于 8 种防御措施的优势可以在 6 种 SQAs、使用不同攻击目标、边界、范数、损失和策略的 8 个 CIFAR-10 / ImageNet 模型上持续观察到。此外，AAA 通过改进校准而不降低准确率。我们的代码可在 https://github.com/Sizhe-Chen/AAA 上获得。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/5fa29a2f163ce2020769eca8956e2d77-Paper-Conference.pdf

　　6、Adversarial Robustness is at Odds with Lazy Training

　　Yunjuan Wang, Enayat Ullah, Poorya Mianjy, Raman Arora

　　最近的研究表明，对于随机神经网络存在对抗样本[Daniely和Schacham，2020]，并且可以使用单步梯度上升[Bubeck等，2021]找到这些样本。在本文中，我们将这一研究延伸到神经网络的“懒惰训练”——在深度学习理论中占主导地位的模型，其中神经网络可以被证明是高效可学习的。我们展示了过度参数化的神经网络可以保证良好的泛化性能和强大的计算保证，但仍然容易受到使用单步梯度上升生成的攻击。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/2aab664e0d1656e8b56c74f868e1ea69-Paper-Conference.pdf

　　7、Adversarial Training with Complementary Labels: On the Benefit of Gradually Informative Attacks

　　Jianan Zhou, Jianing Zhu, Jingfeng ZHANG, Tongliang Liu, Gang Niu, Bo Han, Masashi Sugiyama

　　对于带有不完整监督的对抗训练（AT）的研究尽管具有重要意义，但受到了限制性的关注。为了将AT推向更实际的场景，我们探索了一个全新且具有挑战性的设置，即使用补充标签（CLs）进行AT，这些标签指定了一个数据样本不属于的类。然而，将AT与现有的CLs方法直接组合会导致一致的失败，但不会在两阶段训练的简单基线上失败。在本文中，我们进一步探索了这种现象，并确定了AT与CLs面临的根本挑战，即难以处理的对抗优化和低质量的对抗样本。为了解决上述问题，我们提出了一种新的学习策略，使用逐步信息攻击，它包括两个关键组件：1）热身攻击（Warm-up）轻轻提高对抗扰动预算以缓解与CLs的对抗优化；2）伪标签攻击（PLA）将逐步具有信息的模型预测整合到校正的补充损失中。进行了大量实验，以证明我们的方法在一系列基准数据集上的有效性。代码可在以下网址公开获取：https://github.com/RoyalSkye/ATCL。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/959f70ee50044bed305e48e3484005a7-Paper-Conference.pdf

　　8、Adversarial training for high-stakes reliability

　　Daniel Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Benjamin Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas

　　在未来，强大的人工智能系统可能会被部署在高风险的场景中，如一次失败可能会造成灾难性的后果。提高高风险场景下人工智能安全性的一种技术是对抗训练，它利用对手生成示例来进行训练，以实现更好的最坏情况性能。在这项工作中，我们使用了一个安全的语言生成任务（“避免受伤”）作为通过对抗训练实现高可靠性的测试平台。我们创建了一系列对抗训练技术，包括一种协助人类对手的工具，以查找并消除过滤器中的失误。在我们的任务中，我们发现可以设置非常保守的分类器阈值，而不会显著影响过滤输出的质量。我们发现，对抗训练显著增加了对我们进行训练的对抗攻击的鲁棒性，将发现对抗性示例的时间从没有工具的情况下增加了三倍，而有了我们的工具后增加了一倍（从13分钟增加到26分钟），而不影响分布内性能。我们希望看到更多的高风险可靠性设置的工作，包括更强大的工具来增强人类对手，以及更好的衡量高可靠性的方法，直到我们可以自信地排除强大模型在部署时发生灾难性失败的可能性。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/3c44405d619a6920384a45bce876b41e-Paper-Conference.pdf

　　9、Amplifying Membership Exposure via Data Poisoning

　　Yufei Chen, Chao Shen, Yun Shen, Cong Wang, Yang Zhang

　　随着野外数据在训练阶段中的应用越来越多，机器学习应用变得更易受到数据污染攻击。这些攻击通常会导致测试时准确度下降或者受到控制的误判。在本文中，我们调查了数据污染的第三种利用方式——增加对良性训练样本隐私泄露的风险。为此，我们展示了一组数据污染攻击，以放大目标类别的成员曝光率。我们首先提出了一个通用的针对有监督分类算法的脏标签攻击。然后，在迁移学习场景下，我们提出了一种基于优化的干净标签攻击，其中污染样本被正确标记并且“自然”以逃避人工审核。我们在计算机视觉基准测试中广泛评估了我们的攻击。我们的结果表明，所提出的攻击可以大幅提高成员推断的准确性，同时最小化测试时模型性能的总体下降。为了减轻我们攻击可能带来的负面影响，我们还调查了可行的对策。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/c0f240bb986df54b38026398da1ae72a-Paper-Conference.pdf

　　10、Anonymized Histograms in Intermediate Privacy Models

　　Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi

　　我们研究了私密计算匿名直方图（又称未标记直方图）的问题，该直方图定义为没有项目标签的直方图。以前的工作在差分隐私（DP）的中心模型中提供了具有Oε（√n）的?1和?22误差的算法。在这项工作中，我们提供了一个算法，在混洗DP和全局隐私模型中具有近乎匹配的误差保证，即?Oε（√n）。我们的算法非常简单：它只是后处理离散Laplace噪声的直方图！使用这个算法作为子程序，我们展示了在私密估计分布的对称性质，如熵、支持覆盖和支持大小方面的应用。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/380afe1a245a3b2134010620eae88865-Paper-Conference.pdf

　　11、Are You Stealing My Model? Sample Correlation for Fingerprinting Deep Neural Networks

　　Jiyang Guan, Jian Liang, Ran He

　　一款现成的模型作为商业服务可能会遭遇模型窃取攻击，这对模型所有者的权益构成了巨大威胁。模型指纹技术旨在验证可疑模型是否是从受害模型中盗取的，这在当今引起了越来越多的关注。以往的方法通常利用可转移的对抗样本作为模型指纹，这对于对抗防御或迁移学习场景非常敏感。为解决这个问题，我们考虑样本之间的成对关系，并提出了一种基于样本相关性（SAC）的新颖而简单的模型窃取检测方法。具体而言，我们提出了SAC-w，它选取被错误分类的正常样本作为模型输入，并计算它们的模型输出之间的平均相关性。为了缩短训练时间，我们进一步开发了SAC-m，它选取CutMix增强样本作为模型输入，无需训练代理模型或生成对抗样本。广泛的结果验证了SAC成功抵御各种模型窃取攻击，甚至包括对抗训练或迁移学习，并在不同数据集和模型架构上以AUC为指标展现了最佳性能。代码可在https://github.com/guanjiyang/SAC上获取。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/ed189de2611f200bd4c2ab30c576e99e-Paper-Conference.pdf

　　12、Autoregressive Perturbations for Data Poisoning

　　Pedro Sandoval-Segura, Vasu Singla, Jonas Geiping, Micah Goldblum, Tom Goldstein, David Jacobs

　　社交媒体数据采集作为获取数据集的手段的普及，引发了对数据未经授权使用的日益关注。数据中毒攻击被提出作为抵御采集的防线，因为它们通过添加微小、不可察觉的扰动使数据无法被“学习”。不幸的是，现有方法需要知道目标架构和完整数据集的信息，以便训练代理网络，其参数用于生成攻击。在本文中，我们介绍了自回归（AR）中毒，一种可以生成中毒数据而无需访问更广泛数据集的方法。所提出的自回归扰动是通用的，可以应用于不同的数据集，并可以中毒不同的架构。与现有的不可学习方法相比，我们的AR毒素更加抵抗常见的防御措施，如对抗性训练和强数据增强。我们的分析进一步提供了什么因素构成有效的数据毒素的见解。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/af66ac99716a64476c07ae8b089d59f8-Paper-Conference.pdf

　　13、BackdoorBench: A Comprehensive Benchmark of Backdoor Learning

　　Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Chao Shen

　　后门学习是研究深度神经网络易受攻击性的一个新兴而重要的主题。许多开创性的后门攻击和防御方法正在以快速的军备竞赛的状态下相继提出。然而，我们发现新方法的评估往往不够彻底，无法验证它们的声明和准确性能，主要是由于快速发展、不同的设置以及实现和再现的困难。没有彻底的评估和比较，很难跟踪当前的进展并设计文献未来的发展路线图。为了缓解这一困境，我们建立了一个全面的后门学习基准称为BackdoorBench。它由一个可扩展的基于模块的代码库（目前包括8个最先进的攻击和9个最先进的防御算法的实现）和一个完整后门学习的标准化协议组成。我们还对8个攻击和9个防御之间的每一对进行全面的评估，使用5个模型和4个数据集，因此总共有8,000对评估。我们从不同的角度提供了关于这8,000个评估的丰富分析，研究后门学习中不同因素的影响。BackdoorBench的所有代码和评估都可以公开获取，网址为https://backdoorbench.github.io。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/4491ea1c91aa2b22c373e5f1dfce234f-Paper-Datasets_and_Benchmarks.pdf

　　14、BadPrompt: Backdoor Attacks on Continuous Prompts

　　Xiangrui Cai, Haidong Xu, Sihan Xu, Ying ZHANG, Yuan xiaojie

　　最近，基于提示的学习范式受到了广泛的研究关注。它在几个自然语言处理任务中取得了最先进的性能，特别是在少样本情况下。尽管在引导下游任务的同时，很少有工作涉及到研究基于提示模型的安全问题。本文针对连续提示学习算法的后门攻击漏洞进行了首次研究。我们观察到，少样本情况对基于提示的模型的后门攻击构成了巨大的挑战，限制了现有自然语言处理后门方法的可用性。为了解决这个挑战，我们提出了BadPrompt，一个轻量级和任务自适应算法，用于后门攻击连续提示。具体来说，BadPrompt首先生成候选触发器，这些触发器能够预测目标标签，并且与非目标标签的样本不相似。然后，它使用自适应触发器优化算法，自动选择对每个样本最有效且不可见的触发器。我们在五个数据集和两个连续提示模型上评估了BadPrompt的性能。结果表明，BadPrompt能够有效地攻击连续提示，同时在干净的测试集上保持高性能，远远超过基准模型。BadPrompt的源代码是公开可用的。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/f0722b58f02d7793acf7d328928f933a-Paper-Conference.pdf

　　15、BagFlip: A Certified Defense Against Data Poisoning

　　Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni

　　机器学习模型容易受到数据污染攻击，攻击者恶意修改训练集以改变学习模型的预测结果。在无触发器攻击中，攻击者可以修改训练集但不能修改测试输入，而在后门攻击中，攻击者还可以修改测试输入。现有的模型无关防御方法要么无法处理后门攻击，要么不能提供有效的证明（即防御的证明）。我们提出了BagFlip，这是一种模型无关的认证方法，可以有效地防御无触发器攻击和后门攻击。我们在图像分类和恶意软件检测数据集上评估了BagFlip。对于无触发器攻击，BagFlip与最先进的方法相当或更有效，对于后门攻击，BagFlip比最先进的方法更有效。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/cc19e4ffde5540ac3fcda240e6d975cb-Paper-Conference.pdf

　　16、Blackbox Attacks via Surrogate Ensemble Search

　　Zikui Cai, Chengyu Song, Srikanth Krishnamurthy, Amit Roy-Chowdhury, Salman Asif

　　黑盒对抗攻击可分为转移和查询两种类型。转移方法不需要受害模型的任何反馈，但与查询方法相比，成功率较低。查询攻击通常需要大量的查询才能成功。为了实现两种方法的最佳结合，最近的研究尝试将它们结合起来，但仍需要数百个查询才能实现高成功率（特别是针对性攻击）。在本文中，我们提出了一种通过代理集成搜索（BASES）进行黑盒攻击的新方法，可以使用极少量的查询生成高度成功的黑盒攻击。我们首先定义了一个扰动机器，通过最小化固定集合上的一组代理模型的加权损失函数来生成扰动图像。为了针对给定的受害模型生成攻击，我们使用扰动机器生成的查询在损失函数的权重上进行搜索。由于搜索空间的维数很小（与代理模型的数量相同），因此搜索只需要少量查询。我们证明了我们提出的方法在使用比ImageNet（包括VGG-19、DenseNet-121和ResNext-50）训练的不同图像分类器时，与最先进的方法相比，使用至少30倍少的查询可以实现更好的成功率。特别是，我们的方法平均每个图像只需要3个查询就可以实现针对性攻击的90%以上的成功率，对于无目标攻击，每个图像只需要1-2个查询就可以实现99%以上的成功率。我们的方法在Google Cloud Vision API上也很有效，每个图像只需要2.9个查询就可以实现91%的无目标攻击成功率。我们还展示了我们提出的方法生成的扰动具有很强的可转移性，并可用于硬标签黑盒攻击。此外，我们认为，BASES可用于创建各种任务的攻击，并展示了其对目标检测模型的攻击效果。我们的代码可在 https://github.com/CSIPlab/BASES 上获得。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/23b9d4e18b151ba2108fb3f1efaf8de4-Paper-Conference.pdf

　　17、Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation

　　Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang, Baoyuan Wu

　　深度神经网络（DNN）已被证明对对抗样本存在漏洞，这些样本通过注入难以察觉的扰动可以产生错误的预测。本研究探讨对抗样本的可转移性，这是一个重要问题，因为在实际应用中，模型的结构或参数通常是未知的。许多现有的研究表明，对抗样本很可能会过度拟合它们生成的代理模型，从而限制其对不同目标模型的传输攻击性能。为了减轻代理模型的过拟合问题，我们提出了一种新的攻击方法，称为反向对抗扰动（RAP）。具体而言，我们提倡在寻找对抗样本时，不是最小化单个对抗点的损失，而是注重寻找位于统一低损失值区域的对抗样本，通过在优化过程的每个步骤中注入最坏情况的扰动（即反向对抗扰动）。RAP的对抗攻击被公式化为最小化-最大化双层优化问题。通过将RAP集成到攻击的迭代过程中，我们的方法可以找到更稳定的对抗样本，这些样本对决策边界的变化不太敏感，从而减轻代理模型的过拟合问题。全面的实验比较表明，RAP可以显著提高对抗样本的可转移性。此外，RAP可以自然地与许多现有的黑盒攻击技术相结合，以进一步提高可转移性。在攻击实际的图像识别系统，Google Cloud Vision API时，我们相对于比较方法获得了22%的有针对性的攻击性能提升。我们的代码可在https://github.com/SCLBD/TransferattackRAP上获得。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/c0f9419caa85d7062c7e6d621a335726-Paper-Conference.pdf

　　18、Brownian Noise Reduction: Maximizing Privacy Subject to Accuracy Constraints

　　Justin Whitehouse, Aaditya Ramdas, Steven Z. Wu, Ryan M. Rogers

　　研究人员和实践者在隐私-效用权衡方面处理问题的方法存在差异。研究人员主要从隐私优先的角度出发，设定严格的隐私要求，并在这些限制条件下最小化风险。实践者通常希望采用准确性优先的视角，可能会满足于在获得足够小的误差的前提下获得最大程度的隐私保护。Ligett等人提出了一种“降噪”算法来解决后一种视角。作者表明，通过添加相关的拉普拉斯噪声，并在需求逐渐降低噪声的情况下，可以产生一系列越来越准确的私有参数估计，并且只为最不嘈杂的迭代结果付出隐私成本。在这项工作中，我们将“降噪”推广到高斯噪声的设置中，引入了布朗机制。布朗机制的工作原理是首先添加高方差的高斯噪声，对应于模拟布朗运动的最终点。然后，在实践者的自由裁量下，通过沿着布朗路径向后追溯噪声逐渐减少到早期的时间。我们的机制更适用于常见的有界 ?2 敏感性设置，经验证实在常见的统计任务中表现优于现有的工作，并且可以在整个与实践者的交互过程中提供可定制的隐私损失控制。我们将我们的布朗机制与ReducedAboveThreshold相结合，它是经典的AboveThreshold算法的推广，提供了自适应的隐私保证。总体而言，我们的结果表明，人们可以在满足效用约束的同时，仍然保持很强的隐私保护水平。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/48aaa5ea741ae8430bd58e25917d267d-Paper-Conference.pdf

　　19、Byzantine-tolerant federated Gaussian process regression for streaming data

　　Xu Zhang, Zhenyuan Yuan, Minghui Zhu

　　本文考虑使用高斯过程回归（GPR）实现对拜占庭容错联邦学习的实时数据处理。具体而言，云端和一组代理共同学习一个潜在函数，其中一些代理可能受到拜占庭攻击。我们开发了一个拜占庭容错的联邦GPR算法，包括三个模块：基于代理的本地GPR、基于云端的聚合GPR和基于代理的融合GPR。我们推导出了预测误差的上限，该误差是基于云端聚合GPR的平均值和目标函数之间的误差，假设拜占庭代理少于所有代理的四分之一。我们还表征了预测方差的下限和上限。我们在一个合成数据集和两个真实数据集上进行实验，以评估所提出的算法。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/57c56985d9afe89bf78a8264c91071aa-Paper-Conference.pdf

　　20、CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

　　Xuanli He, Qiongkai Xu, Yi Zeng, Lingjuan Lyu, Fangzhao Wu, Jiwei Li, Ruoxi Jia

　　之前的研究已经验证了，文本生成API可以通过模仿攻击被盗用，从而导致知识产权侵犯。为了保护文本生成API的知识产权，最近的研究引入了一种水印算法，并利用零假设检验作为后续所有权验证来验证模仿模型。然而，我们发现通过候选水印词频的充分统计量，可以检测到这些水印。为了解决这个缺点，本文提出了一种新的条件水印框架（CATER）来保护文本生成API的知识产权。提出了一种优化方法，用于决定可以最小化总体单词分布扭曲而最大化条件单词选择变化的水印规则。从理论上讲，我们证明了即使是最精明的攻击者（他们知道CATER如何工作）也无法从潜在的大量单词对中基于统计检查揭示使用的水印。从经验上讲，我们观察到高阶条件导致可疑（未使用的）水印呈指数增长，使我们精心设计的水印更加隐蔽。此外，CATER可以有效地识别架构不匹配和跨域模仿攻击下的知识产权侵权，并对受害者API的生成质量几乎没有影响。我们将我们的工作视为保护文本生成API知识产权的重要里程碑。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/2433fec2144ccf5fea1c9c5ebdbc3924-Paper-Conference.pdf

　　21、Can Adversarial Training Be Manipulated By Non-Robust Features?

　　Lue Tao, Lei Feng, Hongxin Wei, Jinfeng Yi, Sheng-Jun Huang, Songcan Chen

　　对抗训练最初是为了抵抗测试时的对抗性样本，但已经显示出在缓解训练时可用性攻击方面具有潜力。然而，本文挑战了这种防御能力。我们确定了一个名为稳定性攻击的新威胁模型，其旨在通过轻微操纵训练数据来阻碍强健可用性。在这种威胁下，我们展示了在简单的统计设置中，使用传统的防御预算 $epsilon$ 进行对抗性训练无法提供测试的强健性，其中训练数据的非强健特征可以通过 $epsilon$ 有界扰动得到强化。此外，我们分析了扩大防御预算以对抗稳定性攻击的必要性。最后，全面的实验表明，稳定性攻击对基准数据集具有破坏性，因此自适应防御对于维护强健性是必要的。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/a94a8800a4b0af45600bab91164849df-Paper-Conference.pdf

　　22、Certifying Robust Graph Classification under Orthogonal Gromov-Wasserstein Threats

　　Hongwei Jin, Zishun Yu, Xinhua Zhang

　　图分类器容易受到拓扑攻击。虽然最近已经开发了鲁棒性证书，但其威胁模型仅考虑局部和全局边扰动，有效忽略了重要的图结构，如同构。为解决这个问题，我们提出使用正交Gromov-Wasserstein距离度量扰动，并构建其Fenchel共轭以便于凸优化。我们的关键洞察来自匹配损失，其根据通过单调算子连接两个变量，并为图节点上的电阻距离提供了紧密的外凸逼近。当应用于通过图卷积网络进行图分类时，我们的证书和攻击算法都被证明是有效的。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/0b6b00f384aa33fec1f3d6bcf9550224-Paper-Conference.pdf

　　23、Chartalist: Labeled Graph Datasets for UTXO and Account-based Blockchains

　　Kiarash Shamsi, Friedhelm Victor, Murat Kantarcioglu, Yulia Gel, Cuneyt G Akcora

　　区块链图谱上的机器学习是一个新兴领域，具有许多应用，例如勒索软件支付跟踪、价格操纵分析和洗钱检测。然而，分析区块链数据需要领域专业知识和计算资源，这构成了一个重要障碍，阻碍了该领域的进展。我们介绍了Chartalist，这是第一个系统地访问和使用大量区块链上的机器学习的综合平台，以解决这一挑战。Chartalist包含来自未花费交易输出（UTXO）（例如比特币）和基于账户的区块链（例如以太坊）的机器学习准备好的数据集。我们预计Chartalist可以促进区块链数据的数据建模、分析和表示，并吸引更广泛的科学家社区来分析区块链。Chartalist是一个开放科学倡议，网址为 https://github.com/cakcora/Chartalist。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/e245189a86310b6667ac633dbb922d50-Paper-Datasets_and_Benchmarks.pdf

　　24、Counterfactual Fairness with Partially Known Causal Graph

　　Aoqi Zuo, Susan Wei, Tongliang Liu, Bo Han, Kun Zhang, Mingming Gong

　　公平机器学习旨在避免基于“敏感属性”（如性别和种族）对个人或子群体进行不公平对待。建立在因果推断基础上的公平机器学习方法通过因果效应确定歧视和偏见。尽管基于因果关系的公平学习越来越受到关注，但当前方法假定真实的因果图完全已知。本文提出了一种通用方法，在真实因果图未知的情况下实现反事实公平的概念。为了选择导致反事实公平的特征，我们推导了识别变量之间祖先关系的条件和算法，特别是在部分有向无环图（PDAG）上，这是一类可以从观察数据和领域知识中学习的因果有向图。有趣的是，当提供特定背景知识时：敏感属性在因果图中没有祖先时，可以实现反事实公平，就像真实的因果图已完全知晓一样。模拟和真实世界数据集的结果证明了我们方法的有效性。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/08887999616116910fccec17a63584b5-Paper-Conference.pdf

　　25、Counterfactual Neural Temporal Point Process for Estimating Causal Influence of Misinformation on Social Media

　　Yizhou Zhang, Defu Cao, Yan Liu

　　近年来，见证了在社交媒体上传播特定叙述的虚假信息宣传活动的兴起，以操纵公众对不同领域（如政治和医疗保健）的观点。因此，需要一种有效和高效的自动方法来估计虚假信息对用户信念和活动的影响。然而，现有的虚假信息影响估计研究要么依赖于小规模的心理实验，要么仅能发现用户行为和虚假信息之间的相关性。为了解决这些问题，本文建立了一个因果框架，从时间点过程的角度对虚假信息的因果效应进行建模。为了适应大规模数据，我们设计了一种既高效又精确的方法，通过神经时间点过程和高斯混合模型来估计个体处理效应（ITE）。对合成数据集的广泛实验验证了我们模型的有效性和效率。我们进一步将我们的模型应用于有关COVID-19疫苗的社交媒体帖子和参与度的真实数据集上。实验结果表明，我们的模型识别出虚假信息的可识别因果效应，对人们对疫苗的主观情绪产生了伤害。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/45542d647974ca6af58441c4817c9b5b-Paper-Conference.pdf

　　26、Counterfactual harm

　　Jonathan Richens, Rory Beard, Daniel H. Thompson

　　为了在现实世界中安全并且符合道德行为，智能体必须能够推理出伤害并避免有害的行为。然而，迄今为止，还没有一种统计方法可以衡量伤害并将其纳入算法决策中。在本文中，我们提出了使用因果模型对伤害和好处进行首个正式定义。我们展示了任何关于伤害的事实定义都无法在某些情况下识别有害行为，并证明了那些无法进行反事实推理的标准机器学习算法在分布变化后保证会追求有害的策略。我们利用我们对伤害的定义，设计了一个使用反事实目标函数的避免伤害决策框架。我们通过使用从随机对照试验数据中学习的剂量-反应模型，来演示这个框架在确定最佳药物剂量问题上的应用。我们发现，使用治疗效果来选择剂量的标准方法会导致不必要的有害剂量，而我们的反事实方法确定了明显更少有害但不影响功效的剂量。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/ebcf1bff7b2fe6dcc3fbe666faaa50f1-Paper-Conference.pdf

　　27、DISCO: Adversarial Defense with Local Implicit Functions

　　Chih-Hui Ho, Nuno Vasconcelos

　　本文考虑了针对图像分类的对抗性防御问题，其中目标是使分类器对抗性示例具有鲁棒性。受到这些示例超出自然图像流形的假设的启发，提出了一种新的具有局部隐式函数的对抗性防御 (DISCO)，通过局部流形投影来消除对抗性扰动。DISCO使用对抗性图像和查询像素位置，输出位置上的干净RGB值。它由编码器和局部隐式模块实现，其中前者产生每个像素的深度特征，后者使用查询像素邻域中的特征来预测干净的RGB值。广泛的实验表明，无论防御是否为攻击者所知，DISCO及其级联版本都优于之前的防御。还证明了DISCO具有数据和参数效率，并能够跨数据集、分类器和攻击进行防御。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/96930636e3fb63935e2af153d1cc40a3-Paper-Conference.pdf

　　28、DOPE: Doubly Optimistic and Pessimistic Exploration for Safe Reinforcement Learning

　　Archana Bura, Aria HasanzadeZonuzy, Dileep Kalathil, Srinivas Shakkottai, Jean-Francois Chamberland

　　安全强化学习极具挑战性——不仅必须在未知环境中进行探索，还必须确保不违反安全约束。我们使用有限时间限制的马尔可夫决策过程（CMDP）框架以及未知的转移概率函数来构建这个安全强化学习问题。我们将安全要求建模为对所有学习过程中必须满足的预期累积成本的约束。我们提出了一种基于模型的安全强化学习算法，称为“双重乐观和悲观探索”（DOPE），并证明它在学习过程中不违反安全约束，同时实现一个目标遗憾度 $ ilde{O}(|mathcal{S}|sqrt{|mathcal{A}| K})$。其中，$|mathcal{S}|$是状态数，$|mathcal{A}|$是动作数，$K$是学习的次数。我们的关键思想是将探索的奖励加成（乐观）与保守约束（悲观）相结合，除了标准的乐观模型探索。DOPE不仅能够改善目标遗憾度界限，而且相比早期的乐观-悲观方法显示出显著的实证性能提升。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/076a93fd42aa85f5ccee921a01d77dd5-Paper-Conference.pdf

　　29、DReS-FL: Dropout-Resilient Secure Federated Learning for Non-IID Clients via Secret Data Sharing

　　Jiawei Shao, Yuchang Sun, Songze Li, Jun Zhang

　　联邦学习（FL）旨在实现机器学习模型的协作训练，同时避免集中收集客户的私有数据。与集中式训练不同，FL中客户端的本地数据集是非独立同分布的（non-IID）。此外，拥有数据的客户端可能会任意退出训练过程。这些特征将显著降低训练性能。本文提出了一种基于拉格朗日编码计算（LCC）的“抗失效安全联邦学习”（DReS-FL）框架，以解决非IID和失效问题。关键思想是利用拉格朗日编码将私有数据集秘密地在客户端之间共享，以便每个客户端接收到全局数据集的编码版本，并且对于该数据集的本地梯度计算是无偏的。为了在服务器上正确解码梯度，梯度函数必须是一个有限域上的多项式，因此我们构建了多项式整数神经网络（PINN）来实现我们的框架。理论分析表明，DReS-FL对客户端失效具有鲁棒性，并为本地数据集提供隐私保护。此外，我们的实验结果表明，DReS-FL始终比基准方法显著提高性能。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/448fc91f669c15d10364ee01d512cc10-Paper-Conference.pdf

　　30、Defending Against Adversarial Attacks via Neural Dynamic System

　　Xiyuan Li, Zou Xin, Weiwei Liu

　　深度神经网络（DNN）虽然取得了巨大的成功，但由于其容易受到对抗性攻击的影响，其在安全关键领域的应用受到了阻碍。一些最近的工作从动态系统的角度提出了增强DNN鲁棒性的方法。在这条研究路线的指导下，受到一般非自治动力系统的渐近稳定性启发，我们提出使每个干净实例成为一个缓慢时变系统的渐近稳定平衡点，以应对对抗性攻击。我们提出了一个理论保证，即如果一个干净实例是一个渐近稳定的平衡点，并且对抗实例在该点的邻域内，则渐近稳定性将减少对抗性噪声，将对抗实例接近干净实例。受到我们理论结果的启发，我们进一步提出了一个非自治神经常微分方程（ASODE），并对其相应的线性时变系统进行约束，使所有干净实例都作为其渐近稳定平衡点。我们的分析表明，这些约束可以在实现中转换为正则化器。实验结果表明，ASODE提高了对抗性攻击的鲁棒性，并优于现有方法。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/299a08ee712d4752c890938da99a77c6-Paper-Conference.pdf

　　31、Delving into Sequential Patches for Deepfake Detection

　　Jiazhi Guan, Hang Zhou, Zhibin Hong, Errui Ding, Jingdong Wang, Chengbin Quan, Youjian Zhao

　　最近人脸伪造技术的进展导致几乎无法被追踪的深度伪造视频的出现，这可能会被恶意利用。因此，研究人员致力于深度伪造检测。先前的研究已经确定了局部低级线索和时间信息在推广深度伪造方法方面的重要性，然而，它们仍然存在对后处理的鲁棒性问题。在这项工作中，我们提出了局部和时间感知的基于变压器的深度伪造检测（LTTD）框架，采用局部到全局的学习协议，特别关注局部序列中有价值的时间信息。具体来说，我们提出了局部序列变压器（LST），它模拟受限空间区域序列上的时间一致性，其中低级别信息通过学习的浅层3D滤波器进行层次化增强。基于局部时间嵌入，我们然后以全局对比的方式实现最终分类。对流行数据集的广泛实验验证了我们的方法有效地发现局部伪造线索并实现了最先进的性能。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/1d051fb631f104cb2a621451f37676b9-Paper-Conference.pdf

　　32、Differentially Private Model Compression

　　FatemehSadat Mireshghallah, Arturs Backurs, Huseyin A. Inan, Lukas Wutschitz, Janardhan Kulkarni

　　最近的研究论文表明，像BERT、GPT-2这样的大型预训练语言模型可以在私有数据上进行微调，以实现与许多下游自然语言处理（NLP）任务的非私有模型相当的性能，同时保证差分隐私。然而，这些模型（由数亿个参数组成）的推理成本可能会过高。因此，在实践中，经常在部署到特定应用程序之前对LLMs进行压缩。在本文中，我们开始研究差分私有模型压缩，并提出了在保持几乎完整性能的同时实现50%稀疏级别的框架。我们使用BERT模型在标准GLUE基准测试上演示了这些想法，并为未来关于此主题的研究设定了基准。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/bd6bb13e78da078d8adcabbe6d9ca737-Paper-Conference.pdf

　　33、Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples

　　Weixin Chen, Baoyuan Wu, Haoqian Wang

　　毒化式后门攻击对于从不可信来源的数据训练深度模型构成了严重威胁。针对已有后门模型，我们观察到带有触发器的毒化样本的特征表示对变换更为敏感，而干净样本则不然。这启发我们设计了一个简单的敏感度度量标准，称为特征一致性变换度量（FCT），以区分不可信训练集中的毒化样本和干净样本。此外，我们提出了两种有效的后门防御方法。第一种方法基于使用FCT度量的样本区分模块，使用两阶段安全训练模块从头开始训练安全模型。第二种方法使用后门删除模块从带后门的模型中删除后门，该模块交替地取消区分出的毒化样本并重新学习区分出的干净样本。在三个基准数据集上的广泛结果表明，与现有的后门防御措施相比，这两种方法都具有出色的防御性能，可以抵御八种类型的后门攻击。代码可在以下网址获取：https://github.com/SCLBD/Effectivebackdoordefense。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/3f9bbf77fbd858e5b6e39d39fe84ed2e-Paper-Conference.pdf

　　34、Evolution of Neural Tangent Kernels under Benign and Adversarial Training

　　Noel Loo, Ramin Hasani, Alexander Amini, Daniela Rus

　　现代深度学习面临的两个主要挑战是缓解深度网络对对抗攻击的脆弱性，以及理解深度学习的泛化能力。针对第一个问题，已经开发了许多防御策略，其中最常见的是对抗训练（AT）。针对第二个挑战，出现了一种主导理论，即神经切向核（NTK）——一种在无限宽度极限下刻画神经网络行为的方法。在这种极限下，内核被冻结，基础特征图被固定。在有限的宽度下，有证据表明特征学习发生在早期的培训阶段（内核学习）之前，之后内核保持不变（惰性培训）。虽然以前的工作旨在通过冻结无限宽度 NTK 的视角研究对抗性脆弱性，但没有研究在培训过程中对 NTK 的对抗鲁棒性。在这项工作中，我们进行了一项对标准训练和对抗训练下 NTK 进化的实证研究，旨在澄清对抗训练对内核学习和惰性训练的影响。我们发现，在对抗训练下，NTK 迅速收敛到不同的内核（和特征映射）比标准训练。这个新内核提供了对抗鲁棒性，即使在其上执行非鲁棒训练也是如此。此外，我们发现，在固定内核的基础上进行对抗训练可以产生一个分类器，在 CIFAR-10 上进行 PGD 攻击时，ε=4/255 的鲁棒准确度达到 76.1%。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/4bc4e9ecd5ae4a75048dc216a770cba1-Paper-Conference.pdf

　　35、Exploring the Limits of Domain-Adaptive Training for Detoxifying Large-Scale Language Models

　　Boxin Wang, Wei Ping, Chaowei Xiao, Peng Xu, Mostofa Patwary, Mohammad Shoeybi, Bo Li, Anima Anandkumar, Bryan Catanzaro

　　预训练语言模型（LMs）被证明容易产生有毒语言。在这项工作中，我们系统地探索了域自适应训练以减少语言模型的毒性。我们在三个维度上进行了这项研究：训练语料库、模型大小和参数效率。对于训练语料库，我们证明使用自动生成的数据集始终优于现有基线，在各种模型大小和自动和人工评估中得到了证明，即使它使用3 1较小的训练语料库。然后，我们全面研究了参数大小从126M到530B的去毒LMs（比GPT3大3倍），这是一个从未被研究过的规模。我们发现，i）大型LMs在给定相同预训练语料库的情况下具有类似的毒性水平，ii）大型LMs需要更多的努力来忘记预训练中看到的有毒内容。我们还探索了参数有效的去毒化训练方法。我们证明，在LMs中添加和训练仅适配器层不仅可以节省很多参数，而且可以在大规模模型的毒性和困惑之间实现更好的权衡。我们的代码将在以下网址提供：https://github.com/NVIDIA/Megatron-LM/.

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/e8c20cafe841cba3e31a17488dc9c3f1-Paper-Conference.pdf

　　36、FairVFL: A Fair Vertical Federated Learning Framework with Contrastive Adversarial Learning

　　Tao Qi, Fangzhao Wu, Chuhan Wu, Lingjuan Lyu, Tong Xu, Hao Liao, Zhongliang Yang, Yongfeng Huang, Xing Xie

　　纵向联邦学习（VFL）是一种隐私保护的机器学习范例，可以在隐私保护的情况下从分布在不同平台上的特征学习模型。由于在现实世界的应用中，数据可能在公正敏感特征（例如性别）上存在偏差，因此VFL模型可能会从训练数据中继承偏差，并对某些用户群体不公平。然而，现有的公平机器学习方法通常依赖于集中存储公正敏感特征来实现模型公正性，这在联邦场景中通常不适用。在本文中，我们提出了一个公平的纵向联邦学习框架（FairVFL），可以提高VFL模型的公正性。FairVFL的核心思想是在保护隐私的情况下，基于分散的功能域学习样本的统一和公平的表示。具体来说，具有公正无关特征的每个平台首先从本地特征中学习本地数据表示。然后，这些本地表示被上传到服务器并聚合成用于目标任务的统一表示。为了学习公平统一表示，我们将其发送到存储公正敏感特征的每个平台，并应用对抗性学习从偏差数据中消除继承的偏差。此外，为了保护用户隐私，我们进一步提出了一种对比对抗学习方法，在将其发送到保留公正敏感特征的平台之前，在服务器中删除统一表示中的私人信息。在三个真实世界的数据集上的实验验证了我们的方法可以有效地提高模型的公正性，并保护用户隐私。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/333a7697dbb67f09249337f81c27d749-Paper-Conference.pdf

　　37、Fault-Aware Neural Code Rankers

　　Jeevana Priya Inala, Chenglong Wang, Mei Yang, Andres Codas, Mark Encarnación, Shuvendu Lahiri, Madanlal Musuvathi, Jianfeng Gao

　　大型语言模型（LLMs）已经展示了在各种编程任务中生成代码的令人印象深刻的能力。在许多情况下，当给定多次尝试时，LLMs可以生成正确的程序。因此，最近的一个趋势是使用模型进行大规模的程序采样，然后根据程序在少量已知单元测试上的执行情况进行过滤/排名，以选择一个候选解决方案。然而，这些方法假设单元测试已经给出，并假设能够安全地执行生成的程序（这些程序可以执行任意危险操作，如文件操作）。以上两种假设在实际的软件开发中都是不切实际的。在本文中，我们提出了CodeRanker，一种神经排名器，可以在不执行程序的情况下预测采样程序的正确性。我们的CodeRanker是故障感知的，即它被训练以预测不同类型的执行信息，例如预测精确的编译/运行时错误类型（例如IndexError或TypeError）。我们展示了CodeRanker可以显着提高各种代码生成模型（包括Codex、GPT-Neo、GPT-J）在APPS、HumanEval和MBPP数据集上的pass@1准确度。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/5762c579d09811b7639be2389b3d07be-Paper-Conference.pdf

　　38、Finding Naturally Occurring Physical Backdoors in Image Datasets

　　Emily Wenger, Roma Bhattacharjee, Arjun Nitin Bhagoji, Josephine Passananti, Emilio Andere, Heather Zheng, Ben Zhao

　　广泛的后门毒攻击文献研究了使用“数字触发模式”进行后门攻击和防御的方法。相比之下，“物理后门”使用物理对象作为触发器，最近才被确定，并且在质量上与针对数字触发后门的大多数防御不同。物理后门的研究受到包含与误分类目标共同定位的真实物体图像的大型数据集获取的限制，这种数据集的构建需耗费大量时间和精力。本研究旨在解决物理后门攻击研究的可访问性挑战。我们假设在像ImageNet这样的流行数据集中已经存在自然共存的物理对象。一旦确定，对这些数据的仔细重新标记可以将它们转化为用于物理后门攻击的训练样本。我们提出了一种方法来可伸缩地识别现有数据集中的这些潜在触发子集，以及它们可以污染的具体类别。我们将这些自然触发子集和类别称为自然后门数据集。我们的技术成功地在广泛可用的数据集中识别了自然后门，并生成了与手动筛选数据集训练的模型行为上等效的模型。我们发布了我们的代码，以允许研究社区创建自己的研究物理后门攻击的数据集。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/8af749935131cc8ea5dae4f6d8cdb304-Paper-Datasets_and_Benchmarks.pdf

　　39、Formulating Robustness Against Unforeseen Attacks

　　Sihui Dai, Saeed Mahloujifar, Prateek Mittal

　　现有的对抗样本防御措施（如对抗训练）通常假定对手将符合特定的或已知的威胁模型，例如在固定预算内的?p扰动。在本文中，我们关注的情况是，在训练期间，防御所假定的威胁模型与测试时对手的实际能力不匹配。我们提出了这个问题：如果学习者针对特定的“源”威胁模型进行训练，那么我们何时可以期望鲁棒性推广到更强的未知“目标”威胁模型？我们的关键贡献是正式定义了在面对未知对手时的学习和泛化问题，这有助于我们从已知对手的传统视角来推断对抗风险的增加。应用我们的框架，我们推导出一个泛化界限，它将源和目标威胁模型之间的泛化差距与特征提取器的变化联系起来，该变化衡量了在给定威胁模型下提取的特征之间的预期最大差异。基于我们的泛化界限，我们提出了变化正则化（VR），它在训练期间减少了源威胁模型下特征提取器的变化。我们在经验上证明，使用VR可以导致对测试时的未知攻击的改进推广，并将VR与感知对抗训练（Laidlaw等人，2021）相结合，实现了在未知攻击方面的最先进的鲁棒性。我们的代码公开可用于https://github.com/inspire-group/variation-regularization。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/392ac56724c133c37d5ea746e52f921f-Paper-Conference.pdf

　　40、Friendly Noise against Adversarial Noise: A Powerful Defense against Data Poisoning Attack

　　Tian Yu Liu, Yu Yang, Baharan Mirzasoleiman

　　一种强大的（隐形的）数据污染攻击类别通过对一些训练样本进行微小的对抗扰动来改变某些测试数据的预测结果。现有的防御机制在实践中不可行，因为它们往往会严重损害泛化性能，或者是针对特定攻击的，并且难以应用。在这里，我们提出了一种简单但高效的方法，与现有方法不同，它可以在泛化性能最轻微的下降时打破各种类型的隐形污染攻击。我们的关键观察是攻击会引入高训练损失的局部尖锐区域，当最小化这些区域时，就会学习到对抗扰动并使攻击成功。为了打破污染攻击，我们的关键思想是减轻毒物引入的尖锐损失区域。为此，我们的方法包括两个部分：一种优化的友好噪声，被生成以最大程度地扰动示例而不降低性能，以及一个随机变化的噪声组件。这两个部分的组合构建了一种非常轻量级但极其有效的防御，针对最强大的无触发目标和隐藏触发后门污染攻击，包括梯度匹配、靶心多面体和睡眠特工。我们展示了我们友好的噪声可以转移到其他架构，并且自适应攻击由于其随机噪声组件而无法打破我们的防御。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/4e81308aa2eb8e2e4eccf122d4827af7-Paper-Conference.pdf

　　41、GAMA: Generative Adversarial Multi-Object Scene Attacks

　　Abhishek Aich, Calvin-Khang Ta, Akash Gupta, Chengyu Song, Srikanth Krishnamurthy, Salman Asif, Amit Roy-Chowdhury

　　大多数对抗攻击方法都聚焦于具有单个主导对象的场景（例如，来自ImageNet的图像）。另一方面，自然场景包括多个语义相关的主导对象。因此，探索设计攻击策略，超越学习单个对象场景或攻击单个对象受害者分类器是至关重要的。由于扰动具有强大的传递性本质，可以传递到未知模型，因此本文提出了一种使用生成模型进行对抗攻击的方法，用于多对象场景。为了表示输入场景中不同对象之间的关系，我们利用了开源的预训练视觉语言模型CLIP（对比语言-图像预训练），以利用语言空间中编码的语义以及视觉空间。我们将这种攻击方法称为生成对抗多对象攻击（GAMA）。GAMA展示了CLIP模型作为攻击者工具的实用性，用于训练多对象场景的强大扰动生成器。使用联合图像文本特征来训练生成器，我们展示了GAMA可以在各种攻击设置中制造强大的可传递扰动，以欺骗受害者分类器。例如，在黑盒设置中，GAMA触发的误分类比最先进的生成方法高出约16％，其中攻击者的分类器架构和数据分布与受害者不同。我们的代码在此处可用：https://abhishekaich27.github.io/gama.html

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/efbd571f139d26604e53fe2760e2c073-Paper-Conference.pdf

　　42、Identification, Amplification and Measurement: A bridge to Gaussian Differential Privacy

　　Yi Liu, Ke Sun, Bei Jiang, Linglong Kong

　　高斯差分隐私（GDP）是一种单参数隐私概念家族，提供了一致的保证，以避免敏感个人信息的泄露。尽管组合下GDP提供了额外的可解释性和更紧密的界限，但许多广泛使用的机制（例如拉普拉斯机制）本质上提供GDP保证，但通常未利用这个新框架，因为它们的隐私保证是在不同的背景下得出的。在本文中，我们研究了隐私配置的渐近性质，并开发了一个简单的标准来识别具有GDP属性的算法。我们提出了一种高效的方法，用于GDP算法缩小可能的最优隐私测量值μ，其具有任意小且可量化的误差范围。对于非GDP算法，我们提供了一种后处理过程，可以放大现有的隐私保证，以满足GDP条件。作为应用，我们比较了两个单参数隐私概念家族，?-DP和μ-GDP，并表明所有?-DP算法本质上也是GDP。最后，我们展示了我们的测量过程和GDP组合定理的组合是一种强大而方便的工具，用于处理组合，相比传统的标准和高级组合定理。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/4a29e8bc94b4c5d21d58a4fffdff800b-Paper-Conference.pdf

　　43、Learning to Attack Federated Learning: A Model-based Reinforcement Learning Attack Framework

　　Henger Li, Xiaolin Sun, Zizhan Zheng

　　我们提出了一个基于模型的强化学习框架，用于针对联邦学习（FL）系统进行非定向攻击。我们的框架首先利用服务器的模型更新来近似客户端聚合数据的分布。然后使用学习到的分布构建FL环境的模拟器，并通过强化学习来学习自适应攻击策略。即使服务器采用强健的聚合规则，我们的框架也能够自动学习强大的攻击。我们进一步推导了攻击者由于分布估计不准确而导致的性能损失的上限。实验结果表明，所提出的攻击框架在真实世界数据集上明显优于现有的毒化攻击技术。这表明了为FL系统开发自适应防御的重要性。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/e2ef0cae667dbe9bfdbcaed1bd91807b-Paper-Conference.pdf

　　44、Lethal Dose Conjecture on Data Poisoning

　　Wenxiao Wang, Alexander Levine, Soheil Feizi

　　数据毒化是指某个对手为了恶意目的而扭曲机器学习算法的训练集。本文提出了一项关于数据毒化基础的推测，称之为致命剂量推测。该推测表明：如果需要n个干净的训练样本进行准确预测，则在大小为N的训练集中，只能容忍$Theta(N/n)$个毒化样本而确保准确性。在理论上，我们在多个案例中验证了这个推测。通过分布磨合，我们还提供了一种更一般的观点。深度分区聚合（DPA）及其扩展，有限聚合（FA）是抵御数据毒化的可证明防御的最近方法，它们通过训练来自训练集不同子集的许多基础模型的多数表决来进行预测。该推测意味着DPA和FA都是（渐近）最优的——如果我们拥有最数据有效的学习器，则它们可以将其转化为抵御数据毒化的最强防御之一。这概述了一种通过寻找数据有效的学习器来开发更强大的防御措施的实用方法。作为概念证明，我们经验证明，仅通过使用不同的数据增强技术来训练基础学习器，我们可以在不损失准确性的情况下，分别将DPA在CIFAR-10和GTSRB上的认证鲁棒性提高一倍和三倍。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/0badcb4e95306df76a719409155e46e8-Paper-Conference.pdf

　　45、MORA: Improving Ensemble Robustness Evaluation with Model Reweighing Attack

　　yunrui yu, Xitong Gao, Cheng-Zhong Xu

　　对抗性攻击通过向神经网络的输入数据添加微小扰动来欺骗神经网络。集成防御是一种有前途的研究方向，它通过训练最小化子模型之间攻击可转移性的方法来提高对这种攻击的强韧性，同时在自然输入上保持高精度。我们发现，然而，最近的最先进的对抗性攻击策略不能可靠地评估集成防御，明显高估了它们的强韧性。本文确定了两个因素对这种行为的贡献。首先，这些防御形成的集合对现有的基于梯度的方法具有明显的攻击难度，因为梯度模糊。其次，集成防御使子模型梯度多样化，提出了一种挑战，即要同时打败所有子模型，简单地对它们的贡献求和可能会抵消总体攻击目标；然而，我们观察到即使大多数子模型是正确的，集成仍然可能被愚弄。因此，我们引入了MORA，一种模型重新加权攻击，通过重新加权子模型梯度的重要性来引导对抗性示例合成。MORA 发现最近的集成防御都展示了不同程度的高估强韧性。与最近的最先进的白盒攻击相比，MORA 可以在所有被考虑的集成模型上实现更高的攻击成功率，同时收敛速度快几个数量级。特别是，大多数集成防御在 CIFAR-10 上的 $ell^infty$ 扰动为 $0.02$，在 CIFAR-100 上为 $0.01$ 时，对 MORA 几乎没有或恰好为 $0%$ 的鲁棒性。我们开源 MORA 并提供可重现的结果和预先训练的模型，还提供了各种攻击策略下的集成防御排行榜。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/ac895e51849bfc99ae25e054fd4c2eda-Paper-Conference.pdf

　　46、Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class

　　Khoa D Doan, Yingjie Lao, Ping Li

　　近年来，机器学习模型已经被证明容易受到后门攻击的影响。在这些攻击下，攻击者将一个隐蔽的后门嵌入到经过训练的模型中，以使受损的模型在干净的输入下能够正常运行，但在具有触发器的恶意构造输入下，会根据攻击者对恶意构造的输入的控制而进行误分类。尽管这些现有的攻击非常有效，但攻击者的能力是有限的：对于一个输入，这些攻击只能导致模型偏离预定义或目标类别的单一方向。相反，本文利用一种更强大的有效负载的新型后门攻击，称为Marksman，其中攻击者可以任意选择模型将在推断期间对哪个目标类别进行误分类。为了实现这个目标，我们提出将触发函数表示为一个类别条件生成模型，并将后门注入到一个约束优化框架中，其中触发函数学习生成一个最优触发模式以攻击任何目标类别，同时将这个生成式的后门嵌入到训练好的模型中。在学习到的触发生成函数的基础上，在推断期间，攻击者可以指定任意后门攻击目标类别，并相应地创建一个适当的触发器，使模型分类为这个目标类别。我们通过实验证明，所提出的框架在多个基准数据集（包括 MNIST、CIFAR10、GTSRB 和 TinyImageNet）中实现了高攻击性能（例如在几个实验中达到了 100% 的攻击成功率），同时保持了干净数据的性能。所提出的Marksman后门攻击也可以轻松地规避原本设计用来对抗单一目标类别后门攻击的现有防御措施。我们的工作是对实际环境中后门攻击的广泛风险进行了又一重要步骤。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/fa0126bb7ebad258bf4ffdbbac2dd787-Paper-Conference.pdf

　　47、Measuring Data Reconstruction Defenses in Collaborative Inference Systems

　　Mengda Yang, Ziang Li, Juan Wang, Hongxin Hu, Ao Ren, Xiaoyang Xu, Wenzhe Yi

　　协作推理系统旨在加快边缘云场景中的预测过程，其中本地设备和云系统共同运行复杂的深度学习模型。然而，这些边缘云协作推理系统容易受到新兴的重建攻击的攻击，其中恶意云服务提供商能够恢复边缘用户的私有数据。为了防御此类攻击，近期引入了几种防御措施。不幸的是，我们对这些防御措施的鲁棒性知之甚少。在本文中，我们首先采取了措施来测量这些最先进防御措施针对重建攻击的鲁棒性。具体而言，我们展示了潜在的隐私特征仍然保留在混淆表示中。在这样的观察下，我们设计了一种称为敏感特征蒸馏（SFD）的技术，以从受保护的特征表示中恢复敏感信息。我们的实验表明，SFD可以突破模型划分场景中的防御机制，展示了现有防御机制作为隐私保护技术在重建攻击方面的不足之处。我们希望我们的发现能激发进一步的工作，以提高防御机制针对协作推理系统的重建攻击的鲁棒性。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/53f1c3ec5df814b5aabe9ae88a29bb49-Paper-Conference.pdf

　　48、Multilingual Abusive Comment Detection at Scale for Indic Languages

　　Vikram Gupta, Sumegh Roychowdhury, Mithun Das, Somnath Banerjee, Punyajoy Saha, Binny Mathew, hastagiri prakash vanchinathan, Animesh Mukherjee

　　社交媒体平台最初被构想为在线城镇广场，人们可以在这里聚集，分享信息并和平地相互沟通。然而，由于恶意行为产生的有害内容不断困扰着这些平台，逐渐将它们转化为“摔跤场”，在这里，恶意行为者可以自由地滥用各种边缘化群体。因此，准确和及时地检测社交媒体平台上的虐待内容对于促进用户之间的安全互动非常重要。然而，由于印度虐待言论数据集的规模较小且语言覆盖范围稀疏，开发适用于印度社交媒体用户（全球人口的六分之一）的算法受到严重制约。为了促进和鼓励在这个重要方向的研究，我们首次贡献了MACD——一个大规模（150K）、人工注释的、多语言（5种语言）、平衡（49%的虐待内容）和多样化（70K用户）的滥用检测数据集，这些用户评论来自于一个流行的社交媒体平台——ShareChat。我们还发布了AbuseXLMR，一种在15种以上的印度语言的大量社交媒体评论上预训练的滥用内容检测模型，它在多个印度语数据集上优于XLM-R和MuRIL。除了注释，我们还发布了评论、帖子和用户ID之间的映射，以便建模它们之间的关系。我们分享了具有竞争力的单语、跨语言和少样本基线，以便将MACD用作未来研究的数据集基准。

　　论文链接：https://proceedings.neurips.cc/paper_files/paper/2022/file/a7c4163b33286261b24c72fd3d1707c9-Paper-Datasets_and_Benchmarks.pdf

　　49、NS3: Neuro-symbolic Semantic Code Search

　　Shushan Arakelyan, Anna Hakhverdyan, Miltiadis Allamanis, Luis Garcia, Christophe Hauser, Xiang Ren

　　语义代码搜索是根据其功能的文本描述检索代码片段的任务。最近的工作集中在使用文本和代码的神经嵌入之间的相似性度量。然而，目前的语言模型被认为在处理更长、更复杂的句子和多步推理时存在困难。为了克服这个局限性，我们建议使用查询句子的语义结构布局来补充。语义布局用于将最终推理决策分解为一系列较低级别的决策。我们使用神经模块网络架构来实现这个想法。我们将我

上一篇：以「边关刚传来我夫君——大将军XXX战死的消息时，宫里那位就迫不及待把我抢进了宫
下一篇：2022年06月内蒙古通辽市农牧科学研究所引进博士研究生5人名师点拨卷㈠答案详解

人工智能学术顶会——NeurIPS 2022 议题（网络安全方向）清单、摘要与总

最近更新人物资讯