对抗鲁棒性深度学习算法

来源：专知
本文约1000字，建议阅读5分钟
本文将讨论在设计具备理想鲁棒性特性的算法方面的最新进展。

鉴于深度学习模型在安全关键型应用中的广泛使用，确保这些模型的决策在面对对抗性利用时依然具备鲁棒性具有根本性的重要意义。本文将讨论在设计具备理想鲁棒性特性的算法方面的最新进展。首先，我们探讨计算机视觉中的对抗样本问题，并提出新的技术成果、训练范式以及认证算法。接下来，我们考虑领域泛化问题，其任务是训练神经网络能够从一组训练分布泛化到未见过的测试分布。我们提出的新算法在医学影像、分子识别和图像分类中实现了当前最先进的泛化性能。最后，我们研究大语言模型（LLMs）越狱（jailbreaking）的场景，即对抗性用户试图设计提示词以引导模型生成不当内容。我们提出了新的攻击与防御方法，这些方法代表了在设计鲁棒的语言类智能体方面的前沿进展。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU