直播预告 | 南方科技大学魏鸿鑫课题组：现代深度学习的可靠性和隐私保护

AI安全说第2期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

现代深度学习的可靠性和隐私保护

直播嘉宾

王朔远

南方科技大学在读博士生

刘真龙

南方科技大学在读博士生

直播时间

2024年09月07日（周六）

10:00-11:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

面向开放视觉语言任务的置信度校准

在近年来，视觉语言模型（VLMs）作为强大的工具，展现了在图像识别、文本驱动的视觉内容生成和视觉聊天机器人等多种开放词汇任务中的出色能力。为提高 VLMs 在下游任务中的表现，大量的参数高效微调方法如提示学习已经被提出，但它们的广泛应用也引发了人们视觉语言模型中输出置信度的担忧。

本次 talk 将广泛回顾基于视觉语言模型的置信度校准，重点探讨提示学习背景下视觉语言模型比如 CLIP 中存在的置信度校准问题，以及由此引发的置信度校准策略。通过这一全面的分析，我们识别并填补当前视觉语言模型的研究空白，以加强视觉语言模型的可信性，并为未来进一步提升 VLMs 的可靠性提供了新的研究方向。

利用凸凹损失函数防御成员推理攻击

成员推理攻击（Membership Inference Attack，MIA）是一种针对机器学习模型的隐私攻击方法。其目标是确定一个特定的数据实例是否被用于训练一个给定的机器学习模型。成员推理攻击揭示了机器学习模型可能会无意中泄露有关其训练数据的信息，即为数据泄露（data leakage）。

本次 talk 将从从常见的机器学习的损失函数——交叉熵损失函数的理论分析出发，揭示现存损失函数的哪些性质将会潜在增大隐私泄露的风险。在拓展出凹函数通过增大输出方差以提高隐私保护能力的理论之后，我们进而提出新的损失函数框架——凸凹损失。经过广泛的实验验证，该方法可以在确保模型性能的前提下最大程度地取得最好的隐私保护。

嘉宾介绍

王朔远

南方科技大学在读博士生

王朔远，南方科技大学在读博士生，其导师是魏鸿鑫教授。他的研究重点是为 AI 基础模型开发可信的机器学习方法，譬如机器学习模型分布外泛化和置信度校准研究，并在 ICML，Ubicomp 等顶级国际会议上发表了多篇高水平论文。目前，他致力于视觉语言模型的置信度校准研究，为基础模型的安全应用提供更加可靠的保障。

刘真龙

南方科技大学在读博士生

刘真龙是南方科技大学统计与数据科学系的博士生，其导师是魏鸿鑫教授。他的研究方向是机器学习里安全隐私问题，目前主要集中于有关模型隐私性的成员推理攻击背后的机理分析和防御措施，已有相关工作发表在机器学习的顶级国际会议 ICML。目前，他的致力于如何高效准确可靠地评估机器学习模型的隐私风险问题，为机器学习模型的安全落地提供安全保障和审查方法。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧