11.28直播 | 「热门研究云际会」针对非完备数据的可信机器学习

本次「热门研究云际会」我们把目光聚焦在“针对非完备数据的可信机器学习”。为此，我们邀请到机器学习领域的青年博士生学者，他们分别是香港浸会大学可信机器学习和推理课题组（TMLR Group）博士生王启舟、周展科、以及与TMLR Group紧密合作的林勇、戴瑞，来分享各自在NeurIPS 2023, ICML 2023和ICLR 2023中收录的最新工作。相信通过这次交流，我们将探索更加鲁棒的可信机器学习方法，并共同推动该领域的发展。

活动主题：

针对非完备数据的可信机器学习

现场议程

嘉宾工作介绍

主题①

分布外检测与隐式数据生成

分享嘉宾

王启舟

王启舟是香港浸会大学（HKBU）的博士生，他的主要研究兴趣是分布外检测，分布外泛化，对抗鲁棒学习，标签噪声学习。目前他已发表超过多篇顶会（NeurIPS，ICLR）以及顶刊（T-PAMI）论文。他现在的研究主要集中在分布外检测分布外泛化在大模型下的应用。

分享内容

开放世界分类系统应该有能力去分分布内和分布外数据，从而促使近年来对于分布外检测的研究。已有方法尽管取得了令人鼓舞的进展，但是由于通常我们缺乏对未知分布外数据的知识，他们在开放世界中仍然可能会失败。为解决这个问题，我们提出了一种分布外学习的新范式，使模型在未见过的分布外样本下仍然表现良好。这形成了一个极小-极大学习方案——通过搜索合成导致最糟糕判断的OOD数据，并从这些OOD数据中学习，以实现在OOD检测中的统一性能。在我们的实现中，这些最糟糕的OOD数据是通过转换原始替代数据来合成的。具体而言，基于我们的新颖观点，即模型扰动会导致数据转换，我们隐式地学习了相关的转换函数。我们的方法提供了一种有效的合成OOD数据的方式，除了替代OOD数据之外，还可以进一步改善检测模型。我们在各种OOD检测设置下进行了大量实验证明了我们的方法对抗其先进对手的有效性。

论文标题：
Out-of-distribution Detection with Implicit Outlier Transformation
论文链接：
https://arxiv.org/abs/2303.05033
代码链接：
https://github.com/QizhouWang/DOE

主题②

深度学习中标签噪声转移矩阵的统一框架和拓展

分享嘉宾

林勇

林勇是香港科技大学(HKUST)的博士生。他的主要研究兴趣是机器学习算法和理论，包括因果学习，不变性，稀疏性，不确定性等。他的研究集中在如何提高机器学习的模型鲁棒性以及其在计算机视觉、大型语言模型和强化学习中的应用。目前他已发表超过多篇顶会(ICML/NeurIPS/ICLR/CVPR)论文，并有数篇入选Oral/Spotlight Presentation。他入选了2023年苹果学者(Apple Scholar)。此外他曾获得香港政府奖学金和多次国奖奖学金。在攻读博士学位前，他曾在阿里巴巴担任算法工程师数年。

分享内容

在本次汇报中，我们通过估计噪声转换矩阵(T)来探索在标签噪声下学习统计一致的分类器。我们首先全面地介绍了现有的T估计方法，包括带有或不带有锚点假设的方法。我们将它们统一到最小几何包络算子（MGEO）框架中，该框架试图找到最小的T（以某种度量方式），以形成一个凸包来包围所有训练数据的后验概率。虽然MGEO方法在理论性质和实证结果上都具有吸引力，但我们发现当噪声后验估计不完美时，它们容易失败，而这在实践中是不可避免的。

具体而言，我们证明了如果没有准确估计噪声后验概率，即使有无限样本，MGEO方法也是不一致的。鉴于此，我们首次通过双层优化的视角提出了一种新的T估计框架，称之为鲁棒双层优化（ROBOT）。ROBOT开辟了一条超越MGEO框架的新道路，具有更强的理论性质：可识别性、一致性和有限样本的泛化保证。值得注意的是，ROBOT既不需要完美的后验估计，也不假设存在锚点。我们进一步从理论上证明了ROBOT在MGEO方法失败的情况下更具鲁棒性。在实验上，我们的框架在多个基准测试中也展现出卓越的性能。

论文标题：
A Holistic View of Label Noise Transition Matrix in Deep Learning and Beyond
论文链接：
https://openreview.net/forum?id=aFzaXRImWE
代码链接：
https://github.com/pipilurj/ROBOT

主题③

对抗双边噪声的鲁棒图学习

分享嘉宾

周展科

周展科，香港浸会大学二年级博士生，TMLR组博士生。他的研究方向为可信机器推理和图学习，相关研究工作发表在NeurIPS, ICML等会议及期刊上，同时担NeurIPS、ICML、ICLR等会议和期刊的审稿人。

分享内容

尽管图神经网络在链接预测任务的性能上取得了显著进步，但在图结构噪声下的鲁棒性仍是当前深度图模型的实际瓶颈。不同于传统单向的对抗样本和标签噪声，这里的图结构噪声是双向的：它会同时扰动输入端观测图的拓扑结构和输出端目标边的标签。这种双向噪声在现实世界的图数据中是常见的，这提出了一个新的挑战：如何处理双边噪声以实现鲁棒的链接预测。

本次talk将会填补这个空白，简要介绍我们在NeurIPS-2023中发表的工作。具体来说，我们揭示了图结构噪声如何双向干扰输入拓扑结构和目标标签，导致性能严重下降和表征坍缩。基于此，我们提出了一个信息论指导原则，即鲁棒图信息瓶颈（Robust Graph Information Bottleneck, RGIB），以提取可靠的监督信号并缓解表征坍缩。与基本的信息瓶颈GIB不同，RGIB进一步解耦并平衡了图拓扑、目标标签和表征之间的相互依赖性，为抵抗双边噪声的鲁棒图学习构建了新的学习目标。

论文标题：
Combating Bilateral Edge Noise for Robust Link Prediction
论文链接：
https://openreview.net/pdf?id=ePkLqJh5kw
代码链接：
https://github.com/AndrewZhou924/RGIB

主题④

域泛化中的适度分布探索

分享嘉宾

戴瑞

戴瑞，中国科学技术大学二年级硕士生，目前在阿里巴巴进行研究型实习，他的研究方向为域泛化和大模型可解释性。域泛化的相关研究工作发表在ICML会议上。

分享内容

深度神经网络的成功在很大程度上依赖于一个基本假设，即训练域和目标域共享相同的数据分布。然而在实际场景中，这个难以成立的假设给深度神经网络的实际应用带来了巨大的限制。域泛化问题的研究就是为了了解我们要如何摆脱这个限制。域泛化的目标是使用（多个）训练数据域来训练模型，使这些模型能够在未知的目标域中具有良好的泛化能力，该目标域与训练域具有相同的语义但其他方面会有不同。

为了在未知的目标域上实现良好的泛化能力，先前的工作引入了一种生成的方法，通过生成新的数据域来提高DNN的性能。然而，这些方法的效果非常依赖于人类的先验知识并且其结果也缺乏理论上的保证。因此，在极端情况下，生成的域甚至可能无法提升模型的泛化能力，反而导致性能下降。这个现象的出现的原因很大程度在于目标域在训练过程中是未知的，导致此时依赖于人类的先验知识生成的新域与目标域之间存在不可控的分布差异。

本次talk将介绍我们在ICML 2023发表的工作——域泛化中的适度分布探索（MODE），将分布鲁棒优化（Distributionally Robust Optimization，DRO）中的分布探索的概念引入域泛化，通过适度地限制分布探索的范围来解决直接应用DRO方法到DG中时由于搜索空间过大导致的性能问题，具体来说，该工作在不确定性集合的一个不确定性子集中进行分布探索，该子集与训练域具有相同的语义因子，避免了对语义不相关的域进行探索。同时为了支撑该方法，文章中为未知目标域上的模型性能提供了在一定条件下的理论上的风险估计和上界保证。实验部分的结果表明，MODE取得了非常优秀的表现。

论文标题：
Moderately Distributional Exploration for Domain Generalization
论文链接：
https://openreview.net/forum?id=fX5I7lGLuG
代码链接：‍‍‍‍‍‍‍‍
https://github.com/Rxsw/MODE

课题组介绍‍‍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成，课题组隶属于理学院计算机系。课题组专攻可信表征学习、基于因果推理的可信学习、可信基础模型等相关的算法，理论和系统设计以及在自然科学上的应用，具体研究方向和相关成果详见本组Github (https://github.com/tmlr-group)。

课题组由政府科研基金以及工业界科研基金资助，如香港研究资助局杰出青年学者计划，国家自然科学基金面上项目和青年项目，以及微软、英伟达、百度、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带，GPU计算资源充足，长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外，本组也欢迎自费的访问博士后研究员、博士生和研究助理申请，访问至少3-6个月，支持远程访问。有兴趣的同学请发送个人简历和初步研究计划到邮箱 (bhanml@comp.hkbu.edu.hk)。

锁定热门方向，聚焦前沿分享，期待与你在这里一起碰撞出更多灵感的火花！

11月28日，TechBeat直播间，

我“门”与你不见不散！

-The End-

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门投资基金、将门创新服务以及TechBeat人工智能社区。公司致力干通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈