Py学习  »  机器学习算法

【NTU博士论文】当深度学习遇上归纳逻辑程序设计

数据派THU • 4 月前 • 136 次点击  
来源:专知
本文约1000字,建议阅读5分钟
在本论文中,我们旨在提升现有方法的泛化能力,以及学习能力与整体性能表现。


图片

归纳逻辑程序设计(符号主义) 深度学习(联结主义)结合,引起研究者广泛关注,成为提升推理能力一项新兴研究方向。然而,目前融合完善,尤其体现模型能力差、学习效率问题 上。论文中,我们提升现有方法能力,以及学习能力整体性能表现。此外,我们计划语言模型归纳逻辑程序设计任务中的推理能力进行 全面评估。

首先,为了提升现有基于逻辑深度强化学习(DRL)算法能力,我们提出一个新颖框架,称为 GALOIS框架能够综合层次结构明确因果 逻辑,自动合成程序。采用程序图(program sketch)机制,引入一种新的基于语言,用于引导程序合成过程。基于此,GALOIS 实现一种驱动 程序合成方法,生成具备解释良好能力因果推理程序。多个复杂决策任务全面评估表明,GALOIS 学习能力、能力、解释 以及任务知识迁移方面优于主流强化学习方法先进程序引导方法。

下来,我们观察当前先进神经归纳逻辑程序设计(ILP)模型训练 需要大量训练迭代样本。此外,处理需要复杂逻辑推理任务时,这些模型性能能力方面存在明显不足。为此,我们提出一个新的框架:失败 引导正则器(Failure Reflection Guided Regularizer, FRGR)FRGR 能够模型训练过程动态识别总结反复出现错误模式;随后,未来训练过程再次犯下类似错误行为给予 惩罚。机制促使模型避免重复错误,从而加速模型敛,获得性能解决方案。多个关系推理决策任务实验结果表明,FRGR 提升 神经 ILP 模型性能、能力学习效率方面具有显著成效。

最后,尽管神经 ILP 求解性能已有提升,近年来,研究者语言模型(LLMs)推理能力兴趣迅速 上升。然而,已有工作使用文本数值推理基准多数简单,这些基准正向结果,不足断言 LLM 拥有强大推理能力。近期研究 表明,基于强化学习基准中,LLM 需要常识规划序列决策问题表现差。为此,我们研究中,基于 ILP 基准多种先进语言模型进行 深入推理能力评估。ILP 广泛认为评估逻辑程序归纳/合成系统代表性具有挑战性的基准,因为要求模型能够学习严谨因果逻辑实现在 IID(独立分布)与  OOD(分布外)测试样本稳健推理。评估结果表明,规模于 LLM 神经程序归纳系统相比,当前先进的 LLM 推理能力表现明显弱——无论采用 自然语言提示还是矩阵提示,性能能力逊色神经 ILP 系统。

图片
图片
图片



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182225
 
136 次点击