社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【博士论文】数据与任务的物理学:深度学习中的局部性与组合性理论

专知 • 2 周前 • 36 次点击  

深度神经网络(Deep Neural Networks, DNNs)在众多任务上取得了显著成功,然而我们对其学习机制的理解仍然有限。这些模型能够学习高维任务,而从统计学角度来看,这类任务通常因“维度灾难”(curse of dimensionality)而难以求解。这一表面上的悖论暗示:可学习的数据必然存在某种潜在的结构。那么,这种结构的本质是什么?神经网络如何对其进行编码与利用?它又如何以定量方式影响性能——例如,随着训练样本数量的增加,泛化能力如何提升?本论文围绕这些核心问题,系统研究了**局部性(locality)组合性(compositionality)**在数据、任务及深度学习表征中的作用机制。

我们首先分析了在无限宽度极限下的卷积神经网络(Convolutional Neural Networks, CNNs),在这一极限下,学习动力学被极大简化并可进行解析刻画。借助统计物理与学习理论的工具,我们刻画了模型的泛化能力,并证明:当目标函数具有局部性时,网络能够自适应其空间尺度,从而突破维度灾难的限制

接着,我们研究了更复杂的层级结构——其特征以层次化方式组合,即大尺度元素由小尺度子特征构成。我们使用简单的概率上下文无关文法(Probabilistic Context-Free Grammars, PCFGs)来建模这类数据。这类树状图模型常用于描述语言与图像等层次性数据。在该框架下,我们研究了基于扩散的生成模型(Diffusion-based Generative Models)如何通过组装从样本中学习到的特征来生成新数据。这一组合理论预测了生成过程中的相变现象(phase transition),并在图像与语言模态中得到了实证验证,为自然数据的组合结构提供了理论支持。进一步地,我们证明:学习这类文法的样本复杂度随数据维度多项式级增长,从而揭示了扩散模型通过学习层次化组合机制以避免维度灾难的理论依据。这些结果为生成模型如何学习泛化、乃至如何获得创造力提供了理论基础。

最后,我们将分析视角从输入空间中的数据结构转向参数空间中的任务结构。在这一部分,我们探讨了一种新的任务可组合性形式,即任务与技能本身可以进行组合。实证结果表明:在大规模预训练模型的权重空间中,不同方向对应着功能空间中局部化、语义特定的任务区域;这种模块化结构使得**任务算术(task arithmetic)模型编辑(model editing)**在大规模上成为可能。

关键词:深度学习;泛化;缩放定律;数据结构;局部性;组合性;概率图模型;卷积网络;扩散模型。


专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/00f34223764f4877a6b850d962617637

图片

点击“阅读原文”,查看下载本文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/187765