Py学习  »  机器学习算法

从函数逼近论视角看神经网络与深度学习:本质、演进及数学联系[原]

图灵人工智能 • 4 月前 • 154 次点击  

导读

对于神经网络和深度学习的理解,我的学习过程是经历了不同阶段的。最初入门是从对人脑神经网络的层级模拟开始的;后来又从最优化入手,从函数逼近论的角度去理解神经网络;再后来还结合了概率论的知识,认为神经网络的学习过程是学习某个概率分布(当然原本机器学习就隐含了一个假设:就是已知数据集符合某个概率分布,否则没法学习);再后来则是从函数分解和表示角度来理解神经网络,与“基函数”等相关知识联系起来。

这些不同的视角之间当然不是绝对独立的,而是有内在的本质联系。只是人在初步的学习过程当中是难以完整看明白的,因此在事后回看总结、让自己能在更全面的视角去看待,无疑对于深入学习和理解问题是有益的。这也是我写这个系列文章的初衷。

所有的文章并没有追求数学证明的严谨,而是希望能用更通俗的语言表达理解的过程,以期给那些如我当初一样迷惘的初学者哪怕一点点启迪,也算是对自己吸收前人知识的一点回报。因为教材和学术文章出于严谨的目的或限于给定题目做文章的藩篱,往往难以这么来写,就让很多初学者摸不着头脑。更有甚者,则是一些所谓学者的学术傲慢,不接地气的写法让人望而生畏。基于这些考虑,本文的写法以追求如何更容易理解问题的本质和联系为要义,在某些情况下宁可牺牲一定的严谨性,望理解。

(以下正文)

函数逼近论是数学领域研究“如何用简单函数(逼近函数)近似表征复杂函数(目标函数)”的核心分支,其核心目标是在给定误差度量准则下,找到最优逼近函数以最小化逼近误差。神经网络与深度学习的本质,正是基于数据驱动的自适应函数逼近——通过构建具有特定结构的参数化模型(神经网络),从数据中学习目标函数的近似表达式,最终实现对输入-输出映射关系的精准拟合。

下面我们将从函数逼近论的核心视角,拆解神经网络的本质内涵、深度学习的演进逻辑,并系统梳理其与函数逼近论、线性代数、泛函分析等核心数学理论的深层关联,为理解深度学习的数学本质提供清晰脉络。

一、核心前提:函数逼近论的基础框架

要透彻理解神经网络的逼近本质,需先明确函数逼近论的核心概念与问题框架,这是后续建立数学理论与深度学习关联的基础前提:

1. 函数逼近的核心问题

函数逼近问题的核心要素可界定为:

  • 目标函数   (其中   为输入空间,   为输出空间,典型如   、  ,分别对应d维输入与m维输出);

  • 逼近函数类   (   为参数向量,   为参数空间,常见类型包括多项式函数类、分段线性函数类、神经网络函数类等);

  • 误差度量   (常用度量方式包括均方误差   、经验风险    等)。

基于上述要素,函数逼近的核心任务可明确为:寻找最优参数   ,使得   ,即找到逼近函数类中与目标函数误差最小的函数。

2. 函数逼近的两大核心维度

  • 逼近精度:核心衡量逼近函数与目标函数的误差下界,关键判断标准是逼近函数类是否能“稠密”覆盖目标函数空间,即是否可任意逼近目标函数;

  • 复杂度-泛化权衡:逼近函数类的复杂度需与数据量适配——复杂度不足会导致逼近误差过大(欠拟合),复杂度过高则易过度拟合训练数据(泛化误差上升),这是函数逼近的核心权衡关系。

3. 经典逼近方法的局限

传统函数逼近方法(如多项式逼近、傅里叶级数、样条函数等)在应对复杂实际问题时存在明显局限:

  • 多项式逼近:高次多项式易出现“龙格现象”(边界区域剧烈振荡),低次多项式则难以满足复杂函数的逼近精度需求;

  • 傅里叶级数:仅适用于周期函数或光滑函数,对非光滑、局部特征显著的函数(如图像、语音信号)逼近效率极低;

  • 样条函数:需人工手动设计节点与基函数,对高维数据的适配性差,难以应对现代复杂数据场景。

这些局限为神经网络的崛起提供了关键契机——神经网络通过自适应学习基函数与参数的核心机制,突破了传统方法的刚性约束,实现了对复杂函数的高效逼近。

二、神经网络的本质:自适应参数化逼近函数类

神经网络的核心价值在于构建一个“灵活可学习”的逼近函数类   ,其灵活性源于“层级化、非线性组合”的结构设计,而模型的训练学习过程,本质就是函数逼近论中的参数优化过程。

1. 单层神经网络(感知机):线性逼近的雏形

单层感知机是神经网络的最基础形态,其函数表达式为:

其中    为模型参数(   为权重向量,   为偏置项),   为激活函数(常见如阶跃函数、sigmoid函数)。

从函数逼近论视角解析单层感知机的逼近能力:

  • 若    为线性函数(或不使用激活函数),则    属于线性函数类,仅能逼近    空间中的线性目标函数   ;

  • 若    为非线性激活函数,单层感知机仍仅能实现“单隐层非线性映射”,无法逼近复杂非线性函数——这也是早期感知机被诟病“无法解决异或问题”的本质原因,因为异或函数属于非线性目标函数,超出了单层感知机的逼近能力边界。

2. 多层神经网络(深度网络):万能逼近器的实现

深度神经网络(DNN)通过“输入层-隐层-输出层”的层级化结构,将多个简单非线性映射组合为复杂的逼近函数类,其核心突破在于实现了对任意复杂函数的逼近能力,这一能力的理论基础正是“万能逼近定理”。

(1)深度神经网络的函数形式

以含    个隐层的全连接深度神经网络为例,其函数表达式可采用递推形式描述:

以含    个隐层的全连接深度神经网络为例,其函数表达式可采用递推形式描述:

其中    为模型的全部参数(含各层权重矩阵与偏置向量),   为第    层的激活函数(常用如ReLU、tanh、GELU等)。

(2)万能逼近定理:深度网络的逼近基础

1989年,Hornik等人提出的神经网络万能逼近定理,从函数逼近论角度为神经网络的有效性奠定了核心理论基础:

该定理明确:若激活函数    为连续、非多项式的有界函数(如sigmoid、ReLU等),则对于任意定义在紧集    上的连续目标函数   ,以及任意给定的精度要求   ,均存在足够宽的单隐层神经网络   ,使得:

后续研究进一步拓展了万能逼近定理的内涵,明确了深度网络的核心优势:

  • 深度网络的效率优势:单隐层网络虽能实现“万能逼近”,但需以指数级增加宽度(隐层神经元数量)为代价;而深度网络(层数≥2)可通过“深度层级结构”,以多项式复杂度高效逼近复杂函数(如分段光滑函数、Lipschitz函数等);

  • 激活函数的关键作用:非线性激活函数是突破“线性逼近局限”的核心——若所有激活函数均为线性,深度网络将退化为单一线性函数(本质是矩阵乘积的组合),无法实现对非线性目标函数的逼近。

(3)深度学习的演进:从“宽”到“深”的逼近效率优化

深度学习与传统浅层神经网络的核心差异,本质是函数逼近论中“逼近效率”的优化升级——从依赖“宽度”的低效逼近,转向依赖“深度”的高效逼近:

  • 浅层网络(1-2层):依赖增加“宽度”(隐层神经元数量)提升逼近能力,逼近复杂函数时需指数级扩张参数规模(如逼近    维空间的分段函数需   个神经元),效率极低;

  • 深度网络(≥3层):通过“深度层级分解”策略,将复杂目标函数拆解为多个简单函数的复合映射(如   ),每个隐层对应一个简单子函数的逼近,最终以多项式复杂度(如  ,其中   为网络深度)实现对复杂函数的高效逼近。

典型实例:卷积神经网络(CNN)通过“卷积层+池化层”的层级结构,将图像目标函数(像素输入→语义标签输出)拆解为“低阶特征(边缘、纹理)→中阶特征(局部结构)→高阶特征(目标整体)”的分层映射,本质是结构化的分层函数逼近;Transformer通过自注意力机制自适应学习输入的全局依赖关系,本质是基于注意力权重的自适应基函数逼近,进一步提升了对序列数据的逼近效率。

三、深度学习与核心数学理论的内在联系

深度学习的函数逼近能力并非“黑箱魔法”,而是建立在函数逼近论、线性代数、泛函分析、优化理论等经典数学理论的坚实基础之上。以下将系统梳理关键数学理论与深度学习的核心对应关系:

1. 函数逼近论:深度学习的“目标与边界”

函数逼近论为深度学习明确了核心目标与理论边界,是理解深度学习本质的基础框架:

  • 目标对齐:深度学习的“模型训练”过程,本质是函数逼近论中的“经验风险最小化”——通过最小化训练数据上的误差   ,从数据中学习目标函数    的近似表达式;

  • 误差边界:函数逼近论中的“Jackson不等式”明确了逼近误差的下界(如对   阶光滑函数   ,最优逼近误差   ,其中    为模型参数数量),这一结论解释了“为何深度网络需要足够的参数规模才能拟合复杂函数”的核心问题;

  • 效率优化:深度学习的“深度结构设计”本质是对逼近函数类    的优化——通过层级化结构降低逼近过程中的“复杂度-误差”权衡代价,这与函数逼近论中“自适应基函数逼近”(如小波分析)的核心思想一脉相承。

2. 线性代数:深度学习的“计算基础”

线性代数是深度学习实现“基表示与参数计算”的核心工具,与前文提及的“基与坐标”逻辑深度契合,为模型的数值计算提供了基础支撑:

  • 线性变换与基变换:神经网络各层的权重矩阵    本质是“线性变换算子”,其核心作用是将前一层输出向量    投影到新的特征空间(即当前层的输入   ),这一过程对应线性代数中的“基变换”思想——通过权重矩阵实现特征在不同坐标系下的表示转换;

  • 参数优化的线性化基础:梯度下降等核心优化算法的本质是“误差函数的线性近似”(基于泰勒展开一阶项),通过计算误差对参数的梯度(雅可比矩阵)确定参数更新方向,这一过程依赖线性代数中的向量求导、矩阵运算等核心工具;

  • 子空间投影与特征提取:深度学习中的特征提取过程(如CNN的卷积层输出),本质是线性代数中的“子空间投影”——将高维输入数据投影到低维、具有强判别性的特征子空间,这与PCA(基于协方差矩阵特征分解的子空间投影)的核心思想同源。

3. 泛函分析:深度学习的“抽象框架”

泛函分析将函数逼近从有限维空间拓展到无穷维空间,为理解深度学习的抽象本质提供了更具一般性的理论框架:

  • 目标函数的空间归属:实际问题中的目标函数    通常属于无穷维希尔伯特空间(如平方可积函数空间   ),深度学习的逼近过程本质是在无穷维空间中,从“神经网络函数类   ”中寻找    的最优逼近元——根据希尔伯特空间的正交投影定理,该最优逼近元正是    在    上的正交投影;

  • 算子性质与模型稳定性:激活函数   本质是“非线性算子”,深度网络可视为线性算子(权重矩阵)与非线性算子(激活函数)的交替复合。泛函分析中“算子的有界性、连续性、谱结构”等性质,直接决定了网络的稳定性与逼近能力(如ReLU激活函数的分段线性性,可保证算子的Lipschitz连续性,为优化算法的收敛性提供保障);

  • 谱分解与最优基学习:前文已明确“谱理论是最优基选择的核心”,在深度学习中,卷积层的权重矩阵(对应卷积算子)的谱分解,本质是“最优特征基”的自适应学习——卷积核可视为“自适应谱基”,通过学习卷积算子的谱结构,提取数据中最具代表性的特征(如图像的边缘、纹理),这与傅里叶变换(卷积算子的谱分解)的核心思想一致。

4. 优化理论:深度学习的“实现路径”

深度学习的训练过程(参数更新与优化),本质是优化理论中“无约束(或带约束)优化问题”的求解过程,优化理论为模型训练提供了具体的实现路径与收敛保障:

  • 目标函数与优化难度:深度学习的损失函数(如交叉熵、MSE)对应优化理论中的“目标函数”,其凸性/非凸性直接决定了优化难度——浅层网络的损失函数可能具备凸性,而深度网络的损失函数通常为非凸,但实践表明,通过梯度下降类算法可找到满足实际需求的局部最优解;

  • 优化算法与收敛性:梯度下降(GD)、随机梯度下降(SGD)、Adam等常用算法,本质是优化理论中的“迭代优化方法”——通过逐步迭代更新参数逼近损失函数的极小值点,其收敛性依赖优化理论中的“Lipschitz条件”“强凸性”等核心性质(如ReLU网络的损失函数满足Lipschitz条件,可保证SGD算法的收敛性);

  • 正则化与泛化能力:深度学习中的L1正则、L2正则、Dropout等技术,本质是优化理论中的“约束优化”手段——通过添加正则项(如   )限制参数空间,避免模型过拟合,这与函数逼近论中“控制逼近函数类复杂度”的思想一致,最终实现“泛化误差最小化”。

5. 概率论与统计学习:深度学习的“数据驱动保障”

实际场景中,目标函数    通常无法直接获取,仅能通过有限样本    估计,概率论与统计学习理论为这种“数据驱动的逼近”提供了核心理论保障:

  • 风险收敛与泛化边界:深度学习的训练误差对应“经验风险”,而模型的真实逼近误差对应“期望风险”,统计学习理论中的“VC维”、“PAC学习”等核心概念,为“经验风险收敛到期望风险”提供了严格的理论保障,明确了模型泛化能力的边界;

  • 噪声鲁棒性保障:数据中的噪声可视为概率论中的“随机扰动”,深度学习通过“海量数据采样+正则化约束”实现对噪声的鲁棒性逼近,这与概率逼近论中“随机函数逼近”的核心思想一致——利用随机样本驱动的逼近函数抵抗数据中的随机噪声干扰。

四、核心总结:深度学习的函数逼近论本质图谱

核心层面
函数逼近论视角
深度学习对应概念
核心数学支撑
目标
用简单函数逼近复杂目标函数  
用神经网络    拟合输入-输出映射
函数逼近论(万能逼近定理、Jackson不等式)
结构
自适应逼近函数类  
深度层级网络(CNN/Transformer等)
泛函分析(算子复合、希尔伯特空间)、线性代数(基变换)
实现
最小化逼近误差
最小化损失函数(MSE/交叉熵)
优化理论(梯度下降、正则化)
保障
逼近误差收敛、泛化能力保障
模型训练收敛、测试集性能良好
统计学习理论(VC维、泛化界)、概率论

从本质上看,深度学习是函数逼近论在“数据驱动时代”的极致延伸——它突破了传统逼近方法“手动设计基函数”的刚性局限,通过“层级化、参数化、自适应”的网络结构,实现了最优逼近基与参数的自动学习,最终达成对复杂目标函数的高效、精准逼近。这一过程的背后,是函数逼近论、线性代数、泛函分析、优化理论等多学科数学理论的深度融合与工程化落地。

理解深度学习的函数逼近论本质,有助于跳出“调参黑箱”的认知局限,从更底层的数学视角指导网络结构设计(如根据目标函数的光滑性特性选择适配的激活函数)、优化训练策略(如根据优化理论选择合适的正则化方式),并为深度学习的进一步创新(如更高效的网络结构设计、更稳健的训练方法研发)提供核心理论指引。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/191903