导读
对于神经网络和深度学习的理解,我的学习过程是经历了不同阶段的。最初入门是从对人脑神经网络的层级模拟开始的;后来又从最优化入手,从函数逼近论的角度去理解神经网络;再后来还结合了概率论的知识,认为神经网络的学习过程是学习某个概率分布(当然原本机器学习就隐含了一个假设:就是已知数据集符合某个概率分布,否则没法学习);再后来则是从函数分解和表示角度来理解神经网络,与“基函数”等相关知识联系起来。
这些不同的视角之间当然不是绝对独立的,而是有内在的本质联系。只是人在初步的学习过程当中是难以完整看明白的,因此在事后回看总结、让自己能在更全面的视角去看待,无疑对于深入学习和理解问题是有益的。这也是我写这个系列文章的初衷。
所有的文章并没有追求数学证明的严谨,而是希望能用更通俗的语言表达理解的过程,以期给那些如我当初一样迷惘的初学者哪怕一点点启迪,也算是对自己吸收前人知识的一点回报。因为教材和学术文章出于严谨的目的或限于给定题目做文章的藩篱,往往难以这么来写,就让很多初学者摸不着头脑。更有甚者,则是一些所谓学者的学术傲慢,不接地气的写法让人望而生畏。基于这些考虑,本文的写法以追求如何更容易理解问题的本质和联系为要义,在某些情况下宁可牺牲一定的严谨性,望理解。
(以下正文)
函数逼近论是数学领域研究“如何用简单函数(逼近函数)近似表征复杂函数(目标函数)”的核心分支,其核心目标是在给定误差度量准则下,找到最优逼近函数以最小化逼近误差。神经网络与深度学习的本质,正是基于数据驱动的自适应函数逼近——通过构建具有特定结构的参数化模型(神经网络),从数据中学习目标函数的近似表达式,最终实现对输入-输出映射关系的精准拟合。
下面我们将从函数逼近论的核心视角,拆解神经网络的本质内涵、深度学习的演进逻辑,并系统梳理其与函数逼近论、线性代数、泛函分析等核心数学理论的深层关联,为理解深度学习的数学本质提供清晰脉络。
一、核心前提:函数逼近论的基础框架
要透彻理解神经网络的逼近本质,需先明确函数逼近论的核心概念与问题框架,这是后续建立数学理论与深度学习关联的基础前提:
1. 函数逼近的核心问题
函数逼近问题的核心要素可界定为:
目标函数 (其中 为输入空间, 为输出空间,典型如 、 ,分别对应d维输入与m维输出);
逼近函数类 ( 为参数向量, 为参数空间,常见类型包括多项式函数类、分段线性函数类、神经网络函数类等);
误差度量 (常用度量方式包括均方误差 、经验风险 等)。
基于上述要素,函数逼近的核心任务可明确为:寻找最优参数 ,使得 ,即找到逼近函数类中与目标函数误差最小的函数。
2. 函数逼近的两大核心维度
逼近精度:核心衡量逼近函数与目标函数的误差下界,关键判断标准是逼近函数类是否能“稠密”覆盖目标函数空间,即是否可任意逼近目标函数;
复杂度-泛化权衡:逼近函数类的复杂度需与数据量适配——复杂度不足会导致逼近误差过大(欠拟合),复杂度过高则易过度拟合训练数据(泛化误差上升),这是函数逼近的核心权衡关系。
3. 经典逼近方法的局限
传统函数逼近方法(如多项式逼近、傅里叶级数、样条函数等)在应对复杂实际问题时存在明显局限:
多项式逼近:高次多项式易出现“龙格现象”(边界区域剧烈振荡),低次多项式则难以满足复杂函数的逼近精度需求;
傅里叶级数:仅适用于周期函数或光滑函数,对非光滑、局部特征显著的函数(如图像、语音信号)逼近效率极低;
样条函数:需人工手动设计节点与基函数,对高维数据的适配性差,难以应对现代复杂数据场景。
这些局限为神经网络的崛起提供了关键契机——神经网络通过自适应学习基函数与参数的核心机制,突破了传统方法的刚性约束,实现了对复杂函数的高效逼近。
二、神经网络的本质:自适应参数化逼近函数类
神经网络的核心价值在于构建一个“灵活可学习”的逼近函数类 ,其灵活性源于“层级化、非线性组合”的结构设计,而模型的训练学习过程,本质就是函数逼近论中的参数优化过程。
1. 单层神经网络(感知机):线性逼近的雏形
单层感知机是神经网络的最基础形态,其函数表达式为:
其中 为模型参数( 为权重向量, 为偏置项), 为激活函数(常见如阶跃函数、sigmoid函数)。
从函数逼近论视角解析单层感知机的逼近能力:
若 为线性函数(或不使用激活函数),则 属于线性函数类,仅能逼近 空间中的线性目标函数 ;
若 为非线性激活函数,单层感知机仍仅能实现“单隐层非线性映射”,无法逼近复杂非线性函数——这也是早期感知机被诟病“无法解决异或问题”的本质原因,因为异或函数属于非线性目标函数,超出了单层感知机的逼近能力边界。
2. 多层神经网络(深度网络):万能逼近器的实现
深度神经网络(DNN)通过“输入层-隐层-输出层”的层级化结构,将多个简单非线性映射组合为复杂的逼近函数类,其核心突破在于实现了对任意复杂函数的逼近能力,这一能力的理论基础正是“万能逼近定理”。
(1)深度神经网络的函数形式
以含 个隐层的全连接深度神经网络为例,其函数表达式可采用递推形式描述:
以含 个隐层的全连接深度神经网络为例,其函数表达式可采用递推形式描述:
其中 为模型的全部参数(含各层权重矩阵与偏置向量), 为第 层的激活函数(常用如ReLU、tanh、GELU等)。
(2)万能逼近定理:深度网络的逼近基础
1989年,Hornik等人提出的神经网络万能逼近定理,从函数逼近论角度为神经网络的有效性奠定了核心理论基础:
该定理明确:若激活函数 为连续、非多项式的有界函数(如sigmoid、ReLU等),则对于任意定义在紧集 上的连续目标函数 ,以及任意给定的精度要求 ,均存在足够宽的单隐层神经网络 ,使得:
后续研究进一步拓展了万能逼近定理的内涵,明确了深度网络的核心优势:
-
深度网络的效率优势:单隐层网络虽能实现“万能逼近”,但需以指数级增加宽度(隐层神经元数量)为代价;而深度网络(层数≥2)可通过“深度层级结构”,以多项式复杂度高效逼近复杂函数(如分段光滑函数、Lipschitz函数等);
激活函数的关键作用:非线性激活函数是突破“线性逼近局限”的核心——若所有激活函数均为线性,深度网络将退化为单一线性函数(本质是矩阵乘积的组合),无法实现对非线性目标函数的逼近。
(3)深度学习的演进:从“宽”到“深”的逼近效率优化
深度学习与传统浅层神经网络的核心差异,本质是函数逼近论中“逼近效率”的优化升级——从依赖“宽度”的低效逼近,转向依赖“深度”的高效逼近:
浅层网络(1-2层):依赖增加“宽度”(隐层神经元数量)提升逼近能力,逼近复杂函数时需指数级扩张参数规模(如逼近 维空间的分段函数需 个神经元),效率极低;
深度网络(≥3层):通过“深度层级分解”策略,将复杂目标函数拆解为多个简单函数的复合映射(如 ),每个隐层对应一个简单子函数的逼近,最终以多项式复杂度(如 ,其中 为网络深度)实现对复杂函数的高效逼近。
典型实例:卷积神经网络(CNN)通过“卷积层+池化层”的层级结构,将图像目标函数(像素输入→语义标签输出)拆解为“低阶特征(边缘、纹理)→中阶特征(局部结构)→高阶特征(目标整体)”的分层映射,本质是结构化的分层函数逼近;Transformer通过自注意力机制自适应学习输入的全局依赖关系,本质是基于注意力权重的自适应基函数逼近,进一步提升了对序列数据的逼近效率。
三、深度学习与核心数学理论的内在联系
深度学习的函数逼近能力并非“黑箱魔法”,而是建立在函数逼近论、线性代数、泛函分析、优化理论等经典数学理论的坚实基础之上。以下将系统梳理关键数学理论与深度学习的核心对应关系:
1. 函数逼近论:深度学习的“目标与边界”
函数逼近论为深度学习明确了核心目标与理论边界,是理解深度学习本质的基础框架:
目标对齐:深度学习的“模型训练”过程,本质是函数逼近论中的“经验风险最小化”——通过最小化训练数据上的误差 ,从数据中学习目标函数 的近似表达式;
误差边界:函数逼近论中的“Jackson不等式”明确了逼近误差的下界(如对 阶光滑函数 ,最优逼近误差 ,其中
为模型参数数量),这一结论解释了“为何深度网络需要足够的参数规模才能拟合复杂函数”的核心问题;
效率优化:深度学习的“深度结构设计”本质是对逼近函数类 的优化——通过层级化结构降低逼近过程中的“复杂度-误差”权衡代价,这与函数逼近论中“自适应基函数逼近”(如小波分析)的核心思想一脉相承。
2. 线性代数:深度学习的“计算基础”
线性代数是深度学习实现“基表示与参数计算”的核心工具,与前文提及的“基与坐标”逻辑深度契合,为模型的数值计算提供了基础支撑:
线性变换与基变换:神经网络各层的权重矩阵 本质是“线性变换算子”,其核心作用是将前一层输出向量 投影到新的特征空间(即当前层的输入 ),这一过程对应线性代数中的“基变换”思想——通过权重矩阵实现特征在不同坐标系下的表示转换;
参数优化的线性化基础:梯度下降等核心优化算法的本质是“误差函数的线性近似”(基于泰勒展开一阶项),通过计算误差对参数的梯度(雅可比矩阵)确定参数更新方向,这一过程依赖线性代数中的向量求导、矩阵运算等核心工具;
子空间投影与特征提取:深度学习中的特征提取过程(如CNN的卷积层输出),本质是线性代数中的“子空间投影”——将高维输入数据投影到低维、具有强判别性的特征子空间,这与PCA(基于协方差矩阵特征分解的子空间投影)的核心思想同源。
3. 泛函分析:深度学习的“抽象框架”
泛函分析将函数逼近从有限维空间拓展到无穷维空间,为理解深度学习的抽象本质提供了更具一般性的理论框架:
目标函数的空间归属:实际问题中的目标函数 通常属于无穷维希尔伯特空间(如平方可积函数空间 ),深度学习的逼近过程本质是在无穷维空间中,从“神经网络函数类 ”中寻找 的最优逼近元——根据希尔伯特空间的正交投影定理,该最优逼近元正是 在 上的正交投影;
-
算子性质与模型稳定性:激活函数 本质是“非线性算子”,深度网络可视为线性算子(权重矩阵)与非线性算子(激活函数)的交替复合。泛函分析中“算子的有界性、连续性、谱结构”等性质,直接决定了网络的稳定性与逼近能力(如ReLU激活函数的分段线性性,可保证算子的Lipschitz连续性,为优化算法的收敛性提供保障);
谱分解与最优基学习:前文已明确“谱理论是最优基选择的核心”,在深度学习中,卷积层的权重矩阵(对应卷积算子)的谱分解,本质是“最优特征基”的自适应学习——卷积核可视为“自适应谱基”,通过学习卷积算子的谱结构,提取数据中最具代表性的特征(如图像的边缘、纹理),这与傅里叶变换(卷积算子的谱分解)的核心思想一致。
4. 优化理论:深度学习的“实现路径”
深度学习的训练过程(参数更新与优化),本质是优化理论中“无约束(或带约束)优化问题”的求解过程,优化理论为模型训练提供了具体的实现路径与收敛保障:
目标函数与优化难度:深度学习的损失函数(如交叉熵、MSE)对应优化理论中的“目标函数”,其凸性/非凸性直接决定了优化难度——浅层网络的损失函数可能具备凸性,而深度网络的损失函数通常为非凸,但实践表明,通过梯度下降类算法可找到满足实际需求的局部最优解;
优化算法与收敛性:梯度下降(GD)、随机梯度下降(SGD)、Adam等常用算法,本质是优化理论中的“迭代优化方法”——通过逐步迭代更新参数逼近损失函数的极小值点,其收敛性依赖优化理论中的“Lipschitz条件”“强凸性”等核心性质(如ReLU网络的损失函数满足Lipschitz条件,可保证SGD算法的收敛性);
正则化与泛化能力:深度学习中的L1正则、L2正则、Dropout等技术,本质是优化理论中的“约束优化”手段——通过添加正则项(如 )限制参数空间,避免模型过拟合,这与函数逼近论中“控制逼近函数类复杂度”的思想一致,最终实现“泛化误差最小化”。
5. 概率论与统计学习:深度学习的“数据驱动保障”
实际场景中,目标函数 通常无法直接获取,仅能通过有限样本 估计,概率论与统计学习理论为这种“数据驱动的逼近”提供了核心理论保障:
风险收敛与泛化边界:深度学习的训练误差对应“经验风险”,而模型的真实逼近误差对应“期望风险”,统计学习理论中的“VC维”、“PAC学习”等核心概念,为“经验风险收敛到期望风险”提供了严格的理论保障,明确了模型泛化能力的边界;
噪声鲁棒性保障:数据中的噪声可视为概率论中的“随机扰动”,深度学习通过“海量数据采样+正则化约束”实现对噪声的鲁棒性逼近,这与概率逼近论中“随机函数逼近”的核心思想一致——利用随机样本驱动的逼近函数抵抗数据中的随机噪声干扰。
四、核心总结:深度学习的函数逼近论本质图谱
| | | |
|---|
| | | |
| | |
泛函分析(算子复合、希尔伯特空间)、线性代数(基变换) |
| | | |
| | | |
从本质上看,深度学习是函数逼近论在“数据驱动时代”的极致延伸——它突破了传统逼近方法“手动设计基函数”的刚性局限,通过“层级化、参数化、自适应”的网络结构,实现了最优逼近基与参数的自动学习,最终达成对复杂目标函数的高效、精准逼近。这一过程的背后,是函数逼近论、线性代数、泛函分析、优化理论等多学科数学理论的深度融合与工程化落地。
理解深度学习的函数逼近论本质,有助于跳出“调参黑箱”的认知局限,从更底层的数学视角指导网络结构设计(如根据目标函数的光滑性特性选择适配的激活函数)、优化训练策略(如根据优化理论选择合适的正则化方式),并为深度学习的进一步创新(如更高效的网络结构设计、更稳健的训练方法研发)提供核心理论指引。