本篇分享的这篇论文发表于顶刊 Artificial Intelligence Review(IF=13.9,中科院一区Top)的重磅长文《A survey on deep learning fundamentals》。系统性总结深度学习基础与前沿,多个领域的应用,论文已开源!
论文:A survey on deep learning fundamentals 作者:田春伟,程童桐,彭哲,左旺孟,田永林,张青富,王飞越,张大鹏 单位:哈工大,港中深,港理工,中科院自动化所,港城大 论文链接:https://doi.org/10.1007/s10462-025-11368-7 摘要 深度学习在大数据和图形处理单元(GPU)的推动下,在各个领域引起了广泛关注。网络架构的灵活性结合其多样化的组件,使得深度学习技术能够应用于广泛的领域,从低层次和高层次的计算机视觉任务扩展到视频处理、自然语言处理以及三维数据处理。然而,针对这些工作的系统性总结,从原理到应用、以深度学习基础为视角的研究相对较少。
本研究旨在填补这一文献空白,通过介绍用于图像应用的深度网络组件,并描述几种经典的图像应用深度网络。在此基础上,研究进一步介绍了深度网络的原理、关系、适用范围及其在更广泛领域的应用,涵盖低层视觉任务、高层视觉任务、视频处理、自然语言处理以及三维数据处理。随后,研究比较了不同网络在这些多样化任务中的性能表现。
最后,本文总结了深度学习在这些应用领域的潜在研究重点与挑战,并给出了结论性意见。
01 动机与贡献 1.1 动机 现有深度学习研究在各个领域(低/高层计算机视觉、视频处理、自然语言处理、三维数据)取得了巨大进展,但缺乏从基础原理到跨领域应用的系统性综述;工程师与跨学科研究者在入门时,往往零散接触不同任务的成果,欠缺整体框架和方法间关联的认识,阻碍跨领域创新。
1.2 贡献 该论文系统地梳理了深度学习在低层视觉、高层视觉、视频处理、NLP和3D数据处理中的原理与应用,介绍并剖析卷积层、池化层、激活函数、全连接层、批归一化等基础模块的作用与实现,比较CNN、RNN、GAN、Transformer、扩散模型等在不同任务中的适用性与优势,基于定量和定性数据分析各类方法在多任务场景下的表现特点,提出鲁棒性、计算效率、多模态融合、数据稀缺、实时性等挑战,并给出潜在解决方向。本文的框架图
02 深度神经网络基础术语 本文定义了6个核心的深度神经网络术语:
2.1 卷积层(Convolutional Layers) 卷积层作为CNN的核心组件,卷积层的主要作用是提取输入数据(如图像)的局部空间特征(如边缘、纹理)。它通过滤波器(或内核)对输入的局部区域(感受野)执行卷积操作,该过程通常包括输入与权重的卷积、叠加偏置项,最后应用激活函数进行非线性变换(公式:z = a(W * i + b)),并最终生成特征图。
2.2 批归一化(Batch Normalization, BN) 批归一化通常紧跟卷积层,它通过将层输入归一化为标准分布(均值 0、方差 1)并结合可学习的缩放和平移参数,来解决训练中的“协变量偏移”问题。这种机制缓解了因网络参数更新导致的层输入分布变化,能避免激活函数进入饱和区,从而加速训练收GIN敛并提高稳定性。但BN依赖批次大小,在小批次下均值和方差的估计可能不准确,这种情况下可由组归一化(Group Normalization,GN)等方法替代。
2.3 激活函数(Activation Functions) 激活函数是嵌入神经网络中(通常位于卷积层或全连接层之后)的非线性函数,其作用是增强模型对非线性数据的建模能力。常见类型包括:
Sigmoid:输出范围(0, 1),但存在梯度消失和非零均值问题; Tanh:输出范围(-1, 1),零均值改进Sigmoid,但仍有梯度消失问题; ReLU:作为典型激活函数,通常描述为f(x)=max(0,x),缓解梯度消失,加速训练。 2.4 池化层(Pooling Layers) 池化层是一种通过聚合局部区域特征来减少特征图尺寸的组件。其主要作用是降低计算复杂度、增强特征的平移不变性并避免过拟合。常见的示例包括最大池化(Max Pooling),它保留区域内的最显著特征,以及平均池化(Average Pooling),它对特征进行平滑处理。
2.5 全连接层(Fully Connected Layers)
全连接层通常位于网络的末端,它的定义是将前一层输出的高维特征映射到最终的输出(例如分类标签),其间每层神经元都与前一层的所有神经元相连接。这种结构的作用是整合全局特征,使其适用于分类和回归等任务。但它的特点是参数量巨大,因此容易导致过拟合,需要配合正则化技术使用。
2.6 损失函数(Loss Function) 损失函数是一个用于衡量模型预测值与真实值之间差异的函数,它是神经网络通过梯度下降反向传播来更新参数的依据。损失函数的类型多种多样,常见类型包括:
欧氏损失(Euclidean loss):用于回归任务,计算预测值与真实值的欧氏距离。 交叉熵损失(Cross Entropy loss):适用于多类别分类任务,处理多标签场景。 均方误差(Mean Square Error, MSE):用于图像去噪、超分辨率等任务,计算平方误差均值。 Softmax损失:适用于单标签分类(如人脸识别),通过 Softmax 函数将输出转化为概率分布。 03 深度学习主要方法综述 论文介绍了神经网络 (Neural Network) 和卷积神经网络 (Convolutional Neural Networks, CNNs) 的方法结构基础,并综述了6个目前经典的深度学习模型:
3.1 GoogleNet(Inception v1) GoogleNet (Inception v1) 的核心思想是通过“宽度扩展”来提升性能。它引入了 Inception 模块,允许在同一层并行使用多种不同尺寸的卷积核(1×1、3×3、5×5)及最大池化,从而融合多尺度特征。其关键改进包括:在较大卷积核前使用 1×1 卷积进行降维,以减少参数和计算量;并引入两个辅助分类器来缓解梯度消失。这种堆叠 Inception 模块的结构在 ImageNet 分类、目标检测等任务上取得了优秀表现。
3.2 VGGNet VGGNet 的核心思想是通过显著增加网络深度(达到16或19层)来提升感受野和特征抽象能力。它创新地采用了统一且连续堆叠的 3×3 小卷积核来替代大卷积核,并通过最大池化层进行下采样。VGGNet的结构非常简单且易于移植,在 ISVRC 2014 上大幅提升了分类准确率,常用于图像分类、特征提取和迁移学习。其主要缺点是参数量巨大,计算开销高。
3.3 ResNet(Residual Network) ResNet旨在解决深度网络训练困难的动机,即梯度消失和性能退化问题。其核心创新是引入了残差结构 (Residual Block),通过 y=F(x)+x 这样的“恒等映射”捷径,将输入 x 直接添加到卷积层输出 F(x) 上。这种结构有效缓解了因网络加深导致的性能退化,允许网络达到更深的层级。ResNet 倾向于用深度代替宽度,并使用 BN 和平均池化加速训练,在 ISVRC 2015 上夺冠,广泛应用于分类、检测、去噪等多种任务。
3.4 GAN(Generative Adversarial Networks) GAN 的核心思想是使用两个网络进行对抗训练:生成器 (G) 负责从噪声或条件信息中生成逼真样本;判别器 (D) 负责判断输入是真实样本还是 G 生成的伪造样本。两者相互博弈,最终 G 的输出能够逼近目标数据的真实分布。GAN 的优点是能生成高保真图像和视频,并支持条件控制 (cGAN),因此被广泛应用于图像到图像转换、视频生成、风格迁移和图像修复等领域。
3.5 Transformer Transformer 的核心思想是基于自注意力机制 (Self-Attention) 来建模数据间的长程依赖关系,这一机制使其在许多任务中表现优于传统的 CNN 或 RNN。其结构特点是不依赖空间卷积,而是直接通过矩阵乘法操作捕捉全局特征,其编码器-解码器结构在序列建模中尤为出色。Transformer 最初在自然语言处理 (NLP) 领域取得巨大成功,现已广泛适配于视觉任务(如图像分类、检测)以及视频处理、3D 点云分析等多模态应用中。
3.6 Diffusion Model 扩散模型是一种基于概率生成的框架,其核心思想包含两个过程:首先是“前向扩散”过程,通过多个时间步逐步向原始样本添加高斯噪声,直至其变为随机噪声;然后是“反向去噪”过程,训练一个神经网络来学习逆转这个加噪过程,从噪声中逐步还原出高质量样本。该方法避免了 GAN 对抗训练的不稳定性,训练过程更稳定,且通过多步迭代能实现细节可控的高保真生成,适用于图像、视频、语音等多种模态的生成与修复任务。
论文还总结了实现这些深度学习方法所依赖的关键GPU软件库(如Caffe, TensorFlow, PyTorch等),它们是推动研究和应用的重要基石。
04 低层视觉任务 计算机视觉中的低级任务旨在恢复高质量的图像。普通低层任务包括图像去噪、图像超分辨率和图像去模糊。本节从这些方面回顾了当前在图像应用中提出的深度学习方法:
在图像去噪场景中,本文综述了深度学习在加性白噪声、盲去噪和真实噪声场景中的应用:
在图像超分辨率场景中,本文综述了基于自监督与无监督或若弱监督的深度学习方法。
在图像去模糊场景中,本文综述了基于已知模糊核与未知模糊核的深度学习方法。
05 高层视觉任务 与注重图像恢复的低层任务不同,高层视觉任务旨在理解图像内容。本节综述了深度学习在三个核心高层任务中的应用:图像分类、图像分割和目标检测,具体如下:
在图像分类场景中,论文综述了深度学习方法在医疗图像分类、人脸图像分类、自动驾驶识别与表面缺陷检测中的应用。
在图像分割场景中,论文综述了深度学习方法在图像语义分割、图像实例分割与图像全景分割中的应用。
在目标检测(Object Detection)领域,本文重点综述了深度学习在两大主流算法分支中的应用:两阶段(Two-Stage)物体检测与单阶段(One-Stage)物体检测。
06 视频处理 本节探讨了深度学习如何彻底改变视频处理,涵盖了从分类到增强的广泛应用。论文还强调了这项技术对视频处理的准确性、效率以及未来发展所产生的重大影响。 深度学习在视频分析与理解中的应用
深度学习在视频生成与编辑中的应用
深度学习在视频增强与修复中的应用
07 自然语言处理 深度学习使机器能够以前所未有的方式理解、生成并与人类语言交互,彻底改变了自然语言处理 (NLP) 领域。本节探讨了推动这一转变的关键进展,主要涵盖文本分析、文本生成以及跨模态应用。
深度学习在自然语言处理中的应用
深度学习在文本生成与交互中的应用
深度学习在跨模式集成和高级场景中的应用
08 三维数据处理 深度学习在3D数据处理领域的应用越来越广泛,给计算机视觉及相关技术带来了革命性的突破。本节将深入探讨深度学习如何帮助分析和生成3D数据,涵盖从物体识别到场景理解,再到3D模型重建的多个关键领域。 深度学习在3D物体识别与分类中的应用
深度学习在3D场景理解与分割中的应用
深度学习在3D重建与生成中的应用
09 性能分析 论文对深度学习方法在上述所有场景中的应用进行了性能分析与评估。 深度学习在加性白噪声图像去噪场景中的性能表现
深度学习在图像盲去噪场景中的性能表现
深度学习在真实噪声图像去噪中的应用
基于自监督的深度学习方法在图像超分辨率场景中的性能
基于无监督或弱监督的深度学习方法在图像超分辨率场景中的性能
深度学习在图像去模糊场景中的性能
深度学习在医疗图像分类场景中的性能
深度学习在人脸图像分类场景中的性能
深度学习在自动驾驶识别场景中的性能
深度学习在表面缺陷检测场景中的性能
深度学习在图像语义分割场景中的性能
深度学习在图像实例分割场景中的性能
深度学习在图像全景分割场景中的性能
深度学习在二级物体检测场景中的性能
深度学习在一级物体检测场景中的性能
深度学习在视频处理场景中的性能
深度学习在自然语言处理场景中的性能
深度学习在三维数据处理场景中的性能
潜在研究方向与挑战: 面临的挑战
跨场景泛化能力不足:不同场景、模态、任务间的差异,限制了深度模型在多领域的统一适用性。 计算与存储开销高:尤其是在视频处理与3D数据处理中,大规模数据的高维特征计算对硬件资源要求高。 数据标注成本高:视频、3D数据以及低资源语言的标注获取困难,制约了模型的训练质量。 单一模态信息不足:仅依赖单一模态(例如单张图像、单路视频、纯文本)往往无法全面描述数据特征,需要多模态融合策略。 评估标准局限:现有指标可能无法全面反映模型在真实应用中的表现,如视频的实时分析、NLP的交互性、3D数据的实时重建等。 未来研究方向
发展跨模态、多任务联合学习方法,提高模型在多领域、多类型数据下的适应性。 探索轻量化与高效深度网络结构,以实现更低延迟与更低资源消耗的推理能力。 推进自监督与无监督学习,减少对大量人工标注数据的依赖。 研发更加科学合理的评估指标,能全面衡量模型在稳定性、泛化性和实时性等维度的表现。 加强在实时视频处理、实时3D重建和交互式NLP等高需求场景下的性能优化。 10 总结 本文深度学习基础进行了全面的概述,旨在为工程师和学者提供基础介绍。具体来说,我们追踪了深度学习技术的发展,并重点介绍了经典的网络架构和关键组件,以增强读者对深度学习原理的理解。
为了迎合不同的受众,我们系统地总结了深度网络在各种任务中的原理、差异、关系和应用,即低层视觉任务(如图像去噪、图像超分辨率和图像去模糊),高层视觉任务(如图像分类、图像分割和对象检测),视频处理(如视频分析、生成、增强),自然语言处理(如文本表示、生成、跨模态集成)和3D数据处理(如3D对象识别、场景理解、重建)。
此外,通过定量和定性分析来评估他们的表现。最后,我们概述了深度学习的潜在研究方向和挑战,并总结了本文的贡献。