《深度学习图像分割》第5章：基于多尺度结构的分割网络

《深度学习图像分割》这本书写写停停，历经三年多，目前在三稿修订中。正式出版之前，计划先在GitHub做逐步的内容和代码开源。

以下为本书第5章节选内容：

U形的编解码结构奠定了深度学习语义分割的基础，并推动了语义分割领域的快速发展。然而，随着基线模型性能的不断提升，研究的焦点逐渐从如何通过上采样更好地恢复图像像素，转向了如何更加高效地利用图像的上下文信息和提取多尺度特征。这种转变催生了语义分割的第二大主流结构设计方向：多尺度结构。多尺度结构的设计理念在于通过增强模型对不同尺度上下文的感知能力，提升语义分割的精细度和全局一致性，其主要目标是解决上下文信息捕捉不足和多尺度特征融合问题。本章将系统梳理专注于上下文信息和多尺度特征提取的经典网络结构，包括ParseNet、PSPNet、CENet、以空洞卷积为核心的Deeplab系列以及HRNet等多尺度结构设计网络。

5.1 多尺度与上下文

多尺度问题是语义分割领域中的核心挑战之一。由于图像中的目标物体大小差异明显，网络在处理不同尺度的图像特征时容易出现分辨能力不足的情况，导致分割效果不佳。如图5-1所示的Cityscapes数据集示例图像，近距离拍摄的目标（如靠近镜头的人物）通常比远处的小目标（如远端行人）更容易被正确分割。这种尺度差异对分割模型提出了较高的性能要求。

图5-1 图5-1 Cityscapes数据示例中的多尺度

为了解决多尺度问题，必须充分利用图像的上下文信息（context）。上下文信息在语义分割中扮演着至关重要的角色，其作用不仅限于提升模型对像素的分类准确性，还能通过提供场景的整体语义背景来优化分割结果。上下文的概念与自然语言处理中的句子语境分析类似。例如，在句子中理解某个词的意义需要结合前后文，而图像中的像素分类同样需要依赖周围的上下文信息来判断物体类别。

图5-2展示了湖边场景中的上下文作用。如果仅基于黄色框中的像素信息，很可能会误将湖面上的船只分类为汽车。但结合上下文信息（如水面和周围环境），则可以排除错误分类。上下文信息通过提供语义一致性和场景约束帮助模型进行更合理的判断。

图5-2 图像上下文

针对语义分割中的多尺度问题，分割模型结合上下文信息，通常有如下处理策略：

（1）金字塔池化（pyramid pooling）。如PSPNet引入的金字塔池化模块，通过在多个不同尺度下池化特征图，融合全局和局部上下文信息，从而增强对多尺度目标的感知。

（2）空洞卷积（atrous convolution）：Deeplab系列模型通过空洞卷积灵活调整感受野，捕获不同尺度的特征信息，同时避免特征图分辨率过度下降。

（3）高分辨率特征维持。如HRNet，通过在网络中保持高分辨率特征表示，并与低分辨率特征融合，能够同时处理大尺度目标和小尺度目标。

本章将针对上述处理策略，对基于多尺度结构的主要分割网络结构进行介绍。

5.2 ParseNet

自从全卷积网络（Fully Convolutional Networks，FCN）和U-Net提出后，语义分割领域的研究大多围绕编解码结构展开。但一些研究者注意到，FCN在处理语义分割任务时忽略了图像整体的全局信息，这导致模型在某些应用场景下无法有效利用图像的语义上下文信息。全局信息对于分割模型的重要性不仅体现在对图像整体语义的理解上，还能辅助对局部区域的判断，弥补仅依赖局部信息可能导致的模糊决策。此前，为增强FCN的全局信息感知能力，部分研究尝试将概率图模型（如条件随机场，CRF）融入CNN训练中，通过捕捉图像像素的上下文关系提升分割效果。然而，这种方法通常计算开销大且模型训练复杂，难以适应端到端的高效处理需求。

针对上述问题，ParseNet在FCN的基础上提出了一种高效的上下文特征提取与融合方法，实现了利用全局信息指导局部像素分类。提出ParseNet的论文为ParseNet: Looking Wider to See Better，发表于2016年，是在FCN基础上基于上下文视角的一个改进设计。ParseNet的创新点在于引入全局平均池化（Global Average Pooling，GAP）来提取图像的全局特征，并通过规范化和融合策略增强局部特征的分类能力。在语义分割中，上下文信息对于提升模型表现非常关键，在仅有局部信息情况下，像素的分类判断有时候会变得模棱两可。尽管理论上深层卷积层的会有非常大的感受野，但在实际中有效感受野却小很多，不足以捕捉图像的全局信息。ParseNet通过全局平均池化的方法在FCN基础上直接获取上下文信息，图5-3为ParseNet的上下文提取模块，具体地，使用全局平均池化对上下文特征图进行池化后得到全局特征，然后对全局特征进行L2规范化处理，再对规范化后的特征图反池化后与局部特征图进行融合，融合得到的特征图最终能够显著提升语义分割效果。

图5-3 ParseNet上下文信息提取模块

...

5.3 PSPNet

5.4 CENet

5.5 Deeplab系列

5.5.1 Deeplab v1

5.5.2 Deeplab v2

5.5.3 Deeplab v3

5.5.4 Deeplab v3+

5.6 HRNet

《深度学习图像分割》项目配套GitHub地址：

https://github.com/luwill/Deep-Learning-Image-Segmentation

欢迎各位读者阅读以及对本书提出意见与建议！

《深度学习图像分割》第4章：基于编解码结构的分割网络

《深度学习图像分割》第3章：图像分割关键技术组件

《深度学习图像分割》第2章：传统图像分割算法

预告 | 《深度学习图像分割》将在GitHub逐步内容开源！