好文推荐

A two-step deep learning-based framework for metro tunnel lining defect recognition

一种基于深度学习的两步法地铁隧道衬砌缺陷识别框架

摘要（Abstract）

为了快速、准确、自动地从海量地铁隧道衬砌图像数据中识别各类缺陷（渗漏、裂缝、剥落），提出了一种基于深度学习的两步法识别框架。首先，利用自主研发的地铁隧道检测无人机（MTID）、手机和数码相机建立了地铁隧道衬砌图像分类和多缺陷检测数据集。在缺陷识别框架的第一步中，基于分类数据集，结合卷积神经网络与视觉Transformer，构建了隧道衬砌图像分类网络（TLCNet），实现缺陷图像的筛选与存储，其分类准确率达到85.60%±1.58%，帧率为81FPS。在第二步中，设计多检测头并引入注意力模块，基于You Only Look Once（YOLO）网络提出隧道衬砌缺陷检测网络（TDDNet），在目标检测数据集上实现了71.51%的mAP、69.83%的F1分数，计算量为75.95 GFLOPs，参数量为3778万。广泛的对比实验、消融实验和泛化实验验证了TLCNet和TDDNet的优越性。此外，集成TLCNet与TDDNet的智能平台被构建，实现了地铁隧道衬砌检测任务中的多缺陷识别。

引言（Introduction）

在过去的一个半世纪里，地铁线路凭借其大运量、高速度和高安全性，在全球范围内得到了广泛建设和运营，以解决复杂的交通拥堵问题，促进区域间合作，从而推动社会繁荣和经济发展。目前建成的大多数地铁线路均为地下线路，采用盾构隧道结构。然而，随着越来越多的地铁盾构隧道进入“养护与维修”生命周期，复杂的地质条件、周围环境及运营因素导致隧道衬砌出现多种缺陷。最常见的地铁隧道衬砌缺陷包括渗漏、裂缝和剥落，这些表面缺陷可能影响衬砌的极限承载力和安全性能，进而对隧道结构功能和地铁运营构成重大风险。

为确保地铁系统的运营安全和隧道结构的安全性，需对隧道衬砌进行定期检查。早期，地铁隧道衬砌的检测主要依赖人工目视检查。然而，传统目视检查存在不确定性、主观性高、危险性大及低效等问题，阻碍了隧道衬砌缺陷的快速、客观检测。近年来，结合人工智能技术的基于机器视觉的地铁隧道衬砌缺陷检测方法逐渐成为研究热点。其基本原理是采集隧道衬砌图像并从中识别表面缺陷。目前，已开发出多种配备摄像设备的装置用于获取隧道衬砌图像。在图像采集完成后，提高缺陷识别的准确性和效率成为关键研究任务。随着深度学习在计算机视觉领域的突破，基于卷积神经网络(CNN)的隧道衬砌缺陷识别近年来备受关注。

隧道衬砌水泄漏的识别任务受到了研究人员的广泛关注。图像分割算法在水泄漏检测中被广泛研究。Xiong等人采用全卷积网络（FCN）来识别盾构隧道衬砌上的水泄漏。基于Mask R-CNN，Zhao等人和Xue等人实现了衬砌泄漏的分割。Tan等人的研究提出了一种轻量级分割网络（LSNet），通过该网络可以快速检测地铁盾构隧道泄漏。Feng等人开发了U型模型，实现了水泄漏的准确和快速分割。在Feng等人的另一项工作中，提出了一种名为SOLOv2-TL的深度学习模型，实现了水泄漏的实例分割。衬砌裂缝作为揭示隧道安全性的重要指标，也被许多研究者作为主要检测目标进行了研究。为实现自动裂缝识别，图像分割和目标检测方法被广泛探索。Zhao等人引入了路径聚合网络（PANet）和位置-通道网络（PCNet）来从图像中分割衬砌裂缝。Dang等人通过使用ResNet-152增强了UNet，以获得准确的裂缝检测结果。Liu等人和Zhou等人利用不同的You Only Look Once网络变种定位隧道衬砌裂缝。目前，少数研究关注于开发结合缺陷（即两种或更多类型的裂缝、泄漏、剥落和钢筋裸露）的算法，涵盖分类、目标检测和分割等方法。Man等人采用ResNets将隧道衬砌图像划分为四类：管道、衬砌接缝、水泄漏和裂缝，从而实现缺陷识别。Huang等人在FCN基础上构建了双流语义分割算法，用于识别裂缝和潮湿痕迹。Xu等人应用优化的Mask R-CNN识别泄漏和剥落。Zhou等人提出利用You Only Look Once网络识别泄漏、裂缝和钢筋裸露。

从上述研究的研究对象来看，大多数研究仅聚焦于隧道衬砌裂缝或水泄漏的识别。从研究方法的角度来看，大多数先前的研究直接将缺陷识别问题视为简单的分类问题，或分别关注缺陷位置或区域的定位或分割问题。然而，在实际的地铁隧道检查应用中，检查员收集了大量的衬砌图像，包括大量背景图像（无缺陷图像）和包含三种常见缺陷（裂缝、泄漏、剥落）的缺陷图像。通常，检查员采集的正常（无缺陷）图像远多于异常（有缺陷）图像。实际工程要求是能够快速、准确、自动地从海量图像数据中识别各种缺陷，以支持后续的隧道结构状况评估和维修。现有的仅利用单一深度学习方法识别特定类型缺陷的研究范式，仍不足以满足工程需求。为克服这些限制，本研究提出了一种基于深度学习的地铁隧道衬砌多缺陷识别的两步框架，具体内容如下：

1)在第一步中，主要目标是从大量隧道衬砌图像中分离并保存有缺陷的图像，以便进一步进行多缺陷识别。这个过程可以被归纳为一个二分类任务。研究人员和工程师通常采用卷积神经网络（CNN）模型，如ResNet和VGG，来分类隧道衬砌图像。CNN通过卷积操作具备平移不变性和局部敏感性，这些特点使CNN能够提取丰富的局部空间特征。然而，卷积操作缺乏对整张图像的全局理解，无法学习特征之间的关系。近年来，随着Transformer在自然语言处理和计算机视觉领域取得巨大成功，研究人员将纯视觉Transformer模型引入到土木工程中的图像分类任务。受益于自注意力机制，视觉Transformer能够从全局角度挖掘特征依赖，从而获得更多的上下文语义信息。然而，纯视觉Transformer模型缺乏CNN固有的归纳偏置，导致局部特征的丢失以及对数据的强烈依赖。自动分类具有复杂背景和多尺度目标的地铁隧道衬砌图像仍然是一个挑战。在此挑战下，应同时考虑全局信息和局部信息。为此，本研究首次提出了一种隧道衬砌图像分类网络（TLCNet），这是一种将CNN与视觉Transformer结合的混合架构。图像分类不同于目标定位或分割任务；即推断图像的离散类别标签比获取对象的边界框或像素级标签更容易、更直接。第一步的实施避免了进一步处理无缺陷图像，从而节省了计算资源，提高了缺陷识别的效率。

2)在第二步中，最终目标是从第一步保留下来的有缺陷图像中快速而准确地检测裂缝、水泄漏和剥落，这可以视为一个多目标检测任务 。目前，目标检测和语义分割模型已广泛应用于隧道衬砌缺陷检测任务。与深度Lab系列模型和U型模型等语义分割模型相比，YOLO系列等单阶段目标检测模型具有更快的运行速度和更低的计算资源需求，使它们适用于从海量图像数据中实时检测衬砌缺陷，特别适合隧道工程现场的快速检测和反馈。在此，本文基于You Only Look Once网络v7（YOLOv7）开发了一种隧道衬砌缺陷检测网络（TDDNet）。TDDNet同样面临着第一步中的相同困难：复杂的环境干扰和多尺度目标。具体来说，一方面，地铁隧道衬砌图像易受不均匀或不足的照明影响，同时衬砌表面上有许多附属物，其特征与缺陷相似。另一方面，目标包括小尺寸的裂缝、中等尺寸的剥落和大尺寸的泄漏。因此，基于YOLOv7作为基准，设计了四个检测头来处理多目标检测问题。同时，在模型的一些关键位置引入了基于注意力的模块，以提取有价值的特征并抑制无关的干扰。第二步的应用提供了各种缺陷的详细位置和近似轮廓，为后续的维修建议提供依据。

通过提出上述两步框架，本研究致力于提高地铁隧道衬砌图像多缺陷检测的准确性和效率，从而解决当前的工程问题。在建立深度学习模型之前，本文在上海地铁线路上进行了广泛的检查工作，旨在通过地铁隧道检查无人机（MTID）、手机和数码相机构建地铁隧道衬砌图像数据集。此外，本文还建立了一个嵌入TLCNet和TDDNet的智能平台，将所提框架应用于实际地铁隧道工程。总体而言，本研究的主要贡献如下：

1)构建了一个地铁隧道衬砌图像分类数据集，包括1237个缺陷图像和1460个无缺陷图像。同时，建立了一个用于目标检测的地铁隧道衬砌多缺陷数据集，包含1808个泄漏、1362个剥落和1762个裂缝图像，并附有详细的标注信息。

2)为解决地铁隧道衬砌图像精确分类的挑战，提出了融合CNN和视觉Transformer的TLCNet模型，其中CNN用于提取浅层特征，视觉Transformer处理深层特征。

3)为实现从缺陷图像中精确高效地检测隧道衬砌多缺陷，基于YOLOv7开发了TDDNet模型，该模型借助四个检测头和两种类型的注意力模块。

4)基于TLCNet和TDDNet完成了智能平台的建设。通过该平台，可以在实际工程应用中实现地铁隧道衬砌多缺陷的自动、快速、准确识别。

本文结构安排如下：第2节介绍了所提的基于深度学习的多缺陷识别框架，并详细描述了模型架构。第3节概述了隧道衬砌图像数据的收集与组织过程。第4节首先描述了深度学习模型的实验环境。然后，展示了我们提出方法的实验结果和分析。随后，第5节介绍了基于集成两步框架的智能平台在实际地铁隧道检查中的应用。最后，第6节总结了本研究，并对未来的工作进行了展望。

图（Figures）

Graphical abstract

Fig. 1. Framework of the proposed two-step deep learning-enabled metro tunnel lining defect recognition.

Fig. 2. Overall architecture of TLCNet.

Fig. 3. Structures of (a) MBConv and (b) SE modules.

Fig. 4. Structures of (a) visual Transformer module and (b) feed forward network.

Fig. 5. Overall architecture of TDDNet.

Fig. 6. Details of the modules in the TDDNet model.

Fig. 7. An illustration of the predicted box, real bounding box, and minimum enclosing box.

Fig. 8. Structures of (a) SimAM block and (b) ACmix block.

Fig. 9. A schematic diagram of the metro tunnel inspection drone (MTID).

Fig. 10. Typical examples of (a) defect-free and (b) defective images in the classification dataset.

Fig. 11. Schematic diagram of the 5-fold cross-validation experiment.

Fig. 12. Dataset for object detection experiments.

Fig. 13. Data augmentation methods.

Fig. 14. Loss curves of the TLCNet in the 5-fold cross-validation experiment.

Fig. 15. Classification results of several representative testing images.

Fig. 16. Confusion matrices generated during cross-validation of (a) TLCNet, (b) ViT, and (c) DenseNet.

Fig. 17 . Loss curves of the TDDNet on the training and validation datasets.

Fig. 18. Identification results of different models for large-scale water leakages (a) (b), medium-scale spalling defects (c) (d), small-scale cracks (e) (f), and mixed defects (g) (h).

Fig. 19. Predicted results and heatmaps of different models for testing images.

Fig. 20. AP calculation results of seven models, including (a) TDDNet, (b) Faster R-CNN, (c) YOLOv4, (d) YOLOv5, (e) YOLOX, (f) YOLOv7-x, and (g) SSD.

Fig. 21. Predicted results of seven models for (a) simple and (b) complex samples.

Fig. 22. Metro tunnel lining defect intelligent recognition platform: (a) home page, (b) interface for automatic classification of lining images, and (c) interface for detection of multi-defect.

Fig. 23. Practical engineering applications based on defect intelligent detection platform: (a) metro tunnel lining image classification application example 1, (b) metro tunnel lining image classification application example 2, (c) metro tunnel lining multi-defect detection application example 1, and (d) metro tunnel lining multi-defect detection application example 2.

结论（Conclusions）

本研究提出了一种基于深度学习的两步法地铁隧道衬砌多缺陷识别框架。第一步提出了一种自动实时图像分类模型TLCNet，该模型能够从大量隧道衬砌图像中分离并保存有缺陷的图像。第二步开发了一种准确的目标检测模型TDDNet，用于同时识别主要的衬砌表面缺陷。该研究的主要结论如下：

1）在5折交叉验证实验中，TLCNet的平均准确率为85.60%±1.58%，比ResNet、DenseNet、EfficientNet、MobileNet、ShuffleNet、Swin Transformer和Vision Transformer分别高出11.02%、6.83%、7.01%、7.12%、7.87%、21.11%和9.61%。这一结果表明，所提出的混合分类模型通过融合CNN和视觉Transformer，能够准确地分类地铁隧道衬砌图像。此外，TLCNet的帧率达到81帧/秒，显著优于大多数基于CNN和纯视觉Transformer的模型。

2）TDDNet的mAP达到71.51%，F1得分为69.83%，超越了YOLOv4（41.99% mAP，27.66% F1得分）、YOLOv5（69.40% mAP，65.82% F1得分）、YOLOX（67.12% mAP，69.58% F1得分）、SSD（49.86% mAP，52.17% F1得分）、Faster R-CNN（56.36% mAP，35.30% F1得分）和YOLOv7-x（53.00% mAP，43.81% F1得分）。TDDNet的FLOPs仅比YOLOv5更高，低于其他五种模型。此外，TDDNet的参数数量比SSD和Faster R-CNN更多，但少于其他四个模型。这些结果表明，所提出的模型能够实现精确的多缺陷检测，并保持较低的时间和空间复杂度。大量消融实验进一步证明了TDDNet模型架构的优越性和合理性。

3）通过对三个开源数据集进行一系列实验，证明了TLCNet和TDDNet的强泛化能力。TLCNet的准确率为93.22%，TDDNet的mAP为65.32%，F1得分为65.53%。此外，两个步骤框架与单步方法的对比测试也证明了TLCNet和TDDNet结合在衬砌缺陷识别准确性和处理效率方面的优势。

4）基于TLCNet和TDDNet算法，建立了一个地铁隧道衬砌多缺陷识别的智能平台。平台的主要功能界面展示了其在实际工程应用中的有效性。

图像分类模型在两步法框架中起着关键作用。未来的研究中，仍需继续提高分类模型的准确性、鲁棒性和泛化能力。 此外，由于正负样本的数量和质量限制，TLCNet的潜力尚未完全挖掘。通过收集大量真实的隧道衬砌图像或通过生成对抗网络等辅助方法生成接近真实的数据样本，TLCNet的性能可以进一步提升。对于TDDNet，仍然存在一些不足之处，如运行速度较低。引入先进的模型压缩和加速技术可能有助于提高模型的运行速度。此外，进一步研究耦合的目标检测和语义分割算法，以实现对衬砌缺陷的更详细几何测量，也是一个值得探索的方向。

参考文献

Feng Y ,Feng J S ,Zhang L X , et al.A two-step deep learning-based framework for metro tunnel lining defect recognition[J].Tunnelling and Underground Space Technology incorporating Trenchless Technology Research,2024,150105832-.

https://doi.org/10.1016/J.TUST.2024.105832

本文仅用于学术交流与分享，版权属于出版商，如有任何疑问，请与我们联系。

好文推荐第79期 | TUST中科院1区（TOP）文章《一种基于深度学习的两步法地铁隧道衬砌缺陷识别框架》！

一种基于深度学习的两步法地铁隧道衬砌缺陷识别框架