Py学习  »  机器学习算法

AI守护千年文物!意大利团队用深度学习自动检测雕像裂缝

龙哥读论文 • 1 周前 • 25 次点击  

                             gif_header

       

xingqiu_header

               

                       

龙哥导读:
千年文物在风雨中静默,裂缝悄然蔓延。意大利研究团队用AI为文化遗产撑起保护伞,让深度学习成为文物的"听诊器"。这不仅是技术的进步,更是对历史的温柔守护。

       


原论文信息如下:

论文标题:
Automated Monitoring of Cultural Heritage Artifacts Using Semantic Segmentation
发表日期:
2025年11月
作者:
A. Ranieri, G. Palmieri, S. Biasotti
发表单位:
CNR-IMATI, Via De Marini, 6 - 16149 Genova (GE), ITALY
原文链接:
https://arxiv.org/pdf/2511.20541v1.pdf
想象一下,一座千年古雕像上出现了一道细微的裂缝,肉眼几乎难以察觉。等到发现时,可能已经造成了不可逆的损伤。文物保护工作者们每天都在与时间赛跑,寻找这些隐藏在岁月痕迹中的"健康隐患"。

传统的文物裂缝检测方法主要依赖人工肉眼观察,不仅效率低下,而且容易受到主观判断的影响。更重要的是,很多珍贵的文物位于高处或难以接近的位置,给检测工作带来了巨大挑战。

就在最近,意大利国家研究委员会(CNR-IMATI)的研究团队带来了一项令人振奋的技术突破——利用深度学习技术实现文物裂缝的自动检测。这项研究不仅为文物保护工作提供了新的工具,更展示了AI在文化遗产保护领域的巨大潜力。

问题背景及相关工作

在深入了解这项研究之前,我们需要先理解几个关键概念。语义分割是计算机视觉中的一个重要任务,它的目标是对图像中的每个像素进行分类,精确地勾勒出感兴趣区域的边界。与仅仅用方框标出物体位置的目标检测不同,语义分割能够提供更加精细的边界信息。

在裂缝检测领域,研究人员已经尝试过多种方法。早期的传统图像处理技术包括边缘检测(如Canny算子、Sobel算子)、阈值分割、形态学操作等。虽然这些方法计算量较小,但在处理复杂的背景、变化的照明条件和噪声时往往表现不佳。

深度学习的出现彻底改变了这一局面。特别是卷积神经网络(CNN),它能够直接从标注数据中学习复杂的空间模式和特征表示,显著提高了分割的准确性。

在文化遗产保护领域,现有的研究主要集中在裂缝的分类和目标检测上。比如有研究团队构建了包含6002张图像的寺庙裂缝分类数据集,还有研究人员公开了4374张图像用于不同砌体材料上的裂缝目标检测。

然而,将深度学习应用于文化遗产保护面临着一个重大挑战:标注数据的稀缺性。虽然存在一些用于民用基础设施裂缝检测的大规模数据集,但这些数据集中的图像特征与雕像、纪念碑等文物表面的裂缝形态存在显著差异。
插图

核心设计

这项研究的核心是U-Net架构的应用。U-Net是由Ronneberger等人在2015年提出的经典深度学习架构,广泛应用于图像分割任务。它的名字来源于其独特的"U"形结构设计。

U-Net架构包含两个主要部分:

编码器(收缩路径)通过卷积层和池化操作逐步下采样输入图像,捕获上下文信息并降低空间分辨率

解码器(扩展路径)对这些特征进行上采样,逐步恢复空间分辨率并生成分割图

U-Net的一个关键创新是直接将收缩路径中的特征图连接到相应的解码器层。这种机制对于保留在下采样过程中可能丢失的细粒度空间信息至关重要,使网络能够生成具有精确边界的高分辨率预测。

研究团队选择了四种不同的CNN骨干网络作为U-Net的编码器,涵盖了不同的模型容量:

ResNet-50:包含50层的深度卷积神经网络,通过残差块和快捷连接解决了梯度消失问题,参数量2560万

ResNet-101:ResNet-50的更深变体,包含101层,参数量4450万

ConvNeXt V2 Base:纯卷积架构,在ImageNet-22k数据集上预训练,参数量8870万

ConvNeXt V2 Huge:ConvNeXt V2家族中最大的变体,参数量达到惊人的6.6亿

所有U-Net变体的解码器都遵循标准的U-Net设计,包含上采样层,并通过跳跃连接将特征从相应的CNN编码器连接起来。
插图

数据准备及实验设计

本研究使用的主要数据集是OmniCrack30k。这是一个专门为通用裂缝分割设计的大规模、系统性基准数据集。它包含了来自20多个不同数据集的30,000个样本,总计90亿像素。

这个数据集涵盖了各种材料上的裂缝图像,包括沥青、陶瓷、混凝土、砌体和钢材等。虽然OmniCrack30k没有专门包含雕像或纪念碑的图像,但其多样性使其成为训练能够泛化到不同表面纹理和裂缝模式的模型的绝佳基础。

为了增强模型的鲁棒性和泛化能力,研究团队在训练过程中应用了标准的数据增强技术。数据集被分为训练集、验证集和测试集,其中测试集仅用于对微调模型进行定量评估。

在数据增强方面,研究团队使用了Albumentations库,应用了一个包含多个分支的随机增强流程:

几何变换:水平翻转、随机旋转90度、转置、平移缩放旋转

适度扭曲:模糊、弹性变换、网格扭曲、光学扭曲

光度变化:色调饱和度值和CLAHE(对比度受限的自适应直方图均衡化)

在优化和超参数设置方面,所有模型都使用Adam优化器进行训练,采用了余弦退火学习率调度。损失函数选择了标准的二元交叉熵(BCE)损失,这种损失函数计算概率并将每个实际类别输出与预测值进行比较,非常适合像素级的二元分类(裂缝vs背景)。

为了最大化训练过程中的自动化水平,研究团队使用了Fast.ai回调函数来实现早停(当网络的验证损失连续2个epoch没有改善时停止训练),并自动保存当前训练轮次中的最佳模型。

实验在一台配备三块Nvidia RTX A6000 GPU(每块48GB显存)、AMD Ryzen Threadripper Pro 7965WX CPU(24核/48线程)和128GB DDR5内存的工作站上进行。每个模型每次只在一块GPU上训练。
插图

实验设置与评估协议详解

实验设置采用了严格的评估协议,确保结果的可比性和可靠性。研究团队设计了双阶段评估流程:第一阶段在OmniCrack30k测试集上进行定量评估,第二阶段在真实雕像和纪念碑图像上进行定性评估。

定量评估使用了三个经典的分割指标:平均交并比(mIoU)Dice系数Jaccard指数。这些指标从不同角度衡量模型在像素级裂缝分割任务上的表现,其中mIoU关注预测区域与真实区域的交叠程度,Dice系数强调分割的完整性,Jaccard指数则衡量重叠比例。

定性评估则更加贴近实际应用场景。由于缺乏专门针对文化遗产裂缝分割的标注数据集,研究团队从网络收集了真实的受损雕像和纪念碑图像作为测试集。评估标准包括裂缝连续性和完整性、边界精度、误报/漏报情况以及泛化能力。
插图

定量评估结果:ConvNeXt V2 Huge表现最佳

定量评估结果清晰地展示了不同架构之间的性能差异。在所有测试配置中,ConvNeXt V2 Huge consistently 表现出最佳的分割精度。
表3:OmniCrack30k测试集上的定量指标(无数据增强)
表3:OmniCrack30k测试集上的定量指标(无数据增强)

从表3可以看出,在没有数据增强的情况下,ConvNeXt V2 Huge在测试集上达到了0.666的mIoU0.862的Dice系数0.782的Jaccard指数,在所有模型中表现最优。ConvNeXt V2 Base紧随其后,而两个ResNet架构的性能相对较低。
表4:OmniCrack30k测试集上的定量指标(有数据增强)
表4:OmniCrack30k测试集上的定量指标(有数据增强)

有趣的是,当应用数据增强后,大多数模型的性能反而有所下降。例如,ConvNeXt V2 Base的测试mIoU从0.662降至0.647。这表明在当前的数据增强策略下可能存在过正则化问题,导致模型产生虚假的裂缝检测。

计算成本方面,ConvNeXt V2 Huge的训练时间明显长于其他架构,每个epoch需要5小时33分钟,而ResNet-50仅需19分钟。这种性能与计算资源的权衡在实际应用中需要仔细考量。

分布外定性评估:模型泛化能力惊人

定性评估结果令人惊喜。尽管训练数据中不包含任何雕像或纪念碑图像,模型却展现出了出色的泛化能力,能够准确识别真实文化遗产物品上的裂缝。
图1:ConvNeXt V2 Huge U-Net模型在黑白色大理石图像上的分布外预测结果
图1:ConvNeXt V2 Huge U-Net模型在黑白色大理石图像上的分布外预测结果

如图1所示,ConvNeXt V2 Huge在不同颜色和纹理的材料上都能准确分割裂缝。相比之下,其他架构的表现就相形见绌了。
图2:相同图像使用其他三种微调模型处理的结果
图2:相同图像使用其他三种微调模型处理的结果

图2清晰地展示了其他架构的局限性。ResNet骨干网络在裂缝检测方面表现不佳,而ConvNeXt V2 Base在处理黑色大理石图像时容易产生误报,这可能是由于其较低的图像分辨率和训练过程中对此类样本的有限接触所致。
图3:ConvNeXt V2 Huge在雕像图像上的分布外预测结果
图3:ConvNeXt V2 Huge在雕像图像上的分布外预测结果

图3显示,ConvNeXt V2 Huge能够有效识别雕像图像中的裂缝,尽管偶尔会产生边界不精确的误报。这种表现已经相当令人满意,考虑到模型从未在类似图像上进行过专门训练。
图4:相同雕像图像使用其他三种模型处理的结果
图4:相同雕像图像使用其他三种模型处理的结果

相比之下,图4展示了ResNet骨干网络的明显局限。这些架构在可靠检测裂缝方面存在困难,经常同时产生误报和漏报。在某些情况下,ResNet-50甚至无法检测到完整的裂缝。
插图

数据增强对模型性能的影响分析

研究团队进行了详细的数据增强消融实验,深入分析各种增强技术对模型性能的影响。这些发现对于优化裂缝检测模型具有重要意义。
表5:数据增强技术的消融研究:验证集指标按Dice分数排序
表5:数据增强技术的消融研究:验证集指标按Dice分数排序

从表5可以看出,转置(Transpose)CLAHE网格扭曲(GridDistortion)是效果最好的增强技术,在验证集上的Dice分数分别为0.854、0.851和0.849。
表6:数据增强技术的消融研究:测试集指标按Dice分数排序
表6:数据增强技术的消融研究:测试集指标按Dice分数排序

表6进一步证实了这些发现在测试集上的有效性。转置增强在测试集上达到了0.866的Dice分数,表现最为出色。

效果最佳的增强技术有其科学依据:转置通过90度步长改变方向同时保持结构模式,提高了对空间变化的鲁棒性;CLAHE增强低光区域的局部对比度,放大了细微的裂缝特征而不引入额外噪声;网格扭曲模拟自然表面变形,有助于模型泛化到未见过的图像。

相反,色调饱和度值(HueSaturationValue)平移缩放旋转(ShiftScaleRotate)被证明是最不利的增强技术。色调饱和度值扭曲颜色通道,可能掩盖了对裂缝检测至关重要的灰度特征;平移缩放旋转结合了平移、缩放和旋转操作,这种组合可能会从图像中抹去最细微的裂缝。

未来展望:构建文化遗产专用数据集与跨领域合作

虽然当前研究取得了令人鼓舞的成果,但文化遗产自动监测领域仍面临诸多挑战和机遇。未来的研究方向应该着重于以下几个关键领域。

最迫切的需求是构建大规模、公开可用的文化遗产裂缝分割数据集。目前缺乏专门针对雕像、纪念碑等文物的标注数据,这严重限制了深度学习模型在此领域的进一步发展。

除了传统的手动标注方法,未来研究可以探索结合图像分割与3D重建技术,利用合成3D数据生成,或者借助扩散模型进行领域自适应。例如,可以将以人为中心的数据集适配到雕像领域,同时保持语义边界。

另一个重要方向是加强跨领域合作。文物保护专家和考古学家的技术专长对于未来工作至关重要,他们可以参与数据标注、提供模型性能的定性评估,最重要的是识别在文化遗产保护中关键但代表性不足的文物类型。

虽然当前模型已经展现出强大的泛化能力,但在专门的文化遗产裂缝数据集上进行微调可能会进一步提升性能,减少跨领域的误报。这种针对性训练有望使模型更好地适应文物表面的独特特征和裂缝形态。
插图

龙迷三问

下面是龙哥对于大家可能的一些问题的解答:

为什么选择U-Net架构而不是其他分割网络?U-Net之所以成为首选,是因为其独特的编码器-解码器结构配合跳跃连接,能够有效保留在下采样过程中可能丢失的细粒度空间信息。这种特性对于检测不规则、细微的裂缝结构至关重要。相比之下,其他分割网络可能在保持边界精度方面不如U-Net。

mIoU、Dice和Jaccard这三个指标有什么区别?这三个指标都用于评估分割性能,但侧重点不同。mIoU关注预测区域与真实区域的重叠程度;Dice系数更强调分割的完整性,对漏检比较敏感;Jaccard指数则直接计算重叠比例。在实际应用中,通常需要综合考量这三个指标来全面评估模型性能。

为什么数据增强在某些情况下会降低模型性能?这是因为不恰当的数据增强可能会引入与任务无关的变异,或者破坏对裂缝检测至关重要的特征。例如,色调相关的增强可能会改变裂缝与背景的对比度特征,而过度扭曲可能会破坏裂缝的连续性模式。选择合适的增强策略需要基于对任务特性的深入理解。

如果你还有哪些想要了解的,欢迎在评论区留言或者讨论~

*本文仅代表个人理解及观点。想了解更多原文细节的小伙伴,可以点击左下角的"阅读原文",查看更多原论文细节哦!       

end

📚 还是看不懂?或者没看过瘾?论文没思路?行业落地没靠谱的算法?找不到合适的数据集?想要更多垂直领域SOTA进展与算法剖析?⛽

加入【龙哥读论文】知识星球,助你高效突破科研瓶颈,前沿研究一手掌握!


🔥 每日AI资讯速递——政策风向技术趋势行业动态,快速锁定关键信息!

🔥 AI前沿论文每日精拆——核心方法、实验结论、优缺点剖析、研究启发,四大维度深度解读,节省80%读论文时间!

🔥 30+细分领域精准分类——图像增强/恢复/调光视频生成自动驾驶机器人大语言模型强化学习Agent3D渲染AI医疗图像配准涨点神器模型架构/训练/优化AI金融AI咨询高科技岗位招聘……定向阅读,高效匹配你的研究方向!

🔥 定期论文趋势总结——分领域梳理最新成果与突破,横纵对比前沿进展,节省90%对比实验时间

🔥 直击疑难,与大咖对话——向龙哥、行业教授、领域专家直接提问,每周优先解答,关键困惑快速突破!

🔥 AI招聘/招博信息每日速达——第一时间获取岗位与深造机会,快人一步,抢占先机!

📌 加入【龙哥读论文】,一起站上AI研究与创新的最前沿!

xingqiu_coupon
赶快扫描👆二维码上车!只要259, 信息效率你都有!SOTA思路尽在掌握!!!
欢迎加入龙哥读论文粉丝群,添加龙哥助手微信号加群:kangjinlonghelper。一定要备注:研究方向+地点+学校/公司+昵称(如 图像处理+上海+清华+龙哥),根据格式备注,可更快被通过且邀请进群。
dianzan

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189869