自然场景文本检测与识别中的深度学习方法综述

许多自然场景图像中都包含着丰富的文本,他们对于场景理解有着重要的作用。随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等。因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别。传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差。近年来随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高。本文介绍了该领域相关的研究背景,对近几年基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点。并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和他们的技术发展路线。此外还列举说明了一些主流公开数据集,并对比了各个模型方法在代表性数据集上的性能情况。最后本文总结了目前不同场景数据下的自然场景文本检测、识别以及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202101210000003&journal_id=jig

文本是人类最伟大和最具影响力的发明之一，它是人类智慧的结晶，是人类文化、思想传承的一种最基本的表达方式和不可或缺的载体。在二十一世纪的今天，文本与我们日常生活密切相关，我们描述、理解万事万物，表达情感，与他人交流都离不开文本。文本以各种形式存在于我们的生活中，尤其在信息时代，随着数码相机、智能手机等具有拍照和摄像功能的便携式电子设备的广泛使用，大量的文本也以图像或者视频的数据方式被保存下来。同时，移动互联网技术的飞速发展使得这类数据的传播和分享更加便捷。因此，人们迫切希望利用计算机对图像或视频中的文本进行检测识别，形成语义表达的方式对其进行理解。这一方面可以提高各种应用场景的生产效率，比如银行的票据、文档分析等业务需求；另一方面这些文本可以作为描述场景的额外信息，辅助各类计算机视觉的实际应用任务，例如图像检索、自动驾驶、视觉信息追踪等。因此，文本的分析与处理越来越成为计算机视觉领域的研究热点之一。

光学字符识别（Optical Character Recognition， OCR），是指对输入的扫描文档图像进行分析处理，检测并识别出该图像当中的文本信息。而自然场景文本提取技术是传统 OCR 技术在自然场景图像的扩展和延伸，具有广阔的应用前景。自然场景文本主要出现在车牌、广告牌、路标和招牌等场景上。不同于传统的扫描图像文本，自然场景文本因表现形式丰富，图像背景复杂，以及图像拍摄引入的干扰因素等的影响，使得对其的分析与处理难度远高于传统的扫描文档图像。

1）文本展现形式丰富。自然场景中的文本对象多样且变化很大，具体可分为以下四个方面：一是文本形状和方向相比于通用目标而言具有多样性。自然场景中的文本以水平形状文本、任意四边形文本以及不规则文本的形式存在；二是文本的尺度变化很大；三是文本的语种多样，包括了中文、英文和阿拉伯文等一系列语种文本，不同语种属性复杂不一；四是文本的排列和版面复杂，对于排列密集的文本，其分析和处理会具有很大的歧义性。

2）图像背景复杂。不同于传统文档图像相对干净的背景，自然场景文本的背景信息是很复杂的。通常很多文本会和背景有相似的纹理信息，被无关物体遮挡，以及图像或视频中的亮度变化等，都会使得检测识别受到很大程度的干扰。

3）图像拍摄引入的干扰因素。摄像头抖动、光照、角度等因素都会给自然场景文本检测识别增加极大的挑战。自然场景文本的提取技术可以分为两个不同的子任务，包括自然场景文本检测和自然场景文本识别。自然场景文本检测是准确定位自然场景中文本的位置，自然场景文本识别则是识别自然场景图像中的文本信息，而端到端自然场景文本检测与识别则是将检测与识别组合成一个完整的过程，在成功定位到文本位置的同时识别出对应的文本内容。近年来，随着深度学习技术的快速发展，国内外学者针对各种问题和挑战，在自然场景文本检测、识别以及端到端自然场景文本检测与识别的任务中都尝试提出了相应的解决方案，极大地促进了自然场景文本提取和理解技术的发展。相比于传统的依赖于手工设计特征的自然场景文本检测与识别算法，基于深度学习的方法具有以下特征：

1）自动化程度高。基于深度学习的自然场景文本检测与识别算法可以自动地捕获文本图像的高级视觉特征，不仅使研究人员和相关从业人员摆脱了手工设计特征和验证特征的繁复过程，而且大大降低了研究人员的门槛。

2）检测识别性能高效。基于深度学习的自然场景文本检测与识别算法的识别性能相比于基于手工设计特征的传统文本识别算法而言，识别性能更好。

3）泛化性能优越。基于深度学习的自然场景文本检测与识别算法具备更优越的泛化性能，可以很容易地应用于相似的视觉任务中。

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：专知