Py学习  »  Git

Github标星4.6K+!这个OCR开源项目,火了!

人工智能与大数据技术 • 3 年前 • 1821 次点击  

不久前,百度技术团队在 GitHub 上正式开源了一款 OCR 神器,在发布后不久便多次冲上 GitHub Trending 榜单,引起了技术圈内开发者的热议,今天就跟大家好好介绍下这个项目。

众所周知,OCR(Optical Character Recognition,光学字符识别) 技术已被广泛应用到我们生活中的方方面面,从印刷稿的文字识别、身份证电子化信息录入,到传统邮件自动分拣、汽车牌照识别等领域,都少不了 OCR 的身影。

在平时工作的时候,我也经常会使用一些 OCR 软件来扫描图片并提取文字,而要替代人工完成一系列的文本分析,图像识别操作,则必将使用到 AI 技术。

百度在 GitHub 上开源的 PaddleOCR 模型,大小仅有 8.6M,是目前圈内为数不多,能支持中英文图像、横竖排排版识别的 AI 深度学习模型之一。

先看下 PaddleOCR 自今年年中开源以来,短短几个月在 GitHub 上的表现:
  • 7 月,8.6M 超轻量模型发布,GitHub Trending 全球日榜榜单第一

  • 8 月,开源 CVPR2020 顶会 SOTA 算法,再上 GitHub 趋势榜单!

  • 9 月,GitHub Star 数量已超过 4.6K, 近期又带来哪些重磅更新?

果然,看 9 月最新更新,PaddleOCR 再次诚意满满为大家带来真干货,直接看官方介绍:

01. 官方介绍

数量上,这次 PaddleOCR 一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中 3.5M 超轻量文字识别模型,堪称目前业界开源的最轻量 OCR 模型了。
质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。
先看几个常见的通用场景识别效果:
3.5M 的模型能达到这个识别精度,绝对是良心之作了!
传送门 Github:
https://github.com/PaddlePaddle/PaddleOCR
论文下载链接:
https://arxiv.org/abs/2009.09941

02. 快速体验

PaddleOCR 的 3.5M 超轻量 OCR 模型
1).PC 端快速尝试:(打开网页,选一张图片,即可实时看到结果)
https://www.paddlepaddle.org.cn/hub/scene/ocr
2). 手机端 App 安装体验
PaddleOCR 在百度大脑 EasyEdge 上开放了文字识别 APP demo。
示例效果如下(可以在 github 首页找到下载二维码)

多个开源 repo 测试对比

简单对比一下目前主流 OCR 方向开源 repo 的核心能力:
3). 从性能指标来看:
  • 针对 OCR 实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的 300 张图像,每张图平均有 17 个文本框,PaddleOCR 的 F1-Score 超过 0.5,这个性能已经很不错了。

4). 从功能完备来看:
  • 预训练模型大小:easyOCR 目前暂无超轻量模型,chineseocr_lite 最新的模型是 4.7M 左右,而 PaddleOCR 提供的 3.5M 无疑是目前业界已知最轻量的

  • PIP 安装:目前仅 PaddleOCR 和 easyOCR 支持。

  • 自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型 Finetuning,目前只有 PaddleOCR 支持

  • 部署方面:easyOCR 模型较大不适合端侧部署,Chineseocr_lite 和 PaddleOCR 都具备端侧部署能力。

开发者可以根据自己的实际需求,选择适合自己的开源方案。
对于 PaddleOCR 3.5MB 的超轻量模型,是如何做到的,repo 中也给出了解释。
3.5M 超轻量模型应用了一套超轻量 OCR 系统 PP-OCR,主要由 DB 文本检测、检测框矫正和 CRNN 文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化 8 个方面,采用 19 个有效策略,对各个模块的模型进行效果调优和瘦身。
其中,飞桨模型压缩库 PaddleSlim 为 PaddleOCR 超轻量化模型的实现提供了核心的技术支撑。从超轻量模型 8.1M 的压缩到 3.5M,模型大小降低了 56.79%,其中检测模型速度提升 21%,而且整体模型精度还有提升。
除了 3.5M 超轻量 OCR 模型,PaddleOCR 提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。
想了解更多,欢迎加入  PaddleOCR  技术交流群(扫码添加微信,回复【OCR】进群),跟百度高工交流,第一时间获得技术支持👇
招募活动预告
10 月 31 日,百度 AI 快车道将在南京举办线下活动,欢迎南京 OCR 方向的开发者们,我们相聚【江苏保险大厦-天悦厅】!
更多飞桨的相关内容,请参阅以下内容:
官网地址:https://www.paddlepaddle.org.cn
飞桨 PaddleOCR 项目地址:
GitHub: https://github.com/PaddlePaddle/PaddleOCR
Gitee: https://gitee.com/paddlepaddle/PaddleOCR
飞桨 PaddleSlim 项目地址:
GitHub: https://github.com/PaddlePaddle/PaddleSlim
Gitee: https://gitee.com/paddlepaddle/PaddleSlim
PP-OCR 技术文章:
论文下载:https://arxiv.org/abs/2009.09941
也可以点击 "查看原文" 加入交流群!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/74681
 
1821 次点击