先看下飞桨文字识别套件PaddleOCR自今年年中开源以来,短短几个月在GitHub上的表现:
7月,8.6M超轻量模型发布,GitHub Trending 全球日榜榜单第一!
8月,开源CVPR2020顶会SOTA算法,再上GitHub趋势榜单!
9月,GitHub Star数量已超过3.4K, 近期又带来哪些重磅更新?
果然,看9月最新更新,PaddleOCR再次诚意满满为大家带来真干货,直接看官方介绍:数量上,这次PaddleOCR一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中3.5M超轻量文字识别模型,堪称目前业界开源的最轻量OCR模型了。质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。3.5M的模型能达到这个识别精度,绝对是良心之作了!https://github.com/PaddlePaddle/PaddleOCRhttps://arxiv.org/abs/2009.09941快速体验PaddleOCR的
3.5M超轻量OCR模型
https://www.paddlepaddle.org.cn/hub/scene/ocr
PaddleOCR在百度大脑EasyEdge上开放了文字识别APP demo。示例效果如下(可以在github首页找到下载二维码):
简单对比一下目前主流OCR方向开源repo的核心能力:
- 预训练模型大小:EasyOCR目前暂无超轻量模型,chineseocr_lite最新的模型是4.7M左右,而PaddleOCR提供的3.5M无疑是目前业界已知最轻量的。
- PIP安装:目前仅PaddleOCR和EasyOCR支持。
- 自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型Finetuning,目前只有PaddleOCR支持。
- 部署方面:EasyOCR模型较大不适合端侧部署,Chineseocr_lite和PaddleOCR都具备端侧部署能力。
开发者可以根据自己的实际需求,选择适合自己的开源方案。对于PaddleOCR 3.5MB的超轻量模型,是如何做到的,repo中也给出了解释。3.5M超轻量模型应用了一套超轻量OCR系统PP-OCR,主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身。其中,飞桨模型压缩库PaddleSlim为PaddleOCR超轻量化模型的实现提供了核心的技术支撑。从超轻量模型8.1M的压缩到3.5M,模型大小降低了56.79%,其中检测模型速度提升21%,而且整体模型精度还有一定提升。除了3.5M超轻量OCR模型,PaddleOCR提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。想了解更多。欢迎加入PaddleOCR技术交流群,第一时间获得技术支持。
9月26日,飞桨将举办OCR方向的线下沙龙活动,欢迎北京OCR方向的开发者们,我们相聚中关村。
(扫描海报中的二维码即可报名或加入OCR技术交流群)
官网地址:https://www.paddlepaddle.org.cnhttps://github.com/PaddlePaddle/PaddleOCR https://gitee.com/paddlepaddle/PaddleOCRhttps://github.com/PaddlePaddle/PaddleSlim https://gitee.com/paddlepaddle/PaddleSlimhttps://arxiv.org/abs/2009.09941