Py学习  »  Python

使用python 3+,OpenCV将发票图像转换为可编辑格式

Sybghat • 4 年前 • 397 次点击  

我正在创建软件来将发票图像转换为可编辑格式(同时转换文本和表格数据)。到目前为止,我已经在python中找到了将图像转换成小块的轮廓,这有助于找到文本的位置,Tesseract用于将这些图像转换成文本。

我已经提取了文本,但现在的问题是把这些文本放在一个简单的记事本、word文档或任何其他你建议的位置上。

发票示例: enter image description here enter image description here

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/56744
 
397 次点击  
文章 [ 1 ]  |  最新文章 4 年前
Virus
Reply   •   1 楼
Virus    4 年前

我建议你用 它的简单Python光学字符识别下面是一个示例代码

import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

im = Image.open("temp.jpg") # the second one 
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save('temp2.jpg')
text = pytesseract.image_to_string(Image.open('temp2.jpg'))
print(text)