Py学习  »  Python

如何用python提取pdf中包含图像的页面?

Shubh • 4 年前 • 791 次点击  

我有4000个扫描文档作为PDF格式。每个PDF包含一个我想提取的KYC格式。每个PDF都有40页。我们可以用什么技术来获得图像的页数,因为我可以用PDF2图像提取页面,只要我有页码。

enter image description here

enter image description here

KYC表格将是类似的,并将有张贴的图像。我把图像弄模糊了,但质量会更好

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/43759
 
791 次点击  
文章 [ 1 ]  |  最新文章 4 年前
Ed Sheehan
Reply   •   1 楼
Ed Sheehan    5 年前

这是一种简单的方法,扫描所有书签以找到匹配的对象,然后扫描每个页面,直到它匹配相同的对象。可能不是最优雅的方法,但应该完成工作。

from PyPDF2 import PdfFileReader
reader = PdfFileReader('D:\\Downloads\Sample.pdf')

# Scan outlines for bookmark containing KYC
outlines = reader.outlines
print(outlines)
for bookmark in outlines:
    print(bookmark['/Title'])
    print(bookmark['/Page'])
    if bookmark['/Title'] == 'KYC':
        mypage = bookmark['/Page']

# Scan page looking for the matching object        
print(reader.getNumPages())
for x in range(0, reader.getNumPages()): 
    apage = reader.getPage(x)
    print(apage)
    if apage == mypage:
        print('Eureka on page', x + 1)