社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

2026必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...

机器学习学术速递[6.9]

机器学习学术速递[6.10]

机器学习学术速递[6.11]

2026必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...

机器学习学术速递[6.12]

青春华章丝路逐光·AIGC视频|青春守山·祁连有我

【青春华章·丝路逐光】AIGC视频|路易·艾黎用一生爱中国

别再手算了！一键处理：Tafel、EIS、CV、FE、ECSA、Cdl、TOF、GITT、Mott–...

机器学习学术速递[6.9]

关注

Py学习 » Python

如何用python提取pdf中包含图像的页面?

Shubh • 6 年前 • 1909 次点击

我有4000个扫描文档作为PDF格式。每个PDF包含一个我想提取的KYC格式。每个PDF都有40页。我们可以用什么技术来获得图像的页数,因为我可以用PDF2图像提取页面,只要我有页码。

KYC表格将是类似的,并将有张贴的图像。我把图像弄模糊了,但质量会更好

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/43759

文章 [ 1 ] | 最新文章 6 年前

• 1 楼

Ed Sheehan 7 年前

这是一种简单的方法,扫描所有书签以找到匹配的对象,然后扫描每个页面,直到它匹配相同的对象。可能不是最优雅的方法,但应该完成工作。

from PyPDF2 import PdfFileReader
reader = PdfFileReader('D:\\Downloads\Sample.pdf')

# Scan outlines for bookmark containing KYC
outlines = reader.outlines
print(outlines)
for bookmark in outlines:
    print(bookmark['/Title'])
    print(bookmark['/Page'])
    if bookmark['/Title'] == 'KYC':
        mypage = bookmark['/Page']

# Scan page looking for the matching object        
print(reader.getNumPages())
for x in range(0, reader.getNumPages()): 
    apage = reader.getPage(x)
    print(apage)
    if apage == mypage:
        print('Eureka on page', x + 1)

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)