社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

机器学习学术速递[3.31]

机器学习学术速递[4.1]

突发！！比分子对接快1000万倍？超过所有传统对接和深度学习模型

机器学习学术速递[4.2]

机器学习学术速递[4.3]

顶级恐怖！MIT数学实锤证明：ChatGPT正诱发「AI精神病」，全球14人已死亡

2026必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...

我天，Python已沦为老二。。

机器学习学术速递[3.30]

绕过 GEE 配额限制：使用 Python geedim 实现遥感影像高速下载

私信 • 关注

Ed Sheehan

Ed Sheehan 最近创建的主题

» Ed Sheehan 创建的更多主题

Ed Sheehan 最近回复了

7 年前

回复了 Ed Sheehan 创建的主题 » 如何用python提取pdf中包含图像的页面?

这是一种简单的方法,扫描所有书签以找到匹配的对象,然后扫描每个页面,直到它匹配相同的对象。可能不是最优雅的方法,但应该完成工作。

from PyPDF2 import PdfFileReader
reader = PdfFileReader('D:\\Downloads\Sample.pdf')

# Scan outlines for bookmark containing KYC
outlines = reader.outlines
print(outlines)
for bookmark in outlines:
    print(bookmark['/Title'])
    print(bookmark['/Page'])
    if bookmark['/Title'] == 'KYC':
        mypage = bookmark['/Page']

# Scan page looking for the matching object        
print(reader.getNumPages())
for x in range(0, reader.getNumPages()): 
    apage = reader.getPage(x)
    print(apage)
    if apage == mypage:
        print('Eureka on page', x + 1)

» Ed Sheehan 创建的更多回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)