社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

#老乡鸡菜谱开源了##我在GitHub学做老乡鸡#老乡鸡菜谱在G-20250919105055

GitHub Trending 日报【2025-09-17】

一天Vibe个工具，看真实用户吐槽ChatGPT、豆包、Kimi...

【第3591期】GitHub Spec-Kit：规范驱动开发走在正确的方向上 - 严谨、渐进式的 V...

GitHub高星精选！十大MCP开源项目，让AI开发效率翻倍！

编程这种场景不需要去 ChatGPT，IDE或者CLI就解决了/-20250917100236

从 ChatGPT 到 Marble，李飞飞押注的下一个爆发点是 3D 世界生成？

机器学习学术速递[9.17]

爆火开源 AI 数字人 Duix.Avatar：手把手教你 Docker 本地部署

单一公共数据库的红利期已经消退，如何破局？新范式：CHARLS、NHANES和GEO多数据库+机器学...

关注

Py学习 » Python

在python中,如何基于关键字提取txt文件的一部分?

Zeshan Fayyaz • 5 年前 • 1661 次点击

假设有一个很大的文本文件,大约有5000个HTML文档。我试图“搜索”一个 DOCNO 打印文件的所有行直到遇到下一行 </DOC> 标签。

文本文件大致如下:

<DOC>
<DOCNO>abc4567890</DOCNO>
contents 
more contents
<BODY> 
even more contents 
</BODY>
</DOC> 
... repeated roughly 5000 times for different DOC NO's

我正在寻找一个输出:

contents 
more contents
<BODY> 
even more contents 
</BODY>
</DOC>

以下是我一直在努力实现的目标:

doc_string = "abc4567890"

with open('myfile.txt', encoding = "utf8") as f:
    for item in f.readlines():
        if "</DOCNO>" in item:
                ID = (item [ item.find("<DOCNO>")+len("<DOCNO>") : ])
                if (ID[0:9] == doc_string):
                    print (item)
                    if "</DOC>" in item:
                       break

但是,作为输出,我得到:

<DOCNO>abc4567890</DOCNO>

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/54274

1661 次点击

文章 [ 1 ] | 最新文章 5 年前

• 1 楼

Daniel 5 年前

像这样的怎么样?

# initialize variables:
lines = []
read_lines = False

with open('file.txt', 'r') as file:

    # iterate over each line:    
    for line in file.readlines():

        # append line to lines list:
        if read_lines: lines.append(line)

        # set read_lines to True:
        if '<DOCNO>abc4567890</DOCNO>' in line: read_lines = True

        # set read_lines to Flase:
        if '</DOC>' in line: read_lines = False


# print each line:
for line in lines:
    print(line, end='')

根据您的输入,它将输出:

contents 
more contents
<BODY> 
even more contents 
</BODY>
</DOC>

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)