社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

如何使用python删除重复的文本块

dratoms • 5 年前 • 1490 次点击  

我使用的文本文件是放射报告。如果文档有两个页面,则在所有页面的顶部都会重复包含患者姓名和其他元数据的文本块,而页面的其余部分则包含报告的内容。我已经把这些页面合并成一个文本对象。保留第一个块,我想删除所有其他重复块。有没有办法以编程方式从所有此类文件中删除这些块? 重复的块看起来像这样:

 Patient ID            xxx                 Patient Name           xxx
 Gender                 Female                         Age                     43Y 8M
 Procedure Name         CT Scan - Brain (Repeat)       Performed Date          14-03-2018
 Study DateTime         14-03-2018 07:10 am            Study Description       BRAIN REPEAT
 Study Type             CT                             Referring Physician     xxx
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/40170
 
1490 次点击  
文章 [ 3 ]  |  最新文章 5 年前