我使用的文本文件是放射报告。如果文档有两个页面,则在所有页面的顶部都会重复包含患者姓名和其他元数据的文本块,而页面的其余部分则包含报告的内容。我已经把这些页面合并成一个文本对象。保留第一个块,我想删除所有其他重复块。有没有办法以编程方式从所有此类文件中删除这些块?
重复的块看起来像这样:
Patient ID xxx Patient Name xxx
Gender Female Age 43Y 8M
Procedure Name CT Scan - Brain (Repeat) Performed Date 14-03-2018
Study DateTime 14-03-2018 07:10 am Study Description BRAIN REPEAT
Study Type CT Referring Physician xxx