对于很大的文本文件,通常会压缩之后再进行存储和传输,比如二代测序的fastsq文件,通常都是gzip压缩之后的格式。对于压缩文件的读写,通过python的内置模块也可以快速搞定。根据压缩格式的不同,提供了以下3个模块gzip模块用于处理后缀为gz的压缩文件,读取gzip压缩文件的代码如下>>> import gzip>>> with gzip.open('file.gz', 'rt') as f:... for line in f:... print(line)
生成gzip压缩文件的代码如下
>>> with gzip.open('file.gz', 'wt') as f:... f.write('hello')
2. bz2
bz2模块用于处理后缀为bz2的压缩文件,读取bz2压缩文件的代码如下
>>> import bz2>>> with bz2.open('file.bz2', 'rt') as f:... for line in f:... print(line)
生成bz2压缩文件的代码如下
>>> with bz2.open('file.bz2', 'wt') as f:... f.write('hello')
3. lzma
lzma模块用于处理后缀为xz的压缩文件,读取xz压缩文件的代码如下
>>> import lzma>>> with lzma.open('file.xz', 'rt') as f:... for line in f:... print(line)
生成xz压缩文件的代码如下
>>> with xz.open('file.xz', 'wt') as f:... f.write('hello')
对于压缩文件,选择压缩格式对应的模块来操作即可。
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。
扫描下方二维码,关注我们,解锁更多精彩内容!