手把手带你学 Python3 | 字典与FASTA文件序列抽提

这里是python学习的第五篇，也是基本数据类型的最后一篇。加油撒。

热点推荐

如果还没有安装入门环境首选 pycharm ，可以参见三剑客 PyCharm 小试。

学习编程语言的起点绕不过语法基础，快速掌握规范代码可以参见手把手带你学 Python3 | 编程基础与规范代码。

上一期我们罗列了列表的几种用法，切片及截取都是非常常规的用法，在后面的使用中会经常碰到，建议经常查看哟。

手把手带你学 Python3 | 列表使用一文就够了

元组拆包其实有很多能应用的场景，且元组的不可以变性本身就具有安全的属性，欲简单连接可以查看：

手把手带你学 Python3 | 元组拆包是个啥？

什么是字典

Python字典就好比是hash，一种可以存储任意类型对象，包括字符串、数字、元组、列表甚至是字典的数据类型。

字典的基本操作

#构建一个字典
new_Dict = {}

#写入
new_Dict = {1


    
:2,3:4,'a':'b','d':'c'}

#修改及添加
new_Dict['1'] = a
new_Dict['c'] = d
print(new_Dict)

new_Dict = {a:2,3:4,'a':'b','d':'c','c':'d'}

#删除
del new_Dict
del new_Dict['1']
dict.clear()


len(dict) 
str(dict)

字典应用

上一周的推送中，我们有一个小测试是想使用元组拆包对fa文件进行处理，获得一对一的信息，便于快速搜索，虽然基本实现搜索功能，但是不能快速将ID与序列一一对应，这点很不方便。因此，还是相同的目的，我们测试一下字典的效果：

less test.txt
>hsa_circ_00001



    
GTCCCACCCGAAAGATGCCCCCCAGCGCCAGTGCCGTGGACTTCTTCCAGCTCTTTGTCCCAGACAACGTCCTCAAGAACATGGTGGTGCAGACAAACATGTATGCCAAGAAGTTCCAGGAGCGGTTTGGGAGCGACGGAGCCTGGGTGGAGGTGACGCTGACGGAGATGAAGGCGTTCCTGGGCTACATGATCTCCACCAGCATCTCCCACTGCGAGTCCGTCCTCAGCATCTGGAGCGGAGGCTTCTACAGCAACCGCAGCCTCGCCCTCGTCATGAGCCAGGCCCGCTTCGAGAAGATCCTCAAGTACTTCCACGTCGTGGCCTTCCGCTCCAGCCAGACCACGCACGGGCTCTACAAGGTCCAGCCCTTCCTCGACTCCCTGCAGAACAGCTTCGACTCTGCCTTCAGGCCTTCCCAAACCCAGGTGCTACATGAACCCCTGATCGATGAGGATCCTGTATTCATTGCCACGTGCACAGAGCGGGAGCTGCGAAAGAGGAAAAAGCGGAAATTCAGCCTCTGGGTCAGACAATGTTCTTCCACTGGCTTCATCATCCAG
>hsa_circ_00002
GAAATTATCAGTTCATTGCCTAGCATAGTAAATGACAAATATGGAAGGAAGGTCCTATTGTACTTACTAAGCCCCAGAGATCCTGCACATACAGTACGAGAAATCATTGAAGTTCTGCAAAAAGGAGATGGAAATGCACACAGTAAGAAAGATACAGAGGTCCGCAGACGGGAGCTCCTAGAATCCATTTCTCCAGCTTTGTTAAGCTACCTGCAAGAACACGCCCAAGAAGTGGTGCTAGATAAGTCTGCGTGTGTGTTGGTGTCTGACATTCTGGGATCTGCCACTGGAGACGTTCAGCCTACCATGAATGCCATCGCCAGCTTGGCAGCAACAGGACTGCATCCTGGTGGCAAGGACGGAGAGCTTCACATTGCAGAACATCCTGCAGGACATCTAGTTCTGAAGTGGTTAATAGAGCAAGATAAAAAGATGAAAGAAAATGGGAGAGAAGGTTGTTTTGCAAAAACACTTGTAGAGCATGTTGGTATGAAGAACCTGAAGTCCTGGGCTAGTGTAAATCGAGGTGCCATTATTCTTTCTAGCCTCCTCCAGAGTTGTGACCTGGAAGTTGCAAACAAAGTCAAAGCTGCACTGAAAAGCTTGATTCCTACATTGGAAAAAACCAAAAGCACCAGCAAAGGAATAGAAATTCTACTTGAAAAACTGAGCACATAGGTGGAAAGAGTTAAGAGCAAGATGGAATGATTTTTTCTGTTCTCTGTTCTGTTTCCCAATGCAGAAAAGAAGGG
>hsa_circ_00003
ATGCCGAATATACCAACTCTCCTTTGGTACCTACATTCTGTACTCCTGGTTTGAAAATTCCATCTACAAAGAACAGCATAGCTTTG
>hsa_circ_00004
GTTTTACAAGATGAATTAGAAAACCGTTCTAATCAGGTGCGATGTGCAGAGAAAAAATTACAACACAAAGAATTGGAGTCACAGGAACAGATAACTTACATACGACAAGAATATGAAACAAAATTGAAAGGATTGATGCCAGCATCCCTAAGACAAGAACTTGAAGACACCATTTCCTCCCTAAAATCACAGGTTAATTTTCTGCAAAAGAGAGCTTCCATCCTTCAGGAAGAACTGACTACATATCAAGGCAGAAG
>hsa_circ_00005
ACACCATCCAGCACATGAGAGACAGCAAGCACATCGTCGTGTACCATCGAGGACGCTACTTCAAGGTCTGGCTCTACCATGATGGGCGGCTGCTGAAGCCCCGGGAGATGGAGCAGCAGATGCAGAGGATCCTGGACAATACCTCGGAGCCTCAGCCCGGGGAGGCCAGGCTGGCAGCCCTCACCGCAGGAGACAG

以下是不成熟的代码：

f = open('test.fa','rt')
f = f.readlines()

seq_dict = {}

for line in f:
    line = line.strip('\n')
    if line.startswith('>'):
        id = line.strip('>')
        seq_dict[id] = []
    else:
        #print(line)
        seq_dict[id] = line

#搜索



    
print(seq_dict['hsa_circ_00003']) #获得序列ATGCCGAATATACCAACTCTCCTTTGGTACCTACATTCTGTACTCCTGGTTTGAAAATTCCATCTACAAAGAACAGCATAGCTTTG