开源生信 Python教程

源码在：https://github.com/Tong-Chen/Bioinfo_course_python

Gene    Sample  Value   Unit    Abundance
ENSG00000000003 A-431   21.3    FPKM    Medium
ENSG00000000003 A-549   32.5    FPKM    Medium
ENSG00000000003 AN3-CA  38.2    FPKM    Medium
ENSG00000000003 BEWO    31.4    FPKM    Medium
ENSG00000000003 CACO-2  63.9    FPKM    High
ENSG00000000005 A-431   0.0     FPKM    Not detected
ENSG00000000005 A-549   0.0     FPKM    Not detected
ENSG00000000005 AN3-CA  0.0     FPKM    Not detected
ENSG00000000005 BEWO    0.0     FPKM    Not detected
ENSG00000000005 CACO-2  0.0     FPKM    Not detected

输出格式

Name    A-431    A-549    AN3-CA    BEWO    CACO-2
ENSG00000000460    25.2    14.2    10.6    24.4    14.2
ENSG00000000938    0.0    0.0    0.0    0.0    0.0
ENSG00000001084    19.1    155.1    24.4    12.6    23.5
ENSG00000000457    2.8    3.4    3.8    5.8    2.9

写程序 reverseComplementary.py计算序列 ACGTACGTACGTCACGTCAGCTAGAC的反向互补序列。(2分)

reverse
list(seq)
用到的知识点

写程序 collapsemiRNAreads.py转换smRNA-Seq的测序数据。(5分)

输入文件格式(mir.collapse, tab-分割的两列文件，第一列为序列，第二列为序列被测到的次数)




    
  ID_REF        VALUE
  ACTGCCCTAAGTGCTCCTTCTGGC        2
  ATAAGGTGCATCTAGTGCAGATA        25
  TGAGGTAGTAGTTTGTGCTGTTT        100
  TCCTACGAGTTGCATGGATTC        4

输出文件格式 (mir.collapse.fa, 名字的前3个字母为样品的特异标示，中间的数字表示第几条序列，是序列名字的唯一标示，第三部分是x加每个reads被测到的次数。三部分用下划线连起来作为fasta序列的名字。)
```
  >ESB_1_x2
  ACTGCCCTAAGTGCTCCTTCTGGC
  >ESB_2_x25
  ATAAGGTGCATCTAGTGCAGATA
  >ESB_3_x100
  TGAGGTAGTAGTTTGTGCTGTTT
  >ESB_4_x4
  TCCTACGAGTTGCATGGATTC
```

简化的短序列匹配程序 (map.py) 把short.fa中的序列比对到ref.fa, 输出短序列匹配到ref.fa文件中哪些序列的哪些位置。(10分)

find
用到的知识点
输出格式 (输出格式为bed格式，第一列为匹配到的染色体，第二列和第三列为匹配到染色体序列的起始终止位置（位置标记以0为起始，代表第一个位置；终止位置不包含在内，第一个例子中所示序列的位置是(199,208](前闭后开，实际是chr1染色体第199-206的序列，0起始). 第4列为短序列自身的序列.)。
附加要求：可以只匹配到给定的模板链，也可以考虑匹配到模板链的互补链。这时第5列可以为短序列的名字，第六列为链的信息，匹配到模板链为’+’，匹配到互补链为’-‘。注意匹配到互补链时起始位置也是从模板链的5’端算起的。
```
chr1    199    208    TGGCGTTCA
chr1    207    216    ACCCCGCTG
chr2    63    70    AAATTGC
chr3    0    7    AATAAAT
```

每日书籍推荐 - 流畅的Python

《流畅的Python》作者卢西亚诺·拉马略（Luciano Ramalho）是Thoughtworks 首席咨询师、Python 软件基金会成员、巴西知名 Python 语言学习社区 Python Brasil 联合创始人。拥有 25 年 Python 编程经验，他的《流畅的Python》是编程领域经典作品，影响近 8 万读者，基于Python 3.10，内容详尽，精心设计的代码示例有近 500 段！还有大量的图和表，简直对学习真的太友好了！。

具体看ChatGPT的评价：