Py学习  »  机器学习算法

当AI遇到生物-深度学习在生物研究中的应用案例列表

混沌巡洋舰 • 6 年前 • 888 次点击  

深度学习究竟将如何改变未来,一个具有光明前景的领域就是其在医疗以及生物学相关问题上的应用,在相关论文预印本网站bioRxiv上,可以找到很多相关的文章。由于这个领域的进步很快,深度学习助力基因科技这篇一年前写的文章,现在看来已有些过时。本篇文章列出了部分现有的应用深度学习技术处理医学和生物学问题的工具,从这个列表中,可以看出当前深度学习在该领域的挑战和局限,也可以全面的了解深度学习在计算生物学,医学影像及生物信息等学科所具有的广泛应用场景。


深度学习+生物的论文发表数量

发表的论文中所用的模型的比例




1>药物研发类


1)药物研发中需要预测不同结构的分子相互作用的情况,这可以大幅节省研发的时间和金钱成本。通过使用实验验证的数据,Ryan Adams将分子中的原子看成图中的点,将原子间的化学键看成是图的边,使用卷积神经网络预测全新的分子的性质,这项技术又被称为分子指纹,具体参考 https://github.com/HIPS/neural-fingerprint。

药物分子间相互作用的示例图


2)ORGAN 使用强化学习和对抗神经网络来自动化的指导新药的研发过程,该模型能够按照指定的目标,去寻找符合要求的药物的分子结构。这种方法本来是一个通用的框架,适合各种类型的离散型数据,包括文本,乐谱,而这里针对药物研发的问题进行了针对性的优化,参考 https://github.com/gablg1/ORGAN


3)使用强化学习来从头开始生成药物序列,上述的两个工具,还只是辅助药物的研发,而通过RNN和强化学习的结合,https://github.com/MarcusOlivecrona/REINVENT中介绍的工具,可以从一个分子开始,生成只在特定的受体被激活的分子序列,例如针对多巴胺2型受体,这个工具生成的序列经过实验验证,95%都满足需求。


4)DeepChem,这是一个python库,应用了LSTM和卷积神经网络,作为一个可以从小样本中学习的计算化学工具DeepChem不止可以应用在药物的研发,还可以用在材料科学,量子化学的研究中。


2>基因组学

1)DeepVariant,这是一个2016年由谷歌的Deep Mind团队推出的工具,通过将基因数据转化成图像,再通过图像识别的模型,找出基因中有差异的部分,如下图所示,该工具在升级之后,在多项标准的检测指标中表现的和传统方法相差不多。https://github.com/google/deepvariant

DeepVariant的原理示意图


2)ADAGE ,这是一个用降噪自编码器来分析基因表达数据的工具,所谓的基因表达量数据,就是针对每个基因,在不同的细胞中检测有多少RNA从其中转录,从而得出对应的基因产生了多少影响。通过对高纬度的基因表达量数据进行降维,ADAGE可以识别出不同样本间的相互关系,相比于传统的PCA或ICA的方法,ADAGE能够更准确在表达量都较低的情况下识别出具有生物学意义的基因。https://github.com/greenelab/adage,类似的工具(使用相近的模型,实现相似的目地)还包括https://www.biorxiv.org/content/early/2017/11/05/214122 , http://biorxiv.org/content/early/2015/11/16/031906 , https://github.com/uci-cbcl/D-GEX 等,这里就不一一列出了。


3)DanQ,DNA序列中编码蛋白质的区域被称为基因区,然而这只占序列总长度的2%,其他的序列有些作用是调控基因的表达,例如让一些基因多翻译一些,让另一些少翻译一些,而更多的部分,则不明确有什么功能。通过深度学习中的RNN或CNN等模型,可以预测基因中那一段是有调控作用的。类似的工具还有Basset DeepSEA DeepBind DeepMotif PEDLA FIDDLE, 从工具的数量上可以看出,这个领域的研究是相对容易出成果,也是具有较大潜力的。


4)DeepCpG,这是一个用来预测不同细胞的基因组上那些未知会被甲基化的工具,甲基化意味着通过表观遗传学(点击查看表观遗传学是什么)改变了基因的表达,而基因上会发生甲基化的位置,和其附近的序列有关,因此可以进行预测。类似的还有针对单细胞测序开发的工具,参考http://www.nature.com/articles/srep19598



     

3> 其他应用

1)和病人相关的一个重要应用场景是隐私保护,如何保证患者的生理数据能够有效的匿名化,是一个很重要的问题。通过使用对抗神经网络GAN,SPRINT这个工具可以生成和真实的患者数据类似的数据,但这些生成的数据无法对应到具体的患者,这样增加了对患者隐私的保护,可以增加患者共享自己数据的意愿,具体参考https://github.com/greenelab/SPRINT_gan 。


2)预测衰老标记,人的年龄不止是身份证上写的那个,更关键的是你的身体是否还像年轻人那样,Young AI是一个集合了21个深度学习模型的集成模型,只需要通过你体检得出的19项生理指标,这个模型就可以预测你的实际年龄,平均误差只有5.9年,这项工具将可以用于自我评估自己的衰老状况。http://www.aging.ai


3)Deep Heart 通过可穿戴设备检测的心跳数据提前预测中风的发作,从而为用户赢得抢救所需的时间,准确度高达97%。原理是因为心脏及各种动脉,静脉,胃,食管都连在植物性神经系统上,而心率变异率的变化与这些器官的状态有关,Deep heart  就可以通过加速度计和心率变异率的检测,来判断某个人是否有高血压或呼吸异常。


4)生物实验中,每一个批次的实验,甚至是不同的实验操作者,都会引起系统性的误差,这被称为Batch Effect 批次效应。https://academic.oup.com/bioinformatics/article-abstract/33/16/2539/3611270 中提出了使用深度学习而不是传统的统计学来消除单细胞测序中的批次差异的工具,如果一个实验完成了两次,那这两次之中的差异就是批次差异,如果能通过训练神经网络,使其可以重复出两次实验之间的差异,那么就可以通过去除上述的差异来去除批次效应。


参考资料

https://github.com/hussius/deeplearning-biology


更多阅读

深度学习入门最少需要知道什么?

深度学习入门书单




今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/mWM1JNlf05
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/7521
 
888 次点击