社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

自然机器智能综述:集成深度学习在生物信息学中的应用

混沌巡洋舰 • 4 年前 • 1244 次点击  
生物信息学是一个跨学科的研究领域。其目标在于利用算法,将分子生物学的数据转化为生物学知识,并进一步将其转化为生物及医学应用。在机器的最前沿的集成学习和深度学习,在生物信息学领域的诸多问题,在包括DNA序列,蛋白相互作用及系统生物学有着广泛的应用。

集成学习(ensemble)及深度学习,是两个在生物信息学中应用广泛的技术,然而将两项技术结合在一起使用,却是最近的新鲜事。8月自然机器智能,针对这个话题的综述,概述了该领域的进展。


1)何为集成学习

三种集成学习的方式

在监督学习的模式下,begging和boosting是两种常见的集成学习方法,前者是将同一份数据进行拆分后,对于不同的子数据集,使用不同的模型,来进行训练,之后在预测时,使用训练出的所有预测模型,通过投票决定最终的预测结果。通过使用多种模型,可以避免数据中的偏差被当成模式,从而提升泛化能力。(上图左边)

而boosting则不会将数据分为多份,而是先训练一个预测模型,再将该模型的预测结果和标签的差当做新的标签,交给下一个模型。可以理解为自己搞不定的问题,专门提出来,交给后来的模型来解决。而在最终的预测中,每个训练的分类模型,在投票阶段,也会有不同的权重。(上图中间)

在深度学习下,集成的应用如上图所示,最左为将数据集分成多份,之后训练同一超参数的模型,中间为在单一模型中,训练过程中随机让一些神经元失活;而最右端代表在最初级的特征提取层,不同模型共享参数,而在基于高抽象层次数据的模型下,训练一组不共享参数的独立模型,之后基于不同模型提取的更高抽象的特征,进行预测。

而在无监督学习的任务,例如聚类中,也可将数据拆分为多份,每一份进行使用基本的聚类方法,进行聚簇,最终会依据特定函数,将聚类结果整合。

上图表述在自编码器架构下,三种集成学习的方式。左图代表将数据分为多份,每份数据训练一个相同架构的自编码器,之后将中间隐藏层降维的结果整合;中间代表同一份数据,使用不同深度(隐藏层数目不同)的自编码器训练,之后整合;而最左边的则还是随机在训练中,失活部分神经元的做法。

2)为何生物信息中的应用,需要集成学习

集成学习的优势,在于提升模型在小数据集上的稳定性。由于生物相关的数据,无法大规模生成,因此其对要求集成学习可以使用预先训练好的模型,以及通过比较不同的小数据训练出的模型间的两两误差,可以减少小数据集带来的偏差这一问题。

在生物相关数据中,如果训练数据的维度,比数据样本数还多,那对于模型训练,无疑是一个挑战。begging的方法,可以随机的挑选数据中的部分维度进行训练,而boosting的方法,可以逐步选取出对关注的模式最重要的数据维度,从而应对高维数据带来的挑战。

分类数据中,如果不同类型标签的数目不均一,对模型的训练,也会带来挑战。例如正样本的数据量极小,负样本数据量极少,可以训练多个模型,每个模型的训练数据都包含正样本及等量的随机抽取的负样本,从而提升模型的分类准确性。

生物数据中大多包含噪音,同时不同标签的数据不够同质化,其特征分布不同。集成学习对数据噪音不敏感,通过降噪自编码器,还可以降低用于分类的数据中的噪音。同时通过对不同数据使用不同模型,有针对性地训练,可以提升模型的应对异质化数据的能力。

生物模型的应用,需要提升模型的可解释性。而在集成学习中,引入注意力分配层,可以显式的指出模型使用了哪些特征进行预测。而集成模型中的特征选择方法,同样能帮助从生物数据中,提取出对预测最有帮助的biomarker。

集成学习的优势,还在于能够集成不同模型的优点,例如RNN模型适合应对包含长程关联的数据,而CNN则适合应对高维度的数据,如果能够使用boost的方式,先用CNN提取高维数据的局部模式,再用RNN提取出序列间的远距关联,则能够同时用到以上两种模型的优点。

集成学习还能够通过联邦学习及分布式机器学习,来减少模型训练所需的计算消耗,从而应对模型训练所需的越来越多的计算量。

3)总结

本文讨论了集成学习和深度学习的集合,原论文中用很大的篇幅,介绍了生物信息学中的应用,包括蛋白质谱数据,基因组学,医疗影像等问题上的应用。然而本解读文章想强调的是,集成学习对于第二阶段提到的问题,都是适用的,不止限于生物信息学的领域。因此本文提到的训练技巧,是相对通用的。

更多阅读

深度学习在医疗与生物界的应用概述
论文速递:通过模拟大脑-解决深度学习中的灾难性遗忘
深度学习助力读心术-从frmi数据中解读出你想的是那张脸

原论文下载:链接: https://pan.baidu.com/s/1AwfLLBoMKC2S6v2yx1us1A 提取码: whaa



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/72989
 
1244 次点击