【机器学习】【生物学】什么是机器学习？机器学习将如何助力网络生物学？

什么是机器学习？

原创：再创丨Regenesis

机器学习，一种旨在从多维数据集构建可预测模型的数据分析技术，正在成为现代生物学研究不可或缺的一部分。通过对大型数据集进行学习并对生成可预测的模型，机器学习可用于研究复杂的细胞系统，如生物网络。这篇文章为生命科学领域的研究人员提供了机器学习入门的一些知识，包括深度学习的介绍。同时这篇文章还从四个方面，包括疾病生物学，药物发现，微生物组研究和合成生物学，讨论了机器学习与网络生物学交叉研究的机遇和挑战.

本文为第一部分，主要介绍机器学习的入门知识，并会涉及到深度学习的介绍。在下周的推送中，我们将探讨机器学习对于疾病生物学，药物发现，微生物组研究和合成生物学等领域的影响。

作者：Camacho, D. M., Collins, K. M., Powers, R. K., Costello, J. C., & Collins, J. J

翻译：孟凡康（部分内容有删改）

全文约6000字，阅读时间约为15分钟

在过去的十年中，通过对分子变量如基因，蛋白质和代谢物丰度，微生物组成和群体遗传变异等进行量化，生物学领域产生了大量高度复杂的数据集，且数据集的数量正在急剧增加。跨研究学科的研究中经常会产生PB量级的数据。例如，Cancer Genome Atlas从30,000多个不同癌症类型的患者身上采集的数据，总计已经超过2.5 PB。类似项目，如Human Microbiome Project, ENCODE Project Consortium, 以及100,000 Genomes Project 等等也正在产生大量数据。

这些数据集提供了深入了解生物系统和复杂疾病所需的原材料，但如何进一步探索这些数据的价值只能通过更高层次的分析过程来实现。上面说到的项目时刻在向我们表明：处理大型异构复杂数据集的工具和技术正在变得无比重要。而机器学习，旨在帮助我们解决这一复杂问题，为我们提供下一代的分析技术，使人们能够从新的角度出发，对生命系统提出新的假设。

机器学习是计算机科学中的一门学科。通过编程，机器（即计算机）可以从数据中学习模式（Pattern）。学习本身则基于一套数学规则和统计假设。通常来说，机器学习的目标是根据给定数据集的特征之间的统计关联开发出预测模型，然后使用此模型来预测给定输入值的输出值（或者范围），例如二元响应，分类标签或连续值。简而言之，对于感兴趣的问题（比如新基因组中基因的识别和注释），机器学习算法将学习现有注释基因组的关键属性，例如转录起始位点的构成和特定基因组区域的特性如GC含量和密码子偏好，然后利用这些知识生成一个模型，用于在给定基因组序列的基础上辨别和注释基因。对于新测序的基因组，该算法将应用从训练数据中学到的知识，对基因组某一位置的功能进行预测。

机器学习的应用在生物学中变得无处不在，不仅近包括基因组注释，而且还包括对蛋白质结合的预测，癌症关键转录驱动因子的鉴定，复杂微生物群落中代谢功能的预测，和转录调控网络的表征等等。简而言之，任何可以用来学习相应的模式并应用于新数据集的任务都属于机器学习的范畴。机器学习方法一个关键的优势是可以用来筛选大量的数据以探索可能会被忽略的模式。在生物和生物医学研究的大数据时代，机器学习在发现复杂生物系统的可预测模式方面起着关键的作用。

因为涉及生物学研究，所以在这篇文章中我们尽量深入的描述机器学习的相关背景知识，并探讨机器学习和网络生物学交叉的机遇，这是一个处理生物网络和大型多维数据集的研究领域。网络生物学涉及研究生物分子的复杂相互作用，该领域在生物系统建模中扮演着重要角色，辅之以跨多个多元组学程序生成的高度复杂的数据集。网络生物学涉及大规模内生生物网络（系统生物学背景）的重建和分析，以及小规模合成基因网络（合成生物学背景）的设计和构建。

下面，我们将会介绍机器学习的基本概念，一般工作流程和主要的类别。这里提供了一些关于在生物研究中设计和实施机器学习方法时应该考虑的原则。文章中还包括了关于深度学习的简短讨论，这是一种越来越多的应用于医学和生物学中的下一代机器学习方法。

机器学习基础知识

机器学习方法旨在基于底层算法和给定数据集生成预测模型。机器学习算法的输入数据通常由一组样本中的“特征(features)”和“标签(labels)”组成。特征是所有样本的测量结果，无论是原始的还是经过数学变换的结果；而标签是机器学习模型旨在预测的结果—也就是模型的输出。机器学习算法也可以处理缺乏标签的数据集。如图1所示，一般的机器学习工作流程首先是处理输入数据; 第二，学习或训练基础模型（一组数学公式和统计假设，定义学习规则）; 第三，使用机器学习模型对新数据进行预测。

图1. 机器学习通过构建模型来解释和分析数据集。数据包括在许多样本上测量的特征，包括基因，蛋白质，代谢物和网络边缘的量化。基于预测任务、数据的基础属性以及数据是否被标记来选择机器学习方法。如果数据未标记，则需要无监督的方法，例如PCA或分层聚类。如果数据被标记，则可以应用监督方法，其将基于输入标签生成用于回归或数据分类的预测模型。在应用适当的机器学习方法后，必须验证预测。可以生成或收集新数据并用于改进学习模型，提高预测性能并开发新的生物学假设。

学习过程的目的是找到最佳的一组模型参数，将输入数据中的特征转换为标签的准确预测的过程。通过一系列先后步骤找到相应的参数，其中包括参数估计，模型性能评估，错误识别和纠正，然后重复该过程。这个过程称为训练，并将不断进行，同时通过最小化模型进行误差评估，直到模型性能无法改善为止。一旦确定了最佳参数，就可以使用该模型来使用新数据进行预测。

在生物学应用中，特征可以包括一种或多种类型的数据，例如基因表达谱，基因组序列，蛋白质-蛋白质相互作用，代谢物浓度或拷贝数改的变化。特征可以是连续的（例如，基因表达的数值），分类的（例如，基因功能注释）或二元的（例如基因开启或关闭）。标签，和特征一样，可以是连续的（例如生长速率），分类的（例如疾病所处的阶段）或二元的（例如致病的或非致病的）。由于标签可以是连续的或离散的，因此许多机器学习方法可以分为回归或分类任务，其中回归任务涉及连续输出变量的预测，并且分类任务涉及离散输出变量的预测。

如上所述，训练机器学习模型的目标是用它来基于新数据进行预测。如果模型对训练数据以及独立数据集（例如测试数据）的预测是准确的，则可以认为该模型已经正确的进行了学习。然而，有时候给定的机器学习模型可以高精度地预测训练数据，而不能对测试数据做出准确的预测，这称为过度拟合，当模型的参数与训练数据特别匹配时，会发生这种情况，即机器学习模型不能提供在这些数据范围之外的预测能力。也有可能存在一种机器学习模型不能准确预测训练数据，这则是欠拟合的情况。过度拟合和欠适合是机器学习模型性能不佳的主要因素。前者可能出现在机器学习模型太复杂（太多可调参数）的情况下（相对于训练数据集中的样本数），而后者则发生在模型太简单时。可以通过增加训练数据集的大小和/或降低学习模型的复杂性来解决过度拟合问题，同时也可以通过增加模型的复杂性来弥补不足，避免欠拟合问题。

除了训练数据的数量，输入数据的质量也是整个机器学习过程的关键。 “Garbage in, garbage out”的计算机科学谚语在机器学习中体现的非常明显。任何机器学习算法的性能均取决于用于训练模型的数据。输入数据正确的格式化，去杂化和标准化构成了学习过程关键的第一步。在有些情境下，输入数据集可能存在许多缺失值，因此不完整。处理缺失数据的方法包括直接推断缺失值（例如插补）或简单地删除缺失特征。此外，并非给定生物数据集中的每个输入要素都将为预测输出标签提供数据信息。事实上，包含不相关的特征可能会导致过度拟合，从而降低机器学习模型的性能。称为特征选择（Feature selection）的过程通常用于识别信息特征。特征选择技术的一个例子是将所有输入特征与标签相关联，并仅保留符合预定义阈值的特征。

机器学习方法的类别

有两大类机器学习方法—即无监督学习（Unsupervised learning）和监督学习（Supervised learning）。当输入数据上的标签未知时，使用非监督方法，这些方法只能从输入数据的特征中学习相应的模式。常用的无监督方法包括主成分分析（Principle components analysis, PCA）和层次聚类（Hierarchical clustering）。无监督方法的目标是根据相似特征对数据的子集进行分组或聚类，并确定数据中存在多少个组或簇。虽然该方法可以用于识别群集或直接减少数据维度，但不会生成独立的预测模型。在实践中，当有新数据可用时，有两种选择：（1）新数据可以映射到聚类或降维空间或（2）可以再次用所有数据进行聚类或减少维度。使用这两种方法中的任何一种，都可以确定新数据与原始数据的吻合程度。

无监督技术在某些情况下是有利的。例如，在样本标签丢失或不正确的情况下，由于聚类过程纯粹是在输入数据上执行，所以无监督方法仍然可以识别模式。另外，无监督方法非常适合高维输入数据的可视化。例如，通过绘制PCA的前两个主成分，人们可以在包含有数百或数千个特征的信息二维图上判断样本之间的相对距离（相似性度量）。

另一方面，监督方法适用于输入数据数据包含有标签的情况。 在这种情况下，标签用于训练机器学习模型，最终给出模式。受监督的方法通常与机器学习的应用相关联，因为训练的模型是预测性的; 因此，当新的输入数据变得可用时，可以直接使用训练模型进行预测。值得注意的是，无监督方法的输出可以用作监督方法的输入。例如，在层次聚类中发现的聚类可用作受监督方法的输入特征。此外，监督模型可以使用PCA的输出作为输入，并直接在缩减的特征空间而不是整套输入特征上进行训练。

属于监督学习范围的两个值得注意的机器学习子类是半监督学习（Semi-supervised learners）和集成学习（Ensemble learners）。在标签不完整的情况下可以使用半监督方法，例如，仅标记少量训练数据。这在生物数据中经常发生，例如，对于一组感兴趣的基因，只有一小部分存在功能注释。利用半监督学习，标记数据被用于推断未标记数据的标签，和/或利用未标记数据获得关于训练数据集结构的信息。半监督学习的目的是超越通过忽略标签和进行无监督学习，或忽视未标记数据和进行监督学习来实现的模型的表现。另一方面，集成学习将多个独立的机器学习模型组合成一个单一的预测模型，以获得更好的预测性能。这些方法基于所有机器学习方法偏向于识别方法特异性模式的事实。因此，与单一的学习方法相比，组合多个学习策略可以产生更好的预测。

机器学习在生物中的应用

在选择机器学习算法应用于生物学问题时，需要考虑几个因素，特别是考虑到生物数据的可变性以及用于收集数据的不同平台和方法时。由于技术和生物本身的差异，在一个数据集上训练的机器学习模型可能无法很好地推广到其他数据集。任何新的数据集应该与用于训练模型的数据的一般属性相匹配。新数据也应该使用与训练数据相同的流程进行处理。如果新数据与训练数据存在显著不同，机器学习模型的预测很可能是虚假的。

与分子生物学技术非常相似，机器学习方法也是要根据特定情形才能决定的。机器学习和分子生物学实验都需要仔细的实验设计才能正确检验假设。尽管机器学习的目标是开发可以广泛应用的预测模型，但模型根据不同预测条件可能会做出不同的假设，并且其性能可能会在不同条件下发生变化。所有方法的选择都需要作出权衡; 这个概念在计算机科学中是被广泛认可的，称为“No free lunch theorem”。

机器学习的性能可能受多种因素的影响，包括特征选择，用户定义的参数以及方法本身。直接证据表明这些因素是生物应用中影响机器学习性能的主要因素。这些证据可以在Reverse Engineering Assessment and Methodology（DREAM）Challenge中找到。DREAM Challenge旨在寻找网络生物学和医学中大数据研究问题的解决方案。以前的挑战项目包括基因组规模调控网络的推断以及使用多元数据集对药物敏感性和协同作用的预测。许多生物网络推断方法可以被定义为无监督学习，其中输入数据用于在给定一组实验数据集的情况下预测生物分子（特征，feature）之间的相互作用（边缘，edges）。第二类生物网络推理算法使用监督学习方法对新样本进行预测。此类方法在表征药物作用机制或疾病状态驱动因素方面取得了重大的成功。

图2. DREAM Challenge.
链接：http://dreamchallenges.org/

每个DREAM Challenge向网络生物学研究界提出一个具体问题和解决它的必要数据。这些问题需要利用计算模型（通常是机器学习方法）来解决，但对应用的模型类型没有限制。每个挑战都包含一个隐藏的评估数据集，用于评估每种方法的性能，从而提供独立的，无偏见的评估来评估不同的方法。随着几十个挑战已经完成，我们可以大致总结出三条“经验法则”，为机器学习方法在网络生物学中应用提供借鉴：

（1）“简单”通常更好（Simple is often better）：不管挑战如何，几乎可以肯定的是，一个简单的机器学习方法将成为表现最佳的模型。这些模型通常包括基于线性回归的模型（例如弹性网络），这些模型在一系列机器学习任务中表现良好，因此具有出色的起点。

（2）先验知识提高性能（Prior knowledge improves performance）：领域特定知识的应用几乎总是有助于任何预测模型。例如，使用磷酸蛋白质组学数据来对乳腺癌中的信号传导网络反向工程。信号网络中元件和相互作用的先验知识增强了机器学习预测信号相互作用的能力。

（3）集成模型产生的结果更加稳健（Ensemble models produce robust results）：在开始我们讨论过，集成模型整合来自多个独立预测方法的预测。集成模型在各种挑战中一直是最佳的模型选择，并且往往鲁棒性更高。

在不同的DREAM Challenge中，可以看出，没有任何一种机器学习方法或一类方法总是表现最佳。因此，没有“magic bullet”方法可以最优地解决网络生物学中的所有机器学习任务。

深度学习：下一代机器学习

新一代测序技术对于可分析核苷酸序列的通量和速度等方面都有了显著的提升。在这里，我们使用术语“下一代”来描述正在开发中的用于处理许多领域（包括生物学和医学）中爆炸性数据的机器学习方法。我们将重点放在深度学习上，这是一种下一代机器学习方法，越来越多地被应用于应对这些数据的复杂性和数量的相关问题上。

深度学习方法通常利用神经网络。最简单的神经网络架构有三层：输入层，中间或隐藏层，以及输出或预测层。输入层中的神经元将原始数据作为输入，并将信息传递给隐藏层，隐藏层使用数学函数将原始数据转换为“Representation”，帮助机器进而学习数据中的模式。输出层根据隐藏层所执行的转换重新回到分类或回归问题。此过程的目标是训练神经网络，使其学习恰当的“Representation”以准确地预测新的输入数据集的输出值。

深度神经网络是一个包含多个隐藏层的神经网络；隐藏层的数量越多，神经网络越深。隐藏层被连续地连接，这样每个隐藏层可以将先前隐藏层产生的“Representation”作为输入来学习数据结构的特性。研究人员可以根据学习模型的目的定义隐藏层的数量和大小。例如，递归神经网络（recurrent neural network, RNN）将一维序列数据作为输入，例如句子中的单词或DNA序列中的碱基。 RNN具有“薄”隐藏层，通常由以线性架构连接的单个神经元组成。另一方面，卷积神经网络（convolutional neural network, CNN）处理具有两维或更多维度的数据，例如二维图像或高维多组学数据集。 CNN通常具有复杂的隐藏层，每一层隐藏层同时又具有多种神经元。

深度学习的一个重要方面是这些层的行为，即他们如何转换数据可以通过机器学习而不是由研究人员定义。深层神经网络通过迭代地调整其内部参数实现预测误差的最小化，这种过程一般通过反向传播（backpropagation）实现。通过反向传播，模型输出与目标输出之间差异的误差信号被计算并通过系统反馈。然后调整神经网络每层中的参数（或权重），从而使每个神经元的误差以及整个网络的误差最小化。这个过程可以重复多次，直到模型的输出（预测）和目标输出之间的差异降低到可接受的水平。深度学习方法可以识别复杂数据集中的新模式，这些模式可能会被其他技术忽略。这是一种特别强大的生物应用工具，可以从复杂的数据集中提取最具预测性的特征。

深度学习范式的一个主要缺点是训练深度神经网络需要大量的数据集，主要因为需要在深度神经网络中训练许多隐藏层，但是这些大量的数据集在许多生物学研究中往往无法实现。此外，深度学习中涉及的复杂架构和训练过程在很大程度上妨碍了人们理解深度神经网络如何进行计算和预测的过程，因为人们只能控制输入数据和模型中的一些参数（例如隐藏层的数量和大小），这可能会限制预测模型的可解释性，从而限制其用于获得对潜在生物学机制的相关研究中。

在下周的推送中，我们具体讨论机器学习将如何应用于疾病生物学，药物发现，微生物组研究和合成生物学等领域，以及机器学习对于这些领域未来的影响。

参考资料：Camacho, Diogo M., et al. "Next-Generation Machine Learning for Biological Networks." Cell (2018).

机器学习将如何助力网络生物学？

本文为第二部分，主要从四个方面，包括疾病生物学，药物发现，微生物组研究和合成生物学，讨论机器学习与网络生物学交叉研究的机遇和挑战。第一部分文章链接：再创·长文丨网络生物学与机器学习（上）：什么是机器学习？

作者： Camacho, D. M., Collins, K. M., Powers, R. K., Costello, J. C., & Collins, J. J
翻译：孟凡康（部分内容有删改）

随着我们在生物系统的多个层面上收集到越来越庞大且多样化的数据，我们可以利用这些数据集设计相应的机器学习方法，在多个层面（从基因调控到物种间相互作用）构建更复杂、更真实的网络模型。此外，下一代机器学习方法提供的工具可以增加这些网络模型在各种生物医学领域中的应用。在接下来的内容中，我们将会从疾病生物学，药物开发，微生物组研究和合成生物学这四个方面探讨网络生物学与机器学习的交叉研究将如何在这些领域发挥重要的作用。

疾病生物学

网络生物学可以帮助我们更好地理解疾病的复杂性。传统方法依赖于疾病特定方面的识别和特征描述，例如疾病相关基因的发现，而网络生物学采取的是更加全面的方法，因此，网络生物学将为我们揭示更加全面的疾病表型驱动因素的信息。网络生物学不是简单地识别潜在的生物标志物，而是让我们能够对疾病状态中至关重要的生物分子相互作用的网络和子网络进行描述。

在定义疾病的网络特定特征时，可以合理地使用机器学习算法来帮助理解和定义潜在的疾病机制。比如，可以使用来自诸如BioGRID来源的现有生物网络知识，探索与健康状态相比，不同生物分子之间的关系如何在疾病状态中发生变化（BioGRID是一个关于基因相互作用，蛋白质 - 蛋白质相互作用，化学相互作用，翻译后修饰的数据库）。从健康队列的数据开始，我们可以训练深度学习算法（例如，深度神经网络）来学习和定义健康状态的基本特征。训练后，我们可以将来自患者群体的数据提供给算法，并用于预测健康状态和疾病状态之间的差异等应用。

我们需要更好地了解疾病背后生物网络的复杂结构，以及这些网络的失调如何可能导致某种疾病状态。在这方面，胶囊网络（Capsule networks），可能具有很高的应用价值。胶囊网络涉及一种新型的神经网络架构，其中CNN被封装在相互连接的模块中。如前所述，CNN是处理多维数据的一种特殊的深层神经网络，例如网络生物学中发现的组学数据集。另一方面，胶囊网络是将深度神经网络表示为一组模块（胶囊）的代表，其允许以保持数据本身分层结构的方式来学习数据结构。这在图像数据分析中特别有用，因为它允许算法学习独立于图像视角的图像特征。

考虑到生物网络本质上是高度模块化的，胶囊网络已经可以成熟的应用于网络生物学和疾病生物学：胶囊网络为生物分子指定层，同时允许每一层与其他层相互作用。每个生物层可以被视为胶囊。横跨不同生物层产生的数据（例如转录组学，蛋白质组学，代谢组学）可以训练与每个胶囊相关的CNN从而独立地了解这些层中的特定性质。在胶囊之间应用动态路由（Dynamic routing）的前提将允许不同胶囊将任何其他胶囊的输出作为输入，从而使模型能够了解每个层之间的相互作用和依赖性。这种方法将允许人们研究高度模块化的系统，如由基因，蛋白质，代谢物等组成的生物网络，并分析这些网络及其子网络的功能组织和相互作用在疾病状态如何被破坏。

我们并没有注意到胶囊网络的任何生物学应用，但它们的独特特征可以使我们能够解开和解决人类疾病的复杂性。 正如我们下面所描述的那样，胶囊网络和其他深度学习方法的成功实施将取决于适当大、高质量、注释良好的数据集的可用性。

药物开发

在药物开发中，我们迫切需要表征化合物的作用方式、识别药物的脱靶效应并开发有效的药物组合来治疗复杂疾病。网络生物学以及机器学习算法已成功应用于这些领域，例如，网络模型和转录组学已被用于预测化合物的可能靶标。 然而，这方面仍然存在诸多挑战，特别是在缩小药物发开发中生物层次和化学层次的差异。 下面，我们重点介绍下一代机器学习算法将如何在网络生物学的背景下解决这些挑战并加速药物发现和开发过程。

来自药物治疗的多组学数据，以及存储在如dbGAP和GTEx Portal等存储库中的大量基因型数据，为利用机器学习生成综合网络模型带来了所需要的原始生物材料。从机器学习的角度出发，思考如何将这些网络模型与生化上可获得的丰富信息结合起来是及其令人激动的。

多任务学习神经网络（Multi-task-learning neural networks）非常适合这种类型的应用。这类应用的特点是给定的系统中包括横跨多种数据类型（例如，表达谱，化学结构）、包含多种标签（例如对药物，疾病状态的响应）的数据特征。典型的机器学习应用程序定义了一个单一的任务，其中模型被训练以预测单个标签。如果使用相同的输入数据学习新的标签，则新的模型会被训练出来。也就是说，学习任务被视为独立事件。但是，在某些情况下，从一个任务中学习到的重要信息，可以用于另一个任务的学习过程。多任务学习的基本思想是同时共同学习一组任务。单任务学习的目标是优化单个任务的性能，而多任务学习的目标是优化所有任务的性能。多任务学习通过多种表征来学习整个系统，从而一次性学习多项任务。

多任务学习同时学习多个相关任务，并且平衡任务之间的差异和相似性。这种方法基于这样一个前提：学习相关联的概念可以强加学习模型的一般化，提高性能的同时也避免了模型的过度拟合。重要的是，多任务学习神经网络可以整合或合成来自不同来源和分析方法的数据。因此，多任务学习可以同时考虑调控网络的作用关系、来自多组学实验的数据、高通量药物筛选数据、生物活性分析以及药物治疗的表型观察等多个层面来预测给定药物的生理反应及其毒性副作用。

通过将化学实体的结构化数据结合起来，我们有可能利用多任务学习来弥合药物发现的生物和化学方面的差异。例如，可以使用简化的分子输入-行输入系统（Simplified molecular-input line-entry system, SMILES）这种药物表示方法作为模型输入数据。 SMILES表示法将化学物质的结构转换为线性文本串，可以很容易地将其纳入机器学习应用程序中。将SMILES文本串、不同化合物的靶标以及其转录和毒性的相关数据提供给多任务学习算法，可以用来预测新化合物的潜在副作用或可能靶标。此外，我们还可以使用自然语言处理技术，如词嵌入技术，学习基于SMILES的药物的特定属性，这样一来不仅可以对多任务学习进行补充，同时可以帮助我们在随后的药物设计工作中加入或去除某些化合物的关键特性和/或结构特征。

这些机器学习方法也可以用来研究和利用药物化合物的“肮脏”。大多数（如果不是全部）化合物对人体的影响超过其治疗的目的，并且这些影响以剂量和网络依赖的方式变化。多任务学习神经网络非常适合从各种数据类型（例如，不同药物的药代动力学和药效学性质，来自这些药物的细胞筛选的多组学数据等）进行学习，以便更好地理解和预测药物的输入—输出关系（例如，各种化学实体的生物物理和结构性质，它们的分子靶标以及它们诱导的生物学反应）。胶囊网络模型可用于研究复杂疾病，预测出治疗疾病时可能需要抑制的多个靶标。这些预测可以被多任务学习用来识别“肮脏”的化合物，或者对此类化合物进行组合以更好的作用于靶点。因此，我们预见多任务学习与其他深度学习方法结合起来，将有助于解决药物发现中的生物和化学数据整合问题，并创建多层预测网络模型，推进药物的合理化设计。

图1. 深度学习的组织构架在药物开发领域具有很高的应用价值。

微生物研究

人类微生物组包括细菌、古细菌、病毒、真菌、原生动物。这些微生物生活在人体表面或人体内。每个身体部位的微生物的多样性是惊人的，现在人们认为动态且相互关联的微生物群系统在健康、疾病和发育中起着重要的作用。人类微生物群的宏基因组数据大量涌现，但将这些数据变得更具有生物学和临床意义仍然是一项重大挑战。这也为利用下一代机器学习算法力量的网络生物学提供了极好的机会。

不同身体部位的微生物和宿主细胞通过产生、交换和利用小生物分子（主要是代谢物）相互作用。这些相互作用产生了细胞内、细胞间、物种间和跨生物界的代谢网络。这为任何给定的微生物群—宿主系统创造了基于共享代谢物产生元代谢网络模型（Meta-metabolic network model）的机会。这些模型可用于绘制、剖析和理解多种微生物与宿主之间的相互作用，以及预测宿主与其寄生微生物之间可能产生的协同作用和生物质关系（Synergistic and dysbiotic relationship）。

目前为止，我们已经为许多微生物模式生物（例如，大肠杆菌）以及人类细胞构建了代谢网络模型。这些模型提供了代谢物如何通过生物化学反应在给定细胞中相互作用的全局图，我们可以对其进行利用、修改和整合，创建跨越多种生物体或细胞类型的元网络（Meta-networks）。不幸的是，由于数据的稀疏和微生物的数据测定方面的问题，我们对许多微生物中的代谢网络的理解是有限的或根本就不存在。这对于元代谢网络模型的产生提出了重大挑战。这方面的问题也有解决方法，那就是迁移学习（Transefer learning）。与多任务学习相比，迁移学习旨在从学习不同但相关的任务时获得的知识中进行学习。不同的生物系统具有许多相似特征，这表明在一个系统中生成的数据可以在一定程度上应用于另一个系统。所以这样一来，真正的挑战变成了如何最好地将在给定系统中学到的知识应用于只存在有限数据的新型系统中。

迁移学习可以根据其他系统的观察结果对新系统进行推断和预测。 具体而言，迁移学习使人们能够将用于学习特定任务的模型重新定位为学习不同但相关任务的起点。迁移学习背后的概念很容易适用于生物学中的问题。以代谢网络为例—生化化合物的不变性（即大肠杆菌中的“葡萄糖”与炭疽杆菌中的“葡萄糖”为相同的有机化合物）为知识的归纳迁移提供了基础。这意味着在模式生物体中优化的机器学习模型可以重复使用或重新用于在数据稀缺的不同生物体中。

这为研究微生物群落的代谢复杂性开辟了一条令人兴奋的途径，在这里可以“迁移”或使用来自经过模式物种（如大肠杆菌）的代谢网络上的学习信息，应用于未被研究的物种，从而加速我们对微生物群体中多种物种的理解。与迁移学习类似，我们可以概念化一种机器学习模型，这种模型可以利用在较简单系统上获得的知识来理解更复杂的系统。通过这种方式，人们可以建立微生物群与宿主之间的代谢相互作用关系的综合模型。这些模型可以在横跨健康和疾病状态的生物数据集上进行训练，并用于预测特定物种的消失、引入或生长如何破坏或增强生态系统的代谢平衡，或者此物种是否会产生促进健康的有益代谢物，或损害宿主组织的毒性代谢副产物。值得注意的是，这些先进的机器学习技术和网络生物学方法不一定限于人类健康应用—它们可以很容易地扩展到农业、环境和工业环境中的微生物群研究中。

合成生物学

合成生物学一个重要的研究方向是利用分子元件创建合成基因网络，并利用这些基因线路重编程细胞，赋予它们新的能力。然而，合成基因线路的设计和构建远非直截了当—基因线路的早期版本很少能够按照预期工作，通常需要数周或数月的时间进行反复调谐。基因线路设计的过程主要受到两点的限制：第一是我们对基因线路核心设计原理的理解有限，第二点是缺乏多元化、表征详细的优质元件。如今合成生物学的应用范围扩展到了更大的领域（如健康，农业，能源，环境等），所以我们越来越需要让合成生物学的基因线路设计更加直接和可预测，并且可以进一步提高时间效率。这为深度学习方法创造了绝佳机会，我们将在下面重点介绍。

合成生物学基因线路存在多个调控层次。在基础水平，线路中存在单独的分子组分，例如基因，启动子，操纵子，终止子和核糖体结合位点。在中间水平，存在由多个组分组成的调控单元，例如基因—启动子对。在高级水平，调控单元之间通过相互作用产生特定的基因线路，例如，两个基因—启动子对可以排列在相互抑制的网络中产生双稳态开关。在每一个层次，我们都可以用序列代表来定义某一水平的调控方式、组成性关系（例如，空间和方向的排列）、以及影响功能的生物分子、分子组分和/或子组分之间的相互作用。

我们可以生成、测序和功能表征大量且多样化的分子元件，调节单元以及合成基因线路，为深度学习方法创建适当的训练数据集。 功能表征可以包括量化RBS的强度、启动子—基因对的Hill系数、以及基因线路的响应时间等等。由于深度学习方法在很大程度上依赖于大量数据，因此我们可以将机器与基于板的分析（自动化）结合到实验过程中，开发和实施快速的实验工作流程，对元件、调控单元以及基因线路进行表征。

我们可以设想使用测序和功能表征数据来产生多种生物调控层次的基因线路预测模型。为此，可以开发一个多阶段的深度学习模型，这种模型可以从嵌入有生物序列的学习模型到嵌入有调控模体和线路构建的学习模型中学习每一种基因线路组织方式的的本质。例如，可以利用递归神经网络来编码不同元件的序列，其中序列可以被视为特定的“句子”，其允许模型学习特定的“句子属性” 包括样式，语法和主题，这些序列等同于元件本身的序列信息（启动子，结合区和终止子的DNA序列）。此外，卷积神经网络可用于编码调控单位和合成基因线路拓扑结构上的特征。我们可以训练算法学习不同元件的序列—功能关系，以及调控单位和合成基因线路的组成—功能关系。利用这种方式，该模型可以从调控（网络控制）角度和拓扑（网络架构）角度学习合成基因线路的关键性质。

生成的深度学习模型可用于分析合成生物学的基本设计原则。相应地，也可用于产生性能增强或功能新颖的元件（例如，诱导型启动子，操纵基因等），从而提高可用于合成生物学设计工作的分子元件的数量和多样性。深度学习模型还可用于设计和识别新的调控单元和合成基因网络。例如，对于给定的期望功能，该模型可用于生成一组产生所述功能的基因线路。我们将这种方法与数学模型相结合，可以非常迅速地对数千个潜在的线路进行迭代。其中最有价值的候选线路可以进行合成，测试和进一步验证。这方面的进步将有助于合成生物学的快速设计，促进复杂的合成基因线路在生物医学领域的广泛应用。

图2. 合成生物学的深度学习应用包括新型设计规则、分子元件以及基因线路的预测。

挑战与未来展望

从上面的讨论中我们可以清楚地看出，网络生物学与下一代机器学习的交叉研究拥有着巨大的机遇。但是，还有很多艰难的挑战需要我们客服。 其中最关键也最重要的是大型数据集。 深度学习方法和其他下一代机器学习方法对于数据是及其饥渴的。我们生活在生物学和医学的大数据时代，我们在生物的不同层次收集大量的数据集。尽管从生物系统获取的数据可能非常复杂，反应生物系统的不同方面的变量可能包含有数千个，但是，大多数生物数据集的数量级仍然太小，无法深度学习算法的要求。

当然，我们有很多选择来应对这一挑战。首先是收集大型且注释良好的数据集。多组学数据集可能过于昂贵，因此我们可以考虑替代方案来补充或补足这些数据。由于许多深度学习算法已经成功地应用于诊断背景下的成像数据，所以增加利用成像数据（包括视频）来表征细胞的形态或表型变化（例如响应药物治疗）将会一种不错的选择。我们可以通过建立具有荧光或比色读数的细胞系来来表征各种治疗方法或环境扰动下的细胞反应。许多生物数据集小而稀疏的特性也给机器学习研究人员带来了一个有趣的挑战—即专门设计来处理此类数据集的新一代深度学习算法。

另一种可能的选择是生成具有实际数据属性的计算机数据。对于深度学习背景下的图像分析，研究人员通常使用生成对抗网络（Generative adversarial networks, GAN）来完成，该方法可以创建与训练数据类似的数据集。 GAN是深度神经网络架构，由两个互相对立的神经网络组成—一个是生成模型（Generative model），用于产生与训练数据集分布相似的新数据，另一个是区分模型（Discriminative model），即对手，用于评估新数据并确定它是否属于实际的训练数据集。两个神经网络之间的竞争会逐渐的改进算法，直到生成的数据集与训练数据集无法区分为止。这种机器学习方法可以很容易地在网络生物学的多组学数据集找到应用的价值。一个简单的例子就是使用GAN生成更大的基因表达数据集，这些数据集将有助于生成转录调控的预测模型。

大多数下一代机器学习模型的“黑箱” 性质为生物应用带来了新的挑战。从生物学的角度来解释给定模型的输出通常是非常困难的，从而限制了该模型在生物机制和网络架构分析中的效果。当然，情况并非总是如此，特别是对于更简单的机器学习方法。例如，稀疏线性回归模型（Sparse linear regression model，比如elastic net, lasso and ridge regression）可以用来学习每个特征相对权重的最佳系数。在这种情况下，模型系数可以告知研究人员模型中每个特征的相对“重要性”。然而，对于更先进的机器学习方法，例如深度神经网络，训练过程对输入数据的处理方式使得我们难以确定特征的相对重要性或特征是否与输出结果存在正相关或负相关。我们迫切需要开发出一种手段，将深度学习的“黑箱”转变为在生物学角度富有意义且可解释的“白箱”。

在揭示和利用生物复杂网络的方向我们还有很长的路要走，机器学习本身还远未实现其在生物研究领域的潜力。尽管如此，利用机器学习更好的理解复杂生物网络的领域的发展让网络生物学研究可以拥有一个令人激动的未来。

参考资料：Camacho, Diogo M., et al. "Next-Generation Machine Learning for Biological Networks." Cell (2018).

END

工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进产业OT（工艺+自动化+机器人+新能源+精益）技术和新一代信息IT技术（云计算+大数据+物联网+区块链+人工智能）深度融合，在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的机器智能认知计算系统；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/WoJXWIxRcV