Py学习  »  机器学习算法

合成生物学、机器学习与自动化三者交叉领域的机遇

生命科学产业观察 • 2 年前 • 191 次点击  

有观点,有态度

这是生命科学产业观察公众号的第694-2期文章


作者:Pablo Carbonell,Tijana Radivojevic,Héctor García Martín* 
翻译:锐锐
来源:再创丨Regenesis

引言

此篇文章来自 ACS Publications 的 2019 年 8 月月刊内容「Opportunities at the Intersection of Synthetic Biology, Machine Learning, and Automation」。这篇文章探讨了合成生物学、机器学习和自动化技术的整合对生物学和计算机科学的潜在影响。作者强调了三者整合以及跨学科合作的必要性,并认为通过将这些领域相结合不仅能够产生创新的合成生物学应用,同时也能够启发和推动计算机科学的发展。


//

摘要

我们无法预测生物系统的行为,这严重阻碍了生物工程和生物医学应用的进展。我们无法预测基因型变化对表型的影响,也无法从小规模实验中推断出大规模行为。机器学习技术最近达到了一个新的成熟水平,能够提供所需的预测能力,而无需详细的机制理解。然而,它们需要大量的数据进行训练。所需的大量高质量数据只能通过合成生物学和自动化相结合来产生,从而产生具有高再现性的丰富且多样化的生物系统。对合成生物学、机器学习和自动化交叉领域的持续投入将推动预测生物学向前发展,并产生改进的机器学习算法。

//

新世纪的新生物学

生物学在过去的二十年里发生了根本性的变化,从描述性科学转变为设计性科学。DNA 作为遗传信息的存储库,以及重组 DNA 作为修饰遗传信息的高校方法的发现,首先催生了基因工程,随后发展为合成生物学领域。合成生物学超越了基于描述和分类(例如林奈分类法或系统发育树)的生物学研究的历史实践,旨在设计特定规格的生物系统(例如,生产给定数量的药物或靶向侵袭特定类型的癌细胞)

从改善人类健康到生产可再生生物燃料以应对气候变化,向工业化合成生物学的转变预计将影响人类的大部分活动。目前已实现商业化的一些例子包括人造皮革和蜘蛛丝、推动里约热内卢公交汽车系统的可再生生物柴油、有肉味的素食汉堡,以及可持续的皮肤抗衰老化妆品。

在这一努力中,新工具使我们能够以前所未有的速度对细胞进行生物工程改造:CRISPR 基因编辑技术彻底改变了我们在体内编辑 DNA 的能力,DNA 合成生产力的提高速度与摩尔定律一样快,转录组学的数据量每 7 个月翻一番,高通量的蛋白质组学和代谢组学工作流程正在出现。此外, DNA 合成的低成本化、生物反应体系的小型化和自动化预示着在未来最紧迫障碍就不再是数据生产,而数据分析将成为生物研究的瓶颈。

//
合成生物学生产力指数增长的障碍
然而,尽管有了新的工具和指数级增长的数据量,由于我们无法预测生物系统的行为,合成生物学目前仍无法发挥其真正的潜力。可以说,最紧迫的问题是我们无法预测生物系统的 DNA 被改变后的表型,以及难以使用小规模的实验来预测大规模的行为。
一般来说,虽然我们能够对目标细胞进行预期的 DNA 改变,但其行为的最终结果通常是不可预测的。这一限制导致了传统的生物工程方法产生,其中包括随机化的实验过程或者依赖生物直觉。这种方法几乎不具备可扩展性,并导致了长时间的开发周期:例如,对于青蒿素途径的 16 个酶的异源表达,需要耗费 150 人年的努力,而对于杜邦公司的 1,3-丙二醇,需要耗费 575 人年的努力。
此外,我们缺乏从小规模实验中推断大规模行为的能力。在生物工程领域,一个关键瓶颈是设计能够可靠地将实验室结果(1-100 毫升)扩展到商业规模(100-10⁶ 升)的发酵系统。过去曾出现未能做到从实验室走到大型商业生产并满足生产时限的案例,导致了无法实现高产量生产、经济损失还导致了该领域的投资大量减少。例如,Amyris公司在未能生产出 900 万升法尼烯后不得不宣布其融资、战略和生产目标发生重大变化。
在生物医学应用中,我们无法准确推断细胞培养实验对人体健康的影响。这个缺陷迫使研究人员依赖代理系统(动物模型),如小鼠、大鼠、猪、猴子或兔子。这些动物模型无法完美地代表人类在生物医学中的生物学特征:从动物模型到临床癌症试验的平均成功转化率不到 8%。这些失败在新药开发中起到了重要作用,导致了经常被引用的数十亿美元的开发成本。
虽然这两个问题(从 DNA 中预测表型和规模化行为)在合成生物学领域可能更明显,但它们与生物学的其他领域是共享的(并继承的)。例如,通过基因组预测(1)植物表型,(2)通过对纯培养物的研究预测土壤微生物群落对环境和全球气候的影响,或者(3)从单细胞研究预测哺乳动物的代谢方面的突破将是革命性的。这两个问题的任何进展都将对生物学的其他分支领域产生积极的影响。合成生物学面临的其他障碍(例如产品提取和下游纯化、补充前体的成本、毒性、长期稳定性、再现性、交叉感染)也很重要,但如果这些障碍得到解决,一般影响较小。
//
机器学习的预测能力
通过学习实验数据中的基本规律,机器学习可以在不需要详细的机制理解的情况下提供预测能力。训练数据被用来通过模型将一组输入与一组输出进行统计学上的联系,这些模型的表达能力足以代表几乎所有的关系,而不被有偏见的假设所束缚。在这方面,机器学习已被用于预测代谢通路的代谢动力学,通过翻译控制优化通路,诊断皮肤癌,检测乳腺组织中的肿瘤,并预测 DNA 和 RNA 蛋白结合序列。此外,机器学习可用于设计合成生物学系统:可用于学习表型和遗传回路中使用的遗传部件之间的关系,从而实现更稳定的回路。
但机器学习算法需要大量的数据进行训练才能发挥有效的作用。机器学习最新革命并非源于新的算法,而是由于(1)日益增长的计算能力和(2)大型训练库的可获得性。如果人工视觉领域的图像识别必须通过摄影胶片上捕捉的图片进行训练,并由摄影师亲自邮寄给人工智能研究人员,它很可能不会达到超越人类的性能。通过电荷耦合器件(CCD)相机实现的自动数字图像采集所带来的大型图像库的可获得性,以及其通过互联网的传播,是其发展的关键。

//

机器学习需要自动化才能真正有效

如果不使用自动化,我们无法产生足够数量和质量的数据来进行有效的机器学习。我们在生物学中面临的情况类似于使用邮寄的纸质图片:大多数检测是低通量和手工的,大多数表型数据是在同一个实验室中产生和分析的。虽然情况正在开始改变,但变化的速度还不足以支持机器学习方法(基因组学领域除外)。更糟糕的是,历史数据并不总是满足机器学习有效的要求(例如缺乏标准化的数据收集),因此在收集新数据时必须考虑到这些需求。蛋白质结构预测领域的 CASP 竞赛提供了一个很好的例子,展现了如何促进社区为此共同努力。

大规模的高质量数据是必要的,但不是充分的:适当的实验设计是利用机器学习的基础。这个领域的机会是双向的:为了训练机器学习算法而生成高质量数据,需要仔细考虑影响反应的不同效应的实验设计;而机器学习可以用来选择下一组实验,以提高实验数据质量并减少估计误差。在这一领域,“机器人科学家”(化学实验规划者)已在合成化学领域取得成功,并有望在合成生物学领域发挥重要作用。

因此,我们需要投资于将机器学习算法与高通量、快速周转、自动化表型分析方法相结合的能力,以解决其解决方案具有广泛适用性的生物问题(图1)。可能的方法包括机器人液体处理平台、微流体或云实验室。未来的挑战包括实时获取数据、开发全面的无创检测、减少人工操作以及制定确保可复现性的工作流程和数据标准。

 图 1 所示。合成生物学、机器学习和自动化可以相互补充。它们结合在一起,可以显著提高我们的生物工程能力,并产生新的生物医学应用。
虽然这种方法已经在工业界得到了广泛应用(例如 Amyris、Zymergen、Ginkgo、Genomatica),但它也将极大地有利于学术界研究。大量高质量数据将使计算生物学家无需运行他们自己的实验设备也能产生可靠的理论,而由这些数据集产生的理论将使实验者能够更好地设计实验和解决普遍相关的问题。此外,这种分工将使更高的生产率,并允许解决更有野心的生物学问题。事实上,学术届的生物铸造厂,如果得到正确的指导和资源支持,可以为合成生物学、机器学习和自动化的集成提供理想的环境(机器学习和自动化在设计-构建-测试-学习周期中的作用见图 2)。
 图 2。机器学习和自动化可以以不同的方式改进基本的合成生物学设计-构建-测试-学习 (DBTL) 循环。自动化可以通过机器人和微流体平台、高通量组学定量和实验数据分析实现基因设计的快速增长和组装。机器学习可以通过生成实验计划、智能选择样本进行量化、从实验数据中进行模型推断以及设计下一轮迭代的规则来驱动循环中的每个步骤。

//

具有可预测能力的合成生物学将极大地影响生物学和启发计算机科学

所以合成生物学、机器学习和自动化的集成成为了一个重要的机遇,它将实现生物学和计算机科学的颠覆性变革。这种整合不仅可以应用于生物材料、生物燃料和生物医学等合成生物学应用的生产,还可以帮助我们更好地理解生物学的机制。与其他可以有效利用机器学习的领域(如图像识别)不同,对于目前的许多合成生物学应用,我们对其底层过程有了相当多的了解(尽管并不完全)。将机器学习模型的预测能力与前沿合成生物学工具提供的轻松修改系统组件的可能性相结合,将使我们能够探索和扩大对生物机制的理解。我们希望这种改进的理解能够帮助我们产生新型的机器学习算法:毕竟,机器学习的主要内容,如遗传算法和人工神经网络都是受到生物类比的启发。为了成功实现这种整合,需要生物学家、数学家、工程师、化学家、物理学家和计算机科学家之间的紧密多学科合作。

---The End---


欢迎点击关注公众号

喜欢就一键三连,点赞,在看,分享

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/156940