01 我们现在正处于合成生物学“ChatGPT 时刻”的前夕
ChatGPT,作为新一轮生成式AI浪潮中的第一个颠覆性产品,无疑带来了巨大的影响力。
采用了深度学习和自然语言处理等顶尖技术,通过大规模的预训练和微调,ChatGPT实现了在生成文本任务上前所未有的出色表现。
而接下来,Perplexity AI、Midjourney、Sora等等生成式AI产品在搜索、图片、视频等等领域纷纷崭露头角,彻底改写了数字世界的游戏规则。
人们在惊叹之余,也不禁好奇:生成式AI是否也会对我们的物质世界产生这样颠覆性的改变呢?
美国国家新兴生物技术安全委员会委员埃里克·施密特(Eric Schimidt)对这个问题做出了他的回答。
首先先解释一下什么是美国国家新兴生物技术安全委员会。
美国国家新兴生物技术安全委员会是经美国最高立法机构美国国会授权,来对新兴生物技术及相关技术的进展进行彻底审查,以了解这些技术的发展将如何影响美国国防部当前和未来的活动。
作为立法机构的顾问机构,该委员会将向美国总统和美国军事委员会进行报告,并提供对美国国会和联邦政府采取行动的建议。
2024年4月16日,埃里克·施密特(Eric Schimidt)在《时代》周刊上发表了一篇名为《We Need to be Ready for Biotech’s ChatGPT Moment》的文章,对生成式AI对物质世界可能产生的影响进行了深入总结。这篇文章全文翻译如下:
我们需要为生物科技的 ChatGPT 时刻做好准备
想象这样一个世界,从塑料到混凝土,一切都由生物质生产。个性化细胞和基因治疗可以预防大规模流行性疾病并治疗以往难以治愈的遗传疾病。实验室可以培育出肉类,经增强改造的谷物可以更好抵抗气候变化。这就是未来几年可能发生的情景。
下一个重大的革命将发生在合成生物学领域。它将使我们更有效地对抗疾病、养活地球、生产能源,并捕获二氧化碳。我们已经处于这些变化的前夕。去年我们已经见证了一些重要的里程碑:美国首次批准实验室培育肉类的生产和销售;谷歌 DeepMind 的人工智能预测了超过 200 万种新材料的结构,这些材料可能用于芯片和电池;Casgevy 成为首个获得 CRISPR 批准的商业基因编辑治疗。如果我是今天的年轻人,生物学无疑是最吸引人的学科之一。
和数字革命一样,生物技术革命有望彻底改变我们所知的美国经济——而且它的到来速度比我们预期的要快,得益于人工智能的推动。生物技术的最新进展正在释放我们编程生物的能力,就像我们编程计算机一样。就像 OpenAI 的 ChatGPT 通过学习人类语言输入来生成新文本一样,经过生物序列训练的人工智能模型可以设计新的蛋白质、预测癌症生长,并创造其他有用的消费品。未来,人工智能将能够帮助我们运行数百万个理论和实际的生物实验,更准确地预测结果,从而大大加快新发现的速度。
我们现在正处于合成生物学的“ChatGPT 时刻”,即将迎来重大技术创新和广泛采用。但美国有多准备好为此付出努力呢?我对即将到来的突破性时刻感到非常兴奋,但要确保它将在我们的国土上实现,这至关重要。这就是为什么我加入了国家安全新兴生物技术委员会的原因。正如该委员会最近在其临时报告中所写:“美国在生物技术发展方面的持续领导地位并不能被保证。”
美国曾经是新兴产业的先行者,但在将生产外包到世界其他地区后逐渐失去了领导地位。这一模式在乘用车、消费电子产品、太阳能电池板,尤其是半导体领域中不断重演。为了避免重蹈覆辙,我们需要确保在国内外建立可靠的供应链,从原材料提取到数据存储,同时建立必要的人才储备。依赖其他国家提供生物技术关键组件存在巨大的经济和国家安全风险。例如,将我们的遗传信息留在敌对国家手中可能会帮助他们开发针对特定遗传特征的生物武器。拜登总统最近的行政命令旨在阻止向中国和其他对手国家出售此类敏感个人数据。
在人力资本和基础设施方面的投资对于美国在生物技术领域的持续领导至关重要。这些投资不仅应该来自政府,还应该提供激励措施,刺激更多的私人资金投入,就像《芯片与科学法案》所做的那样。在未来五十年里,生物经济对于美国的增长至关重要。目前,生物经济至少占美国 GDP 的 5%;相比之下,半导体仅约占美国 GDP 的 1%。根据某些估计,全球经济 60% 的物理输入可以通过生物过程生产——生物学在解决包括气候变化在内的一些人类最大挑战方面具有巨大潜力。
随着人工智能提高了我们对生物技术的工程能力,我们需要建立相应的监管措施。虽然很容易想象到在家里从头开始制造生物武器的孤狼式业余爱好者的末日情景,但兰德公司和 OpenAI 的研究表明,当前的大型语言模型如 ChatGPT 并没有显著增加生物威胁创造的风险,因为它们并未提供互联网上已有信息之外的新信息。此外,要记住,即使一个 AI 模型可以设计新型病原体,用户也不一定拥有安全的湿实验室基础设施和资源来创建它们。
尽管如此,随着人工智能工具在易用性和可获取性上的不断改进,生物风险的外部环境正在不断变化。不久的将来,更复杂的基础模型可能会为恶意行为者提供更多数据、科学专业知识和实验故障排除技能,帮助他们筛选候选生物制剂,并协助他们从多样化的供应商那里订购生物部件,以规避筛查协议。
像美国科学家联合会和核威胁倡议组织这样的组织建议采取结构化的红队测试,积极寻找漏洞,以提前确保我们的生物安全基础设施的安全。此外,还有 90 多名科学家签署了呼吁,确保人工智能在蛋白质设计领域的负责任发展。我们需要为开发制定标准和实施风险评估的要求,并需要公私部门合作,共同创建一个强大的测试经济体系。
到目前为止,我们大多数人可能都已经食用过、被治疗过或穿戴过生物技术制造的产品。不久的将来,这项技术将颠覆每一个行业,并从根本上改变我们的日常生活:新的生育治疗将改变父母的角色;细胞重编程可能开始逆转衰老过程;生物计算将为未来的计算机提供动力。站在这些创新的边缘,我们作为一个国家有独特的机会来推动生物技术的发展,实现其巨大的利益,并塑造负责任创新的规范——在其他国家赶超之前。
——
02 AI与生物学是“绝配”
不知道大家读完这篇文章是什么感受,我读完以后确实感觉作者现在对于下一个在物质世界中的ChatGPT时刻有着极高的期待以及极强的危机意识。
或许有些人会觉得有些夸张,但是考虑到埃里克·施密特还有的另一个身份——谷歌前首席执行官兼主席——这一数字世界霸主的前管理者,我们有理由相信这一经历了刚刚发生在数字世界变革的企业家的预测是值得我们讨论的。
这篇文章里面很多组数据很有意思,比如“目前,生物经济至少占美国 GDP 的 5%;相比之下,半导体仅约占美国 GDP 的 1%”还有“全球经济 60% 的物理输入可以通过生物过程生产”。这样看来,生成式AI给物质世界带来的影响很有可能将比数字世界的规模大数倍。
而其中,AI对于生物科学的影响几乎可以肯定地说是比其他学科更大的。
在过去几百年里的科学研究中,归纳总结和知识体系构建是我们理解自然规律和推动科学进步的重要方法之一。然而,生命科学与物理、化学等自然科学学科在这方面存在着显著的差异,使得过去这种路径的有效性和可持续性受到挑战。
首先,生命科学的研究对象主要是生物体系的结构、功能和相互关系,涉及到大量的生物数据,如基因组数据、蛋白质结构等。这些数据通常是高度复杂和多样化的,具有高度的信息含量。与之相比,物理、化学等学科更多地关注物质的性质、化学反应以及物理现象,其研究对象相对抽象,数据类型相对简单。
其次,生命科学中的生物数据具有高度的信息含量,因此生命科学的知识体系往往需要处理大规模的信息并挖掘其中的潜在规律和关联。而物理、化学等学科的数据相对较简单,更容易被数学方程或理论模型所描述,因此在这些学科中,归纳总结普适性定律和规律的任务相对较简单。
此外,生命科学研究的对象往往是复杂的生物系统,由多个层次的组成部分相互作用而成,包括分子、细胞、器官等。这些组成部分之间存在着复杂的网络和相互依赖关系,导致系统的行为具有高度的非线性和复杂性。相比之下,物理、化学等学科更多地关注简化的物质系统,其结构和相互作用相对较简单,因此更容易被数学模型所描述。
最后,生命科学与物理、化学等自然科学学科在研究对象和数据类型上存在明显差异。生命科学主要研究生物体系的结构、功能和相互关系,涉及到大量的生物数据,如基因组数据、蛋白质结构等。而物理、化学等学科则更多地关注于物质的性质、化学反应以及物理现象,其研究对象更加抽象,数据类型相对简单。
鉴于这些区别,物理和化学等学科在很大程度上可以总结出普适性的定律和规律,而这些定律和规律通常可以用相对简洁的数学方程或理论模型来归纳总结,从而建立其相应的知识体系。
相比之下,生命科学涉及到更多的复杂性和多样性,包括生物体系的结构、功能、相互关系以及基因组数据、蛋白质结构等大量生物数据,使得简洁的数学描述很困难。
这时候,AI的优势便得以彰显。AI擅长处理大规模的数据,并从中发现潜在的规律和关联。
在生命科学中,AI已经被广泛应用于基因组学、蛋白质组学、药物发现等领域,加速新药研发、疾病诊断和治疗等过程。
例如,AI可以帮助分析基因组数据,发现基因变异与疾病之间的关系,为个性化医疗提供支持;还可以通过分析蛋白质结构数据,设计出更有效的药物分子。
此外,AI还可以模拟和预测生物体系的行为,帮助科学家们更好地理解生物系统的复杂性。
因此,AI与生命科学可以说是“绝配”。但是,现在摆在生命科学领域最大的挑战是数据。
——
03 自动化高通量实验室设备将成为数据生成的基础设施
长久以来,生命科学数据的质量和一致性是一个巨大的挑战。
由于实验条件的不同、数据处理方法的差异等因素,数据的质量和准确性常常会存在差异,导致数据的可靠性和可重复性问题。
而现在,高速发展的自动化高通量实验室设备的应用将显著提升数据开发的效率和数据的稳定性。
相比于人工操作,这些自动化设备能够更快速、更精准地进行实验操作,从而产生更多、更可靠的数据。
以分子克隆为例,这是分子生物学中非常常用的一种用于复制和扩增特定DNA序列的技术,类似于复制粘贴。它允许科学家们将感兴趣的DNA片段从一个生物体中提取出来,并将其插入到另一个生物体的DNA中,从而产生具有特定性状或功能的生物体。
传统上全过程都需要研究人员通过手动操作进行,包括DNA片段的扩增、连接、转化等步骤,需要耗费大量的时间和精力,并且存在着实验误差的风险。
而新一代的集成式自动化高通量设备则可以将这些实验步骤全自动化地完成,从DNA片段的提取到重组,再到细胞转化和筛选,全程无需人工干预,大大提高了实验的效率和准确性。
同时,自动化设备可以大幅缩短实验周期,减少了实验所需的时间。
传统上,许多实验需要研究人员花费大量时间进行手动操作,而自动化设备能够以更快的速度执行实验流程,同时实现实验的并行化,使得在相同时间内可以处理更多的样品或反应。
例如,在挑克隆这个分子克隆过程中的重要步骤中,现在仍然是需要研发人员来手动操作。通常研发人员需要仔细观察培养基平板上的细菌斑点,根据形状、大小、颜色等特征来进行挑选。然后会使用如移液器或取样环,轻轻地在培养基平板上吸取或采集这些目标斑点中的一部分,将目标克隆从培养基平板上分离出来,以便进一步分析或在液体培养物中继续培养。
由于上述过程相对繁琐,通常研发人员每分钟也就挑出10个左右的克隆。而通过现在自动化的挑克隆设备,可以很轻松地实现每分钟挑出50个克隆,准确度更高,而且可以不间断地持续工作。
此外,自动化高通量设备还可以实现实验的大规模并行化,即同时处理多个样品或反应,从而进一步提高了实验的产出量、速度和一致性。
人工操作容易受到环境条件、个体差异等因素的影响,导致实验结果的波动性较大。而自动化设备可以通过并行实验精确的控制和调节,确保实验条件的一致性,减少了实验误差和数据的变异性,大大提高了数据的稳定性。
例如,生物反应器作为一种用于进行生物学实验的装置,主要用于培养和控制微生物、细胞或组织等生物体系的生长和代谢过程。传统人工操作时由于操作人员的能力、经验甚至状态等不同,导致不同批次间的结果会存在差异,使得不同人员、不同时间的实验结果可比性较差。而自动化高通量的平行生物反应器则很好地解决了这个问题。
平行生物反应器通过同时进行多个实验,可以更快地测试不同的条件或参数对生物反应的影响,并进行高通量的筛选和优化。
许多平行生物反应器已经通过芯片模块实现了平行实验控制,保证各个反应器内参数的高度一致性,从而确保了实验结果的精确性和稳定性。这些芯片模块能够精确地控制温度、压力、搅拌速度等参数,使得每个反应器都处于相同的实验条件下进行实验,从而消除了实验过程中的变量,提高了数据的可比性和可靠性。
当前自动化高通量生命科学研究设备的价格较高,比如前面提到的集合整个分子克隆的工作站当前价格在数百万元。
然而随着现在国产化设备的不断迭代、技术的不断进步和各类元件成本的持续降低,预计自动化高通量设备的成本将会得到显著下降,同样的一个工作站有可能价格会在五年内降至几十万元。
此外,全链条的自动化还将带来试剂成本的大幅降低。
例如,在传统的基因合成过程中,通常是先单独合成引物,然后再将这些引物用于基因合成。这种方法会导致大量引物的人工浪费,因为每个引物只能用于一次反应,剩余的部分则会被废弃。
相比之下,如果采用自动化的基因合成方法,整合合成引物的步骤和基因合成的过程,可以大幅降低引物的需求量,只需要现在的1/10。在自动化过程中,引物可以根据需要被精确地合成,并直接用于基因合成反应中,而不会产生大量的浪费。
因此,这种全链条的自动化不仅能够节省人力成本,还能够降低实验所需的试剂成本,进一步降低了实验的总体成本。
综上,通过引入自动化高通量的实验室设备,我们生成数据的效率将至少实现十倍的上升以及单位成本将至少实现十倍的下降。
随着技术的不断发展,预计这种效率和成本的提升会更加显著。在未来五年内,这种技术可能会实现更大幅度的提升,甚至可能达到百倍级别。
——
04 利用区块链建设合成生物学大模型
当自动化高通量实验室设备成为数据生成的基础设施后,在各个企业和研究机构中将会有大量的研发数据生成。但是考虑到生成一个大模型需要数百万到数亿个数据点,数据的总成本会非常高昂。
这里面给大家一个较为直观的粗略数据:
在微升级规模进行的研发实验中,单位数据成本通常在数元;
在数十升级规模进行的中试实验中,单位数据成本通常在数十元;
而在数十立方米进行的规模化生产实验中,单位数据成本则高达数万元了。
过去几年的一批合成生物学平台型企业致力于打造这样的大模型,取得了很多瞩目的成果,但是多是停留在研发和中试规模,而投入就已经高达数亿甚至数十亿元了。
然而,真的要实现对实际生产有巨大价值的大模型,则一定要加入规模化生产的数据,但这些数据的总成本最低也需要数千亿元,对于任何一个企业和机构都几乎是不可能的。
这巨大的成本对于我国也带来了巨大的机会,原因在于我们有着全世界最大规模的生物制造产业,大量的规模化生产数据每一天都在产生,只是还很分散。
企业之间会因为存在竞争和保密性的考虑,数据共享和开放访问的程度会很低,导致了这些数据无法整合。
但是各种新兴的技术也在为我们带来全新的解决方案。其中,区块链技术作为一种去中心化的分布式账本技术,具有安全、不可篡改和透明等特点,为数据共享提供了潜在的解决方案。
首先,区块链可以确保数据的所有权和授权管理,通过智能合约等机制实现数据的精确控制和管理,从而解决了数据共享中的知识产权和利益分配问题。
其次,区块链可以保护数据的隐私和商业机密,实现数据的匿名化或部分透明化,确保数据的安全性和保密性。
此外,区块链还可以记录数据的溯源和可信度验证,通过区块链上的数据不可篡改的特性,确保数据的来源和真实性,降低了数据造假和篡改的风险,增强了数据的可信度和可靠性。
最后,区块链可以建立激励机制和奖励系统,激励研究者共享数据和参与合作,促进数据共享和合作精神的形成。
通过建立一个合成生物学大模型的区块链网络,参与的企业和机构可以共享各自的数据,并通过智能合约等机制确保数据的安全性和准确性。这样一来,每个参与者都可以访问到整个网络中的数据资源,从而提升自己对应细分领域的研发能力。
因此,区块链技术为建立一个具备信息保密性且去中心化的合成生物学大模型提供了一种创新的解决方案。
一旦这个合成生物学大模型建立起来,将可以对整个合成生物学行业进行强大的赋能。
在实际情况中,不同的合成生物学企业在应用方向上也会有差异。比如不同企业可能使用不同的底盘细胞进行生产,而即使使用相同的底盘细胞也可能生产不同的产物。
在这种情况下,基于大模型的迁移学习可以有效实现在各个细分领域的模型的建立。
迁移学习的核心思想是利用从一个任务中学到的知识来改善另一个相关任务的学习效果。在底盘细胞生产不同产物的情况下,研究人员可以利用已有的大型模型,并通过迁移学习来优化数据分析的效果,从而减少对新数据的需求。
具体而言,已有的大型模型可以作为一个基础模型,其在类似任务上的学习经验和特征提取能力可以被迁移到新任务中。通过迁移学习,我们可以调整这个模型的参数或者特征提取层,以适应新的底盘细胞产生不同产物的数据集。这种方式不仅可以减少对新数据的需求量,还可以提高模型的泛化能力和预测精度。
从经济性角度来讲,迁移学习所需要的数据量最低只需要数百个,因此如果用大规模生产的数据来训练,成本也就在数百到数千万元,这个成本将会使得更多的合成生物学企业可以承担。并且这些新生成的数据又将进一步优化大模型,从而形成了飞轮效应,进入到可持续的良性循环。
当然,除了直接使用已有模型进行迁移学习外,还可以采用一些其他策略来进一步优化数据分析的效果。例如采用领域自适应,通过调整模型的参数或结构,使其更好地适应新的底盘细胞产生不同产物的数据分布,从而提高模型的性能和泛化能力。再比如利用知识蒸馏,从已有模型中学到的知识,通过蒸馏的方式将其迁移到新模型中,从而加速新模型的训练过程,并提高其性能。由于篇幅有限,这里就不做展开了。
综上所述,基于大模型,我们可以通过更少的数据量实现底盘细胞生产不同产物的数据分析,从而大幅提高生产效率和产物质量,有望呈几何级数推动合成生物学领域的发展和创新。
——
05 最后的话
为什么ChatGPT出现在美国而不是中国?这个里面会有很多复杂且综合的原因,但是其中一个不能忽视的原因就是数据。
由于英文是全球通用语言,英文语料的数量和可获得性相对较高。许多公开数据集、研究论文以及互联网上的文本数据都是以英文为主。因此,英文语料的丰富性使得英文自然语言处理技术的研究和应用相对更加成熟和广泛。相比之下,中文语料的数量和质量相对较少,这在一定程度上限制了中文自然语言处理技术的发展和应用。
但这个事情在合成生物学领域会发生改变。
在生物制造领域,中国拥有全世界最大的规模,每天有大量的规模化生产数据产生。尽管研发数据也是非常重要的,而且这一方面确实欧美还具备一些领先优势,但是随着未来几年自动化高通量实验室设备的普及,这一部分的数据生成将会迅速赶上。但相反,大规模的生产数据是要以整个产业链作为依托的,而这个是其他国家难以追赶上的。
为此,美国也进行了一系列行动来支持这些规模化生产数据的产生和获取。
2022年9月12日,美国总统拜登正式签署了一项行政命令,启动了该国有史以来第一个全国性的生物经济计划—— “国家生物技术和生物制造计划”(National Biotechnology and Biomanufacturing Initiative)。
2023年3月23日,美国白宫政府公布了一份《美国生物技术和生物制造的明确目标》(Bold Goals for U.S. Biotechnology and Biomanufacturing)报告,设定了新的明确目标和优先事项,用以推进美国本土生物制造的发展。
2024年3月中旬,美国农业部(USDA)发布了生物经济计划的早期交付成果之一:一份关于如何建立规模化生物制造所需的原材料供应链的报告。
......
正如埃里克·施密特(Eric Schimidt)所言,这一切行动都围绕着同一个目的:
“我们需要确保在国内外建立可靠的供应链,从原材料提取到数据存储,同时建立必要的人才储备。”
我们国家人口众多,劳动力资源丰富,从而降低了生物制造的生产成本。
同时,作为全球最大的消费市场之一,我们为本土生物制造企业提供了巨大的销售机会和稳定的需求基础。
过去的几十年间,我们更是建立了完善的供应链体系,包括原材料供应、生产加工、物流运输等环节,这为生物制造提供了高效的生产条件。
这些都奠定了我们作为生物制造大国方面的巨大优势。
但大规模生产本身并不是可持续的优势。
而数据,尤其是规模化生产的数据,将成为这一轮合成生物学的重中之重。而如果能将这些数据利用起来,转化成整个行业的竞争优势,则必将占领下一个战略高地。
人类一生中最多能读到数十亿个单词,而ChatGPT的日产量却达到了这个数字的数千倍。这样的数据奇迹也有望在合成生物学领域得以实现。
想象一下,未来我们可以依靠自动化高通量设备和生成式AI,一天之内产生的实验数据能超过目前实验室一年、十年甚至百年的总和。这不仅是技术的飞跃,更是对物质世界的一次前所未有的冲击。
通过自动化高通量设备、大规模生产的数据以及大模型的不断迭代,中国有望率先迎来属于合成生物学的ChatGPT时代。
在今天,中国的透明质酸、生物基尼龙等合成生物学产品已经处于世界领先的位置,而像我们这样的初创企业正在研发的生物基塑料等新兴合成生物学产品也有望在不远的未来占据市场的主导地位,这些都标志着了我们国家在合成生物学领域正在取得一个又一个重要的成果。
然而,像是ChatGPT这样的变革性技术将彻底颠覆现有的产业格局。
未来十年,合成生物学产业的变革将比过去一百年更为巨大。我们将目睹物质世界的颠覆性变化,仿佛过去几十年的发展只是一个预演。
合成生物学将成为这场变革的中心,而我们期待中国能够在这个历史性的舞台上作为主角,引领未来的发展。
当然,这其中充满着挑战与不确定性。然而,正是这样的挑战激励着我们不断努力,追求着技术和创新的极致。
共勉。