Nat. Commun.｜一个将分子结构和生物医学文本桥接起来的深度学习系统，其理解力可与人类专业人员媲美

编译 | 程思雨
审稿 | 刘名权

本次介绍一篇由清华大学计算机系孙茂松团队发表于nature communications，名为《A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals》的论文。该论文通讯作者为计算机系党委副书记刘知远副教授与孙茂松教授，第一作者为计算机系博士生曾哲妮与姚远。该研究由国家重点研发计划与清华大学国强研究院提供支持。

为了加速生物医学研究过程，人们开发了深度学习系统，其通过阅读大规模的生物医学数据，来自动获取分子实体的知识。受到人类通过多种方式阅读分子结构和生物医学文本信息来学习深度分子知识的启发，论文作者提出了一个知识丰富的机器阅读系统，该系统将这两种类型的信息连接在一个统一的深度学习框架中，为生物医学研究提供全面的帮助。他们解决了现有的机器阅读模型只能分别处理不同类型数据的问题，从而实现了对分子实体的全面深入的理解。通过在不同信息来源中以无监督的方式抓取元知识，他们的系统可以促进各种现实世界生物医学应用，包括分子性质预测，生物医学关系提取等。实验结果表明，该系统在分子性质理解能力方面甚至超过了人类专业人员，并显示了其在未来药物自动发现和文档化方面的潜力。

研究背景

了解分子实体(即它们的性质和相互作用)是大多数生物医学研究的基础。例如，专家们研究蛋白质分子的结构特性，以了解其作用机制，并调查药物和靶分子之间的相互作用，以防止不良反应。为此，人们建立了许多生物医学知识库，包括 PubChem、基因本体论和药物库。然而，由于生物医学知识的快速增长和专家注释成本的高昂，现有的知识库还远远不够完善。随着深度学习技术的快速发展，机器阅读系统可以通过阅读大规模数据自动获取生物医学知识，在许多情况下加快了最近的生物医学研究。

然而，与人类学习者相比，机器阅读系统在通用性阅读和知识性学习方面仍然存在着巨大的差距。在获得生物医学分子知识的过程中，人类能够全方位地阅读不同类型的信息，这些信息能够对分子实体进行互补性描述，包括分子结构和生物医学文本。具体来说，分子结构提供了简明的标准化内部信息，其中功能群及其位置是分子性质和相互作用的强有力的指示器。

相比之下，生物医学文本提供了从wet-lab实验中报告的分子实体的丰富的外部信息。利用互补信息对于人类学习者获得全面的分子理解是至关重要的。此外，人类能够在不同的信息内部和跨信息之间知识化地学习和利用元知识——在不同信息来源的语义单位(如功能组和自然语言短语)之间建立细粒度的映射，从而实现对分子的深入理解。

据我们所知，所有现有的生物医学知识获取机器阅读系统都局限于内部分子结构信息或孤立的外部生物医学文本信息，必须开发不同的模型来处理每种类型的信息。这不仅限制了机器阅读系统的通用性，而且由于每种信息的内在性质，也限制了知识获取的性能。具体来说，来自分子结构的信息与来自wet-lab实验的信息相比简洁但通常有限，而来自生物医学文本的信息具有更好的丰富性和灵活性，但通常会受到噪声提取过程的影响。此外，由于受到单一信息源的限制，机器阅读系统很难学到超越单一信息的元知识，从而达到对分子的深入理解。受到人类学习者的启发，该文作者希望建立一个知识渊博的机器阅读系统，从多方面学习两种信息来源，以更好地掌握分子知识，从而协助生物医学研究。然而，在一个统一的框架内对异构数据进行联合建模并非易事，而且在没有明确的人工注释的情况下难以学习元知识。

研究内容

这项工作中，论文作者开创了一个知识化的机器阅读系统，建立了来自分子结构的内部信息和来自生物医学文本的外部信息之间的联系，如图1所示。在统一的语言建模框架下对异构数据进行联合建模，在不使用任何人工注释的情况下，通过自监督语言模型对大规模生物医学数据进行预训练，学习元知识。具体来说，对于分子编码，有各种合理的选择，例如基于描述符的模型和基于 SMILES 的模型。在这项工作中，他们还使用 SMILES 序列化分子结构以实现编程的简单性，因为它们可以很容易地与文本标记统一起来，并由 Transformer 体系结构处理。然后，SMILES 表示被分割成频繁的子串模式，使用一种纯数据驱动的方法，受到前人的标记和编码方法的启发，使用字节对编码算法。有趣的是，他们观察到由此产生的子串模式在化学上是可以解释的(例如，碳链和官能团) ，并且可能与分布在生物医学文本中的分子知识结合起来。因此，他们在生物医学论文中的相应提及中插入了分段的基于SMILES的分子表示，，并在一个统一的语言建模框架下对生成的数据进行建模。最后，通过自监督语言模型对大规模生物医学数据进行预训练，来学习元知识。经过预先训练，通过微调可以容易地转移元知识，以促进各种现实世界的生物医学应用。

图1知识化、通用化机器阅读的概念图。

综合实验表明，通过学习分子实体的深度元知识，该模型在分子结构和生物医学文本中的分子性质预测、化学反应分类、命名实体识别和关系抽取等各种生物医学应用中取得了良好的效果。更重要的是，通过掌握分子结构和生物医学文本之间的元知识，他们的模型具有很好的交叉信息的能力。他们的模型能够生成分子结构的自然语言档案编制，并为自然语言查询提取分子结构。此类智能功能可提供方便的助理和加速生物医学研究。。对于有关分子性质的多项选择题，他们的模型的准确率大于0.83，被证明对分子结构和生物医学文本的理解比人类专业人员更深刻（专业人员准确率为0.77）。在针对3000个候选分子实体的6个功能性自然语言查询的案例研究中，60个检索到的实体中有30个可以得到wet-lab实验的支持，其中9个实体在 PubChem 中没有被报告(因此是新发现的) ，这表明他们的模型在未来协助生物医学研究实验方面有很大的潜力。他们的贡献总结如下:

他们提出了一个知识性和通用的机器阅读系统，其桥接了分子结构和生物医学文本。
他们的主要贡献在于将提出的模型应用于辅助药物发现和生物医学研究的文档化。
综合实验证明了该模型的有效性。

结果

KV-PLM概述

该论文作者提出了KV-PLM，这是一个统一的预训练语言模型，用于处理分子结构和生物医学文本，以实现知识化和多功能的机器阅读。KV-PLM 以流行的预训练语言模型 BERT 为骨干。为了在统一的模型中处理异构数据，首先将分子结构序列化为 SMILES 字符串，然后利用 BPE 算法进行分割。为了学习不同语义单元之间的元知识，他们使用掩码语言建模任务对 KV-PLM 进行预训练。在预训练期间，部分标记（包括来自分子结构和生物医学文本的标记）被随机屏蔽，并要求模型根据上下文重建屏蔽的标记。通过这种方式，该模型可以在没有任何注释数据的情况下掌握分子结构与生物医学文本之间的相关性。经过预训练后，该模型可以很容易地进行微调，以促进各种单一信息和交叉信息生物医学应用。

为了全面研究KV-PLM的生物医学性能，作者从不同方面进行了实验。他们首先评估了单源生物医学任务中的KV-PLM，包括分子结构任务和生物医学文本任务。然后，他们测试KV-PLM的挑战性多功能阅读任务，这种任务需要深入了解分子结构和生物医学文本。

实验结果

作者将 KV-PLM 与强基线模型进行比较，以验证他们方法的有效性。参与对比的模型有：RXNFP、BERTwo、SMI-BERT、Sci-BERT、KV-PLM(该文作者提出的模型)、KV-PLM*(通过采用双标记器以更合适的方式处理SMILES 字符串来改进KV-PLM)。

(表1. 单一信息任务和多样化阅读任务的主要实验结果。)

结果分析

根据表1的实验结果，他们得出以下三个主要结果:

对单一信息数据进行预训练可以大大提高模型在相应下游任务上的性能。
具体来说，在分子结构任务上，SMI-BERT 优于 BERTwo，在自然语言任务上，Sci-BERT 优于 BERTwo。
此外，单一信息预训练模型也可以在多功能任务上取得合理的表现。
结果表明，预训练能有效地掌握各类信息中的元知识，有助于生物医学任务的完成。
有趣的是，他们还发现单一信息的预训练也会改进其他信息类型的下游任务。
具体来说，尽管已经在自然语言数据方面接受了预先的训练，但在对分子结构任务进行精细调整时，Sci-BERT 甚至优于针对分子结构数据量身定制和预先训练的强大的 SMIBERT 和 RXNFP 模型。
这表明分子结构模式与自然语言之间可能存在一定的联系。
例如，组合性和层次性是分子结构和自然语言的重要属性，它们可以通过不同的信息来源转化为帮助任务完成的信息。
交叉信息预训练使统一的机器阅读系统能够在生物医学任务中同时从两种信息源获得优于基线方法的信息。
此外，作者的模型在多功能任务上也取得了最先进的表现，显示了它在未来这些重要场景中协助生物医学研究的潜力。
结果表明，整合内部和外部分子信息的重要性，以及所提出的生物医学任务的机器读取方法的有效性。

案例研究

在这个小节中，作者首先观察了通过模型进行学习的子串模式的特性。从图4可以看到，作者认为的性质相似的子串模式，由于预训练，往往有更接近的酶解图谱；这表明掩码学习有助于在无监督的方式下建立映射关联。正如下面的子图所示，在获得对齐监督信息后，聚类变得更紧密。此外，我们可以看到紫色的载体，发现该模型可以正确区分酒精和苯酚，也可以理解酸和有机盐的含义。这证明了作者的模型不仅可以学习孤立的子串模式，而且还可以学习子串模式的组合特性，以及在多功能阅读任务中进行微调时SMILES和文本之间的映射。

图2.使用t-SNE可视化子串模式嵌入。

讨论

在本文中，论文作者展示了将 SMILES 字符串和自然语言连接起来的可能性，并提出了基于 bert 的 KV-PLM 模型，用于在生物医学领域进行知识性和通用性的机器阅读。通过对特定语料库的预训练，来自语言的外部知识和来自分子结构的内部知识可以在无监督的情况下相互融合。KV-PLM对分子实体有一个基本的了解，当对各种下游任务进行微调时，令人满意的性能证明了分子知识的有效性。他们的模型在MoleculeNet基准上实现了比基线模型更高的精度，并为在USP-few上更具挑战性的任务带来了显著的改进。即使作为一个简单的语言模型，他们的模型也可以很好地处理经典任务，包括Chemprot RE和CDR NER。KV-PLM显示了其作为通用生物医学机器阅读模型的能力。

同时，桥接这两种文本格式的优势并不局限于单一信息格式的应用程序。由于 SMILES 字符串与自然语言描述之间存在对应关系，作者采用类似于交叉信息学习的方法对其进行处理。通过对 PCdes 数据进行微调，KV-PLM 可以实现物质和属性描述之间的交叉检索。作者提出了一个新的任务 CHEMIchoice来评估 SMILES 字符串和自然语言的阅读能力以及它们之间的排列能力。进一步，他们对 KV-PLM 在开放性预测和药物发现方面的潜力进行了定性分析。

尽管如此，仍有一些问题等待解决。首先，我们需要更好地定义和评估跨领域阅读任务。考虑到如果按段落进行训练，模型可能只依赖于几个句子，我们将按句子对齐SMILES字符串和描述。然而，这种方法会带来噪音，因为从其他段落中随机选取的阴性样本可能也适用于给定的物质。此外，我们简化 SMILES 字符串以获得更简洁的子字符串模式结果，而去掉括号和数字标签则会丢失空间结构的信息。更重要的是，它是一种简单而粗鲁的方法，可以将 SMILES 字符串和自然语言串联起来。预计将提出更先进的结构，用于融合有关化学品和其他类型实体的内部和外部知识。

数据与代码

支持这项研究结果的数据已经存储在 Google Drive 中：

https://drive.google.com/drive/folders/1xig3-3JG63kR-Xqj1b9wkPEdxtfD_4IX

这项研究的代码网址: GitHub https://GitHub.com/thunlp/kvplm

参考资料

Z. Zeng, Y. Yao, Z. Liu, M. Sun, A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals. Nat Commun 13, 862 (2022).

https://www.nature.com/articles/s41467-022-28494-3