社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

登Nature子刊,俄罗斯研究团队基于机器学习实现万亿级质谱数据搜索,发现未知化学反应

HyperAI超神经 • 3 周前 • 25 次点击  

作者:椰椰

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


随着科学研究不断推进,海量实验数据不断累加,传统的数据处理方法已经难以应对。对此,俄罗斯科学院的研究人员,开发出一种基于机器学习的搜索引擎 MEDUSA Search,能够对太字节规模的高分辨率质谱(HRMS)数据进行分析,助力发现未知的化学反应。


质谱分析(Mass Spectrometry, MS)是现代化学研究的核心技术之一。通过测量分子离子的质荷比(m/z),质谱能够提供化合物的分子式、结构甚至反应机理的关键信息。高分辨率质谱(High-Resolution Mass Spectrometry, HRMS)的出现,更是将分析精度提升至百万分之一(ppm)级别,成为有机合成、金属催化、药物开发等领域的「黄金标准」。然而,随着仪器自动化程度的提高,实验室每天产生的质谱数据量已突破太字节(TB)级别,进而导致数 TB 的信息堆积在计算机上。但是目前,实验与 MS 数据严重依赖人工手动分析,人为因素会影响数据分析的解释覆盖率,从而给实验造成严重的限制。


为了应对这一挑战,俄罗斯科学院等机构的研究人员引入了一种创新的机器学习(ML)驱动搜索引擎 MEDUSA Search,可以在高达 TB 级别的多组分高分辨质谱数据库中,检索离子同位素分布。该方法利用以同位素分布为中心的搜索算法,并通过两个协同机器学习模型进行增强,协助发现未知的化学反应。这种方法能够对现有数据进行严格筛选,为化学假设提供有效的支持,同时减少额外实验。此外,在基线方法的扩展下,该模型能够自动生成反应假设,并且揭示了全新的化学转化。其中,Mizoroki-Heck 反应中的杂环-乙烯基偶联过程在实验中脱颖而出,突出了该引擎解决复杂化学现象的能力。


相关研究以「 Discovering organic reactions with a machine-learning-powered deciphering of tera-scale mass spectrometry data 」为题,已发表于 Nature Communications。


研究亮点
* 挖掘未知反应:不依赖新实验,利用已有数据挖掘未知化学反应,降低实验成本与资源消耗。 

* 高效搜索算法:独特的同位素分布搜索算法结合机器学习模型,在大规模质谱数据中精准搜索离子,减少误判。

* 拓展化学认知:发现新的反应途径和产物,如 Mizoroki-Heck 反应中的杂环-乙烯基偶联过程,深化对化学反应的理解。


论文地址: 

https://go.hyper.ai/ak7bN
关注公众号,后台回复「质谱分析」获取完整 PDF


开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s

数据集:超 2 万个质谱图像,确认反应离子存在

由于大多数质谱信号缺乏专业人士分析,所以实验室在几年内积累并存储了庞大的数据,本实验所用数据均来源于此。这些质谱数据涵盖众多化学转化研究,总数据量超 8 TB,包含超过 2 万个质谱图,存储了不同分辨率的多组分高分辨率质谱数据,能够在广泛的应用中证实是否存在目标离子。


MEDUSA Search 在反应发现过程中,把生成的离子公式放在整个万亿级 HRMS 数据库中进行搜索,以寻找新的反应途径和产物,并将数据进行可视化处理。


数据集的可视化处理应用了 t-SNE 降维技术,研究人员为了证明存档数据集的高度多样性,创建了 2 个 t-SNE 图。收集的分子来自 PubChem 数据库以及质谱注册化合物,并将其随机抽样。在分析质谱中注册的化合物很好地覆盖了化学空间。每个点代表一个光谱,相似的质谱在图上彼此靠近,不同工作人员记录了彼此对比的不同光谱。实验发现,质谱中的化合物在化学空间分布广泛,不同研究人员记录的质谱差异大。如下图。


用 Morgan 指纹编码的化学结构 t 分布随机邻域嵌入(t-SNE)图



研究中使用存档 MS 数据的 t 分布随机邻域嵌入(t-SNE)图。每个点代表一个唯一的质谱。不同的颜色表示记录质谱仪器操作员(用字母编码)


研究生成的多样化数据已存储在 Figshare,其中包含 9 GB 的质谱 ZIP 存档,涵盖提及的所有发现产物,还包含额外反应质谱数据,可用于测试搜索引擎功能。部分搜索未发现结果的数据因保密或知识产权原因无法公开分享。
* figshare 是一个基于云计算技术的在线数据知识库,科研人员可以保存和分享其研究成果,包括数据、数据集、图像、视频、海报和代码。


HRMS 高分辨率质谱数据集:

https://go.hyper.ai/nexNc

模型架构:基于同位素分布搜索发现未知化学反应

MEDUSA Search 是一种基于机器学习的质谱数据分析引擎,能够用于从海量质谱数据中发现未知化学反应。


具体而言,MEDUSA Search 中开发的搜索流程由 5 个步骤组成。


首先,MEDUSA Search 将所搜索离子的分子式和电荷作为输入。这些分子式或电荷可以使用假设生成方法从反应体系中得出,也可以手动定义(如下图 A 所示)。然后,搜索引擎对所有包含输入离子两个最丰富同位素体峰的光谱文件进行搜索,如下图 B 所示。同位素体峰由其质荷比 m/z 表示。这些光谱文件称为候选物,研究人员还进行了光谱文件的余弦距离阈值计算,如下图 C1 所示。接着,对所有候选质谱执行一种算法,该算法在单个光谱内按输入公式搜索同位素分布,如下图 C2 所示。


搜索引擎流程图


在搜索之前,研究人员根据需要,对反应系统的先验知识生成假设反应途径列表(如图 A)。围绕可断裂键和相应碎片的重组来设计此系统。输入有关化学式和电荷的信息,即可计算出离子的理论「同位素模式」。在倒排索引中搜索两个最丰富的同位素体峰(如图 B)。包含这些峰的质谱称为候选。经过粗谱搜索后,对每个候选谱进行查询离子的同位素分布搜索。包含 3 个步骤:


初始离子存在阈值估计:光谱内同位素分布搜索算法返回的余弦距离,作为理论和匹配同位素分布之间相似度的度量。自动判断光谱中是否存在离子取决于估计的最大余弦距离(即离子存在阈值)。基于机器学习回归模型(如图 C1),以使用输入离子公式确定离子存在阈值。


* 谱内同位素分布搜索:谱内同位素分布搜索算法(如图 C2)将实验候选质谱中的峰值,与理论同位素分布中的峰值进行匹配;每一步都会计算余弦距离,从而选择最相似的峰值。如果没有找到峰值,则用强度等于噪声中值的峰值替换。如果最终余弦距离小于步骤(如图 C1)估计的离子存在阈值,则认为找到了离子。


过滤假阳性匹配:附加机器学习分类器(如图 C3)使用有关相邻峰的信息检测假阳性离子存在验证。此问题通常表现为将搜索到的分布作为另一个分布的一部分。最突出的例子之一以 M+1 开始,而 M 也存在。

实验结论:杂环-乙烯基偶联实验突出模型检测能力

通过整个万亿级 HRMS 数据库,对 520 个生成的离子进行搜索,总计算时间为 3-4 天(每个离子 8-11 分钟)。 实验结果表明,MEDUSA Search 检测到多种同位素分布模式。


催化转化产物的形成与相应的反应机理密切相关。前期研究人员进行了几种 Mizoroki-Heck 和交叉偶联反应(例如 Sonogashira、Suzuki、Buchwald-Hartwig 等),这些反应催化成分是具有不同 NHC 配体和卤素取代基的 Pd/NHC 配合物。在通过反应混合物的 ESI-MS 光谱,研究反应机理过程中,发现了偶联产物 [NHC-H]⁺、[NHC-Ph]⁺、[NHC-O]⁺ 和 [NHC-N]⁺。基于这些观察,揭示了催化反应条件下 R-NHC 偶联和 M-NHC 键断裂在 M/NHC 配合物演变过程中的关键作用。从 C-C 偶联反应数量角度描述了具有催化活性的分子 M/NHC 催化剂,和「无 NHC」鸡尾酒型催化剂的形成,包括 H-NHC 盐和 O-NHC 偶联形成。


在 Sonogashira 反应中,分离出之前未知的乙炔基-NHC 偶联产物,并描述了可能的反应途径。乙炔基-NHC 偶联产物反应性很强,可能发生各种转变。使用所述方法对产物的氢化衍生物进行分析,发现 Sonogashira 反应混合物的 ESI-MS 光谱中存在 [NHC-(CH₂)₂-Ph]⁺ 产物,如下图。据推测,该过程通过一种转移氢化反应发生。


MEDUSA Search 注册了广为人知的 H-NHC 和 Ph-NHC 离子,以及在 Pd/NHC 催化下 Sonogashira 反应混合物中新发现的 [NHC-乙炔基]⁺ 离子。基于同位素分布搜索过程可以检测出以前未知的乙基-NHC 产品


在 Pd/NHC 复合物 [BIMePh]⁺ [BIMePdI₃]⁻ 催化下,对对甲氧基碘苯与丙烯酸丁酯之间的 Mizoroki–Heck 反应混合物进行质谱分析,发现形成了 [BIMe (CH)₂COOBu]⁺。用超高分辨率质谱法确认了分子式。涉及 [IPrCHC(Ph)COOBu]⁺ 形成的实验是用于区分均相和非均相催化的汞。通过排除汞对反应物种的干扰,并保持其他条件与原始实验相同。分子式也通过超高分辨率质谱确认,化学结构通过 MS/MS 实验验证。


用 ESI-HRMS 证明 [BIMe(CH)₂COOBu]⁺ 离子的形成




用 ESI-HRMS 证明 [IPrCHC(Ph)COOBu]⁺ 离子的形成



[IPrCHC(Ph)COOBu]⁺ 离子的 MS/MS 谱

使用 5 种不同的 NHC 配体进行实验。测试在 Mizoroki–Heck 反应下 Pd/NHC 转化过程中发生乙烯基-NHC 偶联的可能性。在所有研究案例中都发现了乙烯基-NHC 产物,与配合物中的配体无关,并且所有产物的定义误差都极小。对于 (BIMe)PdI₂Py、(SIMes)PdCl(allyl) 和 (PIPr)PdCl(allyl) 等研究的反应混合物中,除了检测到乙烯基-NHC 外,还检测到了乙基-NHC,其中 (IMes)PdCl(allyl) 和 (SIPr)PdCl(allyl) 复合物的 m/z 误差非常低,小于 0.3 ppm,而误差低于 1 ppm。在所有 MS 实验中,都设置了配置以防止在记录质谱期间发生转换。还对所讨论的乙烯基-NHC 偶联过程进行了压力样品输注 ESI-MS 反应监测,以确认可以在反应数据收集的多种模态中观察到离子。


经验证,这个基于机器学习的稳健反应发现计算引擎能够使用各种不同成分的离子,可以在所有 MS 仪器上进行离子搜索,其分辨率可以观察到同位素分布。将开发的系统与其他计算技术(例如,通过结构式或肽序列预测离子碎片的算法、不同的加合物计算器)相结合,可以成为综合筛选的强大分析工具,这对于加速各个科学领域的发现至关重要。


此外,该方法还实现了「过去实验(Experimentation in the Past)」的研究理念,充分挖掘已有数据价值,发现全新的反应路径和产物,节省研究资源,为化学研究提供了新的思路和方法,推动了有机化学领域的发展。在实际应用方面,能帮助制药企业、材料研发公司等更快找到新的反应路径和产物,降低研发成本,提高研发效率,为化学研究提供了强大的分析工具。

质谱数据自动化分析进军临床应用

随着质谱技术在科学研究和工业生产中的不断深入,自动化技术已经开始迈向临床应用,临床质谱作为精准诊断技术的重要组成,能够实现从样本采集、处理、分离到分析的完全自动化。据美国新发布的第 17 版全球 IVD 行业报告,2024 年全球临床质谱行业的市场规模为 9.3 亿美元,预计 2029 年将达到 14.35 亿美元。2024 年-2029 年,临床质谱市场预计将以年均 9% 的速度增长,成为 IVD 领域仅次于核酸检测的快速增长细分市场。
* IVD(in vitro diagnostic products),即体外诊断产品,是指医疗器械、体外诊断试剂以及药品。


纵观中国市场,临床质谱行业早已迈上了发展快车道,质谱多组学、国产质谱仪和自动化质谱进展明显。根据《2024 临床质谱行业研究报告》显示,截至 2024 年 7 月 31 日,除开质控品、校准品,一共有 228 款国产临床质谱产品获得 NMPA 批准。


获批的试剂类型方面,近 5 年获批的中国国产临床质谱仪器一直保持增长,尚未出现增速放缓的迹象。截至 2024 年 7 月31 日,维生素检测有 51 款试剂获批,药物浓度监测有 46 款试剂获批,慢病类和激素类有 45 款试剂获批。而 2020 年-2023 年分别为 10 款、12 款、13 款、16 款。


获批的仪器中,以液相层析法-质谱联用(LC-MS)仪器为主,共有 33 款中国国产 LC-MS 设备获批。其次是国产基质辅助激光解吸飞行时间质谱(MALDI-TOF MS)设备,共有 25 款获批,被批准用于微生物检测、核酸检测和多肽检测。

* 液相层析法-质谱联用是一种将液相层析(LC)的物理分离能力和质谱(MS)的质量分析能力结合起来的分析化学技术。 

* 基质辅助激光解吸飞行时间质谱(MALDI-TOF MS)是近年来发展起来的一种新型的软电离生物质谱,广泛将之用于鉴定大量的细菌和真菌


当前,中国 LC‑MS 临床应用开展时间相对较短,尚处于起步阶段,还存在很多不足之处,IVD 厂商、医疗检测实验室、专业技术人员、管理部门和政策等多方面因素都可能影响临床质谱检测技术的应用。但展望未来,动化和智能化结合势必是一个重要的发展方向,LC‑MS/MS 临床应用将继续不断发展,在检测效率和准确度提高的同时,进一步帮助医生对结果进行解读,辅助临床决策。


参考资料:
1.https://mp.weixin.qq.com/s/27drrM5lwawHRgRMWvHZRQ
2.https://mp.weixin.qq.com/s/pkd2I573on08syPkqdStOQ


 往期推荐 


“阅读原文”,免费获取海量数据集资源!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182070
 
25 次点击