构建更好的数字“鼻子”的努力表明,我们对气味的感知既反映了芳香分子的结构,也反映了产生芳香分子的代谢过程。

芳香分子的气味很大程度上取决于它们的结构。但新的研究表明,我们对气味的感知也包含了分子是如何产生的信息。

Allison Parshall, Writing Intern
亚历克斯·威尔奇科(Alex Wiltschko)十几岁时就开始收集香水。他的第一瓶香水是Azzaro Pour Homme,这是一款永恒的古龙水,是他在T.J. Maxx百货公司的货架上发现的。他从《香水指南》(Perfumes: the Guide)中认出了这个名字,这本书对香气的诗意描述激发了他的痴迷。他被迷住了,于是把零用钱存起来,增加了他的收藏。“我最终完全掉进了兔子洞,”他说。

Azzaro Pour Homme古龙香水

Perfumes: The Guide
最近,作为谷歌研究大脑团队的嗅觉神经科学家,Wiltschko使用机器学习来解剖我们最古老、最不为人知的感觉。有时他几乎渴望地看着他的同事们研究其他感官。“它们拥有这些美丽的智力结构,这些知识的大教堂,”他说,它们解释了视觉和听觉世界,让我们对嗅觉的了解感到羞愧。
然而,Wiltschko和他的同事们最近的工作正在帮助改变这种情况。在今年(2022年)7月首次发布在biorxiv.org预印本服务器上的一篇论文(Metabolic activity organizes olfactory representations | bioRxiv)中,他们描述了使用机器学习来解决嗅觉科学中一个长期存在的挑战。他们的发现极大地提高了研究人员从分子结构计算分子气味的能力。此外,他们改进这些计算的方式为我们的嗅觉如何工作提供了新的见解,揭示了我们对气味的感知如何与生物世界的化学反应相对应的隐藏顺序。

图1: 一个单一的潜在空间可以解释跨物种和尺度的嗅觉数据。a)在人类嗅觉感知数据上预训练的图形神经网络模型产生一个主要的气味地图,或POM(潜在空间,虚线框),可用于生物和行为实验中对任何小的挥发性分子进行预测。b)仅使用POM的随机森林模型在不同物种的一系列嗅觉数据集(绿色为脊椎动物,蓝色为无脊椎动物)中产生的预测满足或超过从常用的通用分子特征(32,33 (Mordred))中获得的预测,但对于非气味分子特性(橙色)的预测则不行。y轴是使用POM与一般分子特征的模型的性能指标之间的差异。性能指标是将分类和回归性能放在同一个轴上的重新缩放的度量。性能指标0和100分别代表随机预测和完美预测。误差条计算为多个随机种子之间性能差异的标准偏差。

图2: 代谢途径在主要气味图(POM)中预测距离。a)使用MetaCyc(一个实验阐明的跨多个物种代谢反应的大型数据库)的内容构建连接代谢物的有向图,包括带有气味的代谢物(非灰色)。b)两个分子之间的离散成对距离由它们之间在物种代谢图(如果有的话)中的最短有向路径定义。每一步都对应于MetaCyc中指定的一个化学反应。c) POM中分子间连续的成对距离(仅由人类感知数据产生)与离散的代谢距离密切相关(左,r=0.93)。这种效应不仅仅是由相关代谢物的结构相似性驱动的,因为使用替代结构距离指标,包括谷本距离(中心,r=0.71)和基于计数的指纹的编辑距离(右,r=0.80),可以观察到较弱的关系。d)代谢密切相关的两对例子分子。虽然这些是结构不同的分子(谷本距离>0.65;左:关键官能团变化;右:去除一个主要的子结构),一次代谢反应可以使一个变成另一个,因此,
POM也将它们紧密地组织在一起(POM距离<0.12)。反过来,它们有相似的气味特征。

图3: 主要气味图谱(POM)中代谢途径的平滑性。a)左:使用主成分分析在结构指纹(基于计数的指纹,或cFP)的2D表示中描述的4步途径(DIBOA-葡萄糖苷生物合成)。右:在主气味图(POM)的2D表示中描绘的相同路径。b)左为6步途径(赤霉素生物合成)的相同2D cFP表示。右,这是POM中相同路径的二维表示。我们观察到这些路径在POM中相对平滑的轨迹,即使相同的路径在结构空间中显示不规则的轨迹。c)为了系统地量化这种“平滑性”,我们检查了代谢网络中所有独特的通路(上图)。理想的分子表示应该表现出平滑的反应路径,从起始代谢物到最终代谢物的方向更一致,允许中间代谢物(中心)的插值。中间代谢物的平滑度正式定义为起始代谢物和结束代谢物之间的直接欧氏距离和总路径长度之间的比值。更平滑的路径将导致比值接近1(底部)。d)将代谢物结构投影到POM后,代谢轨迹比使用替代结构距离指标时更平滑(配对t检验,两种结构距离指标p<0.0001)。

图4: 主要气味图谱(POM)解释了自然物质中气味分子的共现现象。a)我们编译了303种精油中214个分子的数据集,并计算了它们的成对POM距离(红色)和cFP编辑距离(蓝色),其中在同一种精油中同时出现的分子对用黑色方框表示。b)为了使POM和cFP编辑距离具有可比性,我们对数据集中所有22,791个分子对的POM和cFP编辑距离从小到大排序,并用黑线标记共出现对;然后,我们c)绘制POM距离(红色)、cFP编辑距离(蓝色)和谷本距离(紫色)下共发生(左)和非共发生(右)分子对的距离秩(相对于随机对)的平均位移。正如预期的那样,共发生对的秩更小(靠近),而非共发生对的秩更高(距离更远)。更重要的是,在POM中,共存在分子的这种秩移比结构距离大约2倍(配对t检验,p<0.0001),而在非共存在分子对中则相反(配对t检验,p<0.001)。误差条表示95%置信区间。d) POM成功地识别出两对共出现分子的例子,它们是密切相关的,而传统的基于结构的距离无法识别。最先进的模型预测了这两种分子的常见气味标签。e)萜类生物合成途径表明,这些分子对(红色)是二磷酸香叶酰的下游代谢产物,解释了它们在POM中共存和接近的原因,尽管它们的结构不同。
当你早上喝一口咖啡时,800种不同的分子会到达你的嗅觉感受器。从这幅复杂的化学图像中,我们的大脑合成了一个整体的感知:咖啡。然而,研究人员发现,即使是单个分子对我们人类来说闻起来像什么,也非常困难。我们的鼻子上有400个不同的感受器,用来检测我们周围世界的化学组成,而我们才刚刚开始了解这些感受器中有多少能与给定的分子相互作用。但即使有了这些知识,也不清楚气味输入的组合如何影响我们对甜味、麝香味、恶心味等气味的感知。
“没有明确的模型可以预测大多数分子的气味,”在IBM研究院研究生物医学分析和嗅觉建模的
巴勃罗·迈耶(Pablo Meyer)说,他没有参与最近的这项研究。迈耶决定把这个标志性的从结构到气味的问题作为IBM 2015年DREAM挑战赛的焦点,这是一个计算众包竞赛。各个团队竞相建立可以从分子结构预测其气味的模型。
但即使是最好的模型也不能解释一切。数据中散布着令人讨厌的、不规则的、难以预测的案例。有时,对分子化学结构的小调整会产生一种全新的气味。有时,主要的结构变化几乎没有改变气味。
气味代谢组织(A Metabolic Organization for Smells)
为了解释这些不规则的情况,Wiltschko和他的团队考虑了进化可能对我们的感官提出的要求。每一种感官都经过了数百万年的调整,以检测最显著的刺激范围。对于人类的视觉和听觉来说,这是波长在400-700纳米之间的光和20 - 20000赫兹之间的声波。但是,是什么控制着我们鼻子所探测到的化学世界呢?
威尔奇科说:“至少从很久以前开始,在进化的过程中,有一件事是不变的,那就是每个生物体内的核心代谢引擎。”威尔奇科最近离开了谷歌研究中心,成为Alphabet旗下风险投资子公司GV的常驻企业家。
代谢是指一系列化学反应,包括柠檬酸循环(Krebs cycle)、糖酵解(glycolysis)、尿素循环(the urea cycle)和许多其他过程,这些反应由细胞酶催化,并将细胞中的一个分子转化为另一个分子。这些老生常谈的反应途径定义了飘进我们鼻子里的自然发生的化学物质之间的关系地图。
威尔奇科的假设很简单:也许气味相似的化学物质不仅在化学上有关联,在生物学上也有关联。
为了验证这一想法,他的团队需要一张在自然界中发生的代谢反应地图。幸运的是,代谢组学领域的科学家已经建立了一个大型数据库,概述了这些自然的化学关系和产生它们的酶。有了这些数据,研究人员可以选择两个气味分子,并计算出将一个分子转化为另一个分子需要多少酶促反应。
为了进行比较,他们还需要一个计算机模型来量化各种气味分子对人类的气味。为此,Wiltschko的团队一直在完善一个名为“主要气味地图”的神经网络模型,该模型建立在2015年DREAM比赛的发现基础上。这张地图就像一个由5000个点组成的云,每个点代表一个分子的气味。气味相似的分子聚集在一起,而气味非常不同的分子则相距很远。因为云不仅仅是三维的——它包含256维的信息——只有先进的计算工具才能处理它的结构。
研究人员在两个数据源中寻找相应的关系。他们对50对分子进行了采样,发现在代谢图谱上更接近的化学物质在气味图谱上也倾向于更接近,即使它们的结构非常不同。
威尔奇科对这种相关性感到惊讶。他说,这些预测仍然不完美,但比以前任何只考虑化学结构的模型都要好。
“这根本不必发生,”他说。“两个生物学上相似的分子,就像一个酶催化,它们闻起来像玫瑰和臭鸡蛋。”但他们没有。“这对我来说太疯狂了。对我来说太美了。”
研究人员还发现,在自然界中通常一起出现的分子——例如,橘子的不同化学成分——闻起来比没有自然联系的分子更相似。
化学上与自然协调(Chemically Attuned to Nature)
哈佛医学院(Harvard Medical School)的神经生物学家、威尔奇科的前博士导师罗伯特·达塔(Robert Datta)说,这些发现“直观而优雅”,他没有参与最近的研究。“这就像嗅觉系统是用来检测各种(化学)巧合的,”他说。“所以新陈代谢控制着可能发生的巧合。”这表明,除了分子的化学结构之外,还有另一个特征对我们的鼻子很重要——在自然界中产生分子的代谢过程。
“嗅觉系统会根据它所看到的宇宙进行调整,也就是这些分子结构。这些分子是如何形成的也是其中的一部分。”他赞扬了利用新陈代谢来细化气味分类的聪明想法。尽管基于代谢的图谱并没有在结构模型上有很大的改进,因为分子的代谢起源已经与其结构密切相关,“它确实带来了一些额外的信息,”他说。
迈耶预测,嗅觉神经科学的下一个前沿领域将涉及混合物的气味,而不是单个分子的气味。在现实生活中,我们很少一次只吸入一种化学物质;想想你的咖啡杯里飘出来的那几百种风味分子。目前,科学家们还没有足够的关于气味混合物的数据来建立一个类似于最近研究中使用的纯化学物质的模型。为了真正理解我们的嗅觉,我们需要研究一系列化学物质是如何相互作用形成复杂的气味的,就像威尔奇科的香水瓶里的气味一样。
这个项目已经改变了Wiltschko对他毕生爱好的看法。当你闻到一种气味时,“你是在感知另一种生物的一部分,”他说。“我只是觉得这真的很美。我觉得这样和生活更有联系。”
编者按:Datta是Simons合作研究可塑性和衰老大脑以及SFARI的研究员,他得到了Simons基金会的资助,该基金会也赞助了这本编辑独立的杂志。
本文出处:https://www.quantamagazine.org/ai-model-links-smell-molecules-with-metabolic-processes-20221010/

本文作者Alex Wiltschko是Osmo的首席执行官,同时也是GV的常驻企业家。他于2022年加入生命科学团队,专注于推进数字嗅觉领域的发展。他还与全球之声风险合伙人Anthony Philippakis共同主持“理论与实践”播客。这个播客的特色是生物学和计算机科学前沿的对话。
此前,Alex是谷歌research的一名研究科学家,自2017年以来,他一直在机器学习和生物学的交叉领域工作。
亚历克斯是一位反复创业的企业家,他的大部分职业生涯都在探索人工智能的新领域。在谷歌之前,Alex共同创立了Syllable Life Sciences(已被Neumora收购),该公司使用人工智能和计算机视觉来破译肢体语言,以加速临床前开发,并为疾病构建更好的治疗方法。亚历克斯还是Whetlab(被Twitter收购)的联合创始人,他职业生涯的早期是一名软件开发人员。
Alex拥有哈佛大学神经科学博士学位,在那里他研究嗅觉神经科学,并开发了下一代高通量行为表型技术,目前已被数十家顶级实验室和制药公司使用。他获得密歇根大学神经科学学士学位。