Nat Methods | 一种不仅回答“是什么”，更能探究“如何发生”与“为何如此”的强大统计机器学习新手段

现代多组学技术往往能生成深度多尺度的剖面信息，然而数据模式的差异、数据的多重共线性和海量无关特征的存在往往使得高纬组学数据集的分析和整合具有一定的挑战性。

近日，一篇发表在国际杂志Nature Methods上题为“SLIDE: Significant Latent Factor Interaction Discovery and Exploration across biological domains”的研究报告中，来自匹兹堡大学等机构的科学家们通过研究开发了一种新方法，其能通过利用统计机器学习对大量复杂的生物学数据进行分类，从而发现隐藏在疾病背后的未知因素。

研究者表示，SLIDE犹如一位敏锐的探矿者，不仅能从纷繁芜杂的数据矿石中提炼出隐藏的金粒——那些直接或间接诠释数据意义的独特因素，还确保这些发现清晰易懂，宛如为晦涩的科学语言披上了一件通俗易懂的外衣。研究者认为，这种方法或能改变我们对多组学数据的认知。

研究者Florentina Bunea博士说道，“SLIDE的魅力在于其可解释性，它能从可测量的生物学表象中抽丝剥茧，揭示那些潜藏的、可理解的调控机制。”这种方法不仅能够验证既往科学认知，更锐意进取，揭示先前未知的生物规律。相较于传统方法仅能从数据丛林中摘取多组学特征标签，粗略区分健康与疾病状态，SLIDE更进一步，不仅回答“是什么”，更致力于探究“如何发生”与“为何如此”。

科学家开发出一种能识别引发人类多种疾病未知因素的强大统计机器学习手段

图片来源：Nature Methods (2024). DOI:10.1038/s41592-024-02175-z

为了验证SLIDE的有效性，研究人员选取了24名系统性硬皮病（systemic scleroderma）患者的数据。系统性硬皮病是一种自身免疫性疾病，其会引发机体皮肤增厚并损伤机体内脏器官。通过对24位患者的皮肤活检数据进行深度挖掘，SLIDE不仅精准预测了每位患者的病情严重程度，超越现有最先进手段，更惊人地揭示了驱动病情发展的九个隐匿因素。这其中既有已知的病理角色，亦有全新的发现，如角质形成细胞在疾病进程中未曾被充分认识的作用。尽管这些新发现有待实验室进一步确证，但已然揭示了SLIDE在揭示疾病真相中的强大洞察力。

文章中，研究人员还揭示了如何利用SLIDE来重现哮喘症小鼠模型中淋巴结上不同类型免疫细胞的未知规律。同样的，在1型糖尿病小鼠模型中，SLIDE成功找出了驱动CD4⁺ T细胞过度增殖的幕后推手，这些细胞正是攻击胰岛β细胞、引发糖尿病的罪魁祸首。

研究者Das满怀信心地表示：“SLIDE有望成为横跨多种疾病研究的革命性工具，无论是在衡量疾病严重程度、解析细胞特性，还是在揭秘发病机制、定位关键细胞亚群方面，均展现出无可比拟的优势。其严谨的统计学确保了其识别出的隐藏因素既独特又可靠，而这正是SLIDE无与伦比的力量所在。”

综上，本文研究结果表明，SLIDE或是一种从现代多组学数据库中进行生物研究发现的强大通用工具。

参考文献：

Rahimikollu, J., Xiao, H., Rosengart, A. et al. SLIDE: Significant Latent Factor Interaction Discovery and Exploration across biological domains. Nat Methods (2024). doi：10.1038/s41592-024-02175-z

本文仅用于学术分享，转载请注明出处。若有侵权，请联系微信：bioonSir 删除或修改！