社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Nature Methods | 针对罕见病的机器学习方法

DrugAI • 2 年前 • 513 次点击  

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Casey Greene团队的一篇综述论文。高通量分析方法(如基因组学或成像)加速了基础研究,并使对患者样本的深度分子特征化成为例行程序。这些方法提供了关于参与疾病表型的基因、分子途径和细胞类型的丰富信息。机器学习(ML)可以成为从高维数据集中提取与疾病相关模式的有用工具。然而,根据生物学问题的复杂性,机器学习通常需要许多样本来识别重复出现且具有生物学意义的模式。罕见病在临床案例中天然受限,导致可供研究的样本较少。作者概述了在罕见病中使用机器学习处理小样本集的挑战和新兴解决方案。罕见病的机器学习方法的进展可能对其他具有高维数据但样本较少的应用有所启发。作者建议方法研究社区优先发展罕见病研究的机器学习技术。

罕见病研究者越来越依赖机器学习来分析高维数据集。对欧洲联盟定义的罕见病(每10,000人中少于5人)在过去10年中进行的人类研究的系统回顾发现,共有211项研究使用机器学习来研究74种罕见病1。机器学习在生物医学研究中可以成为强大的工具,但在罕见病的背景下,它也存在一些问题2。在这篇观点中,我们讨论了在罕见病研究中使用两种类型的机器学习(监督学习和无监督学习)时需要考虑的因素,特别关注高维分子数据。


机器学习(ML)算法是一种计算方法,它可以识别数据中的模式,通常以较低维度的表示形式呈现,可用于执行有用的计算任务。监督学习算法需要使用带有感兴趣特征的数据进行训练,例如生物学或临床表型。监督方法可以学习特征之间的相关性(例如大量基因的表达测量),这些特征可能与这些标签相关联,以预测或推断未标记数据中的标签,例如预测哪些患者对治疗会有反应或无反应。因此,如果研究旨在基于高通量分子分析将罕见病患者分类为疾病亚型,使用监督的机器学习算法来执行此任务是合适的。相反,无监督学习算法从未标记数据中学习模式或特征。在没有已知疾病亚型的情况下,可以将无监督的机器学习方法应用于基因表达数据,以识别具有相似分子状态或通路活性模式的样本组。无监督方法还可以提取描述特定细胞类型或通路的特征组合(例如基因)。更在罕见病研究中实施机器学习模型时,还需要考虑机器学习实验的组成部分和设计,以更好地指导适合此类实验的数据集的构建。


尽管机器学习是一个有用的工具,但在将其应用于罕见病数据集时存在一些挑战。机器学习方法通常在使用大型数据集时效果最好;对来自罕见病数据集的高维生物医学数据(例如包含数千个特征的基因表达数据)进行分析是具有挑战性的,因为这些数据集通常只包含相对较少的样本。小样本数据集往往缺乏统计能力,并增加了机器学习方法的误解和性能不稳定性的风险。在数据不足的情况下,无监督模型将无法识别对生物学发现有用的模式。对于有监督模型而言,如果样本标签不确定或包含“标签噪声”,模型可能会受到不良影响。具有高标签噪声的数据集会降低预测准确性,并在模型学习样本之间区分模式的过程中需要更大的样本量。罕见病数据集通常伴随着相当大的标签噪声。例如,如果罕见病亚型的分类随时间演变,进行机器学习研究的研究人员可能会发现在不同时间段收集的队列没有可比较的标签。此外,如果有监督的机器学习模型只能在其训练数据上准确预测样本标签,也就是过拟合的情况下,其实用价值有限。相反,大多数研究人员希望开发能够在应用于尚未被模型“看到”的新数据时泛化(保持性能)的模型。


构建适用于机器学习的罕见疾病数据集

图 1


高通量“组学”分析可以从全转录组测序和全基因组测序中生成数千到数十亿个测量值,从而产生高维数据集。典型的罕见疾病数据集由少量样本组成,导致了“维度灾难”,即特征空间远大于样本空间,增加了构建高度泛化模型的难度。较大的特征空间可能导致数据缺失(稀疏性)增加,样本之间的差异性增加(方差),以及个体特征或组合之间的冗余性增加,这些都增加了机器学习实现的挑战。


在机器学习中,模型的性能是一个重要因素:监督模型在识别与生物学问题相关的模式方面的准确性,或者无监督模型在识别通过事后验证支持的假设性生物模式方面的可靠性。当小样本量影响机器学习模型的性能时,可以采取两种方法来处理稀疏性、方差和多重共线性:(1)增加样本数量;(2)提高样本质量。在第一种方法中,可以通过合并多个罕见疾病队列(图1a)来构建适当的训练、评估和保留验证集。在合并数据集时,需要特别关注数据协调,因为不同队列之间的数据收集方法可能不同。如果没有仔细选择聚合方法,可能会将技术(与生物学对比)的变异性引入到合并数据集中,并且对机器学习模型学习或检测有意义的信号的能力产生负面影响。为了减轻不希望的变异性(图1a),可能需要采取一些步骤,如使用单一流程重新处理数据、使用批次校正方法、适当地对原始值进行归一化,而不影响数据中的基本方差。数据协调还可能涉及使用生物医学本体规范化样本标签,以在多个数据集中统一样本的描述方式。


如何确定复合数据集是否经过适当的协调和注释呢?理想情况下,复合数据集的主要模式应反映感兴趣的变量,如表型标签,而不是技术标签。如果主要模式是技术标签,这表明用于生成复合数据集的数据集需要进行校正,以克服数据生成或收集方式的差异。


从罕见疾病数据中学习表示形式

图 2


降维方法有助于探索和可视化数据中的潜在结构,用于定义样本子群或在应用特定的机器学习模型时进行特征选择和提取(参见图2c)。无监督方法通过发现数据中的低维模式,将大量特征的信息“压缩”成较少的特征(参见图2)。常用的降维方法之一是主成分分析(PCA)。PCA识别高阶特征,称为主成分(PCs),它们是原始特征的组合。PCs的计算方式使其包含的信息量(方差)最大化,并确保每个PC与其他PCs不相关。实际上,研究人员通常使用前几个PCs来减少维度,而不会去除可能是重要的生物变异性。多维尺度变换、t-分布随机邻居嵌入和均匀流形逼近与投影等是其他常用的降维方法,通常用于低维可视化和数据解释。测试多个降维方法可能有助于获得更全面的数据特征。其他无监督学习方法,如k均值聚类或层次聚类,可用于表征基因组和图像数据中的结构。降维方法是一种称为表示学习的机器学习方法的子集。表示学习方法已被用于从由基因表达值组合而成的转录组数据中提取特征、从图像中预测罕见病理或检测与罕见疾病相关的细胞群体。


通过统计技术减少模型输出的误解

图 3


ML的成功应用可以通过满足一些条件来提高。首先,数据集应包含足够多的每个类别的样本,以捕捉该类别的相关变异性。其次,数据集是完整的;所有样本都具有数据集中所有变量的测量值(即,数据集不是“稀疏的”,没有某些样本的数据缺失)。第三,对数据集中样本的标签没有歧义(即,没有“标签噪声”)。满足这些条件可以提高模型的可靠性和效果。数据集的充分表示、完整性和准确标签有助于避免偏倚和误导,从而增强模型的性能和解释能力。研究人员在构建和准备数据集时应努力满足这些条件,以获得更可靠和有效的ML模型。罕见疾病数据集违反了许多这些假设。特定类别的样本数量较少,无法完全捕捉这些类别中的样本变异性。例如,在健康记录数据集中,只有少数患有特定罕见疾病的患者需要特别考虑进行评估。数据通常也是稀疏的,并且由于对疾病的理解不完全,可能存在大量的标签噪声。所有这些因素导致罕见疾病数据集中的信噪比较低。在不解决这些缺点的情况下将ML应用于这些数据可能会导致模型的泛化能力较差或难以解释。


为了解决这些问题,我们需要针对罕见疾病数据集采取相应的方法。这可能包括使用专门的技术来处理小样本问题、处理稀疏数据和标签噪声,并使用统计技术来减少误解模型输出的风险。通过应用合适的技术和方法,可以提高罕见疾病数据集上ML模型的性能和解释能力,从而更好地理解和应用这些数据。


可以使用基于决策树的集成学习方法(例如随机森林)来解决数据集中的类别不平衡或某一类别表示不足的问题(参见图3a)。随机森林使用基于替换的抽样技术来形成决策树所识别的重要预测特征的共识。此外,通过模拟大多数罕见疾病数据集不完整的真实情况将随机森林与无重复抽样相结合的方法可以为模型预测生成置信区间。重新抽样方法对于构建确定性模型的置信区间最有帮助,因为这些模型每次运行时都生成相同的结果。对于在选择路径到结果时随机选择特征的决策树(即非确定性模型),重新抽样方法可以帮助估计模型的可重复性。


当基于决策树的集成方法无法应用于罕见疾病数据集时,级联学习是一个可行的替代方法(参见图3b)。在级联学习中,使用多种利用不同统计技术的方法来识别数据集中的稳定模式。例如,一个用于从电子健康记录数据中识别罕见疾病患者的级联学习方法包括独立的步骤来进行特征提取(例如word2vec),使用集成决策树进行初步预测,然后使用数据相似性度量进行预测优化。将这三种方法结合起来在银标准数据集上实施时,整体预测结果比仅使用集成预测的模型更好。


在先前的知识和间接相关的数据基础上构建策略

图 4


克服罕见疾病数据不足的一种策略是结合多种数据类型,并将罕见疾病数据与其他现有知识进行探索。通过使用多个数据模态,例如整理好的途径、遗传数据或药物-靶点关系,可能能够更好地了解罕见疾病。知识图谱(KG)是将相关但不同类型的数据整合起来的丰富多模数据源。这些图谱连接遗传、功能、化学、临床和本体数据,使得可以通过手动审核或计算方法来探索与疾病表型相关的数据关系(图4a)。知识图谱可能包含与感兴趣的罕见疾病相关的链接(即边)或节点(例如,KG中的特定疾病-化合物边代表美国食品和药物管理局批准的治疗方法),以及更广泛的信息(例如,文献中针对不同疾病的基因-基因相互作用)(图4a)。


罕见疾病研究人员可以利用一般的生物学或化学知识图谱(KG)来回答基于罕见疾病的研究问题,这些知识图谱不是特定于疾病的。在筛选编码在知识图谱中的大量数据时,一种策略是计算感兴趣节点(例如,疾病和药物)之间的距离,通常通过确定节点在知识图谱中的“特征”(节点的位置和连接的较低维度向量表示)并计算这些特征之间的相似性来实现。有效计算节点嵌入以生成罕见疾病的可操作见解是当前研究的一个活跃领域。


展望

文章强调了将机器学习应用于罕见疾病数据时所面临的挑战,以及应对这些挑战的方法。虽然样本量小是重要的问题,但并不是唯一的障碍。现代数据的高维性要求创造性的方法,例如学习数据的新表示形式,以应对维度灾难。在作者看来,利用先前的知识和迁移学习方法来适当解释数据也是必需的。此外,作者认为,将增加置信度的技术和对结果模型的复杂性进行惩罚(如正则化)应用于罕见疾病数据的研究中,可以提高其可推广性。文章中强调的方法也面临着可能削弱研究人员对于将这些技术应用于罕见疾病研究中的信心的挑战。作者相信,将机器学习应用于罕见疾病的挑战为改进数据生成和方法发展提供了机会。


参考资料

Banerjee, J., Taroni, J.N., Allaway, R.J. et al. Machine learning in rare disease. Nat Methods 20, 803–814 (2023). 

https://doi.org/10.1038/s41592-023-01886-z

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/156522
 
513 次点击