欢迎来看雪球的生信套路!NIH发声明停止资助纯动物模型的研究了?生信作为“新替代方法”的一种方向,岂不王朝了?临床数据库也将越用越顺?😏——别急,看看“转型”期间的挑战与机遇,今天从一篇仅有2位作者的影像组学+深度学习+真实世界数据集的文章讲起:
说来也巧,两位作者都来自马萨诸塞,正是临床数据库MIMIC的数据来源地。
Differential dementia detection from multimodal brain images in a real-world dataset
在真实世界数据集上基于多模态脑图像进行差异性痴呆检测
期刊:Alzheimer’s & Dementia
IF:11.1
发布时间:2025/07/01
数据收集与预处理:
收集了MGH的183,018张图像(来自11,015名患者)用于训练,以及BWH和外部站点的125,493张图像(来自6,662名患者)用于测试。数据按年龄、性别等进行了匹配和平衡处理,以减少偏差。
多模态输入框架与混杂因素回归:
开发一个能够处理多模态脑部图像和文本信息的深度学习模型,同时减少混杂因素(如年龄、性别、成像方式等)对疾病检测的影响。
模型能够接受1到14张脑部图像以及关于种族和性别的文本输入。通过对抗训练方法,模型学会了忽略混杂因素,专注于与疾病相关的生物标志物。例如,使PET图像的潜在表示看起来像MRI图像,从而减少成像方式对分类的影响。
模型训练与验证:
训练深度学习模型以准确检测多种神经退行性疾病,并验证其在不同外部站点数据上的泛化能力。
模型在多种神经退行性疾病的检测上表现良好,AUC值在0.82到0.94之间。特别是在路易体痴呆、血管性痴呆和皮克病的检测上,模型显示出显著的附加价值,与仅使用文本数据的分类相比,性能有显著提升。
注意力图分析:
通过分析模型的注意力图,了解模型在进行疾病分类决策时关注的脑部区域,以验证模型是否真正基于生物标志物进行决策。
模型主要关注皮层下脑结构,如脑干、双侧尾状核、双侧小脑皮层等,这些区域在神经精神疾病中具有已知的关联性。这表明模型在决策过程中确实关注了与疾病相关的生物标志物,而不是技术混杂因素。
技术因素和共病对模型性能的影响分析:
评估不同成像方式和患者共病对模型性能的影响,以确定哪些因素对模型的准确性有显著影响。
现输入更多种类的成像数据可以提高模型性能。此外,某些共病(如高血压和脂蛋白代谢紊乱)与模型性能的提升有关,这可能与这些共病作为痴呆风险因素的已知作用一致。
Fig 1 数据以及多输入和可选输入深度学习模型的图表
(A) 训练和测试队列的描述(另见表 1)。
(B) 图像编码器首先使用多个大脑图像进行训练,将每个图像映射到一个潜在空间,以及年龄和人口统计信息,以按特定疾病类型进行分类。编码器经过进一步对抗性训练,通过使潜在空间看起来是每个图像的最频繁表示(例如,正电子发射断层扫描 [PET] 图像的潜在表示看起来像磁共振 [MR] 图像),从而消除有关混杂因素的任何信息。
(C) 在测试期间,测量每个测试图像的马氏距离,该图像与其预测标签在训练集中的潜在向量分布之间。这可以用作检测未分发图像的置信度度量。
Table 1 描述训练集和测试集之中的患者和疾病组
马氏距离,或称Mahalanobis距离,是统计学中一种衡量样本与样本分布的距离度量,它考虑了样本之间的协方差结构。与欧几里得距离不同,Mahalanobis距离不仅关注样本之间的直线距离,还根据数据的分布特性(即协方差矩阵)来调整距离度量,使得在高维数据中更加准确地衡量样本之间的差异。
在疾病影像学数据的检测和分析中,计算并使用Mahalanobis距离有以下几个关键作用:
特征空间调整:
在影像学数据中,各种影像特征(如纹理、边缘信息、形状特征等)可能是相关的,即它们不是独立的。Mahalanobis距离通过协方差矩阵的逆来调整特征之间的相关性,使得距离计算能够更加准确地反映数据的真实结构。
增强模型的判别能力:
神经退行性疾病的早期诊断通常依赖于微小的影像差异。使用Mahalanobis距离可以帮助模型识别出更为细微的差异,因为它会考虑到不同影像特征之间的关系,从而增强分类或回归模型的判别能力。
减少数据的维度灾难:
神经退行性疾病影像数据常常是高维的(如MRI扫描的像素数据)。Mahalanobis距离能够有效地适应高维数据,避免欧几里得距离在高维空间中出现的稀疏性问题,有助于提高模型的稳定性和准确性。
疾病分型与早期检测:
对于不同类型的神经退行性疾病,影像数据可能表现出不同的特征模式。Mahalanobis距离能够帮助将不同类型的疾病区分开来,并可能在疾病发展的早期阶段就发现潜在的病变,进而提高早期诊断的准确性。
Fig 5 模型在每个神经退行性分类任务中关注最多的区域,投影到 SynthSeg 分包上
想要跟上学科交叉的趋势,节省湿实验、动物实验的经费,但不明白生信SCI、临床数据库SCI成文的逻辑,难以入门,怎么办?
你可以试试系统地学习课题设计、数据分析、科研写作,选刊投稿,全流程练习、实操、实战捋一遍!
恰好,就有这么样一门课程,支持你把全流程的知识3个月学到手:点击下方图片沉浸式感受一下经过3个月线上学习后,连续2天线下课紧锣密鼓、大有收获的气氛。
“士别三月,刮目相看”,想进步的小伙伴添加雪球,回复“卓越计划”咨询~
新手小白友好(专攻0-5分SCI)的第5期已经开营了~!
现在报名也可以看回放、读资料追进度哦
Q:直接来学线下课行不行?
A:很遗憾不可以。为确保线下学习体验,默认到场学员均掌握代码分析的基本知识。不过可以报名暑期或秋季学期开始学习。
Q:卓越计划的课程组成包括哪些?
A:均为3个月线上教学+2天线下教学,线下实战训练营结束后,向全体学员赠送30天不限次数的答疑时间(提问问题需基于当期卓越计划的全部课程内容)。
Q:老老实实学完3个月线上课,但无法参加线下实战训练怎么办?
A:可以观看实战录播进行线上替代性学习。
实战录播在当期线下实战训练营结束后7个工作日内面向全体当期学员提供。
线下实战训练营具备一定参加条件(需完成一次指定作业,以确保具备参加线下实操所需分析数据、分析环境),指定作业将由讲师充分强调并预留充足的提交期限,可自行安排时间完成。
Q:课程购买后能否开发票?
A:可以。
回复“卓越计划”后详细咨询>
更多科研资讯,投稿妙招
敬请关注雪球朋友圈
SCI发表陪跑,可添加后回复“个性化”咨询详情
包括但不限于如下所示,各种套路组合哦!