Brain：可解释的深度学习阿尔茨海默病诊断框架的设计及检验

导读

本文于2020年5月发表于Brain（IF：11.337）上。阿尔茨海默病(Alzheimer's Disease,AD)为痴呆症的常见形式。随着人口老龄化，患病负担不断增加，在未来可能会超出社会的诊断和管理能力。当前诊断方法是通过结合患者病史，神经心理学测试和MRI等方式来识别可能病例，然而实际临床应用仍然存在缺乏敏感性和特异性的问题。本研究报告了一种可解释的深度学习疾病分类策略，该策略从MRI、年龄、性别和Mini-精神状态检查分数的多模态数据中勾勒出独特的AD疾病特征。研究框架与一个完整的卷积网络相联系，该网络可以构建从局部大脑结构到多层感知器的高分辨率疾病概率图，并在诊断过程中对AD风险进行精确，直观的可视化显示。该框架提供了一种研究方法，可使用常规可用的成像技术（例如MRI）生成细微的神经影像特征来诊断阿尔茨海默病，以及将深度学习与人类疾病的病理生理过程联系起来的通用方法。

///

可解释的深度学习阿尔茨海默病

诊断框架的设计及检验

作者：Shangran Qiu, Prajakta S. Joshi, Matthew I. Miller, Chonghua Xue, Xiao Zhou et al.

回答什么问题

文章的核心在于提出了一种可解释的深度学习阿尔茨海默病分类框架，并使用大量的实验来验证。

如何回答

1. 提出了一种全卷积神经网络诊断框架；

2. 可以得到高分辨率的个体化疾病概率图：精确，直观；

3. 分类准确率高（阿尔茨海默病 vs. 健康对照老年人）；

用什么证据回答

Part 1: 数据方面：

*表1

实验包括四个数据集，ADNI（采自南加州大学），AIBL（采自澳洲），FHS（1976年开始采集的三代人数据），NACC（采自美国的多中心数据）

表1中MMSE与APOE4的意义：

MMSE：Mini-Mental State Examination量表评分，满分30分，27-30分为正常，小于27分为认知障碍（因为MMSE的评分只属于AD诊断标准的一部分,所以痴呆可能也有28分，正常也会有25分。）；
APOE4是一个基因，叫载脂蛋白E等位基因，它的突变是AD最大的遗传风险因素之一，positive指的是发生突变的被试数量。

上述各数据集的T1影像的前处理包含两步，分别是

配准到MNI152，12个自由度的仿射变换；
灰度归一化，通过设定阈值，将头骨以外的背景区域灰度值置为-1，全图最大灰度clip为2。

此外，FHS数据库里的11个被试有大脑的尸检研究（即有一些生理生化方面的指标），这11个被试的大脑用Freesurfer做皮层重建，分割出皮层和皮层下结构。

Part 2：方法方面

*图1

如图1，本研究使用了深度卷积神经网络作为分类器，模型采用全卷积网络（与VGG/ResNet等在输出部分采用全连接神经网络不同）。网络模型参数详见表2。

*表2

在全卷积网络的训练阶段，使用图像块对网络模型进行训练。所谓图像块，指的是从T1图像中任意位置随机cut出尺寸为47*47*47的图像patch，每幅T1图像上切出3000块。

前四层卷积后面都有下采样操作，因此图像尺寸会逐渐减小。对于47×47×47的图像块，最后一层（即第六层）卷积层的输出尺寸刚好是1×1×1。训练阶段示意图如图2所示。

*图2

训练阶段，使用图像块来训练网络模型，当模型收敛后，测试阶段中，如果输入原始尺寸的图像（即不输入随机切出的图像块），也会一层层计算。根据上述表格，输入图像尺寸是47，一连串卷积和降采样操作的输出尺寸正好是1，但是对于原始图像，输入图像尺寸为227×263×227，则相应地输出尺寸为46×55×46，得到相应的probability map的尺寸（如果它想overlap到原始图像上，就必须上采样）。测试阶段示意图如图3所示。

* 图3

测试阶段，输入原始T1图像，得到尺寸为46×55×46的输出，文章中将该输出称为“probability map”，即概率图。之所以称为概率图，原因在于：卷积网络训练得到的卷积核具有抽取特征，每一层处理后，留下的就是该层卷积核处理后被强调的地方（或者说是提取出的特征）。

根据前面基于图像块的训练，最后一层卷积核提取的特征就是直接与类别相关的特征。因此这里输入全图得到的输出图像，每个voxel的值就代表着该位置上对于类别的直接预测情况（经过soft-max处理，其数值介于0-1之间，数值越大意味着对AD类别判断的“倾向性”越大），因此称其为“概率图”。

得到的概率图可用于下一步的疾病分类，此处为保证思路的连贯性，将“疾病分类”方法部分放到后面（与原文叙述顺序不同），此处略过。

结论

1）疾病预测概率图方面的结论

*图4

A图展示了在同样的位置，两个AD（Alzheimer's disease）被试和两个健康被试的disease probability map；B，C，D图展示了一个AD被试的横断面、冠状面和矢状面的probability map的情况。根据前述提出的probability map的获取方法，map上的数值更接近于1（在上图中越红），则提示该位置上AD造成的可能的结构改变较大。根据图中显示，AD偏红的区域更多。

衡量probability map对病变区域的attention效果到底如何，最直接的证据就是，如果有病理研究证明就在这些attention脑区有神经纤维缠结、致密的老年斑，tau蛋白沉积等等这些AD的病理标记，那么说明深度学习模型得到的attention是正确的。(此数据很难寻找，但是本文进行了这方面的研究，因此讲者认为这一点是这篇论文里最直接的、最强有力的一个论证。)文章中这部分研究，使用的数据是FHS数据库里的11个尸检分析的被试。这里展示了一个被试的示意图，如图4所示。

*图5

第一列是T1；第二列是前述提到的probability map，第三列是probability map用0.7作为阈值来勾勒边界，也就是说选取attention的风险最高的一些区域；第四列的是freesurfer的分割结果,在分割结果上使用color coding表示发生不同程度病理改变的脑区。这个“病理改变”的定义是通过切片分析beta淀粉样蛋白和tau蛋白的沉积情况（目前的主流研究认为这两种蛋白的沉积是导致AD发病的一个重要原因）、此外还通过免疫化学反应来分析了神经纤维缠结等改变，综合得到了第四列这样一个color coding出的结果。注意：不是所有脑区都进行了生化研究，所以接下来的分析过程中有些数据是缺失的。第五列就是把第四列overlap在T1上。

图5为结果的定性分析，可以从直观上感受到probability map 强调的区域和生理生化研究得到的病变区域的结果是相近的。下面针对probability map 强调的区域和生理生化研究得到的病变区域结果之间的相关性，又进行了半定量分析：

*图6

a）Biel：比尔索夫斯基银染液；b）AT8：用来染磷酸化tau蛋白的染液；c）NFT：20倍镜下神经纤维缠结的密度；d）NPL：100倍镜下老年斑密度；DP：100倍镜下弥散性斑块的密度；e）CA1区：是一个海马亚区，海马体的头部主要是CA1区，对缺氧等损伤非常敏感，因此也称为易损区，通常是衡量病变的一个敏感性较高的区域；f）CA2区：也是海马的一个亚区，CA2区主要和社交记忆相关，而社交记忆的受损是AD的一个重要的临床指征之一，因此CA2区对于研究AD也很重要。g）空白区域：数据缺失。每幅图中纵坐标表示：11个被试在该脑区下的probability map上的灰度平均值（即表明深度学习判断该脑区的AD风险大小）按从大到小排列。每个方块的颜色，表明在横坐标对应的当前指标下，生化研究所得到的AD风险评估（与图5的color coding相同）。亦即，深颜色越集中在整个图的上半部分，说明深度学习模型对不同被试的AD预测概率，和病理评估的结果的一致性越好。

根据FHS数据集中11个被试的分析结果，在海马、额中回、颞叶、杏仁核这四个区域，深度学习模型对不同被试的AD预测概率，从直观上看是和病理评估的结果是保持一致的，也就是说在这些脑区，病理评估的结果越倾向于严重的被试，模型对AD的预测概率也较大。文章也做了相应的统计分析，即计算了这些区域深度学习AD预测概率和病理评估评分的斯皮尔曼相关系数，结果见表3：

*表3

但是根据上表，只有4个脑区上是显著的，可能与其数据量有关，因为仅有11个被试，还存在数据缺失的情况。

2）疾病预测准确率方面的结论

利用probability map的灰度信息，我们可以进一步得到一些疾病的分类结果。图7展示了文章中研究的三种作为对比的分类方法：

*图7

A表示直接使用影像信息（probability map）进行疾病分类；B表示只使用age+gender+MMSE（非影像信息）进行疾病分类；C表示融合了影像和非影像特征进行疾病分类。上面三幅图中的圆点，表示全连接神经网络中的神经元，亦即该阶段的疾病分类使用的是传统全连接神经网络模型。

针对probability map，从其上选了200个“置信度”最高的点，直接把灰度值应用到全连接神经网络里——这个“置信度”，用Matthews相关系数（MCC）来度量。Matthews相关系数，又叫phi系数，在机器学习中用作衡量二进制和多元分类质量的指标。它考虑了真假的正负，通常被认为是一种平衡的度量，即使不同类别的数量差异很大，也可以使用。这里的Matthews相关系数计算的“相关”是指probability map上每个voxel的预测结果和被试的诊断标签做相关。Matthews相关系数的计算公式如下：

Matthews相关系数在各个数据集上的计算结果如图8：

*图8

A图中的T1非常有误导性，读者容易误认为这个MCC图是基于个体算出来（即个体化）的，但是一个被试不可能同时出现在四个不同站点的数据集中，实际上如果摆一个MNI152的图上去我认为才比较合适；BCD则展示了三个视角下的各个截面MCC值的分布情况。MCC越高：相关性越高，是介于-1和+1之间的相关系数值。系数+1表示完全正相关，系数0表示无关，而系数-1表示负相关。

根据图8，在probability map上选200个mcc最高的位置的点，probability map上这些点的灰度值作为全连接神经网络的输入，进行疾病分类。

本文的重要亮点之一为模型的分类准确率较高，如何衡量“准确率高”，本文采用的方法是与临床医生进行对比。本研究征集了11个临床医生，给了他们T1影像和age/gender/MMSE，让他们诊断来自ADNI的80个病人。深度学习模型的分类情况与临床医生的对比如图9：

*图9

包括SEN-SPE曲线（ROC曲线沿x=0.5翻转，其目的是希望与PR曲线保持形状一致）、PR曲线、Cohen’s kappa下三角矩阵。MRI：只使用影像特征；NI：只使用age/gender/MMSE非影像特征；Fus：影像+非影像融合特征。红色加号表示单个神经科医生的表现，绿色加号及其上延伸出的误差条表示所有医生诊断表现的平均值和标准差。

根据图9结果显示，人工诊断基本落在机器诊断的曲线以内，说明深度学习分类模型的性能整体优于临床专家。

临床专家之间的诊断一致性通过右侧的Cohen’s kappa下三角矩阵表示，Cohen’s kappa值域为[0, 1]，其数值正比于两个专家意见一致的次数，值域为[0-1]，kappa=1代表两个专家的评估完全一致，此图相当于图9左边两幅曲线图中绿色

error bar，说明了不同专家之间的诊断一致性值得商榷。

本文也给出了在不同数据集上诊断的SEN-SPE曲线以及PR曲线，如图10：

*图10

结合前面的ADNI test上的SEN-SPE图，发现一个问题：仅使age/gender/mmse来分类，其分类精度已经达到较高程度，甚至在某些情况下，增加影像信息会导致模型精度下降。可能原因是ADNI等数据集中的临床标签标定较大程度地参考临床量表，因此这部分结果会对最后的分类产生较大影响。

除上述曲线外，本文也报告了具体的分类精度，见表4：

*表4

重复了五次实验，但不是五折交叉验证，而是把训练集/验证集/测试集按一定比例随机选取的这个过程重复了5次。

根据表中结果可见添加了影像特征后，似乎分类器性能提升不大，甚至会出现降低的现象，可能原因如前述。

主要问题

对于AD vs. NC分类任务，由于AD相比NC大脑结构会发生较为明显的改变，因此目前各AD相关数据集上的AD vs. NC分类精度都比较高，因此，如果其他研究者使用本文方法后无法复现出较好结果，并非本文方法的问题，而是因为其他神经和精神疾病相比AD而言对大脑结构上的改变可能相对较小。本文主要是提供一种解决方法的整体思路，该方法和结论在其他类别疾病的分类任务上仍需通过进一步严谨设计的科学研究予以论证。
训练测试过程中感受野的不匹配。实际情况下，感受野的差异会使深度学习模型性能产生大幅度下降，因此后面的probability map也许并非足够可靠，虽然本文运用各种方法证明了attention区域是有意义的，但是至少讲者认为，肯定有更好的probability attention方法。本文方法方面参考的文章，感受野是相同的，并没有该研究中出现的patch-whole brain规模的感受野差异。
本文的这种attention方法，在计算机视觉领域并不是一种主流的模型可视化方法。

有什么启发