来源:神经计算与控制实验室
最近NCCLab一起讨论了2020年发在Proceedings of the IEEE上的一篇综述《Brain Imaging Genomics: Integrated Analysis and Machine Learning》。 该综述讨论了新的和传统的数据科学方法在脑影像基因组学研究中的应用。 脑影像基因组学 是新兴的数据科学领域,对脑影像和基因组学数据(通常与其他生物标志物,临床和环境数据结合)进行综合分析,以获得对脑表型、遗传和分子特征的新见解,以及它们对正常和紊乱的大脑功能和行为的影响。
脑影像基因组学具有巨大的潜力,可以为脑科学中的生物医学发现做出重大贡献。越来越多的统计和机器学习方法应用到脑成像基因组学研究中,因此我们在此文中拟整理该领域的文献,提供一个关于脑影像基因组学的 统计机器学习方法 的最新最全面综述,并介绍有关脑影像基因组学的实用讨论和各种生物医学应用的方法选择。
欢迎加入
全国 脑成像 学术讨论群
全国 计算神经 学术讨论群
添加小编微信
brainnews_11
注意 :本推文重点介绍这篇综述的第五节(回归分析)部分,即 Imaging Genomics Associations: Multivariate Regression ,重点关注回归分析算法思路和模型框架。
下面,我们将分别 讨论五种方法 在 脑 影 像基因组学 中的 研究 示例 :
1) 稀疏多元回归 (Sparse Multiple Regression, SMR)
2) 稀疏多因变量多元回归 (Sparse Multivariate Multiple Regression, SMMR)
3) 稀疏低秩回归 (Sparse Reduced-Rank Regression, SRRR)
4) 贝叶斯回归 (Bayesian Regression)
5) 神经网络模型 (Neural Network Models)
单核苷酸多态性 (single nucleotide polymorphsim, SNP ),主要是指 在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性 。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
连锁不平衡 (linkage disequilibrium, LD ),是指 相邻基因座上等位基因的非随机相关 ,当位于某一基因座上的特定等位与同一条染色体另一基因座位上的某等位同时出现的概率高于或低于人群中的随机分布,就称这两个位点处于连锁不平衡状态。假定两个SNP1和2各有两个等位型(A, a; B, b, SNP等位应为A、C、G、T四种,这里用A、B表示便于描述),那么同一条染色体上将有四种可能的组合方式:A-B, A-b, a-B, a-b。假定等位A的频率为 ,B的频率为
,那么在连锁不平衡条件下,等位组合A-B的频率 ,而是
( 表示两位点间的 连锁不平衡程度 )。正是由于连锁不平衡的存在,才可能将SNP原有的单个位点的差异拓展到某个区域或某个基因和生物学过程的研究层面。
数量性状 (quantitative trait, QT ),指 个体间表现的差异只能用数量来区别,变异呈连续性的性状。 它具有两个主要特征:变异呈连续性,变异易受环境条件影响。本文研究 脑影像数量性状 。
假设矩阵 和 的每一列被归一化为 零均值、单位方差的分布 。 大多数 回归模型 都可以使用以下 正则化损失函数 框架来描述: 其中 表示 在 上的回归权重系数矩阵, 是平衡损失函数和正则化项的惩罚系数。 在这些模型中通常包含一个 稀疏正则化项 ,其原因是:1)根据生物医学先验知识,在数百万SNP位点和数十万的脑影像特征中, 仅有少量的遗传标记与影像特征高度相关
。因此,高维遗传位点和影像特征的稀疏特征选择在脑影像基因组学关联分析中具有合理的原因和解释性。2)加入稀疏性约束可 减少模型的复杂度,从而降低过拟合的风险 。
方法一、稀疏多元回归
(Sparse Multiple Regression, SMR)
SMR模型是多元单响应模型, 矩阵变成一个向量 。 Silver (2012)等人提出 pathways group lasso with adaptive weights ( P-GLAW ) 模型,该算法基于 group lasso 模型: 其中
定义了 的群结构。利用 pathway先验知识 对 SNPs 进行分组,以便在 pathway 层面上进行特征选择,从而在降低回归分析误差的同时能够学习到更具有生物学解释意义的特征模式。 ( 结合生信知识解释 ) 实际的基因结构中也存在层次结构关系,在 pathway中,特定基因集合共同作用能够在一定程度上影响蛋白的合成以及功能的转化,而在同一基因下的某些 SNP 位点也具有一定的相关关系(如 LD )。 Hao(2018)等人提出tree-guided sparse learning( TGSL ) 模型,这一基于group lasso的模型具有树状结构引导稀疏的正则化表达式:
其中, 表示一个预定义树形结构( )的节点,树
共有 层,每一层有 个节点,第 层的节点为
,使用树结构对SNP进行分组,如图1所示,该模型在构建树状结构时,SNP位点作为叶子节点,LD block与基因集作为中间节点,pathway中的所有基因集合作为根节点。 ( 结合生信知识解释 ) SNP位点之间的空间关系:group lasso正则化项中的
表示属于 组中的第 个位点的要优化学习出的权重,其目的是使所选择的位点具有聚类特性。基因的位点之间会产生 连锁不平衡(Linkage Disequilibrium, LD) 效应,即不同基因座位上连锁的SNP会非随机地出现在同一个LD block中。LD block为基于group lasso的特征选择提供了先验知识,使模型能同时选择在同一个LD block中的SNPs。 当一个节点的权重为零时,其子节点的权重也全部为零,即该子树的全部特征与回归任务无关,即没有被选择。 相比传统的Lasso方法,TGSL模型优化得到的SNP特征在预测大脑灰质体积上具有较小的误差,同时所识别的与MRI脑区相关的SNP位点具有层次结构聚类特性。 M.Wang(2018)等人提出diagnosis-aligned multimodal( DAMM )方法,利用多模态影像数据QTs来回归单变量SNP数据 ,该方法建模如下: 1)第一个正则化项是 范数,作用是选择对大多数模态有影响的特征。 2)第二个正则化项是一种图Laplacian正则化项,它的作用是同一诊断组中的被试在投影空间中有具有相同的值(即映射后的影像特征成分与诊断信息一致)。第二项具体表达式如下:
如图2所示,利用稀疏表示模型,基于多模态脑影像(sMRI和fMRI)构建影像表型多模态超网络,提取大脑的连通性(connectivity)特征:从sMRI中提取网络体素节点特征 ,从fMRI中基于超图提取网络连接 超边特征 。现有的多模态方法可以通过在多模态数据之间嵌入互补信息来选择更有区分度的特征。
方法二、稀疏多因变量多元回归
(Sparse Multivariate Multiple Regression, SMMR)
SMMR是多元多响应模型,该模型解决多变量基因输入多变量影像输出的问题, 是一个矩阵。 Wang(2012)等人提出Group-Sparse Multi-task Regression and Feature Selection ( G-SMuRFS )算法,即组稀疏多任务回归和特征选择模型:
多任务回归使用 范数来约束多个联合相关表型与基因变量产生关联。 该模型中包含两个正则项(如图3所示):
1)组 范数正则项
:在组层面进行特征选择, 即考虑了SNP位点之间的连锁不平衡(LD)结构关系 。利用正则化项在模型中嵌入这一先验信息,使得在同一个LD组中的SNP被同时检测到。 2) 的 范数正则项 :在个体SNP层面进行特征选择,从而在所有内表型中联合选择SNPs。
实验结果表明:这些嵌入多变量基因结构的稀疏学习模型所选择的位点对于回归模型具有较小的误差,该模型能够检测到多个相关基因位点与多个相关脑区的关联。 Wang(2012)等人利用纵向影像数据QT来预测SNP数据,并提出task-correlated longitudinal sparse regression( TCLSR )模型(即把每个时间点视作一个任务): 1) 迹范数 (trace norm) 正则化项 : 它可以近似地最小化回归系数矩阵 的秩。 2)
范数正则化项 :用于 耦合大多数时间点 SNPs的影像特征选择,在最大数时间点中约束多个联合相关表型与基因变量产生关联。 如图4 所示, , TCLSR 考虑了时间信息 。
2018年Wang等人对同一问题提出了新的模型,即temporal structure autolearning( TSAL )模型。TSAL模型将其中的 改为 Schatten p-norm正则项 ,可以辨识系数矩阵 的低秩结构(图4中四个绿色框具有相似的特征)。将 定义为
范数 ,作用是选择与大多数QTs随时间相关的SNPs(图4的红色框)。如图4所示,TSAL考虑了 时间信息 。 值得注意的是,与2012年提出的TCLSR模型相比,TSAL模型中用Schatten p-norm近似最小化秩的结果比迹范数更好,而 范数 可以实现比 范数 更稀疏的解。
Zhou(2019)等人提出joint projection learning and sparse regression( JPLSR )模型来识别多基因变量多影像表型的关联。与一般的回归模型不同,JRLSR模型的表示如下: 2)第二项将SNP数据和影像QT数据映射到同一个 联合隐空间 ,有助于关联分析(因为SNP数据的维数远大于影像数据的维数,而且对疾病诊断标签的识别性较差,将它们映射到同一个 label-guided联合隐空间 有助于下一步的关联分析)。 3)第三项利用 迹范数 (trace norm),结合了两个 Laplacian正则化项 (一个用于SNP数据,另一个用于影像数据),使映射到联合隐空间的SNP数据和影像数据与诊断信息一致(即类内样本在联合特征空间中彼此接近)。 4)第四项和第五项分别是选择相关影像特征和SNP特征的 范数 。对映射矩阵 使用正交约束,以避免平凡解。
方法三、稀疏低秩回归
(Sparse Reduced-Rank Regression, SRRR)
SRRR是一种特殊的多元多响应模型,用于高维影像基因组数据的关联分析,其主要目标是最小化回归系数矩阵的秩。 图6解释了SMMR和SRRR的异同:它们都是多响应模型,在SRRR中回归系数矩阵被分解为一个 稀疏影像表型系数矩阵
和一个稀疏基因表型系数矩阵 ( 和 都是满秩矩阵,秩都为 )。除非样本大小 超过基因数据的维数 或对回归系数矩阵施加约束,否则SMMR不能拟合。 权重矩阵的分解可以减少关联分析中需要估计的参数,还可以分别对基因和影像变量施加稀疏化约束。 Vounou 等人 2010 年提出了秩为 1 的稀疏低秩回归模型(
和 变成了向量 和 ) :
上式用
范数对 和 进行约束实现对相关SNP和影像QT的特征选择。实验结果表明,SRRR模型在识别相关变量问题中具有更好的性能。 2012年Vounou等人对上述模型稍微做了改进,首先应用线性判别分析(LDA)进行体素滤波来识别与疾病信息相关的影响QTs,然后从SNP数据中预测QT数据: 2012年Silver 等人把 P-GLAWA 模型和 SRRR 模型结合起来,提出下面的 pathways SRRR ( P-SRRR ) 模型:
其中 定义了 的群结构。利用pathway先验知识对SNPs进行分组,以便在pathway层面上进行特征选择,从而在降低回归分析误差的同时能够学习到更具有生物学解释意义的特征模式。图7是SNP到pathway映射过程的示意图。 利用从基因pathways数据库中获取的信息,将已知基因相互作用的信息(绿色圆圈)映射到pathways。许多基因未映射到任何已知的pathways(未填充的圆圈)。此外,一些基因可能会映射到多个pathways。映射到某一pathway的基因在特定距离内依次映射到SNPs。橙色方块表示映射到多个pathways的SNPs。 X. Zhu等人2016年提出structured SRRR ( S-SRRR ) 模型,在全基因组SNP数据X上回归全脑影像QT数据Y,具体如下: 其中,对矩阵 和 应用 范数正则化。对 的正交约束可以避免 多 重 共线性 问题 (即 自变量之间彼此相 关 ) ,从而简化了目标 函数。 2017年他们利用 图自表示方法 构建一个稀疏矩阵
,捕获SNP数据内部的部分相关性:
在此基础上,结合 S-SRRR 模型作者提出了 graph-regularized S-SRRR ( GRS-SRRR ) 模型:
意味着上式同时满足两个变量选择的约束项。这使得所选择的 SNPs 更具有说服力。 方法四、贝叶斯回归 (Bayesian Regression)
在脑影像基因组学中已经提出了许多正则化的多元回归模型,除此之外,一些贝叶斯方法也能实现类似的目的。例如,受 G-SMuRFS的启发, Greenlaw 等人提出了贝叶斯群稀疏多任务回归( Bayesian group sparse multitask regression, BGSMTR )模型,用于影像基因组关联分析。 G-SMuRFS 只提供了回归系数的点估计,而 BGSMTR 允许完整的后验推理,例如 获取回归系数的区间估计 。该模型设计为 Bayesian group lasso 以适应 SNP 和基因层面的可变选择。
还有一些为低秩回归而设计的贝叶斯模型。 H. Zhu等人提出了贝叶斯广义低秩回归( Bayesian generalized low-rank regression, GLRR )模型,用于分析高维的影像特征和协变量。与 SRRR 类似, GLRR 使用低秩表示来近似高维权重矩阵。它还用一个动态因子模型构建了影像响应的高维协方差矩阵。
该模型 提出了贝叶斯局部假设检验来识别对 QTs的显著 SNP 影响,同时控制多重比较 ,并采用 一种有效的后验计算的 Markov chain Monte Carlo ( MCMC ) 算法 。
Lu等人将上述 GLRR 模型扩展到贝叶斯纵向低秩回归( longitudinal low-rank regression, L2R2 )模型中。 L2R2 包括三个创新点: 1 ) 用低秩矩阵来近似回归权重矩阵和基因 -年龄的相互作用 ; 2 ) 使用惩罚化的样条曲线来表征整体的时间效应 ; 3 ) 稀疏因子分析模型,结合随机效应,包含纵向影像 QTs的时空相关性,并采用有效的 MCMC 算法 进行估计 后验。
方法五、神经网络模型 (Neural Network Models)
尽管 神经网络( NN ) 模型在 脑影像 基因组学上 尚 没有得到充分的利用,但它们最近已经开始引起关注。
Wang等人提出了一种基于 FNAM 的随机权重前馈神经网络的加性模型。该模型的灵感来自于具有随机权值 (FNNRWs) 的前馈神经网络 。 FNAM 的优势有: 1) 建模 SNPs和 QTs 之间的非线性关联 ; 2 ) 具有反向传播的神经网络的计算效率。 FNAM对 FNNRW的改进 在于: FNAM 可以 在预测中独立 地 考虑每个特征的作用,因此 一定程度上提供了 模型 的可 解释 性 。
Zhang等人提出了一种 基于 生物先验知识引导的 深度 神经 网络(DNN) (图 8 ) ,以研究基因型与表型的关系。根据 连锁不平衡 (LD)块 组织了 SNPs ,并设计了一个组合局部卷积操作的局部和全局一维卷积层,以处理结构特征。
该 神经网络是由 群一维卷积层、二维滑动卷积层和多层感知器 组成的级联网络。
该网络以稀疏群特征
作为输入,并生成影像表型预测 作为输出。 该方法包括三个步骤: 1 ) 通过新的一维卷积层得到编码结构 SNP特征的局部和全局信息的嵌入; 2 ) 将嵌入输入二维滑动卷积层进行二次特征提取; 3 ) 使用多层感知 机 实现影像表型的预测。 该网络 对 ADNI数据的实验结果表明 : 该方法的性能优于相关 分析 方法。 它发现了 一组有生物意义的 LD组 , 这 种方法 可能有利于疾病诊断和药物设计。
本文回顾了基于稀疏学习的回归分析算法在脑影像基因组学研究领域的应用。这些模型有一些共同的优点: 1) 回归系数矩阵 直接捕获 SNP-QT的关系,因此很容易解释。 2) 在这些模型中使用了各种正则化来简化模型的复杂性,包含了有生物意义的结构,从而减少了过拟合的风险。 除了上述回归模型外,综述还研究了贝叶斯方法,以实现类似的目标。神经网络模型尽管在这一领域没有得到充分利用,但是也 已经开始有相应的网络模型研究,着力于 解决大脑影像基因组学的问题。
转载请先发邮件咨询:刘泉影,liuqy@sustech.edu.cn
Shen, L., & Thompson, P. M. (2020). Brain Imaging Genomics: Integrated Analysis and Machine Learning. Proceedings of the IEEE. Institute of Electrical and Electronics Engineers, 108(1), 125–162.