社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【机器学习】特征选择策略:为检测乳腺癌生物标志物寻找新出口

机器学习初学者 • 1 年前 • 325 次点击  

内容一览:microRNA(小分子核糖核酸)是一类短小的单链非编码 RNA 转录体。这些分子在多种恶性肿瘤中呈现失控性生长,因此近年来被诸多研究确定为确诊癌症的可靠的生物标志物 (biomarker)。在多种病理分析中,差异表达分析 (Differential Expression Analysis) 常被视为检测关键生物标志物的有效方法,而来自意大利那不勒斯费德里科二世大学的研究人员,则提出基于机器学习的特征选择 (Feature Selection) 策略能够更为有效的检测,并建议将其发现的 20 种 microRNA 作为乳腺癌诊断性生物标志物。


关键词:特征选择   microRNA   乳腺癌

作者|三羊、alice

编辑|三羊


根据国家卫健委发布的 2022 年版《乳腺癌治疗指南》,乳腺癌是女性常见的恶性肿瘤之一,发病率高居女性恶性肿瘤之首。世界卫生组织统计,2020 年,全球共有 230 万女性被诊断为乳腺癌,随着治疗手段的不断提高,早期乳腺癌五年生存率可达到 90% 甚至更高。因此,乳腺癌早期的准确诊断尤为重要。


microRNA 除了在生物方面具备诸多关键作用,其表达上的改变也与多种癌症相关,因此可作为可靠的诊断性生物标志物(putative diagnostic biomarker)。来自意大利那不勒斯费德里科二世大学的研究人员基于机器学习,利用特征选择策略,通过分析 3 种方法的稳定性和分类性能,得到了一组乳腺癌特定诊断生物标志物,同时还发现了乳腺癌疾病发展和演变中的推定关键基因。


目前,这一研究成果发表在《第 18 届生物信息学与生物统计学计算智能方法会议论文集(CIBB 2023)》上,标题为《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。


该研究成果已发表在 CIBB 2023 上


论文地址:

https://www.researchgate.net/publication/372083934


 实验概述


在本研究中,科研人员发现借助 3 种特征选择方法(增益率、随机森林及支持向量机递归特征消除),可以更加高效地提取诊断分子组合,他们揭示了一个包含 20 个 microRNA 的组合 (panel),其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌诊断生物标志物中,暂未受到医学界的广泛关注。该方法能够区分健康及肿瘤样本,与常用的差异表达法相比,其分类性能更佳,更容易识别易被低估甚至忽略的特征。


图 1: Pipeline 概述


Workflow 包含 4 个关键步骤:


(i) 在训练 TCGA 子集上进行 Ensemble-FS 计算


(ii) 对 TCGA/GEO 数据集进行差异表达分析


(iii) 比较差异表达分析和特征选择结果的分类性能,并评估特征选择方法的稳定性


(iv) 用计算机模拟验证所选 signature 的前 20 种 microRNA,对枢纽基因靶点进行检测。


 实验详情 


 数据集 


实验数据来源包含两个渠道:美国 GDC 官网的 TCGA-BRCA 项目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。


实验团队从 GDC TCGA-BRCA 项目中,合计收集了 1,881 个 microRNA-Seq 数据,并按照 8:2 的比例,分成了训练集和测试集两部分。这些数据与 300 个实体原发肿瘤样本 (T) 以及 101 个正常相邻肿瘤 (NAT) 样本相关,都属于导管及小叶乳腺组织。应用特征选择法之前,这些数据都进行了方差稳定归一化处理 (variance stabilizing normalization)。


同时,科研人员从 GEO 数据库 (GSE97811) 下载了一个包含 2,565 个 microRNA 的微阵列数据集 (microarray dataset),作为本次实验的验证集。该数据集包括 16 个正常样本及 45 个肿瘤样本,然后进行数据插补 (data imputation)。


由于 GEO 数据(本实验中的验证集)涉及到的是成熟 microRNA 表达,TCGA 数据(本实验中的训练集和测试集)则包含早期形态 (precursor form),为了统一数据,科研人员在 GEO 数据样本中只选择了平均计数值高于其对立链 (opposite strand) 的可替代成熟 microRNA;同时, microRNA 的名称也已经转换成了相应的早期形态名称。


通过这一过程后,GEO 数据(验证集)的维度减少至 1,361 个 microRNA,相应的 TCGA RNA-Seq 数据也被收集,共包括 20,404 种基因。


1. 特征选择法及 Ensemble 程序应用 


科研人员选择了 3 种特征选择方法与差异表达分析法进行比较,分别是 Gain Ratio(增益率)、Random Forest(随机森林)和 SVM-RFE(支持向量机递归特征消除)将 3 种方法应用于 microRNA-Seq 表达 TCGA 数据的 500 个子集上,以识别能区分正常样本和肿瘤样本的稳健特征面板 (panel)。观察到的结果中,按照 8:2 的比例划分为训练集和测试集,然后对数据通过重采样 (resampling) 进行自助法 (bootstrapping) 处理,使其符合数据扰动集成程序 (Data Perturbation Ensemble procedure)。每次计算返回的 500 个按「importance score」降序排列的 microRNA 向量。


|备注:importance score(重要性得分)表示用算法计算得出的每个 feature(特征)在分类中的影响。


importance score 越高,赋予 feature 的 rank 就越低。然后科研人员通过一个聚合程序,推导出每种特征选择方法的共识签名 (consensus signature),最终每组 microRNA 保留得分前 200 名的 feature。


2.稳定性测试 


用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 评估特征选择方法的一致性,用 Stot 统计法(KI 的成对测量)确定所有方法之间的稳定性。这些统计数据是在 signature 长度逐渐增加的过程中计算得出的,feature 数量从 2 开始到 200 结束,每次重新计算增加 2 个 unit。


Stot 统计法公式


3.差异表达分析和 DE-signature 


对 TCGA 数据集(含 microRNA-Seq 及 RNA-Seq)进行差异表达分析,从原始计数 (raw count) 开始,使用精确检验 (Exact Test),然后保留 FDR <= 0.01 及 Log2FC 阈值为 |0.5| 的 DE feature。为了获得 DE-microRNA 的 signature,将 Log2FC 值转化为绝对值,并按照 abs (Log2FC)递减的顺序对 microRNA(保留前 200 个 feature)进行排序。


GEO 验证集借助 Limma 进行差异分析表达,该数据集获取 DE-signature 的参数及程序与 TCGA 数据集一致。


4.分类性能分析 


为了确定每个 signature 区分健康人及癌症患者的能力,科研人员在测试子集 (TCGA) 和验证集 (GEO) 上对 4 个 signature(包括特征选择 panel 和差异表达 panel)都进行了预测性分析。


最后计算出精度平均值 (ACC)、K 统计量 (KK) 以及马修斯相关系数 (MCC) 在各个 fold 以及每个 signature 的多个长度上的平均值。


5.SVM-RFE microRNA-signature 靶点 (target) 检测 


为了识别 microRNA 潜在的基因靶点,科研人员进行了以下操作:


1. 将前 20 个 SVM-RFE microRNA 按照其在肿瘤样本中的上调 (up-regulated) 或下调 (down-regulated) 进行分类。


2. 对 RNA-Seq 数据进行差异表达分析,检测差异表达基因 (FDR <= 0.05)。


3. 应用斯皮尔曼相关性分析,对比 microRNA 表达与差异表达基因,只保留与 down-microRNA 负相关的 up-gene,以及 up-microRNA 负相关的 down-gene (rho <= -0.5)。


4. 收集所有经过验证的 microRNA 基因靶点 (gene targets),且只保留那些也显示出 DE-correlated 的。


6.网络中心性及枢纽基因识别


选定失调基因的相关矩阵 (Spearman),并用其构建一个图结构基因网络:保留 Kleinberg's hub 中心性得分 > 75,rho > 0.8 或 rho < -0.6 的枢纽基因。对枢纽基因进行基因富集分析 (ORA),以便从 REACTOME 数据库中探索最丰富的 pathway。FDR 调整后 pValue 值阈设定为 0.005。


 实验结果 


实验表明,应用 3 种特征选择方法后,都返回了 500 个按 importance score 降序排列的 microRNA signature,汇总后得到 3 个共识 panel。值得注意的是,排名前 3 的 microRNA(hsa-mir-139、hsa-mir-96 及 hsa-mir-145)在所有 panel 中都出现了,显示出这些分子在区分肿瘤样本和健康样本中的重要性。


|结论 1:SVM-RFE 稳定性最高


从 KI 和 POG 在共识 panel 上的计算来看,SVM-RFE 法最具稳定性,signature 长度达到 20 个 feature 时最突出。同样,Stot 指数的结果也显示出 SVE-RFE 法具有最高稳定性。


图 2: 3 种特征选择方法的稳定性指数比较



蓝色:Random Forest(随机森林)

粉色:Gain Ratio(增益率)

黄色:SVM-RFE(支持向量机递归特征消除)


|结论 2: SVM-RFE signature 在分类中的表现优于差异表达 signature


所有单独 panel 进行分类性能分析后,无论是测试集 (TCGA) 还是验证集 (GEO),都显示出用 SVM-RFE 获得的 signature 的预测能力最高。


图 3: 前 20 个 microRNA 分类性能及维恩图


A:条形图显示了在测试子集和外部验证 GEO 数据集上计算的平均 statistic

ACC:精度

KK:K 统计量

MCC:马修斯相关系数


绿色:DE(差异表达分析法,该实验中的对照方法)

粉色:GR(增益率)

蓝色:RF(随机森林)

橙色:RFE(SVM-RFE,支持向量机递归特征消除)


B:每个 signature 的前 20 个 microRNA 的维恩图,其中标注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA--hsa-mir-337、hsa-mir-378c 及 hsa-mir-483,这 3 个 micro-RNA 在 3 种特征选择方法中都出现了,但目前关于乳腺癌的研究中尚未完全确定其作为诊断依据是否可靠。


|结论 3: 网络分析揭示了疾病演变中的潜在关键基因


实验表明,CDC25、TPX2 及 KIF18B 在不同类型癌症以及三阴性乳腺癌患者的干细胞中,都显示高度表达,且 TGFBR2 的下调与癌症进展相关。


 microRNA:乳腺癌早筛的又一理想候选 


传统的乳腺癌筛查方法仍以 X 光成像及组织活检为主,无法对完整的癌症基因组建立更深入全面的理解。这种方法不光侵入性强、成本高,容易产生副作用,还常给出假阳性或假阴性结果,提高乳腺癌的早筛准确度及患者体验,仍需开发新策略来应对乳腺癌负担。


自 1993 年首次发现以来,micorRNA 不断深化了人类对癌症的理解,作为可靠的乳腺癌诊断生物标志物,它展现了巨大潜力。


microRNA 属于长度约 19-25 nt 的小型非编码 RNA,可以调控多种靶点基因 (target gene),参与了多种生物学和病理学过程的调控,包括癌症的形成和发展,有望弥补当下 X 光成像及组织活检作为临床上乳腺癌筛查主流诊断方法的局限性。


然而,目前尚未完全开发出 microRNA 的成熟临床应用,对 microRNA 使用过程中的安全评估体系也还未建立,要想让 microRNA 成为癌症的主流诊断依据,恐怕仍需时日。


参考文章:

[1]https://www.who.int/zh/news-room/fact-sheets/detail/breast-cancer

[2]https://guide.medlive.cn/guideline/25596

[3]https://www.abcam.cn/kits/micrornas-as-biomarkers-in-cancer-1

[4]https://caivd-org.cn/webfile/file/20220508/20220508153691029102.pdf

[5]https://www.sohu.com/a/318088245_100120288



—— 完 ——


往期精彩回顾





Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/158826
 
325 次点击