社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

分享

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

印度

一周十大热门主题

机器学习学术速递[9.26]

【2025版附安装包】超详细Python+Pycharm安装保姆级教程，永久免费使用，Python环...

预测2025诺贝尔生理学或医学奖，ChatGPT vs DeepSeek：差别竟然这么大！

实战！机器学习+催化

ChatGPT：没人发现我来过的痕迹… ——n.american-20250928122144

最新！ECMWF机器学习天气预报模型AIFS Single重大升级：物理约束、训练策略重构与变量扩展

当AI不等你开口就主动干活：实测ChatGPT Pulse三大特点

OpenAI「降配门」发酵，偷换模型遭全网实锤；小米 SU7 在日本首秀；苹果内部测试类 ChatG...

#谁是2025年最佳编程语言##Python依然是最好的语言#P-20251001105638

登顶github榜首！2025年最新版《前端高阶八股深挖指南》

关注

Py学习 » 机器学习算法

性价比超高的机器学习新思路也不是天天有，抓紧！

生信人 • 3 年前 • 511 次点击

机器学习方法是每一个生物信息从业人员都绕不开的能力要求，可以说生物信息领域研究，对生物医学数据的挖掘和解析大都得益于有效的机器学习算法的选择和应用。随着近年来计算机算力的提升和硬件发展，机器学习的重要分支——以神经网络为基础的一众深度学习模型再度走进大家的视野，并且在生物医学研究领域取得了广泛应用和迅猛发展。深度学习模型避免了人为干预的特征选择过程，能够自行完成对原始数据特征的表示学习，从而提取有效的特征，这一点对于识别有效的生物标志物十分关键，已经在复杂疾病诊断、预测和预后相关领域取得了广泛应用。

目前，已经有不少的研究者开始探索将深度学习模型应用于开发精准的生物标志物，帮助有效的疾病管理。发表在Genomics Proteomics Bioinformatics（Q1）的研究Denoising Autoencoder, A Deep Learning Algorithm, Aids the Identification of A Novel Molecular Signature of Lung Adenocarcinoma. 就给我们提供了很好的借鉴思路。作者采用无监督度学习算法，自编码器（Auto decoder）模型的拓展模型——去噪自编码器（Denoising Autoencoder）直接处理高维的基因表达特征，从而构建鲁棒的疾病生物标志物。自编码器（Auto decoder）是一种较为成熟的无监督深度学习算法，能够基于反向传播与最优化方法算法，利用输入数据本身作为监督，完成原始特征矩阵的非线性特征转换，提取的低维特征能够较好的反映原数据的特征。去噪自编码器是自编码器的拓展模型之一，会在输入数据中引入噪声，从而迫使编码器的隐藏层捕捉更鲁棒的特征。生物标志物的构建流程如下：

接下来我们借鉴该研究机器学习的方法设计了创新性新思路，对分析方法创新性、文章水平有更高要求的粉丝们要注意记笔记了！

机器学习个性化定制服务扫码占位

一、构建去噪自编码器模型，进行特征提取

1、系统收集疾病样本的转录组数据，进行多套数据ComBat批次矫正后整合。统计收集样本的组织学亚型，给出临床信息的统计表格。

2、基于整合后的表达谱进行PCA降维，观察不同数据集之间是否仍有显著差异。

3、基于ADAGE package构建去噪自编码器模型（DAE）。提取特征节点。

二、筛选预后相关特征节点

基于特征得分的特征矩阵，计算每个节点的特征得分与患者OS的关联筛选预后相关的特征节点，绘制森林图。并基于每个节点的特征得分的中值分类样本，绘制K-M曲线和log-rank检验。

三、探究预后相关特征节点的临床可解释性

探究肿瘤亚型、性别、分期、年龄分组等临床特征分组之间特征得分是否显著差异。

四、探究预后相关特征节点的生物学解释性

1、探究基因组层面的关联：探究预后相关特征节点得分与肿瘤突变负荷、同源重组修复缺陷得分（HRD），拷贝数变异负荷，瘤内异质性得分的相关性

2、基于MSigDB 获得cancer hallmarks基因集合，基于ssGSEA计算hallmarks得分，计算预后相关特征节点得分与cancer hallmarks的关联情况

五、探究特征节点反映的肿瘤免疫（代谢/调控机制）特征

这部分可根据研究关注点以及四中观察到的关联进行灵活调整，是一个深入分析。

以肿瘤免疫特征为例。

1、探究特征节点得分与免疫检查点基因表达水平的关联（spearman）

2、基于CIBERSORT或XCell计算免疫细胞浸润，与预后相关节点的关联分析。

六、基于关键特征节点构建疾病标志物

1、提取关键特征节点

2、提取权重top100的基因进行功能富集。

3、进一步基于生存时长中值分组样本，保留生存分组之间表达差异显著的基因。

4、构建具有可推广性的预后特征：基于过滤得到基因的表达值与对应在特征节点权重乘积之和作为特征得分构建预后标志物。

七、标志物的预后效能

训练集、独立验证集，基于单因素、多因素Çox 和 log-rank检验验证预后标志物的效能。

该思路利用成熟的自编码器深度学习模型，对原始的组学数据进行特征提取，并基于基因在新特征空间的映射，开发有效的组织分型和预后标志物。机器学习挖掘手段是很有创新意义的，并且深度学习模型提取特征的也是很值得进一步拓展探究的方向。

深度学习模型提取预后特征

定制化思路

扫码领取

END

不想错过每天的热点和技术

欢迎大家添加生信人为星标推荐

最新思路推荐

肿瘤液体活检专题思路

• 循环肿瘤细胞(CTC)纯生信

• 外泌体经典生信经典思路

高分单细胞最新思路

• 公开数据研究细胞通讯

• Bulk多组学+单细胞探索耐药机制

更多生信分析问题咨询：18501230653（微信同号）

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/138828

511 次点击

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)

沪ICP备11025650号