Py学习  »  机器学习算法

这届纯生信太狠了!上午投下午中,0实验轻松拿下一区6+,机器学习+网毒+分子对接组合,简直“开外挂”!

生信塔 • 5 月前 • 148 次点击  

宝子们,生信塔感到好心痛~今天在看文献的时候,发现了一篇当天投稿当天接收的文章,生信塔顿时想到了自己研究生三年每天起早贪黑做实验才只发了一篇SCI二区,为自己心疼一秒钟,好了,相信宝子也很好奇是什么文章这么厉害吧,跟生信塔一起往下看看吧~

这是西南医科大学的研究团队在《EcotoxicologyandEnvironmentalSafety》杂志发表的一篇融合“网络毒理学+机器学习+分子对接”的纯生信文章,该杂志当天便迅速接收,足以见其对这篇文章价值的高度认可了。

选题方面,研究聚焦于空气污染这一热点环境健康问题,深入探究7种常见空气污染物对前列腺癌(PCa)的潜在影响,极具现实意义。

研究思路清晰且连贯,借助网络毒理学挖掘潜在靶点,运用机器学习构建预测模型以筛选关键基因,最后通过分子对接加以验证。从靶点筛选、机制探索,到模型构建与验证,全方位揭示了空气污染物与PCa之间的潜在关联。

网络毒理学本身在科研发文领域就极具优势,如今与“机器学习”强强联合,更是让这个研究如虎添翼啊,才让它有被顶刊当天秒收的牌面。

网络毒理学发展日新月异,不管你想用哪种研究思路,都得赶紧行动起来!网络毒理学+机器学习这个组合极具创新性,值得大家去尝试。要是你不知道怎么设计网络毒理学联合研究思路,也没精力学习生信分析,别犹豫!找生信塔就对了!我们有专业的团队,从方案设计、定制分析到提供生信服务器等个性化服务,一应俱全,就等你来滴滴!


定制生信分析

生信服务器

加微信备注99领取使用

题目:空气污染与前列腺癌症:通过网络毒理学和机器学习解开联系

杂志:EcotoxicologyandEnvironmentalSafety

影响因子:IF=6.2

发表时间:20253

研究背景

在全球范围内,空气污染形势日益严峻,已然成为重大环境挑战。其包含多种污染物,如细颗粒物(PM2.5)、二氧化硫等,可通过氧化应激、慢性炎症等破坏免疫系统,与慢性代谢疾病、癌症等多种健康问题紧密相关。前列腺癌(PCa)是男性常见癌症之一,虽然年龄、种族和家族史是明确风险因素,但环境因素对其影响尚未完全明确。尽管有研究表明空气污染物可能增加PCa风险,但其具体分子机制仍不明晰,本研究旨在探索两者之间的潜在联系。

研究思路

首先从多个在线数据库获取与7种常见空气污染物和PCa相关的靶基因。对交集基因进行蛋白质-蛋白质相互作用(PPI)分析和可视化,并通过基因本体(GO)和京都基因与基因组百科全书(KEGG)功能富集分析探索潜在机制。接着结合10种机器学习算法筛选出最佳预测模型,使用随机生存森林(RSF)模型结合Lasso回归模型构建预后模型,并在4个外部数据集上进行验证。最后进行分子对接分析,研究关键基因与空气污染物之间的相互作用。

图1.研究设计概述

研究结果

空气污染物的毒性评估

使用两个毒性预测平台对7种空气污染物进行毒性评估,根据标准,只要在其中一个平台上预测具有致癌性,就认定该污染物有毒,最终7种空气污染物均通过毒性测试(表1)。

表1.空气污染物的分子量、SMILES结构和致癌性

空气污染物靶基因的收集

整合TargetNet、SwissTargetPrediction和SEA数据库的靶标预测数据后,得到每种空气污染物的潜在靶基因数量,去除重复后,最终确定了176个与空气污染物相关的靶基因。

前列腺癌相关基因的收集

使用“前列腺癌症”在GeneCards数据库检索到9597个相关靶基因,在OMIM数据库检索到4476个。经筛选,从GeneCards选前50%、OMIM选前25%的基因,去重后确定5358个PCa相关基因。

空气污染物-前列腺癌核心靶标的筛选及PPI网络构建

将空气污染物与PCa的48个交叉靶基因导入STRING数据库进行PPI分析,设置置信度阈值≥0.4,过滤孤立靶点后剩45个相关靶点(图2A)。用Cytoscape3.10.3软件可视化PPI网络,其中靶标按MCC排序,颜色越深、圆圈越大代表与其他蛋白质相互作用越强(图2B),这为研究两者分子机制提供了重要参考。

图2.靶标筛选及PPI网络构建

GO/KEGG富集分析

对空气污染物与PCa相关基因交叉分析,确定48个重叠基因。GO功能富集分析显示,这些基因主要参与炎症反应、凋亡信号等生物过程(图2C)。KEGG通路分析表明,在化学致癌物受体激活、PCa等关键通路显著富集(图2D)。这表明空气污染物可能通过调节炎症、凋亡和致癌相关途径,影响PCa的发生和发展。

使用机器学习开发空气污染物-前列腺癌预测模型

用10种算法评估108个组合机器学习模型,发现RSF-Lasso和RSF-Enet模型(α值为0.1-0.9)表现最佳,平均C指数达0.729,在所有模型中排第一(图3A)。

图3.预后模型构建及预测

预后模型的构建和验证

用RSF-Lasso方法构建预后模型,RSF模型从TCGA-PCa数据集选8个关键基因(图3B-C),Lasso回归优化后确定HDAC6、CDK1等5个关键基因(图3D-F)。生存分析和AUC评估显示模型预测价值良好(图3G-H)。经GSE46602等四个外部数据集验证(图3I-L),证实模型稳定可靠。

分子对接

分子对接分析表明,5个关键基因均可与7种空气污染物自发结合(图4A),其中NOS3与苯、HDAC6等与甲苯结合能低于-5千卡/摩尔,结合稳定(图4B-E),说明空气污染物或能直接作用于关键基因,影响PCa相关生物过程。

图4.分子对接结果

文章小结

本研究通过网络毒理学整合多组学数据,挖掘出48个关键交叉基因,并发现其参与炎症、凋亡等关键过程。利用机器学习从108个模型中筛选出最优预测模型,确定5个关键基因。分子对接证实关键基因与空气污染物能稳定结合。这些技术相辅相成,为揭示空气污染物影响PCa的分子机制提供了新视角,也为PCa的早期预警和预后评估提供了潜在靶点。宝子们对这个思路感兴趣想要复现或是有任何疑问,欢迎来找生信塔哦~

生信塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call生信塔,我们团队竭诚为您的科研助力!


文献思路复现

定制生信分析

生信服务器


 往期 · 推荐 

IF 16.7!高质量、综合GBD数据库炸裂登场!武大中南医院&湖北医科大襄阳医院携手,3图3表拿下高分,简直美滋滋~

十投九中+纯生信友好=神刊!复旦肿瘤医院李大卫团队2区6分模板文,单细胞数据挖掘+乳酸化修饰,科研人错过血亏!

11种机器学习“飞”上1区Top,诺奖热点不容错过!苏州大学李艳红团队,预后模型这波操作太燃了!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/182591