Py学习  »  机器学习算法

IF=6.7,是药物研究!3数据库联合构建深度学习模型,FAERS数据挖掘还在上分!

挑圈联靠 • 4 月前 • 159 次点击  

欢迎来看雪球讲套路、讲文献!本周三雪球又要直播开讲药物研究了,这一次加入了几篇在“新面孔”期刊上发表的文章,也侧面说明药物研究不必硬卷网络药理学,解法更加多样。


比如今天介绍的文献,发表在一本“转型成功”的期刊上——3年前它的中科院大类分区还属于“工程技术”,在2023、2025版本中,已属于医学大类。转型的同时,也没忘保持Top期刊的身份质量。无巧不成书,这本期刊目前还和Phytomedicine具有相同的影响因子——6.7分。


同是接收药物研究,对实验分量的要求则大有不同。今天这篇文章如何用好机器学习套路?这就来看看:(被“机构未征订”挡住,想要2025分区表完整版?现在添加雪球老师,回复“2025分区表”即刻获取!)

本文图表较多,可以划到文末直接看雪球解析。

药物研究怕掉队?

不知可以抓住哪些新方向?

添加雪球回复“1”预约直播学习哦



ADR-DQPU: A Novel ADR Signal Detection Using Deep Reinforcement and Positive-Unlabeled Learning

ADR - DQPU:一种基于深度强化学习和正样本无标签学习的新型药品不良反应信号检测方法


期刊:IEEE Journal of Biomedical and Health Informatics

IF:6.7

发布时间:2024/11/05


数据库简介


FAERS:FDA不良反应报告系统,属于自发报告系统的一种(SRSs)。在既往研究中,具有缺乏专业验证、固有不确定性、既有统计方法分析结果不突出,只能在海量数据中识别少数药物不良反应等局限

SIDER:药物不良反应数据库,最新版本为4.1,在2022年更新,总共提供139,756种药物不良反应关系的组合,包含1430种不同的药物和5,868种不良反应。

BioSNAP:隶属于SNAP(斯坦福生物医学网络数据集)项目,主要以实体关系的形式收录数据,关注生物医学相关的信息和数据之间的关系。在本研究中,团队使用了BioSNAP的“药物副作用关联网络”,即呈现了美国的可及药物与不良反应之间关联的数据。


 技术路线 


背景知识与相关工作

传统方法在处理SRS数据时存在数据质量低、标签不确定性等问题,而深度学习和机器学习方法在ADR信号检测中表现出色,但面临数据不平衡和未标记数据的挑战。


数据预处理

通过iADRs系统生成的ADR数据立方体,将原始FAERS数据转换为包含药物-不良反应对的统计关联值,减少了数据的噪声和不确定性。

同时,对药物ATC代码进行标签编码和独热编码,对反应名称进行标准化处理。


正样本未标记学习(PU-learning)

利用SIDER和BioSNAP数据库中的已知ADR关系作为正样本,将SRS数据中的其他数据视为未标记数据,通过PU-learning方法提高模型对未知数据的识别能力。


深度强化学习模型(DQN)设计

提出了一个基于深度Q网络(DQN)的模型,通过与环境的交互学习最优的ADR信号检测策略。模型通过ε-greedy策略选择动作,并使用双Q网络减少过估计问题,通过经验回放缓存和随机采样进行训练。


环境构建

构建一个能够与DQN模型交互的环境,用于训练和评估模型。

环境包括状态转移函数、标签解析函数和奖励函数。标签解析函数通过集成多种传统ADR检测方法(如ROR、PRR等)对未知数据进行重新标记,奖励函数根据模型的检测结果给予奖励或惩罚。


实验设计

使用2004年至2018年的数据作为训练集,2019年第一季度的数据作为测试集。通过 undersampling 平衡训练集中的正样本和未标记样本。实验结果表明,ADR-DQPU方法在整体准确率、平均准确率、召回率和F1分数上均优于传统方法和其他机器学习方法。


性能评估

与六种传统方法和两种机器学习方法相比,ADR-DQPU方法在整体准确率上提高了26.45%,平均准确率提高了52.15%,召回率提高了18.57%,F1分数提高了10.95%。与两种机器学习方法相比,ADR-DQPU方法在整体准确率上提高了64.1%,平均准确率提高了28.23%,召回率提高了55.56%,F1分数提高了45.53%。


消融研究

通过去除PU-learning启发的标签解析机制和类别平衡机制,发现这些机制对模型性能有显著影响。PU-learning机制显著提高了从未知数据中识别正样本的能力,类别平衡机制通过减少未标记样本的数量,防止模型过度关注多数类,从而提高了模型的整体性能。


结论与未来工作

ADR-DQPU方法在ADR信号检测中表现出色,未来将对新上市药物的早期ADR信号检测进行更多实验,并尝试将该方法应用于其他SRS数据,如VAERS。

同时,该研究的局限性,包括依赖于SIDER和BioSNAP数据库、忽略人口统计学特征以及仅关注单药不良反应等问题,提出未来改进的方向。



 研究结果 


Fig 2 DQN模型的结构流程图


Fig 3 DQN代理的组织结构和工作流


Fig 4 环境结构


Table 1 药物不良反应事件或然率表


Table 2 ADR应急立方体示例表


Table 3 实验数据统计


Table 4 本研究中ADR方法的参数设置


Table 5 ADR信号侦测方法表现(月度数据)


Table 6 ADR信号侦测方法表现(季度数据)


Table 7 在月度数据上,我们的方法与其他方法相比的改进

Table 8 在季度数据上,我们的方法与其他方法相比的改进


Table 9 拟议方法在不同机制消融下的性能结果


本研究使用的深度强化学习和正样本未标记学习(PU-learning)在FAERS数据验证中表现出色,相较于传统ADR信号检测,节省了数据清洗时间、参数调整时间等。并使用6种传统方法(PRR、ROR等)和2种机器学习方法(SVM、XGBoost)横向比较验证方法优势,新方法在整体准确率、平均准确率和召回率,以及F1分数上都有了明显的提升。

其他FAERS数据挖掘文章,点击下方图片跳转


FAERS+MR IF=9.7

FAERS分析 IF=5.6








高分SCI,往往是通向升学、升职,人才评定的敲门砖。可想要发出来一篇,总是伴随着时间紧、任务重的困难。比如今天这种开发新方法的研究,单打独斗,或者合作了没有医学药学背景的算法工程师,就会阻碍重重。想打破瓶颈,就来带着你的需求,找雪球老师回复“个性化”咨询定制吧~


✅立足科研 守正创新

✅上下限跨度广

✅适合优化分析/进阶分数段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制,绝无量产,绝不敷衍


雪球的生信套路 每周周中更新

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180369
 
159 次点击