深度学习预测冠状病毒大流行风险 | Infectious Diseases of Poverty

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

动物源冠状病毒大流行风险的早期预测对于疾病防控具有重要意义。近日，广州大学计算科技研究院寇铮课题组联合厦门大学计算机学院刘向荣课题组在 Infectious Diseases of Poverty 上发表研究论文 Prediction of pandemic risk for animal-origin coronavirus using a deep learning method。该研究将深度学习模型应用于动物源冠状病毒大流行风险预测，以卷积网络和循环神经网络提取病毒基因组特征并计算远程关联，评测结果显示该方法具有良好的预测效果。

冠状病毒现状

截至2021年10月20日，全球已报道COVID-19确诊病例约2.4亿，死亡人数接近500万。目前已报道七种可感染人的冠状病毒：人冠状病毒 (HCoV) 229E、 OC43、NL63 和HKU1；严重急性呼吸综合征冠状病毒(SARS-CoV和SARS-CoV-2)；中东呼吸综合征冠状病毒(MERS-CoV)。冠状病毒可以从蝙蝠、果子狸、穿山甲、骆驼和禽类等动物样品中分离得到。作为动物源病原体，冠状病毒可以跨越种属屏障感染人，从而导致人际间大流行。

模型构建与性能评测

基于公共数据库中的3257条冠状病毒全基因组序列，作者采用一维卷积网络串联门控循环神经网络的深度学习模型预测大流行早期风险。为了提高预测精度，将预训练表示向量和预测向量注意力机制也加入到模型中。该预测模型可将病毒基因组序列作为整体输入使用，分析流程包括五个主要步骤：病毒基因组分割、字符串序列内嵌向量的生成、一维卷积特征提取、循环神经网络和注意力机制。

研究结果显示，六类病毒类群的特定模型取得了非常好的预测结果（AUROC为1.00，AUPR为1.00），但病毒类群之间的泛化能力较差，不具有迁移能力。作者进一步构建联合预测模型，解决了泛化能力差的问题（AUROC为1.00，AUPR为1.00）。作者进而对模型构建方法作了比较，如果去除预测模型中的预训练表示向量或者注意力机制，预测评价指标会有明显下降，幅度在5%-25%之间，说明预训练向量和注意力机制对于预测性能非常重要。该研究也测试了联合模型的迁移预测能力，结果表明联合模型对六个病毒类群有很好的迁移学习能力（平均值，AUROC为0.968，AUPR为0.942），可用于潜在新型病毒的预测。该研究同时构建人工阴性数据，以强化病毒刺突蛋白的预测权重，预测结果达到了100%的正确率。最后，作者基于Python编程语言构建可大规模使用的预测软件，开源属性方便该模型的广泛使用。

结论与展望

该研究使用预训练表示向量和注意力机制，构建了一种动物源冠状病毒大流行风险预测模型。作者用创建的预测方法，分析2020-2021年持续报道的SARS-Cov-2变异病毒，可达到100%的预测正确率，显示该方法对于变异病毒的稳健性。虽然该预测方法简便，但作者也提到预测结果的可解释性需要进一步研究和关注，利于冠状病毒跨种感染分子机制的理解。

Infectious Diseases of Poverty

doi:10.1186/s40249-021-00912-6

点击“阅读原文”阅读论文原文。

扩展阅读

打破“因病致贫”的困境 | 近10项临床研究调查针对贫困的干预措施

你会为素食香肠买单吗？| 真菌学重新定义德国咖喱香肠

成瘾行为应该得到治疗而非惩罚 | Nora Volkow访谈

全基因组设计培育高产优质抗病粳稻|Genome Biology

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方