社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【医药】浙大侯廷军课题组在J. Med. Chem.报道针对机器学习打分函数开发的无偏数据集构建方法

化学加 • 3 年前 • 380 次点击  

近日,浙江大学药学院侯廷军教授团队、中南大学曹东升教授团队腾讯量子实验室联合提出了一种用于机器学习打分函数训练和测试的无偏数据集构建新方法,相关工作发表Journal of Medicinal Chemistry上。

在药物虚拟筛选中,打分函数被用于快速评价靶标与化合物的结合强度,但是传统的打分函数预测精度较低。随着人工智能技术的兴起,引入机器学习算法来提升打分函数的精度成为了一种可行的方案。高质量数据集对于机器学习打分函数的构建起了至关重要的作用。然而,目前大部分公开数据集是针对传统打分函数而开发的,直接用于机器学习打分函数的训练和测试会带来隐藏偏差、数据量有限的问题。
2022年6月,浙江大学药学院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子实验室联合在《Journal of Medicinal Chemistry》上发表论文“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”,提出了一种用于机器学习打分函数训练和测试的无偏数据集构建新方法。该方法引入四种技巧来消除隐藏偏差,给定特定靶标的活性分子,基于条件分子生成和分子对接,可以基于已知的活性分子高效地生成相应的负样本(decoys),为机器学习打分函数的训练和测评提供了无偏的数据集。
作者比较了TocoDecoy、传统数据集DUD-E以及适用于机器学习打分函数评价的无隐藏偏差数据集LIT-PCBA。和另外两个数据集相比,TocoDecoy表现相当或更少的隐藏偏差。在模拟虚拟筛选实验中,在不同数据集上训练的模型的预测精度排名为:LIT-PCBA≈TocoDecoy>DUD-E。尽管基于TocoDecoy训练的模型与基于LIT-PCBA训练的模型性能相当,但TocoDecoy数据集具有更好的可扩展性。结果表明,TocoDecoy是一种更为合理的数据集构建方法,有望帮助相关领域的研究人员更好地对机器学习打分函数进行测评和训练。

图1. TocoDecoy方法的工作流程图

浙江大学药学院为本论文的第一署名单位,浙江大学药学院博士生张徐俊为第一作者,浙江大学侯廷军教授、腾讯量子实验室谢昌谕博士、中南大学曹东升教授为共同通讯作者。

原文链接:https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00460

来源:浙江大学

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/135867