【医药】浙大侯廷军课题组在J. Med. Chem.报道针对机器学习打分函数开发的无偏数据集构建方法

近日，浙江大学药学院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子实验室联合提出了一种用于机器学习打分函数训练和测试的无偏数据集构建新方法，相关工作发表在Journal of Medicinal Chemistry上。

在药物虚拟筛选中，打分函数被用于快速评价靶标与化合物的结合强度，但是传统的打分函数预测精度较低。随着人工智能技术的兴起，引入机器学习算法来提升打分函数的精度成为了一种可行的方案。高质量数据集对于机器学习打分函数的构建起了至关重要的作用。然而，目前大部分公开数据集是针对传统打分函数而开发的，直接用于机器学习打分函数的训练和测试会带来隐藏偏差、数据量有限的问题。

2022年6月，浙江大学药学院侯廷军教授团队、中南大学曹东升教授团队和腾讯量子实验室联合在《Journal of Medicinal Chemistry》上发表论文“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”，提出了一种用于机器学习打分函数训练和测试的无偏数据集构建新方法。该方法引入四种技巧来消除隐藏偏差，给定特定靶标的活性分子，基于条件分子生成和分子对接，可以基于已知的活性分子高效地生成相应的负样本（decoys），为机器学习打分函数的训练和测评提供了无偏的数据集。

作者比较了TocoDecoy、传统数据集DUD-E以及适用于机器学习打分函数评价的无隐藏偏差数据集LIT-PCBA。和另外两个数据集相比，TocoDecoy表现相当或更少的隐藏偏差。在模拟虚拟筛选实验中，在不同数据集上训练的模型的预测精度排名为：LIT-PCBA≈TocoDecoy>DUD-E。尽管基于TocoDecoy训练的模型与基于LIT-PCBA训练的模型性能相当，但TocoDecoy数据集具有更好的可扩展性。结果表明，TocoDecoy是一种更为合理的数据集构建方法，有望帮助相关领域的研究人员更好地对机器学习打分函数进行测评和训练。

图1. TocoDecoy方法的工作流程图

浙江大学药学院为本论文的第一署名单位，浙江大学药学院博士生张徐俊为第一作者，浙江大学侯廷军教授、腾讯量子实验室谢昌谕博士、中南大学曹东升教授为共同通讯作者。

原文链接：https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00460

来源：浙江大学