社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

FCT|机器学习方法构建化学品/食品添加剂毒性指标NOAEL快速预测模型和工具

DrugAI • 2 年前 • 439 次点击  

撰文(翻译):钱洁

编辑:肖冉

今天介绍一篇由中南大学湘雅药学院董界副教授团队,近日发表于食品毒理学TOP期刊Food and Chemical Toxicology (IF: 5.572)的一篇研究性文章。该研究通过构建高质量数据集并比较不同种类的分子表征和算法,建立了不同暴露时间下的NOAEL机器学习预测模型。使用先进的化学信息学方法探索了影响NOAEL的分子结构特征,并构建了联系不同物种和暴露时间之间NOAEL的预测模型。这项研究将有助于未来食品添加剂开发中的初步亚急性和亚慢性毒性风险评估。

1

研究背景

在一段时间内反复接触化学品可能对人体健康有害,而人群接触化学品的安全范围可以通过将安全系数应用于剂量反应实验中获得的参考点得出。啮齿动物亚急性(28天)和亚慢性(90天)口服重复剂量毒性(RDT)研究通常用于识别和评估人类经由食品、药物、环境和化妆品接触危险化学品而导致非致命不良影响的风险,长期低剂量接触食品添加剂对高度加工食品的健康风险评估和危害特征描述也提出了新的挑战。可以通过制定一个限值以便于选择后续临床研究的剂量水平,并建立人群接触的安全标准,将重复接触化学品的风险限制在不太可能对人体健康造成任何不利影响的水平以下。因此,NOAEL(无可见有害作用水平)对于上述领域的化学品和产品的安全评估具有重要意义。尽管已经报道了一些可接受的模型,但仍然迫切需要开发更多具有更大数据集的预测模型,并研究多种途径、物种和暴露持续时间下NOAEL的内在机制,以对广泛应用中的潜在新化合物进行安全性评估。

Fig. 1 Graphical abstract

2

结果与讨论

从公共数据库和已发表的文献中收集了NOAEL数据并构建不同物种和暴露时间下的数据集:SCO-R、SCO-M、SAO-R和SAO-M,分别代表大鼠亚慢性口服RDT NOAEL、小鼠亚慢性口服RDT NOAEL、大鼠亚急性口服RDT NOAEL和小鼠亚急性口服RDT NOAEL。经过严格的结构清洗和去重后,4个数据集分别保留了822、250、342和17种化合物及其相应的NOAEL。通过无监督和有监督的离群点诊断策略获得更适合用于构建高性能机器学习模型的数据,并结合4种先进的机器学习算法(随机森林(RF)、支持向量机(SVM)、极端梯度提升(XGBoost)和梯度提升树(GBT))和7种分子表征方法(2D描述符、MACCS、ECFP4、AtomPair、Pubchem、CDK指纹和ToxPrint chemotypes)构建NOAEL预测模型。对于SCO-R NOAEL模型,使用2D描述符构建的SVM(2D-SVM)模型表现最佳,交叉验证(CV)中R2=0.57,MAE=0.37,测试集的R2=0.54,MAE=0.36;对于SAO-R NOAEL模型,性能最佳模型同样为2D-SVM模型,CV中R2=0.48,MAE=0.37,测试集的R2=1.49,MAE=0.34。2D描述符、MACC和Pubchem指纹在SCO-R和SAO-R NOAEL的模型构建中均实现了较好的性能(Fig. 2)。


Fig. 2 Lg NOAEL回归模型测试集中实验值和预测值之间的关系。SCO-R NOAEL模型基于2D描述符(A)和MACCS指纹(B)的算法比较。SAO-R NOAEL模型基于2D描述符(D)和MACCS指纹(E)的算法比较。最佳SCO-R NOAEL模型(C)和SAO-R NOAEL模型(F)的CV和测试集结果。


此外,还通过基于树的模型特征重要度和SHAP探索影响NOAEL的结构和理化因素,为NOAEL的可解释性提供参考。随机森林递归特征消除(RFE-RF)和SHAP用于识别SCO-R建模中的重要结构特征和理化因素。当保留38个描述符时,MAE达到最低(Fig. 3)。为了进一步探索分子结构对NOAEL的影响,根据MACCS指纹构建的SCO-R模型,通过SHAP解释潜在的联系。SHAP计算每个样本中每个特征变量的附加Shapley值,反映特征对预测特定样本和构建模型的影响方向。不同模型地共同显著特征很可能是NOAEL预测中最关键的因素。可以发现,有8个片段在3种模型中都被确定为最重要的描述符(Fig. 4B)。RFE-RF和SHAP的结果表明氧原子数、含氧官能团、硫原子、杂环和芳香环对lg NOAEL有重要影响。这些结果为NOAEL的可解释性提供了有价值的参考。

Fig. 3 基于RFE-RF的特征选择。(A)113个模型的评估结果。描述符a_nS(B)、vsa_pol(C)、logS(E)和a_nO(F)与lg NOAEL之间的关系。(D)最重要的20个描述符及其重要性分数。

Fig. 4 (A)SHAP图。(B)基于不同算法的SHAP值的前20个特征的重叠。(C)可视化基于SHAP的8个最重要的MACCS片段。

3

结论

这项工作提供了一个全面的NOAEL计算机预测方案,使研究人员能够预测尚未在体内测试的新化学结构的毒性终点。此外,还实现了可行的从NOAEL数据估计其他条件下的毒性效应的方法。作者希望它能够成为一种高效、准确、低成本、动物友好和环境友好的解决方案,用于人类长期反复接触的化学品的初始风险评估。

参考文献:

Qian, J., Song, F. L., Liang, R., Wang, X. J., Liang, Y., Dong, J., & Zeng, W. B. (2022). Predictive and explanatory themes of NOAEL through a systematic comparison of different machine learning methods and descriptors. Food and Chemical Toxicology, 113325.


   通讯作者简介:


董界,中南大学湘雅药学院,特聘副教授,硕士生导师,湖南省青年骨干教师培养对象。主要研究方向为:化学信息学,基于人工智能的分子设计,生物医药计算平台、软件及数据库的开发等。近年来发表SCI论文40多篇,第一或通讯作者论文20余篇,引用超过1400余次,H-index: 18,另有软件著作权多项。主持和参与国家自然科学基金以及国家重点研发计划多项。另外,担任Frontiers 系列期刊客座编辑;Journal of Cheminformatics, Bioinformatics,Chemical Biology & Drug Design,Drug Delivery and Translational Research,Journal of Advanced Research等杂志审稿人。


长按关注我们

微信号|FoodAI

合作/投稿|jiedong@csu.edu.cn

yunyonghuan@hainanu.edu.cn



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/148196
 
439 次点击