社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

JCIM|华中师范大学赵蕴杰教授团队:新型机器学习方法预测RNA与小分子相互作用

智药邦 • 6 月前 • 330 次点击  
2024年10月24日,华中师范大学生物物理研究所赵蕴杰教授团队在RNA与小分子相互作用的预测领域取得了重大进展。他们开发出了一种名为ZHMol-RLinter的机器学习模型,该模型能够高效、精准地预测RNA与小分子之间的结合偏好。这一成果为RNA靶向药物的设计提供了强大的技术支持,有望推动癌症、病毒感染等重大疾病的药物开发。 

相关研究成果以A Machine Learning Method for RNA−Small Molecule Binding Preference Prediction为题,发表在Journal of Chemical Information and Modeling上。

RNA与小分子的相互作用——靶向药物设计的关键

近年来,随着基因组学和分子生物学的飞速发展,科学家们发现RNA不仅是遗传信息的载体,在细胞功能调控、基因表达以及疾病的发生和发展中扮演着重要角色。尤其是非编码RNA(ncRNA)——占人类基因组转录产物的绝大部分,虽然它们不编码蛋白质,但却在调控基因表达、信号传导等过程中具有核心作用。

RNA的独特性使其成为一种新兴的药物靶点。与传统的蛋白质靶点不同,RNA具有高度动态和复杂的结构特性,能够形成多种二级和三级结构,例如发夹环、内部环和假结结构等,这些结构往往与其生物功能密切相关。通过靶向这些RNA结构,科学家们能够调控基因表达,进而开发出具有治疗潜力的小分子药物。 
例如,核开关(riboswitch)是一类能够通过小分子结合调节基因表达的RNA结构。特定的小分子可以通过结合核开关RNA,改变其构象,从而开启或关闭相关基因的表达。这一发现使RNA成为治疗感染、癌症以及遗传性疾病的重要靶点。
然而,RNA作为药物靶点也面临着诸多挑战。RNA的结构复杂且灵活,尤其是它在细胞内的三级结构动态性较高,预测RNA如何与小分子相互作用一直是科研领域中的一大难题。此外,实验方法如X射线晶体学、核磁共振(NMR)和冷冻电子显微镜等尽管可以提供RNA与小分子相互作用的结构信息,但这些技术往往耗时费力,成本高昂,难以大规模应用于药物筛选。

ZHMol-RLinter模型——双层堆叠的创新性突破

为了克服这一挑战,研究团队开发了ZHMol-RLinter模型:

模型的核心架构——双层堆叠随机森林


ZHMol-RLinter模型的核心创新在于它使用了双层堆叠(stacking)的随机森林模型。双层堆叠是一种增强机器学习模型性能的常用技术,能够通过组合多个子模型的结果,进一步优化预测准确性。在ZHMol-RLinter中,模型通过两层随机森林模型分别进行局部和全局的RNA-小分子结合偏好预测。
第一层(RF_1):预测核苷酸与小分子的相互作用
第一层模型的输入为RNA的二级结构元件及其对应的小分子特征。RNA的特征包含序列、二级结构、几何特征、理化环境等,而小分子的特征则使用了MACCS指纹(166位二进制向量表示小分子的化学特性)。第一层模型预测每个RNA核苷酸是否与小分子结合,输出一个二进制结果(结合=1,不结合=0)。

第二层(RF_2):预测结构元件与小分子的结合偏好

第一层的输出结果作为第二层模型的输入。第二层模型通过总结每个RNA结构元件(如发夹环、内部环等)中核苷酸的结合情况,预测该结构元件是否整体上与小分子发生结合。如果结构元件中的任何一个核苷酸被预测为与小分子结合,那么该结构元件整体将被预测为与小分子结合。

最终,如果RNA链中的任何结构元件被预测为与小分子结合,那么整个RNA链就被预测为能够结合该小分子。

图1 ZHMol RLinter的插图
数据处理和特征表示


为了让模型能够充分捕捉RNA与小分子的相互作用信息,研究团队对RNA和小分子分别构建了多种特征表示:
RNA的特征包括:
序列特征:使用4位的one-hot编码来表示每个核苷酸(A、G、C、U)。
二级结构特征:通过MXfold2算法预测RNA的二级结构,标记出哪些核苷酸配对(1表示配对,0表示未配对)。

表1 代表环基序的核苷酸特征

几何特征:使用拉普拉斯范数(Laplacian     norm,LN)来捕捉RNA的三维表面形状。LN通过分析核苷酸之间的空间距离,反映其在拓扑结构中的凸起或凹陷程度。此外,还通过网络拓扑特征来分析RNA三级结构中的节点与边的关系,捕捉RNA结构在全局和局部的交互信息。
理化环境特征:包括核苷酸所包含的原子类型、原子的键合特征以及其电荷等信息。
小分子的特征使用MACCS指纹表示,这是一个常用的166位二进制向量,指示小分子化学性质的存在与否(例如氢键供体、受体等)。
数据集与模型训练


研究团队创建了一个专门的RNA-小分子数据库,包含125条RNA链和75个小分子。RNA链通过它们的功能被分为不同的类别(如核开关、适体、核酶等),并提取了4种主要的RNA二级结构元件。在训练时,模型使用了253个具有结合小分子的RNA元件作为正样本,以及267个未结合小分子的RNA元件作为负样本。

模型性能与评估


ZHMol-RLinter的性能在两个测试集上得到了评估:
RL98测试集:包含98个已知小分子与RNA的结合实例,模型在该测试集上取得了90.8%的成功率,大幅超越了其他已有的RNA-小分子结合预测方法(如R-BIND、RNAmigos等)。
UNK96测试集:这个测试集包含96个从未见过的小分子与RNA的结合实例。ZHMol-RLinter在这个未知小分子测试集上的成功率为77.1%,表明该模型具有极强的泛化能力,能够有效应对从未见过的小分子数据。
此外,研究还展示了ZHMol-RLinter在处理预测的RNA三级结构时的鲁棒性,模型能够在存在一定三级结构误差时(如RMSD达到8Å)仍然保持较高的F1分数(RL98测试集为68.2%,UNK96测试集为70.4%),表明该方法在RNA结构预测不精确的情况下依然具有很强的适应性。
图2(A,B)使用(A)RL98和(B)UNK96测试集对ZHMol RLinter和现有方法RNAmigos、R-BIND和RLigands进行比较。(C,D)在(C)RL98和(D)UNK96测试集上评估的ZHMol RLinter对结合偏好的性能。
图3 (A) 使用trRosettaRNA预测的结构对ZHMol RLinter和RNAmigos进行比较。(B)使用trRosetta RNA计算的预测结构的均方根偏差(RMSD)分布。(C,D)使用(C)RL98和(D)UNK96测试集评估ZHMol RLinter在结合偏好方面的性能,测试集的结构由trRosettaRNARNA预测。对于小分子-RNA链结合偏好预测,RL98测试集的MCC为-4.6%。
模型的创新性与优势


双层堆叠的随机森林模型:该模型通过两层随机森林的堆叠方法,进一步优化了RNA与小分子的结合预测,能够在局部和全局两个层面上进行预测,捕捉更细致的相互作用信息。
多维度的RNA和小分子特征表示:模型不仅利用了RNA的序列和二级结构,还结合了几何特征、理化环境等高维度信息,确保了预测的全面性。
未知小分子上的优越表现:模型在未知小分子测试集上的成功率达到了77.1%,相比传统方法有显著提升,这使得该模型在新药开发中的应用潜力巨大。
处理预测结构的能力:即使在没有实验RNA三级结构的情况下,ZHMol-RLinter依然能够通过预测的RNA结构进行准确的结合预测,显示了极强的灵活性和实用性。

未来展望

ZHMol-RLinter的开发为RNA靶向药物设计提供了一种新的计算工具,它能够有效预测RNA与小分子之间的结合偏好,尤其在处理未知小分子数据时展现出极强的性能。未来,该模型有望被广泛应用于RNA靶向药物筛选、RNA功能研究以及RNA相关疾病的治疗策略开发中,为精准医疗和药物设计领域带来新的突破。

参考文献:

Chen Zhuo, Jiaming Gao, Anbang Li, et al. A Machine Learning Method for RNA–Small Molecule Binding Preference Prediction[J]. Journal of Chemical Information and Modeling.

本文转载自【 星宸药研 】公众号

--------- End ---------

感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175357
 
330 次点击