DNA分子反应(如分子杂交、链交换和链置换等)在合成生物学、基因编辑、分子诊断以及DNA计算和存储等领域具有重要应用价值,其用于设计可编程生物系统、实现精准治疗和疾病检测的潜力巨大。为了提升实验效率、优化反应条件,并减少实验中的不确定性,发展计算工具来预测DNA反应参数至关重要。传统的预测方法(如Mfold和Nupack)依赖最近邻模型,通过线性求和计算DNA杂交反应的自由能,但精度限制了它们在高精度实验中的应用。人工智能(AI)技术有潜力突破这一瓶颈,通过算法创新更好地捕捉反应中的非线性特性。然而,现有的AI模型虽然能够预测部分动力学参数,却依赖大量数据,并且应用范围有限。因此,如何建立高精度、强泛化性的DNA分子反应预测模型仍然是一个亟待解决的问题。近日,华东师范大学裴昊和朱通教授团队通过学科交叉研究合作,在Advanced Science期刊上发表了题为Predicting DNA Reactions with a Quantum Chemistry-Based Deep Learning Model的研究论文。研究团队开发了一种新型模型,可同时预测DNA杂交反应的自由能和链置换反应的速率常数。与现有模型相比,该模型在预测精度上表现更为出色,充分展示了量子化学和人工智能技术在提升DNA反应参数预测中的应用潜力。DNA分子内部的相互作用信息对预测DNA反应至关重要,而量子化学恰好提供了一种深入分析DNA分子内部电子结构的方法,能够以较高精度描述分子在原子尺度上的物理化学性质。基于量子化学计算,研究团队首先开发了一种新型DNA描述符,该描述符将DNA序列转化为堆积项、悬挂项、环区、启动项等结构,并对其赋予相应的顺序编号。量子化学方法用于计算描述符中各结构的能量,同时通过统计可旋转化学键的数量来计算DNA分子的熵。这些特征数据共同构成了描述符矩阵,并被输入卷积神经网络进行特征提取。卷积神经网络的输出随后作为前馈神经网络的输入,最终得出DNA反应的热力学或动力学参数。研究者还创新性地将传统的16个堆积项扩展至400个,极大地丰富了DNA分子相互作用的信息,从而提高了预测的精度和适用范围。为了实现对DNA杂交自由能的精准预测,研究者首先构建了一个包含多种双链类型的DNA杂交池,包含10,000条完全配对的DNA双链和10,000条带有悬挂端的DNA双链,并通过高分辨率熔解分析和拟合分析方法收集自由能的标签数据。由于如此庞大的样本数量使得人工标注不切实际,研究者引入了主动学习方法,以高效选择信息量更丰富的DNA反应样本。经过多次训练迭代,最终从该序列池中筛选出32条完全配对的DNA双链和164条带有悬挂端的DNA双链。这196条DNA双链被进一步划分为训练集和验证集,另外的48条双链DNA作为测试集。最终模型的预测误差(RMSE)仅为0.349,且在相同的数据集上,该深度学习模型的预测精度明显优于最邻近模型(RMSE=0.438)。为进一步验证模型的通用性,研究者将其应用于预测链置换反应的速率常数。首先,研究者构建了一个包含10,000个序列的链置换池作为初始数据集,其中toehold的长度设计为4至14个核苷酸,且包含不配对的spacer结构。通过实验测定链置换反应的荧光动力学曲线,并采用二级反应拟合分析获取反应的速率常数。利用主动学习方法从链置换池中筛选出信息量更高的样本。在先前描述符矩阵的基础上,研究者进一步增加了碱基未配对概率和温度两个特征,以便预测不同温度下的链置换反应速率常数。该模型在预测DNA分子的杂交自由能和链置换反应速率常数方面表现优异,展示了量子化学计算在提升模型预测性能中的潜力。这为DNA反应的预测提供了一种有效工具,具有在PCR引物设计、深度测序、DNA计算与存储等领域应用的潜力,未来可能为这些领域的发展提供支持。华东师范大学博士生王立坤和黎娜为论文的共同第一作者。原文链接:
http://doi.org/10.1002/advs.202409880
制版人:十一
BioART战略合作伙伴
(*排名不分先后)


转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。