药物研发是复杂且高昂的,平均费用可以达到数亿美元,周期甚至超过10年。然而,通过结合化合物库筛选技术与人工智能(AI),可以加速药物的发现和优化。借助AI的力量,研究人员仅21天内就成功识别出一种高效、选择性高且生物利用度高的盘状结构域受体-1(DDR1)抑制剂。结合大数据和AI,基于化合物库的筛选策略能进一步提升靶标发现的效率。已有一些案例报道了DNA编码库技术(DEL)与AI的成功结合。比如,McCloskey等人成功地应用DEL筛选数据对包括可溶性环氧化物水解酶(sEH)、人雌激素受体α(Erα)和酪氨酸激酶c-KIT在内的多种靶标进行机器学习建模。Lim等人整合了DEL和机器学习技术,有效地对碳酸酐酶(CAIX)、sEH和沉默信息调节因子2(SIRT2)进行筛选。这些研究结果均揭示了结合AI的化合物库筛选技术在药物发现过程中具有巨大的潜力。
近年来Transformer模型在自然语言处理(NLP)领域的应用越来越广泛。例如,最近的一项研究利用Transformer模型及其注意力机制,成功发现和优化了对人类白细胞抗原(HLA)等位基因有着更高亲和力的突变肽。Devlin等人基于Transformer模型提出了一种新的语言表示模型——BERT,在多项NLP任务中都取得了卓越的表现。BERT模型的特性是它利用了包含多头注意力机制的多层编码器来进行信息提取,其中注意力权重作为重要性的度量,能够有效地识别输入和输出之间的关系。这为结合人工智能进行多肽药物发现奠定了计算基础。
环肽由于其具有易于合成、高度特异性、良好的组织渗透性、低毒性,以及可阻断蛋白-蛋白或蛋白-核酸相互作用的特点,已逐渐成为药物开发中的新药形式(Modality)。环肽库可以通过一珠一肽(OBOC)、噬菌体展示、mRNA展示等手段进行构建。其中,一个重要的平台——随机非经典多肽整合发现(RaPID)系统,其整合了灵活体外翻译(FIT)系统和mRNA展示技术,可针对特定靶标快速筛选出含非天然氨基酸的环肽分子。本研究选取白细胞介素-17C(IL-17C)作为靶标,这是IL-17细胞因子家族中的一个独特成员,它可以特异性地与上皮细胞和TH17细胞上表达的白细胞介素-17受体E(IL-17RE)结合,并通过一个异源二聚体受体复合物IL-17RA/RE进行信号传导,诱导自身免疫、炎症、宿主防御等信号通路。阻断IL-17C和IL-17RE的相互作用,为治疗自身免疫和炎症疾病,如牛皮癣和异位性皮炎,带来了可能性。然而,目前尚未报道能阻断IL-17C/IL-17RE相互作用的环肽。
在本研究中,作者开发了一个名为PepScaf的集成AI框架(图1),该框架通过利用针对IL-17C的体外筛选后所获得的大量序列数据(初级环肽库,17C-Lib1),来指导二级环肽库(17C-Lib2)的构建和环肽亲和力的提升(图2)。首先,作者构建了一个名为Pep-BERT的模型,该模型在17C-Lib1的第四轮筛选中获得的富集度数据上进行训练,以便获取关于环肽活性的序列结构信息,并通过模型的注意力机制获取环肽序列的位置重要性分数。在Y与C中间长度为12的肽序列中,作者确定了6个关键位置,然后使用蒙特卡洛树搜索(MCTS)算法生成了这六个位置上的氨基酸。其中,MCTS算法在聚类数据(聚类中心为17C-L20)上做调整,使得生成的骨架尽可能多的涵盖高活性环肽序列(图3)。根据PepScaf生成的环肽骨架,作者使用RaPID系统构建环肽二级库(17C-Lib2)并针对IL-17C开展了二次筛选。在二级库中,作者选择高富集度的环肽进行活性验证,得到了20个IC50值低于10 nM的环肽。其中,最好的两个环肽显示出对IL-17C/IL-17RE相互作用的显著抑制活性,其IC50值为1.4 nM(图4)。
总之,本研究提供了一种将深度学习与环肽库筛选相结合的方法,用于高效发现和优化能够阻断蛋白-蛋白相互作用的环肽化合物。这一成果近期发表在药物化学领域权威期刊J. Med. Chem.上,山东大学尹贻贞教授和浙江工业大学段宏亮教授为本论文的通讯作者,浙江工业大学硕士研究生翟思龙和山东大学博士研究生谭亚红为本文共同第一作者。研究工作得到了国家自然科学基金委、山东省泰山学者项目、浙江省自然科学基金等的资助。

图1. PepScaf框架用于筛选针对IL-17C/IL-17RE相互作用的环肽(图片来源:J. Med. Chem.)

图2. RaPID系统示意图与针对IL-17C/IL-17RE相互作用的环肽(图片来源:J. Med. Chem.)

图3. Pep-BERT架构和MCTS流程图以及环肽骨架的定义(图片来源:J. Med. Chem.)

图4. 从二级库环肽库(17C-Lib2)中筛选得到高活性环肽(图片来源:J. Med. Chem.)