印度理工【AI4C】用机器学习预测不对称催化反应的对映选择性：从稀疏数据到化学洞见

本文总计4513字预计阅读16分钟

一、论文基本信息（Basic Information）

标题（Title）： Machine learning models for catalytic asymmetric reactions of simple alkenes: from enantioselectivity predictions to chemical insights
通讯作者 / 团队（Corresponding Author / Group）： Raghavan B. Sunoj，印度理工学院孟买分校（IIT Bombay）化学系 & 机器智能与数据科学中心
期刊（Journal）： Digital Discovery（英国皇家化学会）
年份 / 页码（Year / Pages）： 2026年，第5卷，第1718–1735页
DOI： 10.1039/d5dd00483g
项目 / 数据开源地址： GitHub: https://github.com/alhqlearn/ART-AttentiveFP-CI；Zenodo DOI: https://doi.org/10.5281/zenodo.18256995

二、研究背景与意义（Background & Significance）

手性分子的合成是有机化学的核心命题之一，其应用直接关系到药物和农化品的研发效率。环丙烷化、氮丙啶化与芳基化等过渡金属催化的不对称反应，是构建三元环手性结构单元的重要工具，而这些结构广泛存在于沙格列汀（Saxagliptin，抗糖尿病）、曲伐沙星（Trovafloxacin，抗生素）等重磅药物分子中。然而，传统的反应开发高度依赖化学家的经验积累与大量试错实验，不仅耗时耗力，且面对多参数交织（催化剂、配体、溶剂、温度等）的高维问题时，预测能力极为有限。

机器学习（ML）的兴起为催化反应的预测提供了新思路。近年来，基于高通量实验（HTE）数据集的ML研究已在Buchwald–Hartwig偶联等反应上取得了令人鼓舞的成果。然而，HTE数据集的特殊性在于其通量大、分布均匀，而现实中的有机合成往往只有几十至几百条反应记录，数据稀疏且分布严重不均衡，高对映体过量（%ee）区域的样本占绝大多数，这使得直接套用现有ML模型效果不佳。

本研究的核心动机正是填补这一空白：针对烯烃底物的不对称催化反应，从真实文献数据出发，构建一个能够有效处理类别不平衡（Class Imbalance, CI）与数据稀疏问题的深度学习框架，不仅实现高精度的%ee预测，还能通过注意力可视化提取化学可解释的结构规律，为配体设计与反应优化提供数据驱动的洞见。

三、核心研究内容（Main Contributions）

3.1 数据集构建：ART数据集

研究团队从经同行评审的文献中手动整理了376条催化不对称烯烃反应数据，命名为ART（AlkeneReactionTriad）数据集，涵盖三类反应：

环丙烷化（Cyclopropanation）：130条（67种催化剂 × 10种底物 × 23种烯烃）
氮丙啶化（Aziridination）：91条（14种催化剂 × 13种底物 × 44种烯烃）
芳基化（Arylation）：155条（19种催化剂 × 50种底物 × 55种烯烃）

理论上可能的反应组合高达75,668种，而实际仅有376条实验数据，稀疏度极高。%ee值的分布呈现明显左偏（skewness = −1.37），即高ee样本占多数、低ee样本稀少，构成典型的类别不平衡问题。

【Figure 1，包含(a)各反应组分的结构多样性展示和(b)ART数据集的%ee频率分布直方图，直观呈现数据集的高ee偏态分布特征】

3.2 特征化策略对比

研究系统比较了四类分子表征方式对预测性能的影响：

独热编码（OHE）：仅捕捉组分的存在与否，无化学结构信息；DNN测试集RMSE = 14.43 ± 3.05
分子指纹（FP）：基于RDKit的圆形、原子对、层次指纹；DNN测试集RMSE = 9.55 ± 1.31（但训练-测试RMSE差距大，过拟合明显）
SMILES字符串：T5Chem（10.83）、ULMFiT（11.30）、Transformer（12.26）
分子图（Graph）：AttentiveFP（10.56 ± 1.86）、MPNN（11.00 ± 2.22）

AttentiveFP虽非测试RMSE最低，但其训练-测试RMSE差值最小（仅4.15），过拟合程度最轻，具备最强的泛化能力，同时天然支持注意力可视化，是综合最优选择。

3.3 AttentiveFP-CI：类别不平衡感知模型

标准AttentiveFP采用均方误差（MSE）损失，对高ee（多数类）和低ee（少数类）样本一视同仁。研究团队提出定制化类别不平衡损失函数：

对低ee样本（少数类，真实值 < 50）保持标准平方误差
对高ee样本（多数类，真实值 ≥ 50）将平方误差乘以0.5权重，降低其对梯度的主导性

这一策略使模型在训练时更关注难以预测的低ee样本。在类别边界为30的设置下，AttentiveFP-CI取得测试RMSE = 9.80 ± 1.40，优于不带CI损失的AttentiveFP（10.56 ± 1.86），且t检验p值 < 0.05，改善统计显著。此外，AttentiveFP-CI的参数量仅约1.93M，远小于T5Chem-CI的14.71M，计算效率更高。

【Figure 2，展示AttentiveFP模型架构示意图，包括原子级嵌入、虚拟节点、注意力机制与全连接层的完整流程】

【Figure 3，对比AttentiveFP（标准MSE损失）和AttentiveFP-CI（类别不平衡损失）的损失函数定义与边界设置示意】

3.4 模型性能评估

经过30次随机划分的独立训练评估（训练/验证/测试 = 70:10:20），综合结果表明：

约87%的预测误差在±15单位以内
最优运行（RMSE = 8.2）中，76个测试样本有70个误差在±15以内
实验值与预测值的相关性R² = 0.84
Y-scrambling控制实验（打乱标签）的RMSE高达25.2 ± 2.1，验证了模型确实学到了化学信息而非统计噪声

【Figure 4，包含四个子图：(a)30次运行汇总误差饼图，(b)最优运行误差分布，(c)典型运行误差分布，(d)实验vs预测%ee的散点奇偶图（R²=0.84）】

3.5 注意力可视化：从黑盒到化学洞见

研究最具亮点的部分之一是对模型注意力权重的可视化分析。利用RDKit的相似度图，将每个原子对预测结果的贡献以颜色编码展示（绿色=正贡献，粉色=负贡献）。

对于bis(oxazoline)配体，模型正确识别出桥碳上的侧臂（Side Arm, SA）和手性碳是影响对映选择性最关键的区域，与化学家的领域知识高度一致。全局方差分析进一步表明，手性配体整体比底物/烯烃对反应结果的贡献更大，且配体手性碳[C*8(L)]的注意力方差最高，桥碳[C1(L)]次之。

【Figure 5，展示两个代表性反应（pyridine-oxazoline和bis(oxazoline)催化剂）的注意力热图，以及共有原子的注意力方差条形图，颜色分别代表烯烃(青)、配体(红)、底物(紫)】

3.6 应用：虚拟筛选手性配体

以(S)-萘普生（非甾体抗炎药）的合成前体为例，实验报道的(S,S)-PhBox配体在Cu催化芳基化反应中给出94% ee，模型预测值为92%，吻合良好。在此基础上，从PubChem数据库筛选35种Box配体进行虚拟预测，并通过注意力分析指导新配体设计：将侧臂的1,1-二甲基换为1,1-二异丙基，或将手性碳上的Ph基换为4-叔丁基苯基，均被预测可获得更高%ee。

【Figure 6，(a)合成(S)-萘普生前体的反应条件及实验/预测ee值对比，(b)35种Box配体预测%ee的热图及代表性配体注意力可视化】

3.7 跨数据集泛化验证

数据集	反应类型	RMSE	R²
ART	烯烃不对称催化	9.80 ± 1.40	0.84
N,S-乙酰化（1027条）	手性磷酸催化	8.06 ± 1.00	0.92
N,S-乙酰化（完整1075条）	—	RMSE=0.21	R²=0.90
不对称氢化（368条）	烯烃氢化	10.48 ± 1.10	0.60
USPTO（19万条）	通用产率预测	0.20 ± 0.01	—

AttentiveFP-CI在N,S-乙酰化数据集上显著优于ULMFiT基线（p = 0.0036），在氢化数据集上性能相当但提供额外的可解释性优势。

3.8 核心亮点（Key Highlights）

① 首个针对简单烯烃不对称催化反应的系统性ML研究，填补了机器学习在该重要反应类别上的空白，数据集ART已公开。

② 创新性引入类别不平衡感知损失函数到回归任务，打破了CI处理主要用于分类问题的惯例，对小样本化学数据集具有普适参考价值。

③ 系统性多模型、多特征化对比，明确指出图神经网络（AttentiveFP）在化学结构表征上的过拟合控制优势，为同类研究提供方法选型依据。

④ 注意力权重可视化实现了"黑盒→化学洞见"的跨越，模型自主识别出手性配体的关键活性位点，与化学领域知识高度吻合。

⑤ 模型直接赋能药物合成，以(S)-萘普生为例演示了虚拟配体筛选流程，为实验化学家提供了可落地的决策工具。

⑥ 跨反应类别泛化能力强，在ART、N,S-乙酰化、不对称氢化、USPTO四个数据集上均表现良好，证明方法框架的通用性。

四、技术路径（Technical Workflow）

第一步：问题定义针对真实有机合成场景中数据稀少、分布偏斜的烯烃不对称催化反应，建立%ee值的回归预测问题，同时要求模型具备化学可解释性。

第二步：数据集构建与预处理从76篇以上同行评审文献中手动整理376条反应，覆盖三类反应（环丙烷化/氮丙啶化/芳基化）。所有分子以SMILES编码，三个反应组分（烯烃、手性配体、偶联底物）拼接为复合输入。计算数据集skewness（−1.37），量化类别不平衡程度。按70:10:20随机划分30次独立运行。

第三步：特征化策略系统比较并行评估OHE、分子指纹（圆形/原子对/层次）、SMILES和分子图四种表征，配合DNN、T5Chem、ULMFiT、Transformer、MPNN、AttentiveFP六类模型，以训练RMSE和测试RMSE共同评估性能与过拟合程度。

第四步：AttentiveFP模型构建将复合分子图（原子为节点，化学键为边）输入AttentiveFP，经r层原子级注意力聚合和t层分子级虚拟节点嵌入，输出分子状态向量，送入全连接层完成回归。使用Optuna框架（贝叶斯优化）对图层数、特征维度、dropout率、学习率进行超参数搜索。

第五步：类别不平衡改造（AttentiveFP-CI）替换标准MSE损失为加权不平衡损失：高ee样本误差缩减至0.5权重。扫描类别边界（30至60），以t检验验证改善的统计显著性。同时与两步式"分类-回归"（CFR）框架对比，综合RMSE、过拟合程度和参数量确认AttentiveFP-CI的最优性。

第六步：注意力可视化与化学解读提取每个原子的注意力权重avi，通过RDKit相似度图实现空间可视化；对所有样本共有骨架区域的注意力方差进行全局分析，识别高方差原子（即对预测结果敏感度高的化学位点），与领域化学知识比对验证。

第七步：应用与跨数据集泛化以(S)-萘普生合成为案例，虚拟筛选35种Box配体；将框架扩展至N,S-乙酰化、不对称氢化和USPTO产率预测三个数据集，验证泛化能力与可解释性的一致性，并讨论方法的潜在局限（如scaffold splitting RMSE升至13.85，预测值偶见超出0–100范围等）。

五、编者按（Editor's Note）

创新性与影响力

这项工作的创新性体现在三个层面的有机结合：其一，构建并开源了一个真实场景的小样本化学反应数据集ART，本身就是对领域的贡献；其二，将类别不平衡感知损失引入连续回归问题，而非仅在分类任务中使用SMOTE等技术，思路简洁但效果显著；其三，将模型的注意力权重转化为可被化学家理解的结构信息，真正实现了"机器辅助化学发现"的价值主张。对于从事计算化学、化学信息学或药物化学的研究者而言，这篇文章提供了一套从数据整理到模型部署、再到结果解读的完整范式。

技术路线的合理性

选择AttentiveFP作为主干模型是经过充分对比论证的，而非主观偏好。30次随机独立运行的评估策略有效缓解了小数据集划分随机性带来的方差问题，Murcko scaffold splitting的补充实验也增加了结论的可靠性。注意力可视化方法成熟，基于RDKit实现且有据可查，与化学知识的吻合为模型可信度提供了强有力的定性支撑。

潜在问题与值得关注的细节

数据稀疏性仍是最根本的限制。Scaffold splitting下RMSE从9.80升至13.85，意味着模型对结构新颖配体的泛化能力仍需谨慎对待，不宜直接用于全新骨架的设计。此外，线性输出层可能产生超出0–100范围的预测值，作者在注释中坦承了这一点，但未提出结构性解决方案（如Sigmoid输出缩放）。文献数据中"成功偏差"（positive publication bias）的问题也被作者诚实地标注，但未能在建模层面加以校正。值得注意的是，注意力权重的可视化提供的是相关性而非因果性，高方差原子是重要区域的"候选"而非"确证"。

后续可扩展的方向

未来的工作可以考虑：引入主动学习策略，以最小实验成本智能扩充低ee数据点；结合量子化学计算（如DFT导出的Sterimol参数、Buried Volume）与图表征形成混合描述符，进一步提升精度；将框架推广至更广泛的不对称催化反应（如C–H活化、不对称Diels-Alder等），测试其普适边界；长远看，与自动化合成平台（robot chemistry）的结合将使此类模型真正走入闭环反应发现的实践场景。

声明

版权：推送内容仅供学习交流分享使用，版权归论文作者和单位所有，文章内容仅代表本公众号观点，欢迎批评指正，如有侵权请联系后台删除或修改，感谢各位同仁支持。
投稿：欢迎各位老师在公众号上介绍课题组最新或经典研究成果，后台联系即可。