中科院大连化物所《自然·通讯》：强化时序信号的通用深度学习框架赋能纳米孔识别

背景介绍

纳米孔传感作为一种单分子分析技术，有潜力彻底改变蛋白质和聚糖测序。其基本原理是分子穿过纳米孔时产生特征性的离子电流阻断信号，通过分析这些信号可实现对不同分子的识别。然而，将该潜力转化为实际的高保真识别面临严峻瓶颈：大量高度相似的纳米孔离子电流数据的处理极具挑战性。结构相似的分子（如同分异构体）产生几乎相同的电流特征；分子易位的随机性导致信号短、噪声大且重叠；同时还需在数十甚至数百种分析物的混合物中解析精细特征。准确的分类已不是简单的模式匹配，而是细微信号提取误差可能导致错误识别的高风险挑战，迫切需要先进的AI驱动数据处理解决方案。

研究思路

针对上述挑战，中国科学院大连化学物理研究所的卿光焱研究员和中南财经政法大学的宁瀚文副教授团队提出了SEDA-Former（信号增强与动态注意力Transformer）框架，一种专为高分辨纳米孔单分子识别设计的深度时序学习框架。该框架包含三大核心组件：多窗口滑动标准差方法用于特征增强，在不丢失原始时序信息的前提下将信号分解为多个频率通道，放大不同尺度的局部波动特征；多通道时序卷积网络用于挖掘时序动态中的弱特征，通过并行多尺度卷积核捕获短程和长程依赖；渐进自适应注意力训练策略根据学习难度动态重加权样本损失，训练初期聚焦易区分分析物以快速捕获核心判别特征，随后逐步将注意力转向难区分样本。在包含15种甜菊糖苷、24种人参皂苷、8种DNA分子和17种胆酸偶联物的四个挑战性基准数据集上，SEDA-Former均取得优异分类性能，且在不同数据集间无需任何结构或参数修改即可直接迁移。相关内容以A universal deep learning framework for empowering nanopore identification by reinforcing temporal signals发表在Nature Communications！

图片解析

图1. 基于AI的纳米孔识别解决方案： (a) 纳米孔传感装置示意图及代表性离子电流迹线。(b) AI分析纳米孔事件用于分类或识别结构相似化合物池中的分析物。(c) 以往用于机器学习或深度学习的纳米孔数据预处理方法概览。(d) SEDA-Former工作流程示意图。

图2. SEDA-Former框架示意图： (a) 多窗口滑动标准差方法增强纳米孔数据，不同窗口长度（w1至wn）提取多尺度波动特征。(b) 网络结构由多通道TCN模块、时序Tokenization模块和注意力机制模块（Transformer）组成。(c) 纳米孔信号易、中等、难区分物种分析。(d) PAAT过程示意图。(e) PAAT下的训练过程投影。

图3. SG-15数据集分类结果： (a) SteviNet在SG-15数据集上的混淆矩阵。(b-c) 几种糖苷的高度结构相似性导致高度类似的纳米孔事件和重叠的事件分布。(d) SEDA-Former在SG-15数据集上的混淆矩阵，整体准确率97.6%。(e) SEDA-Former相比SteviNet每个糖苷的性能提升（绝对百分点差异）。(f) SteviNet中CNN模块和SEDA-Former中TCN模块对Ste和DuA提取的特征激活图，显示TCN捕获局部异质性激活。

图4. GIN-24数据集分类结果： (a) 代表性人参皂苷化学结构及24种人参皂苷的SNFG卡通表示。(b-c) GS-Net和SEDA-Former在GIN-24数据集上的混淆矩阵，SEDA-Former准确率96.6%。(d) 相比GS-Net每个糖苷的性能提升。(e) GS-Net中CNN模块和SEDA-Former中TCN模块对Rg1和Rg2提取的特征激活图。

图5. SEDA-Former对8种DNA分子的分类评估： (a) 固态纳米孔检测DNA纳米结构示意图。(b) 代表性纳米孔事件及其对应的条形码表示。(c) QuipuNet和SEDA-Former使用的数据集大小（SEDA-Former仅用9.5%训练数据）。(d-e) QuipuNet和SEDA-Former的混淆矩阵，SEDA-Former准确率99.4%。(f) 每个DNA分子的准确率提升。(g-h) 不同训练数据比例下的整体准确率和条形码000的分类性能（n=10次独立蒙特卡洛运行）。(i) 严格小样本设置下的混淆矩阵。

图6. SEDA-Former对17种胆酸偶联物的分类评估： (a) CA-AA代表性化学结构及特征离子电流迹线。(b) 17种CA-AA的ΔI vs Td散点图。(c-d) 基线模型（CA-Net）和SEDA-Former的混淆矩阵，SEDA-Former准确率97.2%。(e) 每个CA-AA分子的准确率提升（平均+24.2个百分点）。(f) 不同训练数据比例下CA-Net和SEDA-Former的分类性能（n=20次独立训练/评估运行）。

图7. 跨系统干扰实验验证SEDA-Former的定量稳健性： (a-d) 目标分子（RebM、Ste、Ro、Rb2）与干扰物的Softmax概率分布。(e-h) 不同决策阈值下召回率与每10,000个杂质分子的假阳性数。(i-l) 500次蒙特卡洛抽样下GCY与假阳性数的分布。(m-p) 杂质比例从0倍增至30倍时GCY的稳定性。

结论

本研究提出了SEDA-Former，一种专为纳米孔信号识别设计的通用深度学习框架，通过多频信号增强、深度时序建模和渐进自适应注意力训练的三层架构，解决了纳米孔数据处理中时序保真度丢失、细粒度动态特征捕获困难和训练偏向易区分样本等问题。在四个异构纳米孔数据集（15种甜菊糖苷、24种人参皂苷、8种DNA分子、17种胆酸偶联物）上，SEDA-Former均取得高分类准确率（97.6%、96.6%、99.4%、97.2%），显著超越基线模型，且在无任何架构修改和数据集特定调整的情况下实现了稳健的跨数据集迁移。即使在极端数据稀缺和严重干扰环境下，模型仍保持稳定的识别性能和准确的浓度重建。该框架揭示了纳米孔传感本质上是一个时间演化系统，分子指纹不仅编码在幅度模式中，更编码在传统模型常忽略的瞬态动态波动中。SEDA-Former有望为纳米孔单分子分析在蛋白质组学和糖组学等复杂场景中的应用提供强有力的AI支撑。

「BioMed科技」关注生物医药×化学材料交叉前沿研究进展！交流、合作，请添加杨主编微信！

来源：BioMed科技
声明：仅代表作者个人观点，作者水平有限，如有不科学之处，请在下方留言指正！