1 、研究背景
中国是枇杷主产区,在亚热带东南部广泛分布,种植面积达 17 万公顷,品种丰富。枇杷采后易腐,其非浓缩果汁生产和调味剂应用具经济价值,而果汁分类对品质控制至关重要。当前风味分析依赖 HS-GC-IMS 等质谱技术,但存在人工筛选特征化合物耗时、数据可视化不足等瓶颈,制约自动化分类。
机器学习为解决该问题提供新思路:将 GC-MS 数据转化为图形特征,可提升数据处理效率并适配神经网络训练。
本研究提出整合 HS-GC-IMS 与分子特征描述符(MFD),通过加权神经网络(w-ANNs)构建特征图谱,再利用卷积神经网络(CNN)分类的框架。研究还将通过 SHAP 分析评估 MFD 重要性,并从 PubChem 扩展数据集。该方法首次融合分析化学与 AI 降维技术,为枇杷汁分类提供创新解决方案。
核心痛点:
①挥发性有机物(VOCs)检测数据维度高(如 HS-GC-IMS 一次产生超 10 万个数据点),人工难以挖掘隐藏规律;
②不同品种枇杷汁的 VOCs 差异细微(如红沙枇杷的庚醛浓度仅比白沙高 15-20%),传统算法分类准确率不足 80%。
2 、实验方法
2.1 样本
采集浙江宁海白沙 / 红沙枇杷、慈溪杨梅、奉化桃子共 4 类果汁,每类 3 批次,每批次 3 重复(总计 108 份样本);
2.2 HS-GC-IMS 分析
使用气相色谱 - 离子迁移谱仪检测挥发性有机物,通过保留指数(RI)和漂移时间定性鉴定化合物,筛选出白沙(7 种醛类)和红沙(7 种醛类 + 苯甲醛)的特征化合物。分子描述符(MFDs):通过 RDKit 计算 109 个化学特征(如 LogP 脂溶性、Gasteiger 电荷等),但数据冗余导致模型过拟合;
优化:用 MDC 包剔除 80% 以上共线性特征,保留 16 个关键描述符,如Kappa2(分子支链度):数值越高,分子结构越复杂(白沙 Kappa2 均值 0.68 vs 红沙 0.75);LogP(脂水分配系数):反映分子亲脂性(白沙 LogP 均值 2.1 vs 红沙 2.5)。
2.4 特征图谱生成与 CNN 分类
加权神经网络(w-ANNs):
输入:16 个 MFDs + 特征化合物浓度(如己醛、庚醛);
输出:18×24 像素的特征图谱(白沙 22 张、红沙 24 张、对照 12 张),像素亮度对应化合物响应强度。
卷积神经网络(CNN):
架构:7 层卷积层(4-256 神经元)+ 最大池化层,自动提取图谱中的纹理特征;
训练:用 100 张图谱(白沙 22 张、红沙 24 张、杨梅 / 桃子各 6 张)训练,5 折交叉验证优化模型,分类指标包括精度、召回率、F1 分数。
2.5 数据扩展与工具
从 PubChem 检索 1257(白沙)和 1133(红沙)个结构相似化合物,构建化学库;使用 SHAP 分析评估 MFDs 重要性。
3、实验结果
3.1 HS-GC-IMS 表征枇杷汁--挥发性化合物鉴定
共检测 36 种 VOCs(19 种醛类、11 种酯类、4 种酮类和 2 种醇类)。白沙特征化合物为 (E)-2 - 己烯醛等 7 种,红沙为庚醛等 7 种,两者浓度差异显著(如白沙 (E)-2 - 己烯醛浓度是红沙 2.3 倍,而红沙的苯甲醛浓度是白沙的 1.8 倍)。白沙和 红沙之间的这些不同的化合物谱是区分枇杷汁类型的可靠指标。
不同种类枇杷汁中的挥发性香气化合物图。A) 枇杷汁的三维 地形图。B_1) loquat_baisha的二维 地形图,B_2) loquat_hongsha 的地形图,C_1) loquat_baisha 的地形图,C_2) loquat_hongsha 的地形减法图,D) 从两种枇杷汁中获得的选定信号峰面积的画廊图「D 是指二聚体,M 是指单体」。
3.2 模型性能
TF 模型表现:白沙训练 R²=0.923,测试 R²=0.568;红沙分类精度 100%,非枇杷汁识别率 98%。
不同模型 (A) Tensorflow,(B) Random forest 对 loquat_baisha 和 loquat_hongsha 进行模型预测。SHAP 分析:白沙关键 MFDs 为 Kappa2、Gasteiger 电荷、LogP;红沙为 Kappa2、Kappa3、Fraction_SP3,反映分子结构差异。两种枇杷汁的 SHAP 分析 (A) loquat_baisha 分子特征描述符的 SHAP 值,(B) loquat_baisha 的前 10 个 SHAP 值,(C) loquat_hongsha 分子特征描述符的 SHAP 值,(D) loquat_hongsha 的前 10 个 SHAP 值。对比传统方法:人工嗅闻准确率 75-85%,且无法区分深加工果汁;单一 GC-MS 分类准确率 82-88%,无法处理复杂基质干扰。
3.3 特征图谱与分类效果
图谱可视化显示白沙 / 红沙特征分布差异,CNN 对 100 张图谱分类,平均 F1 分数 96% 以上,混淆矩阵显示低误判率。分类结果 。A) 区分枇杷果汁与其他类型的果汁(杨梅和桃子)的混淆矩阵,其中 NA 是指枇杷以外的果汁样品,例如 bayberry_biji 和 peach_chiyue,B) 损失与纪元,C) 准确性与纪元。3.4 化学库与性能评估
从 PubChem 数据库检索到 1257 种白沙相关化合物、1133 种红沙相关化合物;PCA 分析显示:两类化合物集群重叠率仅 20-21%,印证品种间化学组成差异显著。
提取化合物的 PCA 分析,A) LOQUAT_baisha 库,B) LOQUAT_hongsha 库,C) loquat_flavordb 库
五维评估框架:SC_01(手动作)、SC_02(混合或半自动作)和 SC_03(全自动作)。评估标准包括执行时间和效率 (EE)、准确性和一致性 (AC)、持续集成和交付 (CI/CD)、测试覆盖率 (TC) 和成本。自动化方案(SC_3)较人工操作效率提升,但需更高硬件成本。
4、结论与未来展望
- 方法有效性结合 HS-GC-IMS 与深度学习,实现枇杷汁高精度分类(白沙 / 红沙 / 非枇杷汁 F1 分数分别为 0.96、0.96、0.99)。
- 创新性首次构建 “化学分析 + AI 降维” 全流程,为水果汁自动化分类提供通用框架。
- 应用前景
生产线质控:在果汁灌装机旁部署微型 HS-GC-IMS+CNN 设备,实时拦截风味异常批次;
消费端创新:开发手机 APP,用户拍摄果汁瓶身即可调用云端图谱数据库,显示「品种匹配度」;
跨领域延伸:该方法可复制到茶叶(如龙井 / 碧螺春)、中药材(如野生 / 栽培人参)的快速鉴别。
原文链接: https://www.sciencedirect.com/science/article/pii/S0308814625023325