社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Food Chem. |一种从机器学习中衍生的图形特征图的开发方法及其在枇杷汁分类中的应用

DrugAI • 4 天前 • 44 次点击  


1 、研究背景

中国是枇杷主产区,在亚热带东南部广泛分布,种植面积达 17 万公顷,品种丰富。枇杷采后易腐,其非浓缩果汁生产和调味剂应用具经济价值,而果汁分类对品质控制至关重要。当前风味分析依赖 HS-GC-IMS 等质谱技术,但存在人工筛选特征化合物耗时、数据可视化不足等瓶颈,制约自动化分类。

机器学习为解决该问题提供新思路:将 GC-MS 数据转化为图形特征,可提升数据处理效率并适配神经网络训练。

本研究提出整合 HS-GC-IMS 与分子特征描述符(MFD),通过加权神经网络(w-ANNs)构建特征图谱,再利用卷积神经网络(CNN)分类的框架。研究还将通过 SHAP 分析评估 MFD 重要性,并从 PubChem 扩展数据集。该方法首次融合分析化学与 AI 降维技术,为枇杷汁分类提供创新解决方案。


核心痛点:

①挥发性有机物(VOCs)检测数据维度高(如 HS-GC-IMS 一次产生超 10 万个数据点),人工难以挖掘隐藏规律;

②不同品种枇杷汁的 VOCs 差异细微(如红沙枇杷的庚醛浓度仅比白沙高 15-20%),传统算法分类准确率不足 80%。


2 、实验方法

2.1 样本

采集浙江宁海白沙 / 红沙枇杷、慈溪杨梅、奉化桃子共 4 类果汁,每类 3 批次,每批次 3 重复(总计 108 份样本);

2.2 HS-GC-IMS 分析

使用气相色谱 - 离子迁移谱仪检测挥发性有机物,通过保留指数(RI)和漂移时间定性鉴定化合物,筛选出白沙(7 种醛类)和红沙(7 种醛类 + 苯甲醛)的特征化合物。
2.3 分子特征描述符(MFDs)

分子描述符(MFDs):通过 RDKit 计算 109 个化学特征(如 LogP 脂溶性、Gasteiger 电荷等),但数据冗余导致模型过拟合;

优化:用 MDC 包剔除 80% 以上共线性特征,保留 16 个关键描述符,如Kappa2(分子支链度):数值越高,分子结构越复杂(白沙 Kappa2 均值 0.68 vs 红沙 0.75);LogP(脂水分配系数):反映分子亲脂性(白沙 LogP 均值 2.1 vs 红沙 2.5)。

2.4 特征图谱生成与 CNN 分类

加权神经网络(w-ANNs)

输入:16 个 MFDs + 特征化合物浓度(如己醛、庚醛);

输出:18×24 像素的特征图谱(白沙 22 张、红沙 24 张、对照 12 张),像素亮度对应化合物响应强度。

卷积神经网络(CNN)

架构:7 层卷积层(4-256 神经元)+ 最大池化层,自动提取图谱中的纹理特征;

训练:用 100 张图谱(白沙 22 张、红沙 24 张、杨梅 / 桃子各 6 张)训练,5 折交叉验证优化模型,分类指标包括精度、召回率、F1 分数。

2.5 数据扩展与工具

从 PubChem 检索 1257(白沙)和 1133(红沙)个结构相似化合物,构建化学库;使用 SHAP 分析评估 MFDs 重要性。


3、实验结果

3.1 HS-GC-IMS 表征枇杷汁--挥发性化合物鉴定

共检测 36 种 VOCs(19 种醛类、11 种酯类、4 种酮类和 2 种醇类)。白沙特征化合物为 (E)-2 - 己烯醛等 7 种,红沙为庚醛等 7 种,两者浓度差异显著(如白沙 (E)-2 - 己烯醛浓度是红沙 2.3 倍,而红沙的苯甲醛浓度是白沙的 1.8 倍)。白沙和 红沙之间的这些不同的化合物谱是区分枇杷汁类型的可靠指标。

不同种类枇杷汁中的挥发性香气化合物图。A) 枇杷汁的三维 地形图。B_1) loquat_baisha的二维 地形图,B_2) loquat_hongsha 的地形图,C_1) loquat_baisha 的地形图,C_2) loquat_hongsha 的地形减法图,D) 从两种枇杷汁中获得的选定信号峰面积的画廊图D 是指二聚体,M 是指单体

3.2 模型性能

TF 模型表现:白沙训练 R²=0.923,测试 R²=0.568;红沙分类精度 100%,非枇杷汁识别率 98%。
不同模型 (A) Tensorflow,(B) Random forest 对 loquat_baisha 和 loquat_hongsha 进行模型预测。
SHAP 分析:白沙关键 MFDs 为 Kappa2、Gasteiger 电荷、LogP;红沙为 Kappa2、Kappa3、Fraction_SP3,反映分子结构差异。
两种枇杷汁的 SHAP 分析 (A) loquat_baisha 分子特征描述符的 SHAP 值,(B) loquat_baisha 的前 10 个 SHAP 值,(C) loquat_hongsha 分子特征描述符的 SHAP 值,(D) loquat_hongsha 的前 10 个 SHAP 值。

对比传统方法:人工嗅闻准确率 75-85%,且无法区分深加工果汁;单一 GC-MS 分类准确率 82-88%,无法处理复杂基质干扰。

3.3 特征图谱与分类效果

图谱可视化显示白沙 / 红沙特征分布差异,CNN 对 100 张图谱分类,平均 F1 分数 96% 以上,混淆矩阵显示低误判率。
分类结果 。A) 区分枇杷果汁与其他类型的果汁(杨梅和桃子)的混淆矩阵,其中 NA 是指枇杷以外的果汁样品,例如 bayberry_biji 和 peach_chiyue,B) 损失与纪元,C) 准确性与纪元。

3.4 化学库与性能评估

从 PubChem 数据库检索到 1257 种白沙相关化合物、1133 种红沙相关化合物;PCA 分析显示:两类化合物集群重叠率仅 20-21%,印证品种间化学组成差异显著。

提取化合物的 PCA 分析,A) LOQUAT_baisha 库,B) LOQUAT_hongsha 库,C) loquat_flavordb 库


五维评估框架:SC_01(手动作)、SC_02(混合或半自动作)和 SC_03(全自动作)。评估标准包括执行时间和效率 (EE)、准确性和一致性 (AC)、持续集成和交付 (CI/CD)、测试覆盖率 (TC) 和成本。自动化方案(SC_3)较人工操作效率提升,但需更高硬件成本。



4、结论与未来展望

    • 方法有效性
      结合 HS-GC-IMS 与深度学习,实现枇杷汁高精度分类(白沙 / 红沙 / 非枇杷汁 F1 分数分别为 0.96、0.96、0.99)。
    • 创新性
      首次构建 “化学分析 + AI 降维” 全流程,为水果汁自动化分类提供通用框架。
    • 应用前景

      • 生产线质控:在果汁灌装机旁部署微型 HS-GC-IMS+CNN 设备,实时拦截风味异常批次;

      • 消费端创新:开发手机 APP,用户拍摄果汁瓶身即可调用云端图谱数据库,显示「品种匹配度」;

      • 跨领域延伸:该方法可复制到茶叶(如龙井 / 碧螺春)、中药材(如野生 / 栽培人参)的快速鉴别。



    原文链接:                                                                                       https://www.sciencedirect.com/science/article/pii/S0308814625023325

    Python社区是高质量的Python/Django开发社区
    本文地址:http://www.python88.com/topic/183140
     
    44 次点击