酱香型白酒的品质依赖复杂感官与风味特征,传统感官评价易受主观因素影响,缺乏客观化学指标。风味组学与机器学习为解析其质量差异提供了新思路,但现有模型多未经过外部验证,可解释性不足。因此,亟需建立可解释、高泛化的数据驱动方法,以实现酱香型白酒质量等级的准确预测与科学控制。
2026年4月19日,由贵州习酒股份有限公司Youlan Sun为第一作者,在《Food Research International》(IF=8)上发表的题为“Interpretable machine learning-augmented quantitative targeted flavoromics for quality grade prediction of Jiangxiangxing baijiu”的文章。本研究采用定量靶向风味组学结合可解释机器学习,分析了578份不同等级酱香型白酒样品,定量106种风味化合物,筛选出23个质量标志物。构建8种机器学习模型,其中XGBoost表现最佳,并在三个外部验证集中验证。通过SHAP分析揭示关键风味化合物对质量等级预测的贡献。
研究结果如下:
1.不同等级酱香型白酒感官定量描述分析(QDA)
通过对酱香型白酒四个等级(UP、PR、MR、LE)开展10种香气属性的感官定量描述分析,经单因素方差分析与LSD,结果显示曲香、酱香、花香、甜香、烘烤香、陈香差异极显著(p<0.01),果香差异显著(p<0.05),这7种香气与白酒品质等级呈正相关,高等级产品该类香气更浓郁复杂。这源于高等级酒勾调优先选用三、四、五轮次基酒,且陈酿时间更长,能强化优质香气。而粮香在各等级中强度均偏低,因其主要来自一、二轮次基酒,在成品酒中占比小。整体而言,勾调工艺差异造就了不同等级白酒的感官特征分化,但仅靠感官分析无法明确差异的化学本质,需结合风味物质化学组成做进一步解析。
图1.(A)不同质量等级酱香型白酒的感官定量描述分析雷达图。(B)不同质量等级酱香型白酒的感官属性得分柱状图。
2.不同等级酱香型白酒定量靶向风味组学分析
通过采用GC-FID、LLME-GC-MS、UPLC-HRMS技术,对172个不同等级酱香型白酒样本定量检测出106种风味化合物,涵盖酯类、酸类、醇类等9大类。PCA分析显示,超高端、高端样本与中端、低端样本分别聚集,等级间存在明显风味差异,前两个主成分共解释38.70%的总变异。定量结果表明,各等级风味物质种类相近,但浓度差异显著。主要化合物浓度在各等级间波动小,而微量成分随等级降低明显下降,高端酒微量成分含量比低端酒高22.10%,是品质分级的关键。酯类赋予花果香,高等级酒含量更高;酸类为酯前体,中端及以上含量充足;醇类过量会带来苦涩味,低端酒含量偏高;糠醛、吡嗪类等物质在高等级酒中更丰富,对应烘烤香优势。该结果揭示了风味物质与感官差异的关联,为后续筛选标志物奠定基础。
图2.(A)不同质量等级酱香型白酒的PCA图。(B)风味化合物的PCA载荷图。(C)不同质量等级酱香型白酒中主要风味化合物的堆叠图。(D)不同质量等级酱香型白酒中次要风味化合物的堆叠图。
3.酱香型白酒风味品质标志物筛选
本研究结合气味活性值(OAV)、多元统计与方差分析筛选酱香型白酒风味品质标志物。首先通过OAV分析得到50种香气活性化合物(OAV>1),其中异戊醛、异戊酸乙酯等10种化合物OAV>100,总OAV随等级降低递减,印证高等级酒香气更浓郁。经PLS-DA建模,模型拟合与预测能力良好,置换检验证实无过拟合,依据VIP>1筛选出50种潜在差异化合物。结合ANOVA(FDR<0.01)与OAV≥1结果取交集,最终确定23种风味品质标志物,包含糠醛、癸酸乙酯、2-甲基丁酸乙酯等关键物质。聚类热图验证这23种标志物可清晰区分四个品质等级,能有效反映感官品质差异,为后续机器学习品质预测模型提供核心特征变量。
图3.(A)不同质量等级酱香型白酒的PLS-DA图。(B)置换检验结果(200次迭代)。(C)风味质量标志物筛选的韦恩图。(D)前50种风味化合物的VIP得分(VIP>1.0)。(E)23种风味质量标志物的热图。
4.基于风味品质标志物的酱香型白酒机器学习模型
以筛选出的23种风味品质标志物为特征,构建LR、DT、RF、XGBoost等8种机器学习模型,用于酱香型白酒等级预测。PCA显示23种标志物可解释60.90%的总变异,等级区分度良好。模型评估采用灵敏度、特异度、AUC等8项指标,结果显示 XGBoost、LR、RF整体表现最优,XGBoost
校准度与净收益最高,综合性能最佳。外部独立验证集(VALI 1–3)测试中,XGBoost泛化能力突出,宏平均AUC分别达0.89、0.92、0.91,预测稳定可靠。混淆矩阵表明,模型对各等级分类准确,XGBoost正确预测样本数最多。最终确定XGBoost为最优等级预测模型,可实现酱香型白酒品质的客观、精准判别。
图4.(A)不同质量等级酱香型白酒的PCA图。(B)不同模型的宏平均ROC曲线。(C)比较模型性能指标的环形柱状图。(D)不同模型的混淆矩阵热图。(E)不同模型的多类校准曲线。(F)不同模型的Brier分数柱状图。(G)不同模型的多类决策曲线。
5.基于SHAP的模型可解释性分析
本节采用 SHAP 方法对最优XGBoost模型进行可解释性分析,量化23种风味标志物对等级预测的贡献度。按平均绝对SHAP值排序,糠醛、亚油酸乙酯、癸酸乙酯、2-甲基丁酸乙酯、异丁酸为影响预测的前五大关键特征。蜂群图显示,糠醛高浓度对高品质等级呈正向贡献,癸酸乙酯、2-甲基丁酸乙酯、异丁酸浓度升高也均正向提升品质预测结果。通过SHAP依赖图确定四大核心物质临界阈值:糠醛178.15 mg/L、癸酸乙酯0.72 mg/L、2-甲基丁酸乙酯1.54 mg/L、异丁酸18.02 mg/L,超过阈值即显著改变预测方向。结果明确了关键风味物的作用方向与临界浓度,为白酒品质调控、勾调设计提供了可落地的科学依据,提升了模型的实用性与透明度。
图5.(A)VALI 1的宏平均ROC曲线。(B)VALI 2的宏平均ROC曲线。(C)VALI 3的宏平均ROC曲线。(D)VALI 1的混淆矩阵热图。(E)VALI 2的混淆矩阵热图。(F)VALI 3的混淆矩阵热图。(G)汇总23种风味质量标志物贡献的SHAP蜜蜂图。(H)平均绝对SHAP特征值的堆叠图。(I)关键风味质量标志物的SHAP依赖图。
总结
本研究将定量靶向风味组学与可解释机器学习结合,系统解析不同等级酱香型白酒的品质差异。通过GC-FID、LLME-GC-MS、UPLC-HRMS 定量分析578个样本,共检出106种风味化合物,经OAV、PLS-DA、ANOVA 筛选确定23种风味品质标志物,可有效区分白酒品质等级。研究构建8种机器学习预测模型,XGBoost
模型表现最优,在训练集各项评价指标均大于0.93,外部独立验证宏平均AUC达0.89–0.92,泛化性与稳定性良好。SHAP分析揭示糠醛、癸酸乙酯、2-甲基丁酸乙酯、异丁酸是等级判别核心物质,其浓度与品质正相关,并明确关键阈值。该方法实现白酒品质客观评估,为生产质控、勾调优化与行业标准化提供数据支撑,也为白酒产业智能化升级提供科学路径。
科学需要严谨,我们努力呈现准确内容,但疏漏难免。若您发现任何问题,请联系我们完善,共同推动知识传播!
欢迎广大读者们对本文以及食品风味感知创新团队提出您的宝贵意见