英文原题:Machine Learning Interpretation of Optical Spectroscopy Using Peak-Sensitive Logistic Regression
通讯作者:Shengxi Huang (Rice University)
作者: Ziyang Wang, Jeewan C. Ranasinghe, Wenjing Wu, Dennis C. Y. Chan, Ashley Gomm, Rudolph E. Tanzi, Can Zhang, Nanyin Zhang, Genevera I. Allen
光谱分析是材料分析、分子识别、生物样本检测、以及纳米器件的设计的重要研究手段。其通过捕捉光子与分子之间的作用,生成分析物的特征谱,信号中含有大量信息,能够全面揭示分析物的组成和特性。光谱学虽然具有信息量大、精确度高和通用性强等许多优点,但由于需要与高维数据兼容且对微弱信号敏感,其详细解释仍然不很容易。现有的研究主要采用视觉比较和类别间平均光谱的相减等基础方法,一些研究采用了主成分分析(Principal component analysis,PCA)进行降维和峰提取。然而,在处理复杂的有细微的光谱差异时,尚需更高可靠性的定量分析方法。
该文的作者和其他研究者近期研究表明,机器学习在二维材料精细特征表征、混合矿物预测、阿尔茨海默病(Alzheimer’s disease,AD)诊断等光谱分析中有广泛的应用前景。机器学习(包括深度学习)可以从大量光谱数据中学习特征模式来识别分析物之间的细微差异,在分类中表现出卓越的准确性。另外,特别是在光谱数据的优化和高特征噪声的管理方面仍有许多问题需要研究,这些问题可能会掩盖分析物之间的细微差异,从而导致表征不准确并影响分类性能。此外,提高机器学习模型的可解释性至关重要,因为它能够可靠地揭示对分类至关重要的光谱信号,为发现纳米材料特性、验证分子差异、以及寻找疾病生物标志物提供重要依据;并为设计新型纳米器件(包括纳米传感器和小型光谱仪)提供关键性指导。
研究生物样本的光谱中,机器学习能够快速准确地分析识别光谱差异,是一种非破坏性、高通量的光谱数据分析方法。适用于包括质谱在内的各种光谱技术,可有效分析光谱变化并追溯其分子或结构起源。如拉曼光谱等免标记技术,能够在无需额外标记步骤的情况下进行生物分子检测。虽然免疫测定和PCR仍是生物标志物检测的金标准,但它们需要标记、大量的预处理,并且仅限于特定目标。通过改进机器学习辅助的光谱分析,有助于生物样本表征,同时确保所识别的生物标志物仍可通过传统方法进行验证。
深度学习的新进展提高了光谱分类和解析的准确性。然而,多数模型需要大量数据集和复杂的超参数调优,特征解释常不够直观。为了充分发挥光谱技术在分析物解析中的潜力,急需开发一种具备高维数据兼容性、对细微光谱信号高度敏感、可靠的可解释性的定量分类模型。
近日,基于上述挑战,Rice University (莱斯大学) Shengxi Huang(黄声希)教授团队开发了一种针对光谱分析优化的机器学习算法——峰敏感弹性网络逻辑回归(Peak-sensitive elastic-net regularization,PSE-LR)算法。
流程主要由三部分组成:首先,模拟或实验测量不同分析物的光谱;然后,训练 PSE-LR 并使用峰敏感正则化进行调优,以将光谱分类为不同类别;最后,提取具有峰敏感性的光谱特征重要性图谱,以揭示分类依据及样本组分差异。
该PSE-LR算法通过生成峰信息特征重要性图谱,实现了高维兼容性、微弱信号敏感性和优异解释性的光谱分类。
研究团队将PSE-LR 与其他主要的代表性机器学习方法(弹性网逻辑回归E-LR、支持向量机SVM、主成分分析后线性判别分析PCA-LDA、XGBoost、k 近邻KNN、神经网络NN)做了全面比较。
PSE-LR 取得了最佳分类性能(平均 F1 分数为 0.93,优于其他方法),并提供了最具信息量和可靠性的光谱特征重要性图(平均特征敏感性为 1.0)。
光谱特征重要性图能够检测复杂光谱中隐藏的多个、微妙且极窄的光谱峰,并揭示这些峰与类别预测之间的相关性。
该团队验证了 PSE-LR 的实用性。
将PSE-LR应用于光致发光(PL)谱识别WS2单层与WSe2/WS2异质双层;
将PSE-LR应用于拉曼光谱在超低浓度下检测 SARS-CoV-2 刺突蛋白的受体结合域(RBD);
将PSE-LR应用于拉曼光谱识别脑样本中的神经保护溶液(Neuroprotective solution, NPS);
将PSE-LR应用于分析阿尔茨海默病(AD)模型和健康对照的脑切片,通过使用 PSE-LR 获得光谱特征重要性图谱,研究团队将这些特征与生物分子相关联,发现了阿尔茨海默病(AD)的潜在生物标志物。
图1. 整体工作流程。使用峰值敏感 PSE-LR的光谱测量、分类和特征重要性解析的工作流程。
图2. 峰强度有差异的模拟数据集。(a) 平均光谱和个体光谱。两类之间的差异以绿色标注。两个模拟类别的PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1特征重要性图,强度差异10%、(b) 7%、(c) 5% 和 (d) 3%。每种方法正确识别(漏检或误识)的两类之间的差异以绿色(红色)标注。黑线表示零。(e) 两类模拟数据分类中的精确度、召回率和F1分数,强度差异10% (g) 5% 和 (h) 3%
图3. 包含峰宽、肩峰强度和峰数差异的模拟数据集。(a)平均光谱和个体光谱。两类之间的差异以绿色标注。PSE-LR、E-LR、SVM、XGBoost 以及 PCA-LDA的 PC1 的特征重要性图,其中峰宽存在5%差异 ,(b)肩峰强度存在5% 差异 ,(c)存在三个额外峰。各方法正确识别(漏检或误识)的两类差异以绿色(红色)标注。黑线基线为零值。
图4. 含和不含10-9 M RBD 的 G-AuNPs+PBS 的拉曼光谱。(a)含和不含 RBD 的 G-AuNPs+PBS 的平均和单个拉曼光谱。(b)含和不含 RBD 的 G-AuNPs+PBS 的拉曼光谱的特征重要性图和 PC1 的特征灵敏度和真实特征比。(c)PSE-LR、 E-LR、SVM 、XGBoost以及 PCA-LDA 的 PC1的正特征重要性图。各方法正确识别(漏检或误识)的两类之间的差异用绿色(红色)表示。黑线表示零。(d)RBD 的拉曼光谱。拉曼峰用绿色表示。
图5. WS2单层和WSe2/WS2异质双层的PL谱。(a)WS2单层和WSe2/WS2异质双层的平均PL谱和单个PL谱。(b)WS2单层和WSe2/WS2异质双层PL谱的特征重要性图和主成分分析(PC1)的特征灵敏度和真实特征比。(c)PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1的特征重要性图。每种方法正确识别(漏检或误识)的两个类别之间的差异用绿色(红色)标记。黑线为零。(d)WSe2单层的PL谱。拉曼峰用绿色标记。
图6. 患和不患阿尔茨海默病(AD)的小鼠脑切片拉曼谱。(a)患和不患 AD 的小鼠脑切片的平均和个体拉曼光谱。(b)患和不患 AD 的小鼠脑切片特征重要性图PC1的特征敏感度和真实特征比。(c)PSE-LR、 E-LR、SVM、XGboost以及 PCA 的PC1和PC2的特征重要性图。各方法正确识别(漏检或误识)的两类之间的差异用绿色(红色)标注。黑线表示零。
该文作者团队开发了一种针对复杂光谱分类与解析而设计的机器学习方法-峰敏感逻辑回归算法PSE-LR。
PSE-LR与多种机器学习方法进行了模拟光谱和实验测量光谱的全面分析系统比较。模拟数据集有光谱分类中六种典型场景:强度差异、峰宽差异、肩峰强度差异、峰数量差异、非对称峰及耦合峰差异。实验数据有超低浓度SARS-CoV-2 刺突蛋白的受体结合域(RBD)检测、新型神经保护液(NPS)鉴定、WS2单层与WSe2/WS2异质双层识别、阿尔茨海默病潜在生物标志物的探索性研究。PSE-LR在识别光谱细微差异和提供可靠解析方面的卓越性能,优于现有光谱分析工具。
PSE-LR运用于光谱解析,对纳米材料、分子机器、病毒、细菌、细胞和组织、生物化学和药物研究带来了重要推进。也将推动高精度纳米传感器、纳米材料微型光谱仪等先进器件的发展。
该方法可还可无缝扩展至 核磁共振(NMR)、质谱(MS)和电子自旋共振(ESR)等其它谱学技术。
Shengxi Huang (Rice University)
https://profiles.rice.edu/faculty/shengxi-huang
ACS Nano 2025,19,16,15457-15473
https://doi.org/10.1021/acsnano.4c16037
Published April 15,2025
© 2025 American Chemical Society
Xiaodong Chen
Nanyang Technological University
ACS Nano 是一个用于交流化学、生物学、材料科学、物理学和工程学领域有关纳米科学和纳米技术研究综合类文章的国际平台。此外,该期刊致力于促进科学家之间的交流,开发新的研究机会,通过新发现来推动领域的发展。
Time to First Peer Review Decision