Py学习  »  机器学习算法

莱斯大学黄声希团队ACS Nano: 机器学习解析光谱-峰敏感逻辑回归算法

科研任我行 • 5 天前 • 14 次点击  
2025年4月15日,ACS Nano在线发表了美国莱斯(Rice)大学黄声希教授团队的研究论文,题目为《Machine Learning Interpretation of Optical Spectroscopy Using Peak-Sensitive Logistic Regression》,论文的第一作者为Ziyang Wang。

光学光谱分析是一种非侵入性分子传感技术,是材料表征、分子识别和生物样本分析的重要研究手段。该技术通过捕捉分子与光子之间的相互作用,生成分析物的独特特征谱。因信号中包含大量特征信息,从而光谱学具备高度多重性和特异性优势。由于光谱学能够全面揭示分析物的组成和特性,它已被广泛应用于纳米材料分析、分子识别、生物样本检测、以及纳米器件的设计。尽管光谱学具有信息量大、精确度高和通用性强等优点,但由于需要与高维数据兼容且对微弱信号敏感,其解释仍然具有挑战性。现有的研究主要采用视觉比较和类别间平均光谱的相减等基础方法,一些研究采用了主成分分析(PCA)进行降维和峰提取。然而,在处理复杂的细微的光谱差异时,尚需更高可靠性的定量分析方法。

最近的研究表面,机器学习在光谱分析中有广泛的应用前景,涉及表征二维材料精细特征、预测混合矿物、诊断阿尔茨海默病(AD)。机器学习,包括深度学习,能够通过从大量光谱数据中学习特征模式来识别分析物之间的细微差异,并在分类中表现出卓越的准确性。另外,特别是在光谱数据的优化和高特征噪声的管理方面仍存在挑战,这些问题可能会掩盖分析物之间的细微差异,从而导致表征不准确并影响分类性能。此外,提高机器学习模型的可解释性至关重要,因为它能够可靠地揭示对分类至关重要的光谱信号,为发现纳米材料特性、验证分子差异、以及寻找疾病生物标志物提供重要依据;并为设计新型纳米器件(包括纳米传感器和小型光谱仪)提供关键指导。

在生物传感领域,机器学习辅助的光谱分析提供了一种非破坏性、高通量的光谱数据分析方法,能够快速准确地识别光谱差异。该方法广泛适用于包括质谱在内的各种光谱技术,可有效分析光谱变化并追溯其分子或结构起源。一些光谱技术,如拉曼光谱等免标记技术,能够在无需额外标记步骤的情况下进行生物分子检测。虽然免疫测定和PCR仍是生物标志物检测的金标准,但它们需要标记、大量的预处理,并且仅限于特定目标。通过改进光谱分析,机器学习辅助的光谱分析有助于生物样本表征,同时确保所识别的生物标志物仍可通过传统方法进行验证。深度学习的最新进展显著提高了光谱分类和解析的准确性。然而,多数模型需要大量数据集和复杂的超参数调优,特征解释常不够直观。为了充分发挥光谱技术在分析物解析中的潜力,急需开发一种具备高维数据兼容性、对细微光谱信号高度敏感、可靠的可解释性的定量分类模型。

基于上述,在本研究中,团队开发了一种针对光谱分析优化的机器学习算法——峰敏感弹性网络逻辑回归(PSE-LR),该算法通过生成峰信息特征重要性图谱,实现了高维兼容性、微弱信号敏感性和优异解释性的光谱分类。工作流程主要由三部分组成:首先,模拟或实验测量不同分析物的光谱;然后,训练PSE-LR并使用峰敏感正则化进行调优,以将光谱分类为不同类别;最后,提取具有峰敏感性的光谱特征重要性图谱,以揭示分类依据及样本组分差异。研究团队全面比较了PSE-LR与其他代表性机器学习方法(E-LR、SVM、PCA-LDA、XGBoost、KNN、NN)。PSE-LR取得了最佳分类性能(平均F1分数为0.93,优于其他方法),并提供了最具信息量和可靠性的光谱特征重要性图(平均特征敏感性为1.0)。光谱特征重要性图能够检测复杂光谱中隐藏的多个、微妙且极窄的光谱峰,并揭示这些峰与类别预测之间的相关性。

为验证PSE-LR的实际应用价值,研究团队将其应用于光致发光(PL)光谱识别WS2单层与WSe2/WS2异质双层,应用于拉曼光谱在超低浓度下检测SARS-CoV-2刺突蛋白的受体结合域(RBD),识别脑样本中的神经保护溶液(NPS),并分析阿尔茨海默病(AD)模型和健康对照的脑切片。通过使用PSE-LR获得光谱特征重要性图谱,研究团队将这些特征与生物分子相关联,发现了阿尔茨海默病(AD)的潜在生物标志物。在光谱分析中,对纳米材料、多种分子以及病毒、细菌和细胞等复杂生物样品的光谱表征,以及先进纳米传感器和小型光谱仪的高效设计等方面,PSE-LR在特征峰识别与信息解析方面均优于现有算法。此方法还可无缝扩展至 核磁共振(NMR)、质谱和电子自旋共振(ESR)等其它谱学技术。


图1. 整体工作流程。使用峰值敏感 PSE-LR的光谱测量、分类和特征重要性解析的工作流程。


图2. 峰强度有差异的模拟数据集。(a) 平均光谱和个体光谱。两类之间的差异以绿色标注。两个模拟类别的PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1特征重要性图,强度差异10%、(b) 7%、(c) 5% 和 (d) 3%。每种方法正确识别(漏检或误识)的两类之间的差异以绿色(红色)标注。黑线表示零。(e) 两类模拟数据分类中的精确度、召回率和 F1 分数, 强度差异10% (g) 5% 和 (h) 3% 。


图3. 包含峰宽、肩峰强度和峰数差异的模拟数据集。(a)平均光谱和个体光谱。两类之间的差异以绿色标注。PSE-LR、E-LR、SVM、XGBoost 以及 PCA-LDA的 PC1 的特征重要性图,其中峰宽存在5%差异 ,(b)肩峰强度存在5% 差异 ,(c)存在三个额外峰。各方法正确识别(漏检或误识)的两类差异以绿色(红色)标注。黑线基线为零值。

图4. 含和不含10-9 M RBD 的 G-AuNPs+PBS 的拉曼光谱。(a)含和不含 RBD 的 G-AuNPs+PBS 的平均和单个拉曼光谱。(b)含和不含 RBD 的 G-AuNPs+PBS 的拉曼光谱的特征重要性图和 PC1 的特征灵敏度和真实特征比。(c)PSE-LR、 E-LR、SVM 、XGBoost以及 PCA-LDA 的 PC1的正特征重要性图。各方法正确识别(漏检或误识)的两类之间的差异用绿色(红色)表示。黑线表示零。(d)RBD 的拉曼光谱。拉曼峰用绿色表示。

图5. WS2单层和WSe2/WS2异质双层的PL谱。(a)WS2单层和WSe2/WS2异质双层的平均PL谱和单个PL谱。(b)WS2单层和WSe2/WS2异质双层PL谱的特征重要性图和主成分分析(PC1)的特征灵敏度和真实特征比。(c)PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1的特征重要性图。每种方法正确识别(漏检或误识)的两个类别之间的差异用绿色(红色)标记。黑线为零。(d)WSe2单层的PL谱。拉曼峰用绿色标记。

图6. 患有和不患有阿尔茨海默病(AD)的小鼠脑切片拉曼光谱。(a)患有和不患有 AD 的小鼠脑切片的平均和个体拉曼光谱。(b)患有和不患有 AD 的小鼠脑切片特征重要性图PC1的特征敏感度和真实特征比。(c)PSE-LR、 E-LR、SVM、XGboost以及 PCA 的PC1和PC2的特征重要性图。各方法正确识别(漏检或误识)的两类之间的差异用绿色(红色)标注。黑线表示零。

论文链接
Ziyang Wang, Jeewan C. Ranasinghe, Wenjing Wu, Dennis C. Y. Chan, Ashley Gomm, Rudolph E. Tanzi, Can Zhang, Nanyin Zhang, Genevera I. Allen, Shengxi Huang*. Machine Learning Interpretation of Optical Spectroscopy Using Peak-Sensitive Logistic Regression. ACS Nano 2025. https://doi.org/10.1021/acsnano.4c16037

【其他相关文献】

[1] Kunyan Zhang, Ziyang Wang, He Liu, Néstor Perea-López, Jeewan C. Ranasinghe, George Bepete, Allen M. Minns, Randall M. Rossi, Scott E. Lindner, Sharon X. Huang, Mauricio Terrones,* and Shengxi Huang*. Understanding the Excitation Wavelength Dependence and Thermal Stability of the SARS-CoV-2 Receptor Binding Domain Using Surface-Enhanced Raman Scattering and Machine Learning. ACS Photonics 2022, 9 (9),2963−2972.
[2] Ziyang Wang, Jiarong Ye, Kunyan Zhang, Li Ding, Tomotaroh Granzier-Nakajima, Jeewan C. Ranasinghe, Yuan Xue, Shubhang Sharma, Isabelle Biase, Mauricio Terrones, Se Hoon Choi, Chongzhao Ran, Rudolph E. Tanzi, Sharon X. Huang*, Can Zhang and Shengxi Huang*. Rapid Biomarker Screening of Alzheimer’s Disease by Interpretable Machine Learning and Graphene-Assisted Raman Spectroscopy. ACS Nano 2022, 16 (4), 6426−6436
[3] Jeewan C. Ranasinghe, Ziyang Wang and Shengxi Huang*. Raman Spectroscopy on Brain Disorders: Transition from Fundamental Research to Clinical Applications. Biosensors 2023, 13(1), 27. https://doi.org/10.3390/bios13010027

【注】:小编水平有限,若有误,请联系修改;若侵权,请联系删除!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181541
 
14 次点击