Py学习  »  机器学习算法

莱斯大学黄声希教授团队ACS Nano: 基于峰值敏感逻辑回归的光谱机器学习解析

低维 昂维 • 3 月前 • 94 次点击  
点击蓝字
 
关注我们
为了方便各位同学交流学习,解决讨论问题,我们建立了一些微信群,作为互助交流的平台。
加微信交流群方式:
1.添加编辑微信:13162018291;
2.告知:姓名-课题组-研究方向,由编辑审核后邀请至对应交流群(生长,物性,器件);
欢迎投稿欢迎课题组投递中文宣传稿,免费宣传成果,发布招聘广告,具体联系人:13162018291(微信同号)          

 

【研究背景】

光学光谱分析是一种非侵入性、免标记的分子传感技术。该技术通过捕获分子与光子间的相互作用,生成分析物的独特特征谱。由于信号中包含大量特征信息,该方法具备高度多重性和特异性优势。鉴于光学光谱能全面揭示分析物的组分与特性,其已广泛应用于纳米材料性质分析、分子鉴定、生物样本检测及纳米器件设计等领域。尽管具有信息丰富、精确可靠和多场景适用等特点,光谱分析仍面临高维数据兼容性与微弱信号敏感性带来的解析挑战。现有研究多采用目视比对、类别间平均光谱相减等基础方法,部分工作通过主成分分析(Principal component analysis, PCA)进行降维和峰提取,但在处理细微光谱差异时仍需更高可靠性的定量分析手段。

近期研究表明,机器学习在光谱分析领域展现出广泛应用前景,涵盖二维材料精细特征表征、混合矿物预测及阿尔茨海默病(Alzheimer’s disease, AD)诊断等方面。机器学习算法从海量光谱数据中学习特征模式,能有效识别分析物间的细微差异,并展现卓越的分类准确性。然而其仍存在光谱数据优化与高特征噪声管理等挑战,这些问题可能掩盖分析物间的微小差异,导致表征失准并影响分类性能。此外,增强模型可解释性至关重要,可靠地揭示分类关键光谱信号,可为探索纳米材料特性、验证分子差异及寻找疾病标志物提供重要依据,同时为设计基于纳米材料特性的新型传感器和小型化光谱仪提供关键指导。    

在生物传感领域,机器学习辅助的光学光谱技术为光谱数据分析提供了无损、高通量解决方案,能快速精准识别光谱差异。该方法可广泛适用于质谱在内的多种光谱技术,有效解析光谱变异并追溯其分子或结构起源。拉曼光谱等免标记技术更无需额外标记步骤即可实现生物分子检测。虽然免疫分析和PCR仍是生物标志物检测金标准,但其需标记处理、前序步骤繁琐且仅限特定靶标。通过改进光谱分析,机器学习辅助技术既能促进生物样本表征,又能确保所发现标志物可通过传统方法验证。深度学习的最新进展显著提升了光谱分类与解析能力,但多数模型需大数据量支持、超参数调优复杂,且特征解释性不足。为充分发挥光学光谱解析分析物的潜力,亟需开发兼容高维数据、对微弱信号敏感、具备可靠解释性的定量分类模型。          

 

【成果介绍】

鉴于此,莱斯大学黄声希教授团队发表了题为“Machine Learning Interpretation of Optical Spectroscopy Using Peak-Sensitive Logistic Regression”的论文在ACS Nano期刊上。该工作开发了专为光谱分析优化的机器学习算法:峰敏感弹性网络逻辑回归(Peak-sensitive elastic-net regularization, PSE-LR),通过生成峰信息特征重要性图谱,实现高维兼容性、微弱信号敏感性和优异解释性的光谱分类。工作流程包含三部分:首先模拟或实验测定不同分析物的光谱;随后训练PSE-LR模型进行光谱分类;最终提取峰敏感特征重要性图谱以揭示分类依据及样本组分差异。通过与其他代表性方法(弹性网络逻辑回归、支持向量机、PCA-LDA、XGBoost、K近邻及神经网络)的系统对比,PSE-LR以平均F1分数0.93的分类性能(优于其他方法)和最具信息量的特征图谱(平均特征敏感度1.0)脱颖而出。该图谱能检测复杂光谱中多重、微弱且极窄的特征峰,并揭示其与分类预测的关联性。为验证PSE-LR的实际应用价值,该工作将其用于:光致发光光谱识别WS2单层与WSe2/WS2异质双层;拉曼光谱检测超低浓度SARS-CoV-2刺突蛋白RBD结构域、鉴定脑样本中的神经保护溶液(Neuroprotective solution, NPS)、分析AD模型与健康对照的脑切片。通过特征图谱关联生物分子,发现了AD的潜在标志物。在纳米材料、复杂生物样本(病毒/细菌/细胞)表征及先进纳米器件设计方面,PSE-LR在特征峰识别与信息解析方面均优于现有算法。该方法还可无缝扩展至核磁共振、质谱及电子自旋共振等其他光谱技术。              

 

【图文导读】

图1. 总体工作流程。基于峰敏感PSE-LR模型的光谱测量、分类及特征重要性解析全流程。

图2.峰值强度存在差异的模拟数据集。平均光谱和个体光谱。两个类别之间的差异用绿色标记。两个模拟类别的PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1特征重要性图,强度差异分别为(a)10%、(b)7%、(c)5%和(d)3%。每种方法正确识别(漏检或错误识别)的两个类别之间的差异用绿色(红色)标记。黑线为零。两个模拟类别分类的精确度、召回率和F1分数,强度差异分别为(e)10%、(f)7%、(g)5%和(h)3%。          

 

    

图3. 具有峰宽、肩峰强度和峰数量差异的模拟数据集。(a)平均光谱与个体光谱。两类之间的差异用绿色标出。PSE-LR、E-LR、SVM、XGBoost和PCA-LDA的PC1对两个模拟类别的特征重要性图谱,其中峰宽存在5%差异,(b)肩峰强度存在5%差异,(c)存在三个额外峰。各方法正确识别(漏检或误识别)的两类差异用绿色(红色)标注。黑色基线为零值。          

 

    

图4. 带有和未带有10-9 M RBD的G-AuNPs+PBS的拉曼光谱。(a)带有和未带有RBD的G-AuNPs+PBS的平均和个别拉曼光谱。(b)带有和未带有RBD的G-AuNPs+PBS的拉曼光谱的特征重要性图和PC1的特征灵敏度和真实特征比。(c)PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1的正特征重要性图。每种方法正确识别(遗漏或错误识别)的两个类之间的差异用绿色(红色)标记。黑线为零。(d)RBD的拉曼光谱。拉曼峰以绿色标记。

图5. WS2单层和WSe2/WS2异质双层的PL光谱。(a)WS2单层和WSe2/WS2异质双层的平均PL光谱和单个PL光谱。(b)WS2单层和WSe2/WS2异质双层PL光谱的特征重要性图和主成分分析(PC1)的特征灵敏度和真实特征比。(c)PSE-LR、E-LR、SVM、XGBoost以及PCA-LDA的PC1的特征重要性图。每种方法正确识别(漏识别或错误识别)的两个类别之间的差异用绿色(红色)标记。黑线为零。(d)WSe2单层的PL光谱。拉曼峰用绿色标记。

图6. 患有和未患有AD的小鼠脑切片的拉曼光谱。(a)患有和未患有AD的小鼠脑切片的平均拉曼光谱和个体拉曼光谱。(b)在患有和未患有AD的小鼠脑切片上测量的特征重要性图和PC1的特征灵敏度和真实特征比。(c)PSE-LR、E-LR、SVM、XGboost以及PCA的PC1和PC2的特征重要性图。每种方法正确识别(漏检或错误识别)的两个类别之间的差异用绿色(红色)标记。黑线表示零。          

 

【总结展望】

总之,本工作开发了PSE-LR:一种专门针对光谱分类与解析设计的机器学习方法。通过模拟光谱和实验测量光谱的全面对比分析,将PSE-LR与多种机器学习方法进行了系统比较。模拟数据集涵盖了光谱分类中六种典型场景:强度差异、峰宽差异、肩峰强度差异、峰数量差异、非对称峰及耦合峰差异。实验数据包括超低浓度RBD检测、新型精神活性物质(NPS)鉴定、WS2单层与WSe2/WS2 异质双层识别,以及阿尔茨海默病潜在生物标志物的探索性研究。PSE-LR在识别光谱细微差异和提供可靠解析方面的卓越性能,超越了现有光谱分析工具。PSE-LR与光谱技术的结合,为纳米材料、分子机器、生物化学和药物研究带来了突破性发现,推动着高精度纳米传感器、纳米材料微型光谱仪等先进器件的发展。该方法可扩展至核磁共振(NMR)、质谱(MS)和电子顺磁共振(ESR)等多种光谱技术领域。

【文献信息】

Ziyang Wang, Jeewan C. Ranasinghe, Wenjing Wu, Dennis C. Y. Chan, Ashley Gomm, Rudolph E. Tanzi, Can Zhang, Nanyin Zhang, Genevera I. Allen, Shengxi Huang. Machine Learning Interpretation of Optical Spectroscopy Using Peak-Sensitive Logistic Regression. ACS Nano 2025.

文献链接:https://doi.org/10.1021/acsnano.4c16037


,以及各种测试分析,

h -BN


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181308
 
94 次点击