Py学习  »  机器学习算法

AJRCCM(IF=31)| 南京医科大学尹荣团队通过整合cfDNA片段组学和机器学习模型,用于早期肺癌检测

医药加学习班 • 2 年前 • 372 次点击  

医药加


细胞游离DNA (cfDNA)分析有望早期发现肺癌,有利于提高患者的生存率。然而,以往基于cfDNA的研究的检测灵敏度仍然较低,不足以满足临床应用,特别是对早期肿瘤。

2022118日,南京医科大学尹荣团队在American Journal of Respiratory and Critical Care MedicineIF=31)在线发表题为“Multi-dimensional cell-free DNA fragmentomic assay for detection of early-stage lung cancer”的研究论文,该研究通过整合cfDNA片段组学和机器学习模型,建立了一种准确和负担得起的早期肺癌检测方法。一个堆叠集成模型集成了五个cfDNA特征和五个机器学习算法构建的训练队列(癌症:113,健康:113)优于所有建立在单个特征-算法组合上的模型。

该集成模型在队列验证I(曲线下面积,AUC:0.984)灵敏度高达91.4%,特异性为95.7%;队列验证II(曲线下面积,AUC:0.987)灵敏度高达84.7%,特异性为98.6%;附加验证(AUC:0.974)灵敏度高达 92.5%,特异性为 94.2%。当测序深度为0.5×(AUC:0.966-0.971)时,模型的高性能保持一致。此外,该研究的模型对识别早期病理特征非常敏感(I期的敏感性为83.2%,对<1cm的肿瘤的敏感性为85.0%,临界值为0.66)。总之,该研究利用cfDNA片段组学特征建立了堆叠集成模型,对早期肺癌的检测具有较高的敏感性,可促进早期诊断,使更多患者受益。

早期发现有利于肺癌患者提高生存率,但大多数患者直到转移已经发生才被诊断出来。近年来,液体活检中游离DNA (cfDNA)分析技术的发展为肺癌的诊断提供了广阔的前景。然而,提高基于cfDNA的检测方法的检测性能,特别是对早期肺癌的检测,对于利用其应用至关重要。
不幸的是,只有大约 16%的患者在局部阶段被诊断。尽管放射学方法,如低剂量计算机断层扫描(LDCT)测试,可以减少20%的癌症相关死亡,但由于高假阳性率、辐射诱发的癌症风险和金钱成本,它们的使用受到限制。需要开发一种可靠的非侵入性方法,以准确和经济高效的方式检测早期肺癌。

验证队列的模型说明和诊断性能评估(图源自American Journal of Respiratory and Critical Care Medicine )

在本研究中,建立了一个用于早期非小细胞肺癌(NSCLC)稳健检测的多维堆叠集成模型。该模型综合了cfDNA5个片段组学特征和5个机器学习基础模型,利用全基因组测序数据达到了较好的检测能力。该研究证明,预测模型对检测早期NSCLC病理特征是高度敏感的。在低测序深度至0.5×的情况下,其性能的一致性特别适合于可负担的肺癌早期筛查。
原文链接:
https://www.atsjournals.org/doi/abs/10.1164/rccm.202109-2019OC


来源于【iNature】

R语言机器学习与医学研究--从入门到精通

实战训练营


【开课时间】2022.12.17-18,12.24-25号,共4天,课后安排一个晚上答疑


【课程简介】语言作为一款免费开源的统计软件,已逐渐成为医学科研工作者分析数据的首选软件,很多发表在顶级医学杂志的论文,尤其是涉及复杂统计分析方法,比如基于机器学习算法的预测模型构建、数据挖掘类型的论文首选R软件进行统计分析与数据可视化。


我们这次推出的《基于R语言机器学习与医学研究》 是之前推出的《基于R语言临床预测模型构建》的进阶版。我们邀请医学统计大咖继续从临床医生的视角讲解基于语言的机器学习算法在医学研究中的应用。


【课程特点】

1. 本课程主要针对临床医生,医学研究生与临床研究相关专业人员,所有统计分析均是基于R语言,所有案例均为医学研究相关真实案例。


2. 学习本课程应该具备一定的R语言基础知识,强烈推荐在学习本课程之前优先学习我们之前推出的课程《基于R语言临床预测模型构建》。


3.R语言与机器学习方法感兴趣的朋友。


【这门课你将收获】

包括但不局限于以下统计分析进阶方法:

1. 机器学习的基础算法:线性回归

2. Logistic回归与判别分析;

3. 线性模型中的高级特征选择技术(包括岭回归、Lasso回归、弹性网络);

4. K最近邻与支持向量机在医学研究中应用;

5. 分类回归树(包括回归树、分类树、随机森林等)在医学研究中应用;

6. 神经网络与深度学习在医学研究中应用;

7. 聚类分析在医学研究中的应用;

8. 主成分与因子分析在医学研究中应用;

9. 时间序列与因果关系。


【讲师团队】主讲老师为周老师,医学博士,目前以第一作者或通讯作者发表SCI论文40余篇。主编专业著作多部,其中临床流行病学与统计学专业著作6部。担任多本SCI 杂志或中文杂志审稿人。多次受邀讲授医学统计学与循证医学方法学课程,擅长从临床研究问题出发,以案例讲解为主,讲授临床流行病学与统计学理论,授课深入浅出,通俗易懂。

 

【适用人群】临床医生、医学研究生、医药公司临床研究相关人员

 

《基于R语言机器学习与医学研究》课程表

章节名称

每节课学习目标

课时

1机器学习的基础算法:线性回归

 

01.单变量线性回归;

60

 

02. 多变量线性回归

60

2.  Logistic回归与判别分析

01.  Logistic回归;

90

02. 判别分析

60

03. 多元自适应回归样条法

45

3线性模型中的高级特征选择技术

01. 岭回归

60

02.  Lasso回归与交叉验证LASSO回归

60

03. 弹性网络

60

4. K最近邻与支持向量机在医学研究中应用

01. K最近邻;

60

02. 支持向量机

60

5分类回归树

01. 回归树;

60

02. 分类树;

60

03. 随机森林等

60

6神经网络与深度学习

01. 神经网络;

60

02. 深度学习

60

7聚类分析

01. 聚类分析;

60

8主成分与因子分析

01. 主成分分析

60

02. 因子分析

60

9时间序列与因果关系

01. 时间序列分析

60

02. 模型构建与模型评价

60

注意:请安装最新版本RR-Studio!数据与代码指定网址下载


【会议时间】:2022.12.17-18+12.24-25,共4天,课后安排一个晚上答疑

【会议地点】:腾讯会议

【会务费用】:4600元


【报名优惠政策】

1. 训练营长期建立答疑群,每个月周老师安排一个晚上集中答疑与讨论,目的是让学员能够充分掌握并应用,及时解决学员学习中遇到的问题。

2. 参加每个训练营都赠送2次评估文章或标书的服务。

3. 报2个临床研究训练营,每个营减免200元学费,报4个训练营,每个营减免400元学费。

4. 全部5个训练营都报名的学员,打包优惠学费为2万元,并可以让周老师互动指导修改一篇文章或标书,指导学员到完成为止。


网络班学员可以获得全套课程录屏用于课后复习,如经过第一轮培训答疑后,还没有完全掌握的,可以申请免费参加本年度的第二次同名训练营培训。




报名请识别二维码添加小编微信

朱老师:18117064991



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/149951
 
372 次点击