利用chatgpt发10分文章案例分享，拿走不谢

好久不见各位读者，我是阔别已久的小编dingr，经过上一年的沉淀对计算和生命科学的研究有了更多自己的见解，今天我和大家聊聊目前生命科学与计算领域最前沿的方向，小编本人在硕士期间主要从事的生物信息学和计算辅助药物设计，这些方向是和医学临床密切相关的，同时大家都明白，生物信息学这个领域想要发高分文章无非就是把关注点放在两个内容，即算法的创新和临床数据的获取；前者对计算科学的掌握和应用要求很高，后者是对经费和样本的要求很高，这个推文我从第一个领域给大家介绍一下大语言模型在生物学数据和临床数据上的应用，chatgpt4的应用逐渐广泛，调用api进行模型的训练相比传统的方法，无论从模型效果还是计算效率都有了里程碑式的改进。

大语言模型的发展史可以追溯到上世纪50年代。早期的语言模型主要是基于统计方法的，如N-gram模型，这种模型使用n个词语的排列作为输入，在统计出现频率的基础上计算概率。这种方法相对简单，但有其局限性。到了70年代，Hinton等人提出了隐马尔可夫模型（Hidden Markov Model, HMM），这种模型被广泛应用于语音识别和语言处理任务中。80年代则出现了基于规则的语法模型，如上下文无关文法（Context-Free Grammar）等。这些模型尝试通过定义语言的规则来理解和处理自然语言。到了90年代，特征空间模型开始应用于分布式语言理解中，许多模型用连续型的表征来表示词语，包括潜在语义分析（Latent Semantic Analysis）和潜在狄利克雷分配（Latent Dirichlet Allocation）模型。这些模型的出现，使得词向量（word embeddings）开始被广泛应用于自然语言处理任务中。词向量可以计算词语的语义关系，使得语义相似的词语在向量空间中的位置更接近。

进入21世纪后，随着深度学习技术的发展，大语言模型开始取得了显著的进步。深度神经网络被广泛应用于语言模型中，使得模型的性能得到了极大的提升。尤其是近年来，随着Transformer架构的出现，大语言模型的发展进入了一个新的阶段。Transformer架构具有强大的序列建模能力，可以处理长距离依赖关系，并且具有并行计算的优势，大大提高了模型的训练效率。在这个阶段，像GPT、BERT等预训练语言模型的出现，更是推动了大语言模型的发展。这些模型通过在海量的文本数据上进行预训练，学习到了丰富的语言知识和语义信息，可以应用于各种自然语言处理任务中，并且取得了很好的效果。

图1 gpt的发展过程

总的来说，大语言模型的发展史是一个不断探索和进步的过程，从早期的统计语言模型到基于规则的语法模型，再到现在的深度神经网络模型和预训练语言模型，每一个阶段都为我们更好地理解和处理自然语言提供了有力的工具和方法。

Transformer架构的语言模型在生物医学领域的应用：

近年来，基于Transformer架构的语言模型在生物医学领域的应用，特别是大语言模型（Large language model，一种大型、开放的基础语言模型）及其在医疗任务（如诊断相关组预测）中的性能。以下是关键点的总结：

1.Transformer模型在生物医学NLP中的应用：基于Transformer的语言模型，无论是预训练还是使用生物医学语料库进行微调，在生物医学领域的多个NLP基准测试中均表现出色。

2.大语言模型与其他模型的比较：大语言模型因其庞大的规模和跨学科的预训练文本而脱颖而出。与基于BERT的模型相比，大语言模型在理解和推理临床知识方面表现出显著的能力。

3.GPT-4在医学考试中的表现：GPT-4在未经过域特定微调或专门提示设计的情况下，超过了美国医学执照考试（USMLE）的及格分数20多分，创下了新的记录。这表明一旦适应医学领域，大语言模型可能在各种NLP任务中表现出色。

4.大语言模型的微调和应用：有多个团队致力于微调大语言模型以适应医疗场景，如ChatDoctor、HuaTuo和PMC-大语言模型等，这些模型专注于医疗问答，并取得了鼓舞人心的结果。

5.诊断相关组预测任务：本研究展示了微调后的大语言模型在诊断相关组预测文本分类任务中的优越性能。与之前的模型（如ClinicalBERT和CAML）相比，诊断相关组Table 大语言模型表现更佳，且训练时间更短。

6.输入数据选择的影响：研究发现，与先前的研究相比，使用出院摘要作为输入数据源可能提高了模型性能。出院摘要包含了住院期间的关键事件、诊断和治疗信息。此外，为了适应大语言模型的输入令牌限制，研究专注于摘要的“简要医院过程”部分。

7.数据一致性处理：为了提高数据一致性，研究还开发了一种算法，以解决不同年份间诊断相关组命名和分配的差异。

随着今年来医疗大数据的发展，很多临床医疗数据与机器学习的结合，帮助医院能够快速的对疾病进行判断，而基于Transformer架构的语言模型在生物医学领域的应用，特别是大语言模型及其在医疗任务中的性能有待挖掘。

今天带来的这篇文章是伊利诺伊大学厄巴纳-香槟分校计算机科学系和卡尔伊利诺伊医学院为第一单位，通讯作者Jimeng Sun他的研究重点是医疗保健领域的人工智能，包括用于药物发现的深度学习、临床试验优化、计算表型、临床预测建模、治疗建议和健康监测。他被Deep Knowledge Analytics评为药物发现和先进医疗保健领域的前100名人工智能领袖之一。他已发表超过300篇论文，引用次数超过25000次，h指数为80，i10指数为231。他与主要医院（如MGH、Sutter Health、范德堡大学、西北大学、Geisinger和Emory）以及IQVIA和多家制药公司合作进行健康数据科学研究，并获得了NSF和NIH的资助。

这篇发表在《npj Digital Medicine》上的文章将MIMIC数据库就是一个可为临床研究者提供临床数据的利器。该数据库于2003年在美国国立卫生研究院的资助下，由美国麻省理工学院计算生理学实验室、美国哈佛医学院贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center，BIDMC)和飞利浦医疗公司共同建立。

研究者可根据一定的纳排标准筛选感兴趣患者的临床信息，利用这些信息可进行后续的数据分析然后撰写文章，通过数据收集与分析可作为发表sci论文的重要依据。另外，MIMIC是一个公开数据库，所有患者的信息都经过脱敏处理，发文不需要临床伦理审查。MIMIC Ⅲ数据库收集了BIDMC 2001年6月至2012年10月ICU收治的53423例成年患者数据和2001年至2008年收治的7870例新生儿重症患者数据。MIMIC Ⅳ数据库在MIMIC Ⅲ的基础上做了一些改进，包括数据更新和部分表格重构，收集了 2008至2019年BIDMC收治的超过19万名患者、45万次住院记录的临床数据。数据库记录了患者的人口统计学信息、实验室检查、用药情况、生命体征、手术操作、疾病诊断、药物管理、随访生存状态等详细信息。

大型语言模型进军医疗领域，推出诊断相关组-大语言模型助力医院精准预测。近年来，大型语言模型如GPT和Instruct GPT在自然语言处理领域大放异彩。现在，它们正尝试进军医疗领域，尽管尚处于起步阶段，但已展现出巨大潜力。最近的研究中，OpenAI的GPT、Google的Med-PaLM等模型在临床医学项目和图像分类中表现抢眼。然而，医疗领域对安全性和隐私要求极高，因此需要对大语言模型的性能和局限性进行深入分析，以应对潜在风险。在此背景下，诊断相关组（诊断相关组）预测系统应运而生。

自1983年医疗保险制度诞生以来，诊断相关组一直是美国住院病人支付系统的基础。每个诊断相关组代码都对应一组特定的病人属性，包括主要诊断、次要诊断等。传统上，诊断相关组分配由编码专家手动完成，非常耗时耗力。但准确的诊断相关组预测对于医院资源规划和分配至关重要。与ICD自动编码相比，诊断相关组预测任务更具挑战性，因为它涉及多类分类和复杂的代码结构。近年来，基于深度学习的NLP模型在诊断相关组预测方面取得了显著进展。现在，我们推出了诊断相关组-大语言模型系统，利用大型语言模型的强大能力，直接从临床记录中预测诊断相关组。在研究中，我们采用了两种预测方法：单标签分类和双标签分类。结果显示，诊断相关组-大语言模型在诊断相关组预测方面表现出色，优于之前的领先模型。这一创新不仅提高了医院的工作效率，还为医疗领域的自然语言处理应用开辟了新道路。

数据来源：

数据量:

使用公开可用的MIMIC-IV数据集进行了一项研究，该数据集包括来自马萨诸塞州波士顿贝斯以色列女执事医疗中心ICU或急诊科收治的299712名患者的431231例独特住院病例。

数据年限：

该数据集涵盖2008年至2019年。作者使用正则表达式从出院摘要中提取“简短的住院过程”部分作为输入文本。然后，过滤了低质量的出院摘要，通过重复内容或包含少于40个单词来识别。

重点是医疗保险严重程度诊断相关分组的住院情况。将所有医疗保险严重程度诊断相关分组代码整合到2016年发布的34.0版本。该版本共包含757个诊断相关分组代码，其中738个在作者的数据集中表示。作者将90%的数据分配给训练集，剩余的10%分配给测试集，通过诊断相关分组代码分层。

数据筛选：

为了解决不同版本的医疗保险严重程度诊断相关分组在MIMIC-IV数据集中的差异，作者设计了一个基于临床知识的算法，将不同时间点的医疗保险严重程度诊断相关分组代码统一为医疗保险严重程度诊断相关分组版本34.08。这个过程包括五个步骤：

1.对诊断相关分组中的缩写和首字母大写进行标准化处理，例如将“W/O”替换为“WITHOUT”，“CATH”替换为“CATHETERIZATION”，“PROC”替换为“PROCEDURES”。

2.使用模糊字符串匹配算法（TheFuzz）查找与MS-诊断相关分组 v.34代码不匹配的诊断相关分组。

3.由一名内科医生手动审查所有来自第2步的诊断相关分组代码，如果适用，将这些代码分配给最合适的医疗保险严重程度诊断相关分组 v.34.0代码。随后，一名专门从事住院临床文档完整性（CDI）的领域专家评估了转换表，并独立验证了代码分配的准确性。

4.值得注意的是，经过上述步骤后，仍有一些历史诊断相关分组没有适当的医疗保险严重程度诊断相关分组v.34代码分配。例如，“URINARY STONES W MCC”和“NASAL TRAUMA AND DEFORMITY WITH CC”。这些住院治疗被排除在队列之外。

5.最后，我们过滤掉了在队列中发生次数少于2次的罕见3诊断相关分组。

模型训练：

作者通过使用出院摘要和诊断相关分组代码，在分类任务的上下文中对大语言模型进行了微调。方法包括两种独特的策略（如图2所示）。

1.单标签方法：

模型生成一个单标签多类预测，为每个诊断相关分组代码生成一个预测的原始logit分数。
使用交叉熵损失作为损失函数。

2.双标签方法：

模型首先预测基础诊断相关分组和并发症/共病状态作为两个独立的分类任务。
应用映射规则来导出诊断相关分组代码。
损失函数由基础诊断相关分组的交叉熵损失和并发症/共病状态的交叉熵损失的一半组成。
输出logit维度设置为340+5，前340个维度用于^y基础诊断相关分组，后5个维度用于^y并发症/共病。
在推理时，我们取基础诊断相关分组和并发症/共病状态预测作为各自logits的最大值。

图2 模型训练过程

训练效果：

作为单标签分类任务的诊断相关分组预测，以及不同模型和输入参数对其性能的影响。具体来说，文中比较了诊断相关分组-大语言模型(诊断相关分组-大语言模型)、ClinicalBERT和CAML三种模型在诊断相关分组预测任务上的表现，发现诊断相关分组-大语言模型在各项评估指标上都优于其他两种模型。同时，文中还探讨了模型大小和输入上下文长度对诊断相关分组-大语言模型性能的影响，发现随着模型大小和输入上下文长度的增加，所有评估指标都有所改进。

在双标签方法中，如何将每个诊断相关分组分解为基础诊断相关分组标签和并发症/共病状态标签，并利用诊断相关分组-大语言模型模型进行预测。首先，文中提到了医疗保险严重程度-诊断相关分组 v34.0定义手册中的组成，并根据该手册将每个诊断相关分组分解为两个不同的组件。接着，文中列举了五个归因于并发症/共病状态的不同标签，并给出了诊断相关分组代码53的示例。然后，文中描述了如何将738个诊断相关分组代码转换为340个基础诊断相关分组标签，每个标签与五个并发症/共病状态标签中的一个配对。

在双标签方法中，使用诊断相关分组-大语言模型 -7B和最大输入令牌大小为512的结果如表3所示。基础诊断相关分组和并发症/共病状态的顶级-1预测准确率分别为67.8%和67.5%。这表明，在不考虑并发症/共病状态的情况下预测主要诊断或程序是一个相对容易的任务。通过整合一个旨在通过结合基础诊断相关分组和并发症/共病状态标签来推断诊断相关分组的映射规则，所有诊断相关分组的准确率达到51.5%。

值得注意的是，这与使用相同基础模型的单一标签方法所获得的52.0%的准确率相当，表明大语言模型能够通过任何分类设置实现一流的性能。

表三诊断相关分组-大语言模型 -7B和最大输入令牌大小为512的结果

模型训练中遇到的问题：

如上所述，训练案例数量和预测性能之间存在相关性。具有超过80%的top-5预测准确率的诊断相关分组与每个标签的中位数训练案例数为309。相比之下，top-5准确率低于20%的诊断相关分组每个标签的中位数训练案例数仅为17（如图2b所示）。然而，其他因素，如诊断相关分组的类型，也会影响预测性能。例如，在top-1预测准确率为100%的诊断相关分组中，有8个是手术诊断相关分组，它们具有独特的医院过程，使模型更容易理解。从模型在top-10结果中给出错误预测的子集中随机选择了10个样本，进行手动误差分析。

总的来说，识别到的错误可以分为以下几类：错误的并发症/共病状态（1/10），用于诊断相关分组预测所需的信息不正确（1/10），选择正确的基准诊断相关分组困难（3/10），临床概念提取不足（4/10）以及一个合理的错误诊断相关分组标签的孤立案例（1/10）。某些错误，如临床概念提取不足，表明模型的弱点。其他错误，如选择基准诊断相关分组的困难，可能源于诊断相关分组分配规则的复杂性。此外，无法获得诊断相关分组预测所需正确信息的错误突显了仅依靠出院摘要进行诊断相关分组预测的局限性。

总结：

诊断相关分组-大语言模型是一个调整大语言模型以预测住院患者诊断相关组的项目。该项目旨在优化大语言模型，使其更好地适用于预测住院患者的诊断相关分组。诊断相关分组是一种用于分类和预测医院患者费用的系统，根据患者的诊断和手术类型等因素进行分组。

诊断相关分组-大语言模型的目标是提高大语言模型在预测住院患者诊断相关组方面的准确性和可靠性。通过调整大语言模型的参数和结构，可以使其更好地适应预测住院患者诊断相关组的需求。这涉及对模型进行训练和优化，以使其能够更好地理解患者病情和医疗数据的复杂性。

通过改进大语言模型，诊断相关分组-大语言模型项目有望提高医院对患者管理和费用预测的准确性。这将有助于医院更好地了解患者的需求和预期费用，从而更好地规划和管理医疗资源。此外，诊断相关分组-大语言模型的研究成果还可以为其他医疗领域提供有价值的信息和经验，以促进医疗数据分析和人工智能在医疗保健领域的应用。

小编在此给大家提出些自己的见解关于大语言模型在医学领域的应用，也欢迎大家找我合作哦~

1.医学记录和病历生成：通过分析医生和病人的对话和聊天记录，LLM可以生成完整的医学记录，帮助医生记录患者疾病的全过程。这种应用有助于标准化医疗记录，提高医疗服务的效率。

2.医学教育和培训：LLM可以为医学生和医生提供辅助学习工具。例如，在美国执业医师考试中，LLM表现优秀，有潜力作为医学生的辅助学习工具，回答学生问题。

3.医学研究和文献检索：LLM可以用于检索与特定主题相关的文献，生成摘要，提供实验设计和统计方法的选择建议等。此外，LLM还可以在草拟研究报告时提供文本生成支持。

4.医学诊断和决策支持：虽然LLM不能直接给出诊断结论，但可以通过收集足够的信息并做出符合医学的决策，以“治愈”为目的进行人机交互。例如，通过RLHF（Reinforcement Learning from Human Feedback）监督微调，提升模型的疾病特征判断与模式识别能力。此外，建立基于专家评议的AI诊疗准确性与真实世界医⽣对标测试机制，不断将AI与真实诊疗场景对齐，以实现准确诊断。

参考文献：Wang, H., Gao, C., Dantona, C. et al. DRG-LLaMA : tuning LLaMA model to predict diagnosis-related group for hospitalized patients. npj Digit. Med. 7, 16 (2024). https://doi.org/10.1038/s41746-023-00989-3

往期热点 （点击标题跳转）

肿瘤免疫逃逸新机制

孟德尔随机化

生信+实验结合

单细胞空间转录组

肿瘤相关巨噬细胞（TAM）

细胞死亡

耐药

更多精彩生信知识和技术分享

欢迎添加微信

文章转载请联系 | 15510012760（微信）