因果深度学习用于心脏手术相关急性肾损伤的实时检测：在7个时间序列队列中的推导与验证

摘要

背景：心脏手术相关急性肾损伤（Cardiac Surgery-Associated Acute Kidney Injury, CSA-AKI）是一种复杂并发症，会显著增加患者的死亡风险。有效的CSA-AKI管理依赖于及时的诊断和干预，但目前许多病例的检测往往为时过晚。尽管新型生物标志物和数据驱动的预测模型已取得一定进展，但现有方法仍存在明显局限——鉴别能力与泛化能力不足，且应用条件严苛，这为CSA-AKI管理中及时有效的诊断和干预带来了重大挑战。本研究旨在开发一种名为REACT的因果深度学习架构，以实现对未来48小时内CSA-AKI的精准动态预测。

方法：本研究为回顾性模型开发与前瞻性验证研究，纳入了来自7个不同队列、接受大型心脏直视手术的成年患者（年龄≥18岁），用于模型的训练与验证。模型开发和内部验证的数据来源于2000年1月1日至2022年12月31日期间中国北京两家大型医疗中心的电子健康记录。外部验证则基于2000年1月1日至2022年12月31日期间中国三家独立医疗中心的数据，同时结合了美国公共数据库MIMIC-IV（医学信息库-Ⅳ）和eICU（电子重症监护室）的跨国数据。为便于实际应用，研究团队还开发了可公开访问的网络计算器和小程序。2023年6月1日至10月31日期间，在中国北京和南京的两家医疗中心对该模型的前瞻性应用效果进行了验证。

结果：最终的模型推导队列包含14513名符合条件的患者，中位年龄为56岁（四分位距45-65岁），其中女性患者5515名（占38.0%），3047名患者（占21.0%）发生了CSA-AKI。外部验证数据集包含20813名中国患者和28023名美国患者。REACT模型将1328个输入变量精简为6个预测CSA-AKI的关键因果因素。在内部验证中，该模型的受试者工作特征曲线下面积（Area Under the Receiver Operating Characteristic Curve, AUROC）平均值为0.930（标准差0.032），性能优于当前主流的深度学习架构，尤其是依赖更复杂变量的基于Transformer和长短期记忆网络（Long Short-Term Memory, LSTM）的模型。在不同中心（AUROC平均值0.920，标准差0.036）、不同地区（AUROC 0.867，标准差0.073）的外部验证，以及前瞻性验证（AUROC 0.896，标准差0.023）中，REACT模型均持续表现出更优性能。与指南推荐的诊断流程相比，在外部验证中，REACT模型检测到CSA-AKI的时间平均提前了16.35小时（标准差2.01）。

结论：本研究提出了一种因果深度学习方法，可用于预测未来48小时内的CSA-AKI风险，该方法将变量间复杂的时间交互关系提炼为少数具有普适性且成本相对较低的输入指标。这种方法对数据要求低，在各医院推广应用的潜力巨大，同时也为因果深度学习的发展以及其他疾病的早期检测提供了通用框架。

引言

全球范围内，每年有超过200万名患者因瓣膜疾病或冠心病接受心脏手术[1]。心脏手术相关急性肾损伤（Cardiac Surgery-Associated Acute Kidney Injury, CSA-AKI）会影响其中三分之一的患者，并使死亡风险增加2至8倍[2]。尽管及时干预能显著改善CSA-AKI患者的预后，但一项涵盖12家医院的观察性研究数据显示，仅有不到10%的患者接受了指南推荐的急性肾损伤（Acute Kidney Injury, AKI）预防措施[3]。这种低依从性可能源于指南中缺乏准确且可操作的干预预警信息[4]。

在临床实践中，急性肾损伤的诊断通常依赖肌酐水平。然而，在肌酐出现显著升高之前，肾脏损伤就可能已经发生。因此，对于急性肾损伤的早期诊断研究人员已提出多种统计风险评估工具[5-8]，例如克利夫兰评分（Cleveland Score）[9,10]和梅塔评分（Mehta Score）[11]。尽管这些工具在不同心脏手术队列中得到了广泛验证，且因其固有的简洁性、方法学透明度和易实施性而获得认可，但它们的预测准确性往往有限，尤其对于术后住院时间较长、临床病情变化较快的心脏手术患者[12]。其准确性受限的主要原因在于，这类工具过度简化了患者生理状态中复杂的非线性动态变化，导致许多急性肾损伤病例仅在重症阶段才被检出。因此，目前没有任何一种统计风险工具得到指南的明确推荐。

在过去十年中——尤其是2018年以来——人工智能（AI）技术（特别是深度神经网络）的进步在内科学、眼科学和放射学等领域展现出巨大潜力[13,14]。研究人员已开发出多种基于深度学习的急性肾损伤预测模型，这些模型具有技术可行性，其受试者工作特征曲线下面积（AUROC）值介于0.69至0.83之间[15-19]。然而，许多此类模型的外部泛化能力较差，这是由于模型推导过程中使用的数据与多样化临床环境中的实际数据可能存在不匹配。此外，尽管神经网络擅长从复杂数据中识别潜在关联，但它们常将相关性与因果关系混淆，引发了对模型可靠性的担忧[20]。不仅如此，现有基于神经网络的模型需要大量输入变量才能实现准确预测，这限制了它们的临床适用性。例如，托马舍夫（Tomaˇsev）及其同事[21]构建的模型使用了62万个特征（输入变量），并通过数百个变量实现了急性肾损伤的实时预测。尽管该模型性能亮眼，但它需要收集大量数据，且任何一个输入变量的缺失都可能影响其预测准确性[22]。上述特性使得人工智能虽在医疗数据分析方面具备强大能力，但从应用角度来看，却同时存在脆弱性[20-23]。

在统计学与人工智能的交叉领域，因果深度学习兼具统计工具的可解释性与简洁性，以及深度神经网络先进的预测能力，这标志着（技术方向）已从单纯的预测转向可落地的决策依据[24,25]。在此背景下，我们开发了一种名为“基于因果蒸馏的实时评估与预测模型（REACT）”的因果深度学习架构。该架构仅需少量输入变量，就能在术后任意时间点动态预测患者未来48小时内发生心脏手术相关急性肾损伤（CSA-AKI）的风险，从而为医生提供及时干预的机会。

“
研究背景

本研究之前的证据
我们于2024年6月30日在PubMed数据库进行了文献检索，未对语言和发表日期施加限制，检索主题为“基于深度学习的心脏手术相关急性肾损伤（CSA-AKI）预测模型的开发与验证”。检索时使用的关键词及相关术语如下：（“因果机器学习”“深度学习”“机器学习”“实时预测”或“人工智能”）且（“心脏手术相关”“心脏手术”“重症监护”或“危重症护理”）且（“肾损伤”“肾衰竭”“肾病”“肾功能衰竭”“肾功能损害”或“肾脏损伤”）。
我们对232项检索结果进行了系统综述，筛选出22项针对接受心脏手术的成年患者的原始研究。在这些研究中，5项采用了深度学习方法，3项实现了动态预测，但均未使用因果深度学习方法。大多数模型存在局限性，例如鉴别能力差、依赖静态条件或需要过多输入变量，这些问题限制了它们的临床适用性。质量评估显示，这些研究存在较高的偏倚风险或偏倚风险不明确。
多数研究的样本量在500至5000例之间，且缺乏充分的验证，仅3项研究开展了外部验证。在这3项研究中，1项聚焦于急性主动脉综合征患者中的心脏手术亚组，且仅预测重度急性肾损伤（AKI），在包含319例患者的外部验证中，其受试者工作特征曲线下面积（AUROC）为0.81；另1项同样仅预测重度AKI，虽使用了公开可用数据集，但需要输入52个变量，由于对数据输入要求过高，在资源有限的医疗系统中难以实际应用；第3项研究对4912例患者的中重度AKI进行了预测，但该模型基于静态条件构建，无法适应患者病情的动态变化。
我们的文献检索结果表明，目前在“基于大型多中心数据集验证、可预测全阶段AKI的高性能、可靠且实用的人工智能模型”领域存在显著空白，而AKI的实时预测仍是证据最充分的研究方向。
本研究的新增价值
“基于因果蒸馏的实时评估与预测模型”（REACT）是一种新型时序因果深度学习架构，旨在预测患者未来48小时内发生心脏手术相关急性肾损伤（CSA-AKI）的风险。
该模型的开发与验证基于目前规模最大的心脏手术患者时序数据库——该数据库涵盖来自5家独立医院和2个常用公共数据集的63349例患者，包含超过215亿条数据记录。REACT将变量间复杂的时序动态关系提炼为6个关键因果输入变量，在12项子任务中，其平均受试者工作特征曲线下面积（AUROC）达到0.930（标准差0.032），性能优于依赖更多复杂变量的其他模型。

在内部验证中，REACT能有效预测97%（685/706）的CSA-AKI事件，且相比指南推荐的诊断流程，平均提前14.65小时（标准差3.17）检测到CSA-AKI。我们还在2家中心的754例患者中对该方法进行了前瞻性验证，并通过用户友好的网站和小程序向公众开放了REACT的使用权限。
现有所有证据的意义
凭借创新的因果深度学习框架以及大型多样化数据集，我们的模型在内部验证队列和外部验证队列中均展现出优异性能。REACT是一款床旁评估工具，应用时仅需极少输入变量，可轻松整合到常规临床实践中——其将计算密集型操作和复杂变量输入过程转移至模型训练阶段，从而提升了模型的泛化能力。
该工具有望为心脏手术的围手术期管理和临床决策提供支持，满足心脏直视手术后患者对个性化护理的现有需求。

方法

研究设计与研究对象

本研究为回顾性模型开发与前瞻性验证研究，我们收集了来自不同中心的7个队列数据，并在其中2个中心的后续时间段数据中开展了前瞻性试验。

纳入标准为：年龄≥18岁且于2000年之前入院的患者；接受大型心脏直视手术的患者（包括冠状动脉旁路移植术、瓣膜置换或修复术、瓣膜与血管联合手术、主动脉手术、心包切除术及其他大型心脏手术）。

排除标准为：接受长期透析治疗且术前需透析的患者；术前首次检查即确诊为3期急性肾损伤（AKI，即重度AKI）的患者；无基线（术前）血清肌酐检测值或术后血清肌酐检测值的患者；无手术时间记录的患者。数据预处理的详细信息见图1及附录（第1-2页）。

队列来源

模型开发与内部验证：连续纳入2000年1月1日至2022年12月31日期间，中国北京中国人民解放军总医院第一医学中心和第三医学中心的符合条件患者。
外部验证：连续纳入2000年1月1日至2022年12月31日期间，中国3家独立中心（中国人民解放军总医院第六医学中心、第七医学中心及南京鼓楼医院）的患者。这些数据均提取自电子医疗系统，涵盖人口统计学特征、编码诊断、实验室检查值及治疗细节等全面信息。
跨国验证：为验证模型在不同种族人群中的适用性，我们使用美国MIMIC-IV数据库[26]和eICU数据库[27]的数据进行了外部验证。
前瞻性应用验证：我们为REACT模型开发了基于网络的平台及小程序，并于2023年6月至10月期间，在中国人民解放军总医院第一医学中心和南京鼓楼医院的心脏手术患者中开展了工具部署与测试。

数据与变量

分析纳入了患者整个住院期间（即术前和术后）的数据。输入变量包括静态变量（如人口统计学特征、合并症）和动态变量（如心率、实验室检查，这类变量会随时间发生显著变化）。实验室检查均在临床确定的时间点进行，为实现实时预测，对所有输入变量进行了时间对齐处理。

模型仅纳入至少50%患者均有记录的变量。为保证数据与真实观察结果的一致性，我们未采用任何数据插补方法。数据缺失本身可能蕴含信息：例如，某些实验室检查未开展，可能是因为主治临床医生判断患者病情无需该项检查，而检查是否开展可反映病情严重程度。因此，我们的模型通过“缺失指标”保留了这一信息（见图2及附录第1-2页）。

研究结局

主要结局：预测重度（3期）心脏手术相关急性肾损伤（CSA-AKI）发生前6-48小时的风险。
次要结局：预测任何分期AKI（1期、2期或3期）的发生风险，以及中重度AKI（2期或3期）的发生风险。

CSA-AKI的定义参照改良版《肾脏病：改善全球预后》（KDIGO）标准[28]，该标准以血清肌酐变化趋势为核心指标，同时结合临床医生根据各中心使用的编码系统（ICD-9或ICD-10）作出的AKI诊断进行补充界定。以术前最新一次血清肌酐检测值作为基线值。

本研究共设定12个预测目标，聚焦于3类CSA-AKI（任何分期AKI、中重度AKI、重度AKI）在未来6小时、12小时、24小时及48小时的发生风险预测。

图1：研究流程图

该流程图展示了模型推导、内部验证、多中心外部验证及前瞻性验证的患者筛选过程。

（A）推导与内部验证
（B）外部与前瞻性验证此外，还使用公开可用的国际数据集（MIMIC-IV数据库和eICU数据库）开展了额外的外部验证。注：AKI=急性肾损伤（acute kidney injury）

本研究的回顾性分析已获得中国人民解放军总医院伦理审查委员会（审批号：S2021-305-01）和南京鼓楼医院伦理审查委员会（审批号：S2020-281-01）的批准，且豁免知情同意。该模型相关网站及决策支持系统的前瞻性应用阶段，已获得伦理委员会批准（审批号：S2022-281-01、S2021-305-01），所有前瞻性研究的受试者均已签署书面知情同意书。本研究在报告预测模型时，遵循了《透明报告多变量预测模型个体预后或诊断指南》（TRIPOD指南）以及《促进健康公平的机器学习公平性保障清单》（相关细节参见附录第14-17页）。

如果您对真实世界研究/因果推断/生信分析/影像组学/人工智能算法感兴趣可以通过下方的微信加我的交流群

欢迎关注我的视频号-定期直播免费文献分享会

我的小红书

我的抖音平台

25年Lancet Digit Health因果深度学习文章-1

因果深度学习用于心脏手术相关急性肾损伤的实时检测：在7个时间序列队列中的推导与验证

摘要

引言

研究背景

本研究之前的证据

本研究的新增价值

现有所有证据的意义

方法

研究设计与研究对象

队列来源

数据与变量

研究结局

如果您对真实世界研究/因果推断/生信分析/影像组学/人工智能算法感兴趣可以通过下方的微信加我的交流群

欢迎关注我的视频号-定期直播免费文献分享会

我的小红书

我的抖音平台

欢迎关注我的B站账号-公开课及文献分享视频会更新至此

25年Lancet Digit Health因果深度学习文章-1

因果深度学习用于心脏手术相关急性肾损伤的实时检测：在7个时间序列队列中的推导与验证

摘要

引言

研究背景

本研究之前的证据

本研究的新增价值

现有所有证据的意义

方法

研究设计与研究对象 (adsbygoogle = window.adsbygoogle || []).push({});

队列来源

(adsbygoogle = window.adsbygoogle || []).push({}); 数据与变量

研究结局

如果您对真实世界研究/因果推断/生信分析/影像组学/人工智能算法感兴趣可以通过下方的微信加我的交流群

欢迎关注我的视频号-定期直播免费文献分享会

我的小红书

(adsbygoogle = window.adsbygoogle || []).push({}); 我的抖音平台

欢迎关注我的B站账号-公开课及文献分享视频会更新至此

研究设计与研究对象

数据与变量

我的抖音平台