EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories摘要本研究提出EHRWorld一个基于真实电子健康记录的患者中心医疗世界模型能够准确模拟疾病进展和治疗结果的长期演化过程。阅读原文或https://t.zsxq.com/K2HQ0获取原文pdf引言医疗AI的新范式在追求通用人工智能的道路上世界模型World Models作为一种关键范式正在崭露头角。世界模型通过构建环境的全面内部表征能够根据先前的行动模拟未来状态从而支持在实际执行之前进行想象性规划 。这种推理能力对于在复杂且不断演变的环境中进行有效的自主决策至关重要但在医疗等高风险现实领域中实现这一目标仍然充满挑战 。医疗实践是一个极具吸引力的世界模型应用场景。临床实践涉及高度复杂的系统其中从生理测量、影像学检查到实验室检测和临床叙述等异构信号随时间相互作用。临床决策——如药物选择、剂量和时机——可以改变患者未来的生理状态 。因此临床医生必须常规性地进行反事实推理隐式地思考在不同治疗方案下结果会如何变化。准确建模各种治疗策略下的长期患者状态转换对于有效和个性化护理至关重要 。现有LLM面临的挑战近年来大型语言模型LLMs在医疗AI领域取得了显著进展在临床报告生成、诊断推理和医学问答等多个任务上表现出色 。这些成功引发了一个自然的问题经过海量医学教科书、文献和临床病例报告训练的LLMs能否作为世界模型来模拟临床指标和治疗结果的时间演化然而研究表明虽然这些模型能够准确复制单个时间点的临床观察但当模拟超出静态信息范围时它们就会遇到困难。更重要的是当干预事件发生时它们难以在内部维持一致的患者状态。这些现象导致多步交互中的错误累积反映出缺乏跟踪潜在生理状态的显式机制 。如图1所示标准的基于LLM的模拟器无法推断隐式生理状态或在医疗干预后正确更新患者状态而提出的EHRWorld模型则保持了逻辑一致性和鲁棒性。氯化物水平在八轮模拟中的相对误差轨迹表明EHRWorld模型显著限制了错误传播速度与GPT-5.2相比展现出更大的性能优势 。EHRWorld-110K大规模纵向临床数据集为了解决上述局限性研究团队建立了一个强大的数据基础策划了大规模临床数据集EHRWorld-110K该数据集源自真实世界的电子健康记录EHRs 。数据构建流程数据构建管道包含三个主要阶段 从非结构化临床笔记中提取患者静态档案使用LLMs如Qwen3-235B-A22B-Instruct处理非结构化出院摘要提取患者层面的静态信息包括结构化的人口统计属性如年龄和性别以及分层诊断集涵盖主要和次要诊断 。组织时间顺序的事件序列从带有时间戳的事件日志中提取原始临床事件组织成涵盖整个住院期间的事件序列。每个事件根据其临床作用和是否产生可观察值进行分类 询问事件Inquiry Events对应于对患者状态的被动观察如实验室检测和体格检查产生明确的测量值干预事件Intervention Events对应于旨在改变患者状况的主动临床行动如药物管理和医疗程序旨在修改患者状态但不直接产生可观察结果整合与质量过滤在住院情节层面整合患者档案和事件序列随后进行严格的质量过滤 。数据集规模与特点EHRWorld-110K数据集总计包含约11万个多样化的住院情节和1750万个高度临床相关的事件涵盖从入院到出院的完整轨迹 。这个数据集为学习纵向真实临床护理中的患者状态演化和干预条件转换提供了原则性基础 。为支持可靠评估并保留真实临床数据的多样性研究团队使用基于主要诊断类别的分层抽样对构建的数据集进行划分。这产生了一个包含579个住院情节的保留测试集包括84,010个询问事件和25,798个干预事件涵盖1,043种独特的主要和次要诊断条件确保各种临床场景的全面代表性 。EHRWorld模型患者中心的世界模型基于这一基础研究团队引入了一种生成式训练范式将临床轨迹建模为连续的顺序过程促进干预驱动的生理转换学习。然后在不同参数规模下训练了一系列模型——EHRWorld 。模型架构与机制研究团队将患者模拟形式化为一个序列决策过程其中临床交互在由t索引的离散模拟步骤上演化。每一步对应一个生理时间戳τt模拟器建模患者状态如何响应一组并发临床行动而演化 。如图2下半部分所示EHRWorld被设计为一个条件世界模型显式跟踪患者状态并在顺序询问和干预下更新它们。模型采用双模式预测机制 对于干预事件模型产生潜在结果对于询问事件模型预测明确的测量值通过确定性状态转换更新循环模型维持交互历史实现顺序轨迹模拟 。核心功能EHRWorld作为演化的患者模拟器基于交互历史和治疗输入动态学习和更新生理状态 。这种设计使模型能够维持一致的患者状态表征准确模拟干预后的生理变化减少长期模拟中的错误累积提高临床敏感事件期间的稳定性评估结果显著优于基线模型通过广泛的评估研究团队证明EHRWorld显著优于朴素的基于LLM的基线模型表现出以下特点 长期模拟中错误累积显著减少在八轮模拟中EHRWorld对氯化物水平的相对误差保持稳定而GPT-5.2的误差持续累积性能差距不断扩大临床敏感事件期间的增强稳定性模型在处理关键临床事件时展现出更好的鲁棒性改善的推理效率与其他模型相比EHRWorld在计算效率上也有显著提升这些发现强调了在因果基础、时间演化的临床轨迹数据上进行训练对于确保可靠建模的重要性 。主要贡献与创新本研究的主要贡献包括 大规模纵向数据集引入EHRWorld-110K一个捕获从入院到出院完整高保真患者临床护理轨迹的大规模纵向数据集使得能够研究时间演化和潜在的干预条件临床动态统一的患者中心模型族提出EHRWorld一个在因果顺序范式下训练的统一患者中心医疗世界模型族通过维持和更新响应临床干预的生理状态来模拟动态疾病进展全面的评估验证结果表明EHRWorld在长期临床模拟中显著优于朴素的基于LLM的基线具有减少的错误累积和改善的稳定性未来展望EHRWorld的成功展示了在医疗领域构建可靠世界模型的可行性。这种方法不仅能帮助临床医生将健康视为一个持续演化的过程还为估计和利用临床行动因果效应的AI系统提供了原则性基础 。未来的研究方向可能包括扩展模型以处理更多样化的临床场景整合多模态医疗数据如影像学和基因组学数据开发更精细的因果推理机制在实际临床决策支持系统中进行验证通过在因果基础、时间演化的临床数据上进行训练EHRWorld为医疗AI开辟了新的可能性有望在个性化医疗、治疗规划和临床决策支持等领域发挥重要作用 。标签#WorldModels #ClinicalAI #医疗人工智能 #电子健康记录 #临床轨迹模拟 #精准医疗