《医疗场景下大语言模型应用效果回顾性评测专家共识(2025版)》通过验证性测试,为行业树立权威评测范式
近年来,医疗大模型技术蓬勃发展,成为推动医疗健康行业智慧升级与创新发展的核心驱动力。2024年11月,国家卫生健康委联合国家中医药管理局、国家疾控局印发了《卫生健康行业人工智能应用场景参考指引》,明确了含临床专病智能辅助决策、智能健康管理等在内的84个医疗细分领域的基本概念和应用场景,为“人工智能+医疗健康”提供规范化的发展路径。但大模型在医疗场景下的应用效果评测当前仍缺乏统一标准,不同机构评测方法和指标差异较大,阻碍了技术的进一步发展和应用。
为响应国家人工智能产业综合标准化体系建设,医学期刊知识挖掘与服务国家重点实验室(以下简称“实验室”)于5月初启动《医疗场景下大语言模型应用效果回顾性评测专家共识(2025版)》(以下简称“《共识》”)编制工作,组建了涵盖临床医学、人工智能、方法学、法律法规、伦理学等多领域的权威专家组,围绕如何构建科学客观的评测流程、评测指标、评测团队、评测数据集等关键内容,撰写方法遵循《世界卫生组织指南制订手册》、《中国制订/修订临床诊疗指南的指导原则(2022版)》,并结合改良的德尔菲法(Delphi方法)进行多轮专家意见征集和迭代修改。《共识》将于2025年11月在《数字医学与健康》和《智慧医学(英文)》期刊上预发表,供业内人士提前查阅参考和反馈。为验证《共识》的科学性、有效性及可操作性,实验室在终版前对其开展了预评测验证工作。
本次评测选择医疗大模型在全科、心血管内科、儿科及呼吸内科,以《卫生健康行业人工智能应用场景参考指引》中的医疗服务、健康管理场景为指导基础,围绕专科诊疗、健康咨询及体检报告解读任务,构建专业的文本评测数据集。选取国内某医疗大模型作为本次预实验评测对象。
实验室依据《共识》框架所制定的标准及方法,开展了多维度、多场景的严格评测工作。通过调用该医疗大模型的API接口获取评测集的回复结果,分别从回复一致性、准确性、完整性、专业性、安全性及实用性维度进行机器与医师的双盲评测。评测结果再由专家评审组,依据指南与临床经验进行权威审核,形成最终评测结论。该框架的验证显示,基于文本交互的形式,初步认定该大模型在全科、心血管内科、儿科、呼吸内科的专科诊疗、健康问答(健康咨询、症状自查、用药建议、报告解读)及体检报告解读任务中表现出与副主任医师较高一致率,并在完整性及实用性方面表现尤为突出,有一定的潜力辅助开展医疗服务与健康管理,提升其诊疗效率与服务质量。根据《共识》框架做出的评测结果反应模型的真实能力,为其进一步优化提供了科学的依据。
本次工作初步验证了《共识》框架的科学性和可操作性,为系统性建立医疗大模型评测标准提供了关键科学依据。结果表明,完整有效的共识需要涵盖标准化评测流程制定、临床导向的评测数据构建、多维评测指标选取以及跨学科评测团队组建等核心要素。其中,在评测数据构建过程中,为客观评估大模型是否达到人类医生的诊疗水平,数据必须贴近真实的临床场景,避免出现“应试化”倾向;在评测指标选取方面,除了考察大模型回复的专业性和准确性之外,还应着重评估其在临床场景下的完整性、实用性和安全性。
未来,重点实验室计划于近期正式发布《共识》,并持续开展系列性医疗大模型能力评测工作,通过联合国内综合型医疗及健康管理机构,形成产学研医协同创新的生态闭环,系统性解决医疗大模型落地中存在的评估维度单一、临床证据不足等痛点,为行业提供兼具权威性与实用性的评测范式,通过“以评促建、以测带用”,加速医疗大模型从技术验证向临床价值转化,推动医疗人工智能产业的高质量发展。