他们的研究结果详细发表在2025年4月7日的《自然·医学》(Nature Medicine)网络版上,强调了早期发现和干预的重要性,以确保人工智能驱动的医疗护理安全、有效且适用于所有人。
作为研究的一部分,研究人员在1000个急诊科病例上对9个大型语言模型(LLM)进行了压力测试,每个病例用32种不同患者背景进行复现,生成了超过170万条人工智能生成的医疗建议。尽管临床细节完全相同,人工智能模型有时会根据患者的社会经济和人口统计特征改变决策,影响分诊优先级、诊断性检查、治疗方法及心理健康评估等关键领域。
"我们的研究为人工智能保证提供了框架,帮助开发者和医疗机构设计公平可靠的人工智能工具,"共同资深作者、西奈山伊坎医学院温德里希人工智能与人类健康系生成式人工智能主任Eyal Klang医学博士表示,"通过识别人工智能何时基于背景而非医疗需求改变建议,我们为优化模型训练、提示设计和监督提供依据。我们严格的验证流程对照临床标准测试人工智能输出结果,纳入专家反馈以优化性能。这种前瞻性方法不仅增强了对人工智能驱动医疗的信任,也有助于制定普惠医疗政策。"
该研究最引人注目的发现之一是,某些人工智能模型倾向于根据患者人口统计特征而非医疗必要性升级护理建议——尤其是心理健康评估。此外,高收入患者更常被建议进行CT扫描或MRI等高级诊断检查,而低收入患者则更频繁地被告知无需进一步检查。研究人员指出,这些不一致现象的规模凸显了加强监管的必要性。
尽管该研究提供了关键见解,但研究人员提醒这仅代表了人工智能行为的片段。未来研究将持续纳入保证测试,以评估人工智能模型在真实临床环境中的表现,以及不同提示技术是否能减少偏见。该团队还旨在与其他医疗机构合作改进人工智能工具,确保其恪守最高道德标准并公平对待所有患者。
"我很高兴与西奈山医院合作开展这项关键研究,确保人工智能驱动的医学惠及全球患者,"担任研究团队顾问的医生科学家、该研究第一作者Mahmud Omar医学博士表示。"随着人工智能日益融入临床护理,必须全面评估其安全性、可靠性和公平性。通过识别这些模型可能引入偏见的环节,我们可以改进设计、加强监督,并构建确保患者始终处于安全有效护理核心的体系。此次合作是建立医疗人工智能保证全球最佳实践的重要一步。"
"人工智能有潜力彻底变革医疗保健,但这必须建立在负责任开发和使用的基础上,"共同资深作者、西奈山伊坎医学院温德里希人工智能与人类健康系主任、哈索·普拉特纳数字健康研究所所长、Irene与Arthur M. Fishberg医学教授Girish N. Nadkarni医学博士(公共卫生硕士)强调。"通过合作与严格验证,我们正在完善人工智能工具以维护最高道德标准,确保提供以患者为中心的恰当护理。实施强有力的保证协议不仅能推动技术进步,更能建立变革性医疗所必需的信任。通过适当测试和保障措施,我们可确保这些技术能普惠所有人——而非特定群体。"
接下来,研究者计划通过模拟多步骤临床对话并在医院环境中试点人工智能模型来扩展工作,以衡量其实际影响。他们希望研究成果能指导医疗人工智能保证政策与最佳实践的制定,增强对这些强大新工具的信任。
论文标题为《大型语言模型医疗决策中的社会人口统计学偏见:一项大规模多模型分析》。
期刊所列研究作者包括:Mahmud Omar、Shelly Soffer、Reem Agbareia、Nicola Luigi Bragazzi、Donald U. Apakama、Carol R. Horowitz、Alexander W. Charney、Robert Freeman、Benjamin Kummer、Benjamin S. Glicksberg、Girish N. Nadkarni 和 Eyal Klang。
Story Source:
Materialsprovided byThe Mount Sinai Hospital / Mount Sinai School of Medicine.Note: Content may be edited for style and length.
Journal Reference:
Mahmud Omar, Shelly Soffer, Reem Agbareia, Nicola Luigi Bragazzi, Donald U. Apakama, Carol R. Horowitz, Alexander W. Charney, Robert Freeman, Benjamin Kummer, Benjamin S. Glicksberg, Girish N. Nadkarni, Eyal Klang.Sociodemographic biases in medical decision making by large language models.Nature Medicine, 2025; DOI:10.1038/s41591-025-03626-6
2025-08-03
2025-08-03
2025-08-03
2025-08-03
2025-08-03