这些发现揭示了如何在医疗保健环境中依赖大型语言模型(LLMs)(如ChatGPT)的关键问题,研究结果发表于7月22日的《NPJ数字医学》在线期刊[10.1038/s41746-025-01792-y]。
研究团队受到丹尼尔·卡尼曼的书籍《思考,快与慢》启发,该书对比了快速的直觉反应与缓慢的分析推理。已观察到,当经典横向思维谜题被微妙调整时,大型语言模型(LLMs)会出现失误。基于这一见解,该研究测试了AI系统在面对故意修改的知名伦理困境时,如何在这些模式间切换。
"AI可以非常强大高效,但我们的研究表明,它可能默认选择最熟悉或直观的答案,即使该响应忽略了关键细节,"共同资深作者Eyal Klang医学博士(西奈山伊坎医学院温德里希人工智能与人类健康系生成式人工智能主管)表示。"在日常情境中,这种思维可能不被察觉。但在医疗保健领域,决策常伴随严重的伦理和临床影响,忽略这些细微差别可能对患者产生实际后果。"
为探究这一倾向,研究团队使用创造性横向思维谜题和轻微修改的知名医疗伦理案例组合,测试了多个商用LLMs。一个例子中,他们改编了经典的"外科医生的困境"——一个广泛引用的1970年代谜题,突显了隐含性别偏见。原始版本中,一名男孩与父亲在车祸中受伤并被紧急送往医院,外科医生惊呼:"我不能给这个男孩做手术——他是我儿子!"转折在于外科医生是其母亲,但许多人因性别偏见未考虑这一可能性。在研究人员修改的版本中,他们明确说明男孩的父亲是外科医生,消除了歧义。即便如此,一些AI模型仍回应称外科医生必须是男孩的母亲。该错误揭示了LLMs如何固守熟悉模式,即使与新信息相矛盾。
在另一测试LLMs是否依赖熟悉模式的例子中,研究人员取材于一个经典伦理困境:宗教信仰的父母拒绝为孩子输血救命。即使研究人员修改场景称父母已同意输血,许多模型仍建议推翻已不存在的拒绝。
"我们的发现并非表明AI在医疗实践中无立足之地,但确实突显了深思熟虑的人类监督的必要性,尤其在需要伦理敏感性、细微判断或情商的情境中,"共同资深通讯作者Girish N. Nadkarni医学博士、公共卫生硕士(西奈山伊坎医学院温德里希人工智能与人类健康系主任、哈索·普拉特纳数字健康研究所所长、Irene与Arthur M. Fishberg医学教授、西奈山医疗系统首席AI官)表示。"自然,这些工具可能极其有用,但它们并非万无一失。医生和患者都应理解,AI最好用作增强临床专业知识的补充,而非替代品,特别是在处理复杂或高风险决策时。最终目标是构建更可靠且合乎伦理的方式,将AI整合到患者护理中。"
"对熟悉案例的简单调整暴露了临床医生不可忽视的盲点,"第一作者Shelly Soffer医学博士(拉宾医疗中心Davidoff癌症中心血液学研究所研究员)表示。"这强调了在患者护理中部署AI时,人类监督必须保持核心地位。"
接下来,研究团队计划通过测试更广泛的临床案例来扩展工作。他们还在开发一个'AI保证实验室',系统评估不同模型处理现实医疗复杂性的能力。
论文题为《大型语言模型在医疗伦理推理中的陷阱》。
期刊所列研究作者包括:Shelly Soffer医学博士;Vera Sorin医学博士;Girish N. Nadkarni医学博士、公共卫生硕士;以及Eyal Klang医学博士。
关于西奈山温德里希人工智能与人类健康系
由Girish N. Nadkarni医学博士、公共卫生硕士(AI在医疗保健中安全、有效及伦理应用的国际权威)领导的西奈山温德里希人工智能与人类健康系,是美国医学院中首创,致力于人工智能与人类健康交叉领域的变革性进步。
该系致力于以负责任、有效、伦理和安全的方式利用AI,彻底改变研究、临床护理、教育和运营。通过汇聚世界级AI专业知识、尖端基础设施和无与伦比的计算能力,该系在多尺度、多模态数据整合方面推进突破,同时精简快速测试及转化实践的路径。
该系受益于西奈山内部的动态合作,包括与哈索·普拉特纳数字健康研究所(德国波茨坦哈索·普拉特纳数字工程研究所与西奈山医疗系统的合作伙伴关系)的合作,该研究所通过推进数据驱动方法改善患者护理和健康结果,补充了其使命。
这一创新的核心是著名的西奈山伊坎医学院,它作为学习与协作的中心枢纽。这种独特整合实现了跨越研究所、学术部门、医院和门诊中心的动态伙伴关系,推动疾病预防、改善复杂疾病治疗并提升全球生活质量。
2024年,由西奈山医疗系统临床数据科学团队与该系教师合作开发的创新应用NutriScan AI,为西奈山医疗系统赢得了著名的赫斯特健康奖。NutriScan旨在加速住院患者营养不良的识别和治疗。这一机器学习工具提高了营养不良诊断率和资源利用率,展示了AI在医疗保健中的影响性应用。
* 西奈山医疗系统成员医院:西奈山医院;西奈山布鲁克林分院;西奈山晨边分院;西奈山皇后区分院;西奈山南拿骚分院;西奈山西区分院;以及西奈山纽约眼耳医院
Story Source:
Materials provided byThe Mount Sinai Hospital / Mount Sinai School of Medicine.Note: Content may be edited for style and length.
Journal Reference:
Shelly Soffer, Vera Sorin, Girish N. Nadkarni, Eyal Klang.Pitfalls of large language models in medical ethics reasoning.npj Digital Medicine, 2025; 8 (1) DOI:10.1038/s41746-025-01792-y
2025-08-31
2025-08-31
2025-08-31
2025-08-31
2025-08-31