这些发现对医疗环境中如何及何时依赖ChatGPT等大型语言模型(LLM)提出了重要问题,相关研究发表于7月22日的《NPJ数字医学》网络版[10.1038/s41746-025-01792-y]。
研究团队受丹尼尔·卡尼曼著作《思考,快与慢》启发,该书对比了快速的直觉反应与缓慢的分析推理。据观察,当经典横向思维谜题被微妙调整时,大型语言模型(LLM)会出现失误。基于此见解,本研究测试了AI系统在面对经过刻意修改的著名伦理困境时,如何在这两种模式间切换。
"AI可能非常强大高效,但我们的研究表明,它可能默认选择最熟悉或直觉的答案,即使该响应忽略了关键细节,"共同资深作者、西奈山伊坎医学院温德里希人工智能与人类健康学部生成式AI主任埃亚尔·克朗医学博士表示。"在日常情境中,此类思维可能不被察觉。但在医疗领域,决策常涉及重大伦理和临床影响,忽略这些细微差别可能对患者造成实际后果。"
为探索此倾向,研究团队结合创意横向思维谜题和微调版著名医学伦理案例,测试了多个商用LLM。其中一个案例改编自1970年代凸显隐性性别偏见的经典"外科医生困境":男孩与父亲车祸受伤送医,外科医生惊呼"我不能给这孩子做手术——他是我儿子!"谜底在于外科医生实为母亲,但许多人因性别偏见未考虑此可能。在修改版中,研究者明确说明男孩父亲是外科医生以消除歧义。即便如此,部分AI模型仍坚持外科医生必须是男孩母亲。此错误揭示了LLM如何固守熟悉模式,即使与新信息相矛盾。
另一测试案例中,研究者采用宗教父母拒绝为孩子输血的经典伦理困境。即使研究者修改场景声明父母已同意输血,许多模型仍建议覆写已不存在的拒绝。
"我们的发现并非否定AI在医疗实践中的作用,但确实强调需要审慎的人类监督,尤其在需要伦理敏感性、细致判断或情商的情境中,"共同资深通讯作者吉里什·N·纳德卡尼医学博士、公共卫生硕士强调。他身兼温德里希人工智能与人类健康学部主任、哈索·普拉特纳数字健康研究所所长、西奈山伊坎医学院艾琳与亚瑟·M·菲什伯格医学教授、西奈山医疗系统首席人工智能官等职。"这些工具固然极具助益,但并非万无一失。医患双方都应理解,AI最佳用途是作为临床专业知识的增强补充而非替代品,尤其在处理复杂或高风险决策时。最终目标是建立更可靠、更符合伦理的AI整合方案以改善患者护理。"
"对熟悉案例的简单调整暴露了临床医生不可忽视的盲区,"第一作者、拉宾医疗中心达维多夫癌症中心血液学研究所研究员雪莉·索弗医学博士指出。"这凸显了在患者护理中部署AI时,人类监督必须保持核心地位。"
接下来,研究团队计划通过测试更广泛临床案例扩展研究。他们同时正在开发"AI保障实验室",以系统评估不同模型处理真实世界医疗复杂性的能力。
论文题为《大型语言模型在医学伦理推理中的缺陷》。
期刊所列研究作者包括:雪莉·索弗医学博士;薇拉·索林医学博士;吉里什·N·纳德卡尼医学博士、公共卫生硕士;埃亚尔·克朗医学博士。
关于西奈山温德里希人工智能与人类健康学部
由医疗AI安全有效伦理应用国际权威吉里什·N·纳德卡尼医学博士、公共卫生硕士领导的西奈山温德里希人工智能与人类健康学部,是美国医学院中首创机构,致力于推动人工智能与人类健康交叉领域的变革性进步。
该部门以负责任、有效、伦理且安全的方式运用AI,旨在变革研究、临床护理、教育及运营。通过汇聚世界级AI专业知识、尖端基础设施和卓越算力,部门正推进多尺度多模态数据整合的突破性进展,同时优化快速测试及临床转化的路径。
部门受益于西奈山体系内的动态协作,包括与西奈山哈索·普拉特纳数字健康研究所的合作——该所由德国波茨坦哈索·普拉特纳数字工程研究所与西奈山医疗系统联合创立——通过推进数据驱动方法改善患者护理和健康结局,与部门使命形成互补。
创新的核心是著名的西奈山伊坎医学院,其作为学习与合作的中枢枢纽,促成跨研究所、学术部门、医院及门诊中心的动态合作,推动全球范围内的疾病预防、复杂疾病治疗改进及生活质量提升。
2024年,由西奈山医疗系统临床数据科学团队与学部教员联合开发的创新应用NutriScan AI,助力西奈山医疗系统荣膺赫斯特健康奖。NutriScan旨在加速住院患者营养不良的识别与治疗。该机器学习工具提升了营养不良诊断率与资源利用率,彰显了AI在医疗领域的有效应用。
*西奈山医疗系统成员医院:西奈山医院;西奈山布鲁克林分院;西奈山晨边分院;西奈山皇后区分院;西奈山南拿骚分院;西奈山西部分院;西奈山纽约眼耳医院
Story Source:
Materials provided byThe Mount Sinai Hospital / Mount Sinai School of Medicine.Note: Content may be edited for style and length.
Journal Reference:
Shelly Soffer, Vera Sorin, Girish N. Nadkarni, Eyal Klang.Pitfalls of large language models in medical ethics reasoning.npj Digital Medicine, 2025; 8 (1) DOI:10.1038/s41746-025-01792-y
2025-08-02
2025-08-02
2025-08-02
2025-08-02
2025-08-02