传统诊断决策支持系统在疾病诊断方面表现优于生成式人工智能

研究人员将其长期使用的诊断决策支持系统人工智能工具DXplain与现代大型语言模型(如ChatGPT和Gemini)进行比较,发现DXplain的表现略胜一筹。他们指出,研究结果表明将DXplain与大型语言模型相结合,可提升临床诊断水平并优化两项技术性能。

他们的新研究比较了ChatGPT、Gemini和DXplain在诊断患者病例方面的表现,结果显示DXplain表现略优,但大语言模型(LLM)也表现良好。研究者设想将DXplain与LLM配对作为最佳前进方向,因为这将改进两个系统并提升其临床效能。该结果发表于JAMA Network Open

"在人们对大语言模型充满兴趣之际,很容易忘记医学领域首个成功应用的人工智能系统是像DXplain这样的专家系统,"麻省总医院(MGH)临床系统实验室(LCS)的合著者Edward Hoffer医学博士表示。

"这些系统能增强和扩展临床医生的诊断能力,回忆起医生在紧急时刻可能遗忘的信息,且不受人类推理常见缺陷的影响。我们认为,将现有诊断系统的强大解释能力与大语言模型的语言能力相结合,将实现更优的自动化诊断决策支持和患者预后,"通讯作者、同样来自MGH LCS的Mitchell Feldman医学博士表示。

研究者使用涵盖种族、民族、年龄和性别类别的36个患者病例测试了DXplain、ChatGPT和Gemini的诊断能力。针对每个病例,系统有机会在提供和不提供实验室数据的情况下提出可能的诊断。在提供实验室数据时,三个系统大多能列出正确诊断:DXplain为72%,ChatGPT为64%,Gemini为58%。未提供实验室数据时,DXplain的正确诊断率为56%,优于ChatGPT(42%)和Gemini(39%),但结果无统计学意义。

研究者观察到,诊断决策支持系统(DDSS)和LLM能识别出其他系统遗漏的特定疾病,这表明结合两种方法可能具有前景。基于这些发现的初步工作表明,LLM可用于从叙述性文本中提取临床发现,随后输入DDSS——这将协同改进两个系统及其诊断结论。