AI在研究中与居民、医学生接近临床推理

AI与居民、医学生接近临床推理

一项研究表明,ChatGPT可能具备医生诊断和治疗健康问题所需的某些推理能力,尽管没有人预测聊天机器人将取代穿着实验室白大褂的人类。

在一项研究中,研究人员发现,在适当的提示下,ChatGPT在撰写患者病史方面与医学住院医师不相上下。这是对患者当前健康问题的过程进行总结,从最初的症状或伤害到持续存在的问题。

医生在诊断和制定治疗计划时使用这些信息。

记录良好的病史比简单地将与患者的访谈进行转录更加复杂。它需要对信息进行综合、提取相关要点并将其整合成一个连贯的叙述,该研究的首席研究员Ashwin Nayak博士解释道。

“这需要医学生和住院医师多年的学习,”加利福尼亚州斯坦福大学的医学临床助理教授Nayak说。

然而,他的团队发现,ChatGPT能够和一组医学住院医师(培训中的医生)一样胜任这项工作。但前提是,提示必须足够详细:当提示缺乏细节时,聊天机器人的表现明显不及格。

ChatGPT是由人工智能(AI)技术驱动的,它可以进行类似人类的对话,即刻生成对任何提示的回应。这些回应基于聊天机器人的“预训练”,包括从互联网收集的信息。

该技术于去年11月推出,两个月内就拥有创纪录的1亿月活用户,根据投资银行瑞银的一份报告。

据报道,ChatGPT在SAT大学入学考试中取得了较高成绩,甚至通过了美国医学执照考试。

然而,专家警告称,聊天机器人不应成为任何人获取医疗信息的首选。

研究指出该技术的优点和局限性。首先,其信息的准确性在很大程度上取决于用户提供的提示。一般而言,问题越具体,回答越可靠。

例如,最近一项关注乳腺癌的研究发现,ChatGPT经常对研究人员提出的问题给出合适的答案。但如果问题广泛而复杂——“如何预防乳腺癌?”——聊天机器人就不可靠了,每次重复提问时给出的答案都不同。

还有已经有记录的“幻觉”问题。也就是说,聊天机器人在某些时候有编造内容的倾向,尤其是当提示涉及复杂主题时。

Nayak的研究证实了这一点,该研究于7月17日以JAMA内科学杂志的研究信件形式在线发表。

研究人员将ChatGPT与四名资深住院医师进行对比,根据与虚拟患者进行的“访谈”撰写病史。30名主治医师(住院医师的监督者)根据详细程度、简洁性和组织性评分结果。

研究人员使用了三种不同的提示来指导聊天机器人完成任务,结果差异很大。当提示最不详细——“阅读以下患者访谈并撰写[病史]。不要使用缩写或首字母缩略词”——时,聊天机器人表现不佳。只有10%的报告被认为是可接受的。

需要更详细的提示才能将技术的接受率推至43%,与住院医师相当。此外,当提示“质量”较低时,聊天机器人更容易出现幻觉,比如编造患者的年龄或性别。

“令人担忧的是,在现实世界中,人们不会精心设计‘最佳’提示,”与该研究结果一同发表的耶鲁医学院的教授Cary Gross博士说。

Gross表示,人工智能在帮助医疗专业人员进行诊断和其他关键任务方面具有“巨大”潜力。但仍然需要解决问题。

“这还不够成熟,”Gross说。

在第二项研究中,另一个斯坦福团队发现,最新款的ChatGPT模型(截至2023年4月)在要求“临床推理”的期末考试问题上表现优于医学生——“临床推理”是指综合对一个假想患者的症状和病史信息,并提出可能的诊断。

Gross再次表示,这其中的意义目前尚不清楚,但没有人认为聊天机器人比人类医生更好。

他说,一个重要的问题是如何将人工智能纳入医学教育和培训中。

虽然这些研究是以医生为中心的,但Nayak和Gross都表示,对于普通公众来说也有类似的启示:简而言之,提示很重要,幻觉是真实存在的。

“你可能会找到准确的信息,你可能会找到无意中编造的信息,”Gross说。“我不建议任何人基于这些信息做出医疗决策。”

聊天机器人的主要吸引力之一是其对话性质。但这也是一个潜在的陷阱,Nayak说。

“它们听起来像是对该主题有着精深知识的人,”他指出。

问题

但如果你对严重的医疗问题有疑问,Nayak说,把它们带给你的人类医疗提供者。

更多信息

皮尤研究中心有关人工智能技术的更多信息。

来源:Ashwin Nayak, MD, MS, 临床助理教授,斯坦福大学医学院,加州斯坦福;Cary Gross, MD, 教授,耶鲁大学医学院,康涅狄格州纽黑文;《JAMA Internal Medicine》,2023年7月17日,在线发表