文章概要:
1. 研究人员评估了大语言模型聊天机器人提供癌症治疗建议的可靠性,发现33.33%的建议与确立的指南不完全一致。
2. 研究强调了AI技术渗透医疗决策时需谨慎和监管的必要性。
3. 聊天机器人的建议与NCCN指南不完全一致,专家也未能检测到这些错误,凸显LLM聊天機器人在提供可靠和精確的癌症治療建議方面的表現低于平均水平。
站長之家(ChinaZ.com)8月30日 消息:在最近发表在 《JAMA Oncology》杂志上的一篇文章中,研究人员评估了由人工智能 (AI) 算法驱动的大型语言模型 (LLM) 驱动的聊天机器人是否可以提供准确可靠的癌症治疗建议。
關于該研究
在本研究中,研究人员评估了大语言模型聊天机器人在提供前列腺癌、肺癌和乳腺癌治疗建议方面的表现,该建议与国家综合癌症网络 (NCCN) 指南一致。
研究人員開發了四個零樣本提示模板,並用于創建26種癌症診斷描述的四個變體,最終獲得了104個提示。然後將這些提示作爲輸入提供給GPT-3.5。
研究團隊由四名經過委員會認證的腫瘤学家组成,其中三人根据研究人员制定的五项评分标准评估了聊天机器人输出与2021年 NCCN 指南的一致性。采用多数决原则来确定最终得分。
第四位腫瘤學家幫助其他三位解決了分歧,這些分歧主要是在法學碩士聊天機器人輸出不清楚時出現的。例如,大語言模型沒有具體說明針對特定類型的癌症應結合哪些治療方法。
研究結果
該研究對聊天機器人提供的104條癌症治療建議進行了評估。結果顯示33.3%的建議至少部分不符合NCCN指南,被視爲錯誤或不准確的。
聊天機器人對98%的提示給出了至少一個治療建議。所有包含治療建議的回複中,至少有一個治療方法與NCCN指南一致。
但是在102條産出中,有35條包含一個或多個不一致的治療方法,占34.6%。這意味著超過三分之一的建議包含了錯誤信息。
聊天機器人提供的建議根據提問方式而變化。當提問不明確時,它的回複也變得模糊,導致評估者之間出現分歧。
本研究中評估的大語言模型士聊天機器人將錯誤的癌症治療建議與正確的建議混合在一起,即使是專家也未能發現這些錯誤。
研究結果表明,大语言模型聊天机器人在提供可靠且精确的癌症治疗建议方面表现低于平均水平。
鑒于AI的廣泛使用,醫療保健提供者需要適當教育病人有關這項技術可能提供的錯誤信息的潛在風險。這些發現還強調了針對AI及其他潛在危害公衆的技術制定聯邦法規的重要性。
(舉報)