劃重點:
? 研究人员开发了名为SAFE的AI系統,使用大型語言模型來評估信息的准確性。
? SAFE的使用成本约为人工事实检查的20倍,可大大降低成本。
? 研究引发了“超人类”表现的争议,需要更多透明度和人类基准来评估其真实效果。
站長之家(ChinaZ.com)3月29日 消息:谷歌DeepMind的研究团队发布了一项新研究,介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实,并利用谷歌搜索结果来确定每个声明的准确性。研究发现,SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。
與人工標注員的對比顯示,SAFE的評估結果與人工評級的一致率達到了72%。更值得注意的是,在100個SAFE與人工評級者之間存在分歧的樣本中,SAFE的判斷在76%的情況下被證明是正確的。然而,研究中“超人類”表現的說法引發了爭議,一些專家質疑這裏的“超人類”到底是什麽意思。他們認爲,需要更多透明度和人類基准來評估SAFE的真實效果,而不僅僅是依賴于衆包工人。
SAFE的應用成本約爲人工事實檢查的20倍,這意味著它可以大大降低事實核查的成本。研究團隊還使用SAFE評估了13個頂級語言模型的事實准確性,並發現較大型的模型通常産生較少的錯誤。盡管最佳模型的表現仍然存在一定數量的錯誤,但自動事實檢查工具如SAFE可能在減少這些風險方面發揮關鍵作用。
雖然SAFE的代碼和LongFact數據集已在GitHub上開源,但研究人員指出,仍需要更多關于研究中使用的人類基准的透明度。正因如此,技術巨頭們競相開發越來越強大的語言模型,自動核查這些系統輸出的信息的能力可能變得至關重要。SAFE等工具代表著建立新的信任和責任層面的重要一步。
然而,關鍵是這類重要技術的發展必須在開放的環境中進行,並獲得來自廣泛利益相關者的意見。嚴格、透明地與人類專家進行基准測試將是衡量真正進步的關鍵所在。只有這樣,我們才能評估自動事實檢查對打擊錯誤信息的實際影響。
論文地址:https://arxiv.org/pdf/2403.18802.pdf
(舉報)