文章概要:
1. 富士通宣布推出兩項新的人工智能信任技術,旨在提高對話型人工智能模型的可靠性,包括檢測幻覺和對抗性攻擊的技術。
2. 这些新技术将集成到富士通的人工智能平台“Kozuchi”中,旨在为企业和个人用户提供工具,评估对话型人工智能回复的可靠性,增强人工智能的安全性。
3. 这些技术的应用领域广泛,将有助于保护企业免受虚假信息、钓鱼攻击等威胁,从而促进更安全的人工智能使用。
站長之家(ChinaZ.com)9月26日 消息:富士通于2023年9月26日宣布推出兩項新的人工智能(AI)信任技術,旨在提高對話型人工智能模型的可靠性,從而增強其在各種用例中的安全性。這兩項新技術包括檢測對話型人工智能模型中的幻覺以及檢測通過注入虛假信息進行的對抗性攻擊所植入的網絡釣魚網址的技術。
第一項技術旨在高度精確地檢測對話型人工智能回複中的幻覺。在業務運營中,企業經常使用對話型人工智能來提取與問題相關的信息,並將這些數據作爲參考信息添加到向外部對話型人工智能提問時。盡管這種方法提供了准確的回複並減少了幻覺,但完全防止幻覺仍然是一個持續存在的問題。這是因爲對話型人工智能在某些情況下無法正確提取與問題相關的信息,從而創建不相關或不正確的回複。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
为了计算高度精确的幻觉评分,新技术首先将人工智能的回复分为三个部分(主语、谓语、宾语等),然后自动识别回复中的命名实体。接下来,技术将这些命名实体留空,并反复向外部人工智能提问,以更准确地定义这些特定表达方式。根据使用WikiBio GPT-3幻觉数据集等开放数据进行的基准测试显示,相对于其他用于检测AI幻觉的先进方法,如SelfCheckGPT,该技术可以将检测的准确性(AUC-ROC)提高约22%。
第二項技術旨在檢測對話型人工智能回複中植入的網絡釣魚網址。由于對話型人工智能基于其訓練數據創建回複,惡意實體可以通過在人工智能訓練數據中注入惡意信息,欺騙人工智能以創建包含操縱信息的回複,例如導致虛假網站的網絡釣魚網址。
爲了解決這個問題,富士通開發了一項技術,用于檢測對話型人工智能回複中的操縱網址。一旦技術識別出網絡釣魚網址,它將向用戶發出警告消息。這項新技術不僅可以檢測網絡釣魚網址,還可以增強人工智能模型對現有攻擊的抵抗力,以確保其提供高度可靠的回複。該技術是在富士通與以色列本古裏安大學的合作下共同開發的,利用了惡意實體通常攻擊單一類型的人工智能模型的傾向,通過使用不同的人工智能模型處理信息並評估判斷結果的合理性差異來檢測惡意數據。此技術不僅可用于檢測網絡釣魚網址,還可用于預防欺騙使用表格數據的人工智能模型的一般攻擊,從而避免對其他服務的攻擊。
這兩項新技術將納入富士通的對話型人工智能核心引擎中,通過“富士通Kozuchi(代號)-富士通AI平台”提供給用戶,使用戶可以訪問廣泛的強大人工智能和機器學習技術。檢測對話型人工智能中的幻覺的技術將于2023年9月28日起提供給日本用戶,而檢測對話型人工智能回複中的網絡釣魚網址的技術將于2023年10月起提供。這兩項新技術將通過Kozuchi提供給企業用戶作爲演示環境,並通過專用門戶網站提供給個人用戶。富士通計劃將這兩項新技術未來推廣到全球市場。
(舉報)