夏季大模型行業的密集上新隨著上周GPT-5的推出終于落下帷幕。北京時間8月8日淩晨,OpenAI正式發布下一代旗艦模型GPT-5,距離上代模型GPT-4的推出已經過去了29個月。
但GPT-5上線初期的反饋卻有些兩極分化。GPT-5仍然是當前能力最爲全面的模型,但和此前OpenAI一直保持著斷代式的模型性能领先相比,GPT-5并未与市场主流模型拉开显著差距,部分基准测试场景下甚至被马斯克的Grok4或者同期发布的Claude Opus4.1超越。
部分原因在于OpenAI的先發優勢正在減弱,但更關鍵的原因或許在于OpenAI試圖將大模型從“能用”推向“好用”。和此前發布的旗艦模型不同,OpenAI在此次GPT-5發布會中尤其強調他們在減少模型幻覺、提升指令遵循能力和降低模型谄媚性方面的進展。
这和此前国内大模型代表星火 X1的升级不谋而合。作为当前市面上唯一全棧自主可控的全國産大模型,星火X1在7月25日的升級同樣著重強調對大模型實用痛點尤其是幻覺問題的精准攻克上。
在對模型幻覺問題治理上,星火X1取得顯著突破,無論是對自身生成內容真實性的把控(事實性幻覺治理),還是參考外部資料時對原文的忠實程度都有顯著改善(忠誠性幻覺治理),大大提升了大模型在行業應用中的可靠性。
甚至二者在技術路線的探索上都頗爲一致。OpenAI在官網介紹,針對模型幻覺問題,他們在GPT-5訓練中加入了多目標獎勵機制以及思維鏈監控等手段,來改善模型幻覺問題。多目標獎勵改變了此前模型單一獎懲機制容易迎合用戶的弊病,即便模型給出不確定性回答也可以得到正向反饋,思維鏈監控則可以有限防止推理模型在深度思考過程中的幻覺問題。
大模型幻覺的後果
在強化學習技術上,科大訊飛同樣試圖改進大模型粗糙的數值獎勵機制,將評語模型與細粒度反饋的強化學習技術結合起來,就像是給AI配了一個耐心的老師,能在解題的每個環節給出具體建議。這種做法讓複雜的數學推理訓練變得更加高效,也解決了強化學習訓練中“獎勵太少”的痛點問題。
此外,科大訊飛提出的基于多路徑采樣驗證及事實性約束強化學習的幻覺治理技術,則可以在大模型思考過程及恢複生成階段,實現客觀問題與標准答案的深度對齊,從而大幅減少慢思考下的幻覺率。
但在治理模型幻觉问题上,作为大模型国家队的科大讯飞还是比OpenAI更多走了一步。科大讯飞不仅从模型训练与监督角稛犭手,还深入介入了大模型训练更前置的数据环节。
在此前已經建立行業高質量數據集以及訊飛知識工程平台的基礎上,科大訊飛還開創性地提出了基于多路徑采樣驗證及事實性約束強化學習的幻覺治理技術,在大模型思考過程及回複生成階段,實現客觀問題與標准答案的深度強對齊,大幅減少了在慢思考下的幻覺率讓大模型回複通用常識及專業知識問題更加可靠。
從全國産大模型代表的星火X1,到海外大模型代表的GPT-5,全球頂尖大模型同時強調模型可靠性的升級。這背後是因爲,大模型已經日益深入到社會應用的方方面面,在性能穩步提升的同時,也對模型的可靠性和易用性提出了更高要求。
“我們的核心追求的是模型的實際應用價值以及大衆的可訪問性/可負擔性。我們可以發布更智能的模型,但更重要的這次的模型可以讓超過十億人受益。”OpenAI創始人兼CEO薩姆·奧爾特曼說。
纵观此次OpenAI针对GPT-5的升级,你可能会感到些许熟悉。在发布会中,模型性能的提升一笔带过,更多时间都用在了讲述GPT-5的具体行业应用,尤其是编程、写作以及医疗禑猃个大模型核心应用场景上。
其实,大模型行業中最早呼吁关注模型行业应用价值的正是科大讯飞。早在科大讯飞立项攻坚大模型时,就确立了“1+N”的研发方向,在研发一个通用大模型的同时,也同步推出教育、医疗、法律等行业大模型。过去几年来,讯飞星火围绕医疗、教育、法律、汽车、科研等多个重点行业发布多个行业大模型,同时与多个行业龙头、央国企展开深入合作,共同推进大模型落地应用。
7月25日全新升級的星火X1,更是科大訊飛推動模型從“能用”走向“好用”的關鍵一步。二者雖然只一字之差,但背後的技術深度和應用廣度完全不同。升級後的星火X1已全面賦能教育、醫療、企業應用、代碼、科研等行業大模型和智能體,在複雜行業場景任務上進一步滿足用戶核心需求。
星火代碼大模型已深度賦能金融、制造、能源、科技等100余家關鍵領域客戶,在典型應用場景中驅動研發效率提升超過50%。測試集合來源:測試集合來自認知智能全國重點實驗室構建的代碼實用場景測試集
大模型産業已經到了産業化與規模化落地的關鍵時期,大模型不僅要能用,更要好用。作爲大模型産業真正的國家隊代表,星火X1更是肩負著中國大模型産業真正自主可控的使命要求。在保持性能領先的同時,也要真正賦能關乎社會民生的重點行業,爲世界提供第二種選擇。
量子位智庫
星火X1能夠先于GPT-5提出大模型要從“能用”走向“好用”,要在智能領先的同時擁有更廣的行業應用,這背後彰顯了中國人工智能産業已經從追趕逐漸走向領先階段。
今年是國家《新一代人工智能發展規劃》“第二步”的關鍵之年,在人工智能基礎理論實現重大突破的同時,尤爲強調在技術與應用達到世界領先水平,人工智能成爲帶動我國産業升級和經濟轉型的主要動力。
作为大模型国家队的突出代表,星火X1更要率先解决横亘在大模型行業落地难的关键技术与应用难题。从这个角度上来说,星火X1已经交出了一份出色的答卷。
(推廣)