360智腦團隊宣布推出全新的Light-IF系列模型,這一創新框架旨在顯著提升大型語言模型(LLM)在複雜指令遵循方面的能力。隨著人工智能技術的不斷進步,盡管LLM在數學、編程等領域已經展現出了卓越的推理能力,但在遵循複雜指令方面仍存在不足。爲了解決這一問題,360智腦團隊提出了以預覽-自檢式推理和信息熵控制爲核心的Light-IF框架。
Light-IF框架通過五個關鍵環節來提升模型性能:難度感知指令生成、Zero-RL強化學習、推理模式提取與過濾、熵保持監督冷啓動、熵自適應正則強化學習。這一框架的提出,旨在破解當前推理模型中存在的“懶惰推理”現象,即模型在思考階段僅複述指令而不主動檢查約束是否被滿足,導致指令執行不准確的問題。
在實驗中,Light-IF系列模型在SuperCLUE、IFEval、CFBench及IFBench四個中文和跨語言指令遵循基准上均取得了顯著提升。特別是32B版本的Light-IF-32B,其在SuperClue得分達到了0.575,比下一個最佳模型高出13.9個百分點。此外,參數規模僅爲1.7B的Light-IF-1.7B在SuperClue和IFEval上的表現甚至超過了Qwen3-235B-A22B等體量更大的模型。
360智脑团队表示,Light-IF系列模型的推出,不仅为开源社区提供了一套可复现的完整路线和配套的开源代码,而且全系模型将陆续在Hugging Face上开放,供社区使用、对比与复现。同时,训练中使用的冷启动数据集也将同步在GitHub上开放。此外,360与SuperCLUE联合推出的中文精确指令遵循测评基准SuperCLUE-CPIFOpen也将在Github上开放,便于研究者评测模型的中文精确指令遵循能力。
這一新模型的推出,標志著360智腦在提升人工智能模型複雜指令遵循能力方面邁出了重要一步,爲人工智能技術的發展和應用開辟了新的可能性。