声明:本文来自于微信公众号 矽星人Pro,作者:Yoky,授权站長之家转载发布。
7月23日,阿裏通義團隊正式發布Qwen3-Coder-480B-A35B-Instruct,這可能是AI編程领域的一个分水岭时刻。该模型采用480B总参数、35B激活的MoE架构,原生支持256K上下文,可扩展至1M token,在Agentic Coding、Browser-Use、Tool-Use三大类基准中多项评测的开源SOTA,性能直接对标Claude Sonnet-4。
不同于以往需要复杂配置的代码模型,Qwen3-Coder真正做到了“一条命令接管整个代码仓库”。同步开源的CLI工具Qwen Code,让模型能像“初级程序员”一样工作——从理解需求到拆解任务,从编写代码到跑测试修bug,整个过程无需人工逐行干预。这种Agentic Coding方式把大模型当做一个能在仓库里自主行动的Agent,既能理解自然语言需求,又能调用Git、浏览器、终端等工具。
更關鍵的是價格優勢極其明顯。每百萬Tokens最低输入和输出价格分别为4元和16元,平均价格为Claude4的1/3。同时,阿里云百炼还推出了低至5折的限时优惠,128K-1M长上下文价格享受五折优惠。加上完全开源免费商用的政策,让原本高昂的AI編程服务真正平民化。
很多人可能还没意识到AI Coding的真正价值——它不只是写代码的工具,而是AI Agent与物理世界自由交互的关键底层技术。从这个角度看,Qwen3-Coder的发布或许标志着AI編程真正从“辅助工具”向“自主Agent”的跃迁,而开源+超低价的组合,可能会让这种能力快速普及,改变整个软件开发的游戏规则。
我們已第一時間完成內測,對其發布的技術細節進行解讀。
实测Agentic Coding
在實測階段,我們並沒有選擇已經被測試過多輪的貪吃蛇、彈球遊戲,而是選擇了規則更複雜、交互也更多的圍棋對戰遊戲,我們的Prompt是:制作一個圍棋對戰小遊戲,有時間計時,遵守圍棋遊戲的規則(如吃子、禁著點)。
在第一次運行時,結果不僅滿足了圍棋的最基本規則,也准確遵守了吃子、禁著點等規則(棋子被提走後,當前位置禁止再下子)的規則,,這展現了模型在理解和實現基礎遊戲邏輯方面的能力。
但是,這個圍棋對戰遊戲還是太過于簡單,例如缺少輸贏判機制,缺少倒計時等等。遊戲的完整性和用戶體驗方面仍有很大提升空間,這些功能對于一個完整的圍棋遊戲來說是必不可少的。
因此,我們又追問了一遍:制作一個圍棋對戰小遊戲,有時間計時,遵守圍棋遊戲的規則(如吃子、禁著點),還包括局勢分析和判斷輸贏。
Qwen3-coder給出了更複雜的也更成熟的遊戲頁面,甚至在沒有提示的前提下,給出了認輸的按鈕。但有一個問題是圍棋的深層次規則,除了我們在Prompt中提到的規則,一些高級规则睙徵“打劫”,Qwen3-coder没有完全写出来。
接下来,我们又尝试让模型来制作一个网页,Prompt是:生成一页纯 HTML+CSS+SVG 的梦幻黄色网页:背景从 #FFF59D 到 #FFEB3B 径向渐变;60颗白色粒子6秒漂移;5个光晕气泡循环淡入淡出;中央 ‘Dreamy Lemon’ 手写字带发光;点开柠檬会炸开,所有元素保持柠檬黄+Tiffany蓝主題,代码可直接运行。
結果如上,模型確實按照指令實現了所有的技術要求:徑向漸變背景、粒子動畫、氣泡效果、發光文字、交互功能等等。然而,對于“夢幻”這個概念的理解似乎出現了偏差,可能將其解讀爲需要添加模糊效果或其他視覺濾鏡,導致整體視覺效果適得其反,整個頁面都模糊不清,
我們也測試了官方發布的物理運動場景,只不過我們選擇了非常複雜的“三體運動”,難度上很爲難模型,我們通過Cline調用Qwen3-Coder來測試它的Agent能力。
Prompt:做一个实时的三体运动,黑色全屏 ;3个彩色小球(红、绿、蓝)只受彼此万有引力作用,彼此吸引、环绕、抛射,必须真实运动;实时计算牛顿万有引力 F = G·m?m?/r?,速度矢量随时间累积;保留彩虹渐变轨迹(800点 FIFO),可开关;左上角提供:重力常数滑杆、速度倍率滑杆、轨迹复选框、重置按钮;零依赖、复制即用、双击即可在浏览器看到3球持续运动。
https://weibo.com/tv/show/1034:5191880476917785?from=old_pc_videoshow
這次,我們吸取了教訓,盡可能地完善了prompt來控制模型,我們發現Qwen3-Coder在完成編程後,調用了Chrome浏覽器工具,在後台自行演示了一遍,並核對我提出的所有要求,在逐個檢測完畢後,才進入到最終演示階段。
當然,實際物理中的三體運動肯定比演示更加複雜,這也意味著,雖然模型能夠理解並生成複雜的需求列表,但在將這些需求轉化爲可工作的代碼時,特別是涉及複雜數學計算和實時動畫的部分,還要通過多工具協同來完成。
如何讓代碼能力“長”在模型裏?
Qwen团队采用了一种全新的训练思路:他们没有把Agent能力当作后期的“插件”,而是在训练过程中就深度集成。通过Agent RL训练,模型学会了真正的多轮交互、工具调用、错误处理等能力,这些能力是“长”在模型里的,而不是外挂的。
在預訓練階段,團隊用了7.5萬億token的數據,其中70%是代碼。這不只是簡單的數據堆積,而是像給學生准備更豐富教材的策略,既保證編程能力,又不丟掉通用的語言和數學能力。
更關鍵的是上下文能力的提升。模型原生支持256K上下文長度,最多可擴展到1M,這讓模型能同時查看整個項目的代碼,而不只是看片段。同時,他們用之前的Qwen2.5-Coder來“批改作業”,把低質量的代碼數據重新清洗和改寫,確保訓練數據質量。這種做法體現了從理論學習向實戰准備的轉變。
傳統代碼模型主要關注benchmark表現,但Qwen團隊在後訓練階段加入了執行驅動的強化學習。他們針對“難寫、易驗證”的真實任務(單測、腳本、小工具)自動批量生成測試用例,把執行成功率當作獎勵信號,讓模型在百萬量級代碼片段裏反複試錯、自我糾錯。
這種方法的核心差異在于:不只是讓模型寫代碼,更重要的是讓代碼能真正運行成功。通過自動生成大量測試用例,模型可以立即知道自己寫的代碼對不對,然後不斷改進。模型的目標從“跑分”轉向了“可用”。
更進一步,真正的Agent能力是在不斷實測中産生的。團隊在SWE-Bench這類需要多輪改代碼、跑測試、用Git提交的環境裏做強化學習,這已經接近真實的軟件開發流程。
技术突破在于环境的工业化扩展。他们用阿里云构建了能同时运行2万个独立编程环境的系统,就像同时开2万个虚拟机让模型练习编程。每个环境都能提供即时反馈,模型像实习程序员一样不断接收CI反馈、再改再跑,最终在SWE-Bench Verified拿下开源第一。
在真实场景中训练出来的Qwen3-Coder,解决了AI編程工具终于突破了普及的最大瓶颈:调试能力。此前的AI編程助手普遍存在一个致命问题:代码生成后如果出现bug,开发者仍需要手动排查和修复,这对编程经验要求極高,讓普通用戶望而卻步。而Qwen3-Coder具備自我測試和調試能力,真正做到了“寫完即可用”,這意味著即使是編程新手也能借助AI完成複雜的開發任務。
更重要的是成本優勢帶來的市場重塑。開發過程中往往需要多輪叠代調試,以往使用Claude4這類頂級模型成本高昂,許多中小團隊和個人開發者只能望而興歎。Qwen3-Coder在保持相同性能水准的前提下,成本僅爲三分之一,加上完全開源免費商用,徹底消除了成本門檻。這種性能與價格的完美平衡,正在讓其快速成爲開發者的首選模型。
Qwen3-Coder的核心優勢不僅在于編程能力本身,更在于其強大的Agent特性。該模型能夠自主調用各種工具、理解複雜需求、進行多輪交互,這種能力遠超傳統的代碼補全工具。
然而,当前市场对AI Coding重视程度远远不够。实际上,编程能力是AI Agent的核心基础,是AI与物理世界自由交互最关键的底层技术。当AI能够理解需求、编写代码、调用工具、处理异常时,它就具备了在现实世界中自主行动的能力。从这个维度看,AI Coding的价值被严重低估了。
綜合各方面來看,Qwen3-Coder可以說是目前全球範圍內,最具性價比的編程模型。不僅在技術性能上對標頂級闭源模型,在成本控制上更是实现了数量级的优势,加上完全开源的策略,正在重新定义AI編程工具的行业标准。
當編程的門檻被AI徹底降低時,我們看到的是整個軟件開發生態正在走向民主化。
(舉報)