声明:本文来自于微信公众号 光锥智能,作者:光锥智能,授权站長之家转载发布。
大模型又迎來新一波的叠代周期。
近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模態統一模型UniPic2.0。
UniPic2.0主打的是,在单一模型中深稛嶷合图像理解、文本到图像生成、图像编辑三大核心能力,这正是今年多模態技术攻克的熱门方向——理解、生成、编辑一体化。
目前多數AI生圖,生成之後就很難修改,經常出現對二次指令理解不充分,讓圖片越改越離譜的情況。
然而我們在測試UniPic2.0的修改圖片能力時,卻看到了驚喜。
最近流行的“基礎款不要搭基礎款,上身基礎,下身不基礎”的玩梗,我們讓UniPic2.0給下身換一個同色系但誇張的穿搭,它就把下身的褲子改成了一條紅色蓬蓬裙。
此模型在7月30日已經開源,這次上線的2.0版本,延續了之前1.0版本的優勢——“又快又好”。
圖片幾秒生成、一句話編輯
小身材高表現
當其他大模型需要花幾十秒生成一張圖片時,UniPic2.0只用幾秒就畫了一張複雜的“玻璃貓”出來。
不同于市面上其他开源的统一架构多模態模型动辄百亿参数的大规格,UniPic2.0的参数规格只有2B,这让它响应生成的速度比起其他模型快了一个数量级。
雖然尺寸小,但UniPic2.0在圖片生成、理解和編輯三個方面的表現力也依然在線,甚至在圖片編輯部分的部分指標分數打敗了多個規模在10B以上開源模型。
先從圖片生成說起,在生成能力方面,UniPic2.0的統一架構版本在GenEval(測試生成圖像和文本匹配程度)取得0.90,超過了一衆開源模型和閉源的GPT-4o(0.84)。可以看到,UniPic2.0在小模型體量下依然能保持高性能的優勢。
爲了測試UniPic2.0對于文本理解和生成匹配的情況,光錐智能讓它和Bagel各自生成一張“梵高風格的樹”,UniPic2.0給出了一張完美切題的圖片,而Bagel的圖甚至還帶著聖誕樹的特征。
圖片編輯則是UniPic2.0表現最亮眼的部分,在GEdit-EN和Imgedit這兩個關鍵的圖像編輯任務指標上,UniPic2- SD3.5M - Kontext分別拿到6.59和4.00的成績,UniPic2-Metaquery 系列模型的表现更好,最高拿到了7.10和4.06的分數,超越了OmiGen2、Bagel在內的多個開源模型,可以說直接追著閉源的GPT-4o而去。
在圖像補全、擦除、主體一致性、風格轉換上,光錐智能給出了多組提示詞分別測評。
圖片修改我們開頭已經測試過,再給UniPic2.0一張風景圖,讓它把相機視角向右旋轉40度,給出的圖片效果相當驚豔,甚至連陽光在牆上映出的影子都補全了。
日常比較實用的人物背景切換和圖片消除,光錐智能也給UniPic2.0安排上了。這比較考驗大模型處理主體一致性的效果。
讓UniPic2.0給前OpenAI的前首席科學家ilya換個純藍色底的背景圖,UniPic2.0用5秒就把人物從色彩雜亂的背景中“摳”出來,換了個接近一寸照的純藍色背景。
再讓大模型給純色背景的人物P個沙灘海岸的背景圖,UniPic2.0把海岸的沙灘、大海和椰子樹,都安排進了背景裏。
嫌人物擋住拍攝的風景?我們給了UniPic2.0一張被狗占據絕大部分的照片,讓它消除掉狗的部分,UniPic2.0生成出來的圖片,基本做到了和原生背景一致。最上方的樹林和右下角的深色部分,也都被保留在新生成的圖片中。
風格轉換方面,UniPic2.0也能對各種風格信手拈來。我們先是讓它生成了一張賽博朋克風格的圖片,再讓它做成吉蔔力風,它也能把酷炫的機器人變成宮崎駿筆下的主角~
最重要的是,一個2B大小的模型,理論上已經可以在人們的手機和電腦上運行起來,這意味著一個可用、好用的高質量生成模型,距離真實落地已經越來越近。
輕量級的一體化模型架構
是怎樣煉成的?
昆仑万维Skywork UniPic2.0的核心优势,在于把模型同时将生成架构压缩在2B参数,在极少算力设备的情况下,也能负担起模型的运转。
從模型架構上,昆侖萬維選擇了統一架構的方式,把圖片編輯、生成和理解裝在了一個模型中完成。
而长期以来,AI领域在处理多模態任务时,多采用的是“模块化”策略:图像理解、文本生成图像和图像编辑禑嵛务,往往由独立的模型或模块分别完成,再串联起来。这样分割的架构导致各个模块之间缺乏协同。
“各自爲政”的後果是,一個專注于圖像生成的模型可能無法充分利用圖像理解的信息來優化生成質量,而一個圖像編輯模型也可能難以在編輯過程中兼顧文本指令的語義。這種“各自爲政”的模式,最終導致各個參數的測試結果分數不高,難以形成強大的綜合能力。
相比之下,UniPic2.0采用的统一架构,实现了图像理解、生成和编辑三大任务的深稛嶷合。这种一体化的设计使得模型能够进行协同训练,形成更强大的多模態处理能力。
事实上,无论是坚持做原生多模態,还是做理解生成一体化,都是今年业内在探索多模態大模型的前沿方向:尽管在图像生成领域,许多公司出于商业化考虑仍坚持单一架构,但学界和坚持基础模型研究的厂商在近一年来都在积极探索理解统一生成和原生多模態方面的技术。
包括智源的OmniGen2、阶跃星辰发布的多模態推理模型Step-3,还是字节跳动Seed团队开源的BAGEL模型,都是通过原生多模態的框架或理解生成统一的机制,试图提升模型生成能力的效果。
此外,在兼顧多個模塊性能優勢的處理上,昆侖萬維這次采用了一個創新的多任務強化學習模式——“漸進式雙任務強化策略”。
針對傳統多任務強化學習,常陷入優化一個任務會損害另一個任務的困境。對此,昆侖萬維先針對編輯任務進行專項強化,再在已對齊一致性編輯的基礎上,針對文生圖任務的指令遵循進行專項強化。在這種模式下,能夠確保文生圖和圖像編輯這兩種不同任務的強化學習過程互不幹擾,並且能夠同時得到提升。
最終,和單一架構的模型相比,新的統一架構模型顯著提升了整體性能和泛化能力,讓生成質量與編輯精度同時提升。
UniPic2.0模型的生成模塊基于2B參數的SD3.5-Medium架構進行訓練,2B的參數規模使得UniPic2.0模型非常“輕巧”,有望部署到各種硬件環境中,包括個人電腦、手機等端側設備,從而降低模型應用的門檻。
UniPic的1.0版本就已經驗證了這種可能性。昆侖萬維表示,該模型可以在RTX4090消費級顯卡上流暢運行。
轻量化的模型,意味着更快的推理速度和更低的计算资源消耗。不仅让用户可以享受到秒级响应的生成和编辑体验,还具备真正落地的成本和环境,成为一个真正能够“跑起来”的多模態生成模型。
追SOTA,也要追落地
在平衡AGI和務實落地上,昆侖萬維一直是想得很清楚的一家公司。
追求SOTA帶來的技術紅利固然有限,但在模型競爭上,昆侖萬維通過卷性價比和堅持開源兩條策略,昆侖萬維在國內巨頭林立的環境下,開辟出了一個獨有的舒適區:保持技術優勢的同時,在落地上一騎絕塵。
是不是感覺很熟悉?前兩天OpenAI發布的GPT-5也玩了一樣的策略,拿便宜1/10的價格,劍指海外的頂流Anthropic。
要想做到這些,首先,技術得過硬。UniPic2.0做到了,它用僅2B的參數規模,性能卻反超了一批同樣架構、參數卻更龐大的模型。
這樣做的好處是,2B參數的UniPic2.0在推理時所需的計算資源大幅減少,讓模型能夠以秒級速度完成圖像生成和編輯任務,對于用戶來說,這個速度具有決定性的意義——很少有人願意等AI跑個幾十秒甚至是幾分鍾。
更小的參數,也意味著更低的訓練和推理成本,既能讓昆侖萬維在追求SOTA的路上少燒點錢,也能讓用戶每次使用的成本更低。對于目前將重心放在應用出海的昆侖萬維來說,UniPic2.0無疑是一個更有性價比的選擇。
同時,一個更早做出的決策——開源,也支撐昆侖萬維在AI大模型訓練中跑得更快。
DeepSeek掀起的开源风暴让人们看到开源对模型能力进化的重要性,而早在2022年底,昆仑万维就意识到了开源的重要性。从最早AI图像、音乐、文本和编程四大开源算法模型、百亿参数的大语言模型Skywork-13B系列到各类多模態大模型,可以说,昆仑万维在AI2.0时代一直是坚定的开源选手。
開源,不僅能讓更多好想法彙集反哺模型的訓練,也能讓昆侖萬維通過模型吸引開發者和用戶,建立品牌影響力。
從結果看,昆侖萬維的這步棋走對了。
在國際知名開源社區HuggingFace的7月榜單中,和一衆大廠、“五小虎”並列的中國公司中,就出現了昆侖萬維的身影。在該榜單上,昆侖萬維共有兩個模型跻身海外模型引用的Top100,其中一個就是UniPic的1.0版本。
通過堅持開源和追逐SOTA並行,昆侖萬維避免了與大廠在資源上的硬碰硬,而是通過技術創新和生態建設,找到了自己的生態位。
幾年追逐AGI的賽跑下來,昆侖萬維一直是那個嗅覺最敏銳的捕手。在大模型之戰越來越卷的情況下,他們正在通過集中資源的方式,追求垂類的領先。
在模型领域上,昆仑万维做出了自己的取舍——睙徵,选择专注多模態领域深耕。
DeepSeek的出現,是昆侖萬維改變的契機之一。在采訪中,昆侖萬維董事長兼總經理方漢提及,對于通用大模型,他們可能會選擇外采。但一些專有大模型,則要自己訓練。
这次,昆仑万维持续5天的技术周,就是围绕着多模態领域“秀肌肉”,展示他们持续深耕的成果。无论是能用在数字人上的音频驱动人像视频生成模型SkyReels-A3、还是当下大家更关注的具身智能大脑——世界模型Matrix-3D,都映射出这家公司的战略考量:聚焦前沿,也不忘落地。
在大模型密集發布的8月,昆侖萬維成功找到了自己的位置。放在當下的中國AI生態圈裏,能持續在牌桌上引人駐足的公司鳳毛麟角,這是昆侖萬維又一次靠策略勝利做到的以小博大。
(舉報)