声明:本文来自于微信公众号 字母榜,作者:李炤锋,授权站長之家转载发布。
“如果沒有開源,沒有去和社區交流,我們靠閉門造車是空想不出來的。”近日,在接受字母榜獨家專訪時,騰訊混元3D團隊負責人郭春超這樣說道。
郭春超的感慨来自于在近期的開源社区中,國産模型“攪動”了整個大模型業界的開源生态, Hugging Face的模型熱度榜单被中国企业连续“霸榜”。最多时,前10開源席位中有9个来自中国。在排名前几的选手中,除了 “Text Generation”(文本生成)、“Text to Image”(文生图)等常见模态外,一款并不常见的“Image to3D”(图生3D)模型挤入前三名,榜单中显示其为腾讯开发的“混元3D世界模型1.0”。
“混元3D世界模型1.0”是騰訊混元3D系列的最新成果,在不久前结束的WAIC(世界人工智能大会)上发布并全面開源。在产品演示中,该模型可以用一句话、一张图生成一个可漫游、可编辑的3D世界。尽管有分析显示,该模型能力还在早期阶段,但其技术论文迅速登顶了Hugging Face的论文熱度榜单。
近年來,騰訊在大模型領域版圖不斷擴展,但在傳統的語言模型板塊,騰訊旗下元寶等C端産品,就陷入了行業內同類産品的高強度“內卷”。而在有些“冷門”的3D模型領域,騰訊卻迅速在國內較早形成産品規模化。這背後的驅動力,似乎來自那些騰訊最賺錢的業務。
“騰訊在遊戲、影視、動漫等業務都會用到3D建模,爲混元3D模型的發展提供了需求場景。”據郭春超介紹,已經有數十個遊戲的項目組在使用混元3D的模型能力。一位騰訊方面人士向字母榜表示,這其中就包括《元夢之星》等主力産品。
据腾讯方面人士介绍,自2024年11月发布并開源首代3D生成模型以来,混元3D系列持续迭代。今年4月,混元3D系列迭代至2.5版本,在建模精細度上大幅提升,有效面片數增加超10倍。同时,腾讯还发布了面向创作者的3D AI创作引擎,以满足游戏开发、动画影视及3D打印等领域的专业需求。相关数据显示,混元3D模型系列在Hugging Face平台下载量已超过230万。
“越來越多的遊戲開發者、3D打印企業及專業設計師采用混元3D模型來生成數字資産。”在剛剛發布的騰訊Q2財報中,提到混元3D系列受到業內認可的現狀,對于模型的技術水平,財報中的描述爲“領先行業的幾何精度、紋理真實度、指令與3D對齊能力。”
另一方面,“3D世界模型”是3D生成大模型中的新锐领域,直到去年才在业内崭露头角。去年年底,“AI教母”李飞飞创业公司World Labs展示了一图生成3D世界的AI系统,随后,谷歌DeepMind也发布了可通过单张图片或文字描述,生成3D场景的大型基础世界模型Genie2,并于上周更新至Genie3。
Genie3能以每秒24幀的速度實時導航,並以720P分辨率保持幾分鍾的一致性。不過,和混元3D世界的技術路線不同,Genie3更側重于打造一個動態、多幀一致的交互式模擬世界,可以逐幀生成一個實時交互3d場景,但並不具備像混元3D世界那樣導出mesh場景的能力。
事實上,“世界模型”並不是一個新鮮概念,早在上世紀90年代開始,就已在機器人導航工具領域應用。而進入大模型時代後,由人工智能驅動的世界模型,已經逐漸在包括具身智能、AR/VR、遊戲影視開發等領域內,發揮基建性的作用。
“它既可以复刻一个虚拟的世界,去创造一个虚拟社交/游戏的场景,也可以创造一个模拟真实场景、睙徵展览会等复制现实的形态。”谈及3D世界模型给未来提供的想象空间,郭春超提供了他的思考。
为什么腾讯要瞄准3D模型赛道?3D世界模型真的能给游戏/动画行业带来产业革命吗?日前,在深圳的一个炎熱午后,郭春超向字母榜回应了上述问题。
“在这个行业内,只要一中断,就在業界没有声音了。”在郭春超看来,想要在新领域站稳脚跟,对新技术的持续跟进和投入。这样的观点在业内并不缺少案例, Meta早在去年就发布了Meta3D Gen,一度处于业内领先的水平。但随后Meta并未持续在3D生成领域发力,更新节奏一度中断,直到今年5月才推出Meta3D Gen2.0。
“一个模型团队需要持续交付出好的东西,如果有一个阶段没有交付出来,后面可能就要还‘技术债’。” 总结混元3D团队的发展历程,郭春超这样说道。
|對話|
3D大模型,正在前半程奔跑
字母榜:和其他類型的大模型不同,3D生成模型是大衆用戶感知相對較弱的領域。作爲資深從業者,你能簡單總結一下目前3D生成所處的階段嗎?
郭春超:3D模型是一个发展相对较新、较晚的领域,大约在2024年業界才开始加大投入、今年才看到商业拐点并爆发。相比之下,LLM(大语言模型)从2022年就出现了比较成熟的产品,睙徵GPT3.5的出现。现在所处的阶段,可以类比在LLM中,GPT2-GPT3之间并接近GPT3的一个状态。
字母榜:你是說,3D生成模型還在一個比較早期的階段?
郭春超:是的。現在屬于是前半段賽程,在3D資産生成領域,希望到年底能做到類比LLM中GPT3.5的水平。
字母榜:在3D模型領域,騰訊是國內走得比較快、做得也比較多的一家企業,而其他國內頭部企業似乎沒有將3D模型作爲主要方向。爲什麽騰訊會瞄准3D模型賽道,這背後有怎樣的戰略考量?是否有來自公司內部的場景或需求,在驅動你們做這個事情?
郭春超:我们主要围绕两个大方向进行布局。一个是業界的技术发展趋势,另一个是我们腾讯的业务需求。在技术发展趋势上,过去一年中,业内3D模态的发展速度非常快。国外企业像Meta、Google都在3D模型领域有重点投入,3D模态对我们理解三维物理世界必不可少。
從自身業務布局角度而言,騰訊在遊戲、影視、動漫等業務都會用到3D建模,爲混元3D模型的發展提供了需求場景。至于國內其他的企業,在這方面可能也有布局,但不一定像騰訊投入這麽大。
字母榜:有沒有混元3D團隊與上述內部業務合作的具體案例?哪些團隊和混元3D業務的關聯是最緊密的?
郭春超:睙徵在游戏板块,我们已经合作了多个团队,但由于保密原因不能公开。不过,已经有数十个游戏的项目组在使用混元3D的模型能力。
另一方面,我们和腾讯云是内部合作关系,腾讯云会把混元3D的一些能力赋能到外部。睙徵说设计Agent Lovart,以及3D 打印品牌拓竹科技、创想三维等。
字母榜:在叠代模型能力的時候,你們會參考內部團隊的意見或需求嗎?
郭春超:這個肯定會的。基本上我們會把很多業務共性的需求彙總起來,作爲後續研發方向的指導。
AI“造”世界的抽卡難題
字母榜:今年1月,3D AI创作引擎2.0上线时,你曾表示:“3D模型生产的视觉合格率,仅用一年时间就从20%提升到60%的水平。”而混元3D世界模型的生成场景要更复杂,目前该模型生成质量符合你的预期吗?
郭春超:世界模型目前還處于早期階段,可能比混元3D1.0當時所處的階段還要再早一點。單個物體生成,模型輸出的就是單個資産,像一個人、一張桌子子,可約束的條件相對較多。
但世界模型是一整個開放3D世界的生成,有真實的、有虛擬的;有自然的、也有室內的。所以它的生成難度較高,涉及空間穩定性、物理規律等影響因素也更多,因此它的發展可能需要更長時間。
字母榜:如果要量化混元3D世界模型的合格率,你認爲能達到多少?
郭春超:不同的任务不一样。如果是简单的一个展厅,只是进入这个场景浏览一下,目前能做到30%-40%的合格率。如果有更高品质的要求,睙徵说在自动驾驶场景,或者高品质游戏的搭建,那以目前的模型能力,可能连10%的合格率都做不到。
字母榜:說起合格率的問題,背後其實有一個可控性的因素。相比物體3D模型,3D世界模型的生成任務更複雜,對可控性要求是否會更高?
郭春超:關于可控性問題,本質上是模型能力能不能穩定激發出來。很多時候大模型在使用中需要“抽卡”(多次生成),通過強化學習等手段,我們希望把“抽卡”的能力穩定下來,大幅提高了可控性。
而對于3D世界模型而言,提高生成的穩定性是更複雜的工程,我們需要從數據端、模型架構、預訓練策略、後訓方法(包括SFT、強化訓練等環節),系統性的都“加固”一遍,最終才能逐步提升。
此外,在产品层面,我们后续也会逐渐降低用户使用门槛,睙徵说帮助用户去做更多的prompt改写,亦或者提供更多模态的输入,例如“文+图”或“文+多张图”,使其可控性能更契合用户的想法。
字母榜:在今年早些時候,騰訊的遊戲制作人王智剛老師曾表示,面數控制能力對遊戲研發來說是至關重要的,某些遊戲項目需要的3D模型可能只有幾千面,但一些大模型上來就是幾萬面。而相比3D物體生成,3D世界生成的複雜性會更高,針對這一問題你們是否有進展?
郭春超:針對如何控制3D世界模型的生成文件大小,我們一直在優化。最開始使用了3D高斯潑濺技術,但那會導致文件很大,後面我們將其轉成了面片的形式,壓縮了幾十倍的大小。
未来,相信随着業界基建的发展,更好的渲染方式、更好的引擎出现,以及伴随着模型层面的迭代,以及伴随着模型层面的迭代,能把这个问题更好地解决。
字母榜:目前,網頁版的混元3D世界模型包含兩種生成模式,前一種是基于文本/圖像,生成一個全景圖式的Skybox,後一種則是基于全景圖去生成3D世界。不過,目前在網頁端,即使生成了一個3D網格世界,能夠探索的範圍也很小,爲什麽要做這樣的限制?
郭春超:这是因为在纯3D的场景里面,如果想要大范围探索,会涉及到很多参数的设置,睙徵说哪里该有空气墙,哪里能进去,还是需要有专业人士进行进一步的调整。
目前,無論是創作3D單體還是3D場景,要打包到引擎當中去開發成一款遊戲,還是有一定的專業性。在3D世界模型的1.0階段,我們更多的是幫助創作者,去降低制作這些場景資産的門檻,但是還不能100%替代人工。
下一代3D模型:交互性+真實性
字母榜:行業也有類似的産品,宣稱可以實時生成遊戲世界。這是某個海外團隊的産品demo,和混元3D世界模型對比的話,你認爲這兩個産品的技術路線有什麽差異?
郭春超:看了一下演示,他們可能采用的是視頻生成的模式,本質上是預測畫面的下一幀。演示中的人物形象是一直往前走的,如果走了一會再回頭,會發現後面的山或者其他素材會消失。事實上,因爲視頻生成數據量非常大,目前視頻生成技術還不能徹底進入遊戲的管線。
字母榜:不过实时生成游戏世界的理念,最近在业内熱度还蛮高,混元下一步会有这种想法吗?
郭春超:下一步,我们探索会结合3D和2D场景下的几种模态,推出一个World Play的交互模型,预计在今年下半年推出。这个版本有望既解决了2D稳定性的不足,又解决了3D生成多样性的不足,把两者的优点结合起来。
圖注:混元世界模型1.0應用概覽圖
字母榜:此前你曾表示,3D生成模型的發展還面臨一些挑戰。其中之一是數據的不足,在3D模型領域只有千萬量級的數據,並且沒有被充分的利用。目前你們在數據利用層面是否有新的進展?
郭春超:是的。我們目前用了大量的圖和視頻的場景,用來緩解了3D素材産能不足。尤其是大量的視頻場景,可以轉化爲3D信息,進而指導我們去做三維世界的生成。而且最終生成的3D世界,既可以以3D的形式保存,也可以渲染成視頻,得到一個視頻或某一幀圖像。
當然,在純3D文件領域,我們基于很多遊戲資産等內容,半自動化搭建了很多3D場景。所以,在混元3D場景(世界)訓練中,既用到了圖像、視頻,也用到了很多原生3D場景。相比此前的3D物體模型,在數據的豐富度有了較大提升。
字母榜:我們也留意到了前段時間發布的“混元遊戲視覺的生成平台”。混元3D系列該平台上也扮演了比較重要的角色,這是混元3D業務在應用層面規劃的一部分嗎?
郭春超:那個遊戲平台更多的是我們針對遊戲行業做的第一步的解決方案,它會持續叠代,後面我們也會有更多的遊戲相關的功能加入到裏面,形成一個更完整的遊戲Paas(平台及服務)解決方案。
我們會把遊戲管線裏面達標的、能夠符合工業化生産標准的能力,集成到遊戲平台裏面去。但如果是還處于前期探索階段的能力,我們會先研發一段時間,達到工業化水准時再搬進去。
字母榜:按照你之前的評價,混元3D世界模型似乎是你說的後者,離工業化還有些距離。
郭春超:距離遊戲管線是這樣,還需要一段時間。如果只是用在一些VR的觀看場景,可能已經部分可用了。
字母榜:混元3D世界模型2.0的一些優化方向,能不能透露一下?
郭春超:我们的2.0会在真实世界场景呈现上进行比较大的投入。因为目前的1.0更多聚焦在虚拟世界生成上,但是现实中也有很多应用场景是需要真实感的,睙徵做一个线上的展览会,想让人有身临其境的感觉,那就需要提升模型搭建真实场景的能力。
字母榜:近期WAIC上騰訊也同步了一些具身智能的進展,其中有提到“多模態感知”這個板塊,這一部分會有混元3D能力的介入嗎。
郭春超:新推出的混元3D世界模型暫時沒有在具身智能裏面應用,但是我希望後面能提供3D的場景或者是世界生成的能力,包括剛剛提到的世界模型2.0,能夠更多地去賦能具身智能場景。
開源拥抱未来,思考星辰大海
字母榜:回顾过去9个月,混元3D系列陆续发布并開源了多款模型,此前还更新了一个面向专业设计领域的Hunyuan3D-PolyGen。在规划这些细分模型场景,或者说模型产品矩阵时,你们考虑的因素有哪些?
郭春超:我們就主要考慮的是兩個大的方向。第一個大的方向,是怎麽做好當下。第二個大的方向,是怎麽根據技術發展去拓展未來。
像我们现在做的3D资产的生成,更多的是服务于当下的业务需求。而着眼于未来,像近期推出的混元3D世界模型,可能短期内无法带来天翻地覆的变化,但随着技术的完善和成熟,未来它一定能“革命”掉很多东西。从创作方式到工业流程生产的方式,都是可能被“革命”掉的,我们发布開源就是围绕这两个思路来做的。
字母榜:3D世界模型1.0,目前看起來還是有點投石問路的意思。
郭春超:目前还处于比较早期,它会在部分场景,在VR或者是一些大家做原型场景的验证有用。但是很多事情是需要大家先把这个生态给做起来,让開源社区活跃起来,才会有更多研究者进入到这个领域里面。
字母榜:说到開源,混元3D系列模型的在Hugging Face的下载量突破了230万。您怎么理解開源社区中,广大开发者给你们的反馈?
郭春超:我们开发团队和社区是一个双向奔赴、互帮互助的状态,社区里的开发者能够基于我们发布的技术成果进行改进,降低他们的研发门槛。睙徵说一个开发者是研究世界模型领域的,或者是做自动驾驶领域的人,就能比较轻松把这个用起来。
如果没有開源,没有去和社区交流,我们靠闭门造车是空想不出来的。他们也给了我们非常多的信息输入,因此我觉得開源社区是一个双向共赢的事情。
字母榜:所以其實大家都非常渴望擁抱新業態,哪怕面對的是一個還不夠成熟的産品。
郭春超:是的,如果一個事情已經到了商業化的拐點……
字母榜:那就該閉源了?
郭春超:(笑)这个问题我就不多做评论,但是如果到了100%商业化拐点,可能業界研究的人就比较少了。举个例子,就像手机的人脸识别已经非常成熟,可用率也很高,再做这个算法研发ROI就十分有限。所以整个大模型界研究这个领域的人就比较少了,研究者的熱情更多是探索AGI怎么实现,思考一些星辰大海的领域。
字母榜:回顧過去9個月,雖然時間不長,但不管是在模型數量還是生成質量上,混元3D系列叠代得非常快,這背後的原因是什麽?
郭春超:核心是做大模型三要素:算力、數據、人才,我們在這三個方面都相對做的比較好。同時依托混元大模型這個平台,包括公司層面上也給了混元特別大的支持。把三要素湊齊,是我認爲能做成的第一個原因。
第二個原因是團隊組織形式,我們團隊非常年輕且國際化,團隊博士比例大約占2/3,基本上都來自于海內外名校。此外,我們團隊一直堅持工業化的打法,在團隊組織和運作上都是保持非常“卷”的狀態。我認爲以上兩個方面是能夠讓這個模型技術快速叠代的最大原因。
(舉報)