6月20日-22日,一年一度的華爲開發者大會(HDC2025)隆重啓幕。大會期間,AI科技创业者、Al畅销书作者、人工智能头部自媒體博主GenJi(李艮基)携手华为博士天团,围绕盘古NLP大模型、盘古世界模型、具身智能,以及預測大模型四大核心內容,展開了一場深度技術對談,華爲AI領域核心研發團隊首次集中揭秘,幹貨滿滿!
以下是本次直播實錄“具身智能”部分——
Genji:關于具身智能,大家有很多好奇的領域,大家接觸最多的是人形機器人,那麽,現在人形機器人和各位研究的領域有哪些差異?
周博士:现在大家经常可以看到双足人形机器人的展示,行业里也有非常优秀的公司,如在春晚上火爆的宇树科技,这类公司更多的是侧重于机器人本体设计、机电系统以及运动控制,这是让机器人稳定、可靠动起来的基础,也是让大众能快速领略到机器人魅力的很好的切入点。例如,我们可以让机器人模仿人类跳一段舞蹈,或让机器人穿过一段崎岖的山路。在机器人能很好的动起来之后,还有一个更大的挑战,是如何让机器人聪明的行动。睙徵像人一样,让机器人可以通过看说明书,技能组装起一套复杂的家具,或是使用手机导航就能找到想去的咖啡厅,购买一杯咖啡并带回家等。这些能力需要机器人对3D空间有非常深刻的理解,能够执行长序的物理推理,能预测其采取的行动,将对物理世界产生什么样的影响。这些是我们当前更关注的技术。但是这还不是我们最终的目标,当前,还存在许多类似于矿井下的高危工作环境,也存在可能导致尘肺病等职业病的恶劣工况,所以我们非常希望将机器人应用到这些场景中,让机器人超越人,解难题、做难事,体现科技的价值。
王博士:不同于業界通常展示一些家居生活場景的應用演示,華爲雲更加關注如何讓具身智能技術深入各個工業制造領域中,幫助工業産線提高效率。但工業場景相比于家庭場景有一些特殊的地方,首先,因爲大多數工件都比較精密,裝配冗余孔隙僅有毫米級甚至更小,這對機器人操作的控制精度要求非常高;其次,工業場景對于整個任務完成效率也有非常高的要求,因爲一旦成功率過低或速度較慢,都將影響産品的出貨周期;最後,從機器人本體形態來看,家用場景未來可能會收斂到人形機器人,但工業場景應用的機器人形態可能會非常多樣,有可能是單個機械臂,或者一輛小車,甚至挖掘機都有可能成爲具身智能技術的載體。所以如何讓不同類型的本體都能夠適配我們的技術,是非常重要的挑戰,也是我們需要攻克的問題。
Genji:請四位詳細介紹一下,在具身智能開發落地的過程中,我們現在正面對哪些難題,以及最難的是什麽?
周博士:在我看来,现在具身智能没有最难,只有更难。其实提到智能,大家可能会想到经典的AI三要素,即算力、数据和算法。但面对具身智能,这是需要探索的AI的下一跳,我觉得三要素需要稍微做一些转变,更需要大家关注数据、算法以及机器人的本体。如果这三个要素不能协同,整个具身智能系统就无法扩展,也就谈不上对算力的巨大的需求。6月20日的HDC主題大会上,华为常务董事、华为云计算CEO张平安专门强调,我们不做机器人的本体,目前更加关注具身智能的数据、算法以及对应的平台能力,下面这一页幻灯片,刚好也展示了我们现在正在做的具身智能从数据到算法迭代的平台原型,这一套原型现在已经交付给了我们的部分伙伴使用,并通过在他们工作现场收集的反馈持续优化。这个平台的整体理念,就是让机器人在数字世界中学习,在物理世界中调优和运行。具体来说,先通过Real2Sim的技术,让物理世界快速数字化,随后借助数字世界中仿真引擎合成、生成式AI等技术,大量生产多样化的数据,而这些数据的多样性问题在物理世界是几乎不可能被解决的。有了这些数据之后,通过一套完备的数据工程管线,将所有数据处理成具身智能VLA模型训练所需的状态,并在云上完成具身模型的训练。最后,我们进一步挖掘云仿真的价值,通过算法构建成百上千的测试用例,对模型能力进行测试调优,再通过端云协同机制,讲最优的模型能力推送到机器人的端侧运行。
张博士:数据难题我有切身体会,我经常与客户聊,每个客户反映的问题都是,数据从哪里来,怎么样构建数据。这里为不熟悉具身的同学介绍一下,目前来说大部分客户采集数据的方式都是人工的:通过穿动捕设备采集数据,或者遥控机器人让机器人执行动作,在这个过程中采集数据。但大家应该能够想象这样的人工采集方式,它是有瓶颈的,取决于机器人数量的多少,以及数采员采集效率的高低。倾全国产能来说,一年大概只能采集千万级别的数据量,而这个数据量用来训练模型显然是远远不够的;另外,实采数据还有缺乏多样性的问题。睙徵,训练机器人倒茶这一动作,睙徵让机器人在这个木质的桌面上反复倒茶、收集数据,而这些训练出来的模型,或许换一张大理石桌,就不一定会执行成功了,因为在训练数据中没有见过这样的场景。而这类问题恰好很适合仿真合成数据解决,因为在仿真环境里,我们可以轻松改变桌子的材质、环境光照、物品布置等等,这样采集的数据和训练的机器人技能都将更具备泛化性,另外这样通过仿真合成构建数据的速度也会睙崴工采集的方式快很多,所以我们也在真实的客户项目中广泛应用了这样的技术。同时,最近我也注意到一个新的方向,有客户问我,最近生成视频很火,有没有可能将生成视频这个技术应用到具身数据积累和模型训练里,那我知道王博士最近就在研究这个方向。
王博士:是的。剛才說到視頻生成技術非常火,具身智能數據又非常短缺,所以目前我們正在探索如何利用基于可控條件的視頻生成技術生成符合我們要求的具身智能數據。視頻生成當前存在的一個難題是它生成視頻中的機器人動作不符合實際需求,例如不滿足基礎的物理約束條件。爲了解決這個問題,我們探索將深度圖像作爲視頻生成模型的可控輸入條件,通過視頻生成模型做視覺渲染,來保證生成視頻中的機械臂運動軌迹符合我們的要求。此外,合成的數據還存在仿真到真實的遷移差異較大的問題,我們通過直接在真實視頻數據的基礎上,做一些光照背景變換,或者修改被操作物體等少量元素的編輯,從而盡可能緩解這一問題;
馬博士:總結來說,我們爲什麽要推出具身多模態技術,其實就是爲了降本增效。首先是降本,我們的生成技術可以減少仿真環境搭建的成本,實現短時間內不去改變原本的仿真環境,就可以增加許多不同紋理、不同背景的數據;其次是增效,因爲在真實場景中,真實數據采集是非常有限的,視頻生成技術可以極大程度分成它的數據集,從而讓我們的模型越來越泛化。
Genji:我分享一下自己的想法,人工智能發展是在1956年美國達特茅斯會議時産生的。人工智能從笨到變聰明的過程,經曆過很多卡點和細節,這可以概括成兩種動物,一是鹦鹉學舌,給木桌上的杯子倒上水,鹦鹉只知道這個動線;二是烏鴉,聊人工智能繞不開的一個詞是湧現,湧現是複雜學科裏的詞,無論人的大腦如何協作,多項神經元如何傳遞信號,到具身智能裏面,這個情況都會更加複雜,因爲在烏鴉的能力中,它對現實世界的理解相對深刻,如烏鴉觀測到汽車能夠撞開堅果,汽車也能撞到自己,而紅綠燈能夠控制汽車,發現這三件事以後,它就可以在亮紅燈的時候叼堅果,把堅果丟到車群中,讓汽車開堅果,亮綠燈的時候飛起來,所以烏鴉就具備推理和思考的能力。我們從鹦鹉到烏鴉,這是一個逐漸學習或者是讓它理解、思考世界的過程,讓機器人變聰明指的就是這一過程,而這個過程一定會面臨非常多的挑戰和紛纭複雜的協作。所以請教一下各位,在這一過程中,技術上是如何實現讓機器人工作的?
張博士:我舉一個真實的案例,客戶是如何與華爲一起,讓機器人變得更聰明的。這是我們在上海的客戶——國地人形機器人創新中心。該創新中心希望達到的目的是構建具身的數據,並且基于具身數據訓練具身模型,引領行業發展。爲此,創新中心搭建一個大型的物理訓練場,並購買了很多機器人,讓其在真實的物理訓練場裏執行各種任務采集數據,但很快,客戶發現通過這一方式采數據、積累數據太慢了,于是找到了華爲雲。我們進入項目組後,開始與客戶聯合創新,並試用我們的方案,詳細來說就是我們先通過重建的方式,快速幫助客戶將物理訓練場數字化,構建了物理訓練場數字孿生體,我們通過隨機化使得訓練場的場景變得多樣化,並讓機器人在這樣的環境中執行導航和操作任務,繼而積累大量的數據,當數據量積累到一定量的時候,就會湧現出“烏鴉躲避汽車”這個智能。
Genji:在這裏面還有什麽其他的案例可以分享嗎?
周博士:接着张博士提到的上海人形伙伴,我们还联合孵化了针对工业转运任务的具身智能创新方案。工业转运是工厂里非常常见的任务,工人需要找到对应的货架,并且找到对应的料框、拣选对应的物料,然后将这些物料汇总到产线上。由于需要拣选的物料种类和数量都不确定,所以这个过程的非常柔性且长序的,按照传统的机器人开发方法,很难解决这种问题。我们现在的方案是基于上海人形采集的虽然少量但是高质量的数据,通过引擎合成和生成技术,以十倍到百倍不等的量级生产更加多样化的合成数据。因为不同的数据配方会导致不同的模型效果,所以将不同来源数据,以不同配比进行模型训练与评估测试是至关重要的。我们通过一套数据配方的研究,把不同的数据配比、模型训练、模型在数字世界里的多样化测试与调优,整个过程借助Agent机制自动化的联通,这样用户就可以快速拿到最好的模型。最后,我们再通过端云协同的形式把能力推送到本体,这样就可以在物理世界中进行空间理解、物料拣选、自主导航禑嵛务,最终完成工业转运需求。
馬博士:以華爲手機打包場景爲例,這裏涉及了20多種操作步驟,10多種操作對象,以及包括推、拉、抓、吸等6種操作技能,面對這樣複雜且長的任務,我們首先借助具身規劃模型,即剛才所說的“烏鴉大腦”,去做自主的規劃以及任務拆解,把任務分解成一個一個子步驟,同時在模型運行過程中,萬一發生各種報錯,規劃模型也能夠根據真實場景重新規劃,保證任務的順利進行;此外還有一個具身執行模型以及性能庫,它們需要做的是接收子任務文本指令並完成整個動作,我們的具身執行模型需要在位置不固定、光線光源無法預測、不清楚背景等情況下,依舊魯棒的完成任務。另一個例子是水浸線的理線場景,機械臂需要將水浸線依次扣入卡扣中,在這個場景中,我們使用VLA模型融合3D點雲信息,3D點雲信息能夠更好地解決線懸空時的情況,精准識別高度,提升任務成功率。此外,我們也能夠做到在一定的幹擾之下順利完成任務,包括遮擋的幹擾、光線的幹擾、人爲錯誤幹擾等。
Genji:HDC主題演讲中,平安总发布CloudRobo平台服务的用户是谁?做哪些工作?请科普一下。
王博士:我们更多面向的是工业场景。工业应用的一大特性是场景非常分散,且每个细分场景的专业化程度很高,所以工业应用中有很多只聚焦在自己垂直领域的中小型企业,且这些企业大多自动化能力很强,但智能化水平不足。此外,他们并不需要通用的具身智能,他们只希望针对自己的产线需求开发相应的具身智能技术,用以解决他们产线的问题,达到降本增效的目的。对于这类玩家,如果想自己完全独立开发具身智能技术,则需要搭建平台底座,成本高难度大。因此,我们基于这样的需求因素,开发了CloudRobo具身智能平台,它能够提供包含数据处理、模型开发、云端部署等一整套面向具身智能解决方案的开发工作平台,我们希望借此赋能不同的机器人厂家和行业应用场景。另外也可以看到,我们还有R2C协议,平台面对不同的机器人本体,涉及的关节、传感器类型都是不一样的,为了让我们的平台和不同类型本体有效对接,就需要设计一套统一的标准,同时我们也在倡导与联合各个机器人本体伙伴,共同构建R2C协议,即Robo to Cloud协议,构建通信接口、数据接口和指令接口,使得平台能够无缝对接机器人本体,赋能各种各样的伙伴。
Genji:請問四位對整個具身智能在未來發展趨勢有什麽思考和洞見?
王博士:接著CloudRobo平台來說,當前具身智能發展尚處于初期階段,大家都是圍繞一些零散的點做探索,有的做一些模型網絡結構改進,有的探索不同傳感器的組合能夠帶來什麽樣的效果。未來,隨著具身智能數據的逐步增多,我相信整個技術路線會逐步走向收斂。到了這一階段,大家在基礎場景下的能力都相差無幾,更爲關注的是一些難例場景下的挑戰,如何解決一個又一個的難例場景,這就需要一整套高效的數據閉環能力來幫助模型實現快速叠代,快速適配特定的問題和特定的場景。CloudRobo平台也是基于這樣一個目的。我們構建各種各樣的工作流,並且把這些工作流進行有效連接,包括數據的自動化標注、有效數據的挖掘等,模型訓練後可以進行自動化評估,從而幫助模型實現快速叠代,使得未來模型競爭力越來越強,也能夠實現模型和應用場景的正向閉環。
張博士:由于我接觸的客戶和實際應用較多,所以在這裏我稍微拆一拆周博士的台。剛才提到的揀選和轉運的工業部件案例,我在實驗室裏見過各種各樣五花八門的失敗,在我看來,具身智能還處于很初期的發展階段,但它的未來一定是非常光明的,只是這個過程會是螺旋式上升,需要經曆不斷的演進。這裏我特別想引用我喜歡的音樂劇《漢密爾頓》的歌詞:這個世界是如此的寬廣。具身世界如此寬廣,它容得下本體廠商,也容得下華爲雲這樣爲本體廠商賦能的企業,更容得下提供各類解決方案的集成商。我們希望所有人都能夠在CloudRobo平台,共同爲具身智能行業發展做出自己的貢獻。
Genji:剛才張博有提到一個詞,叫做“千行百業”,最開始B端找的是千行百業,C端找的是千家萬戶,所以是否將來會達到這樣一個時刻,這個時刻又是如何邁進的?
周博士:拿千行百业来说,刚刚我们提到的工业场景、矿山特种场景,都是值得关注的方向。但这个方向里的区间特别大,睙徵说,相对结构化的工业领域,未来一到两年,就能够陆续有落地成果展现;而更加复杂的矿井环境,则需要3年,甚至更长时间才有落地可能。与此同时,像商超零售、酒店整理、餐厅后厨等商业服务领域,也会在未来的1-3年,陆续有落地成果被看到,但这些都是B端。你刚才还提到千家万户,这就是一条C端的线,睙徵机器人进入家庭陪伴,甚至养老。家庭陪伴这个会很快,行业里已经有不少优秀的公司正在朝这个方向做商业化探索。而真正意义上可以照顾老人的机器人,几乎能算具身智能领域的圣杯问题之一了,5年是一个非常乐观的估计,大概率需要更长的时间。
马博士:补充一点,在To C端,真正走进千家万户之前,我认为主要面临两个问题,即安全与伦理。睙徵,机器人是否会伤人、如何建立机器人安全监督机制,以及伦理,在机器人代替人类工作后,人的价值将体现在哪里,人类又应该从事怎样的工作,这些问题是包括我们、我们的伙伴,以及每位具身行业的从事者,都需要持续思考的问题。
Genji:關于未來的發展趨勢,各位還有什麽補充嗎?
周博士:關于CloudRobo平台的願景,因爲物理世界的各種探索,很多情況下後果是不可承受的,所以我們通過在數字世界中,發揮強智能和大數據的優勢,先把問題解決到90分,再遷移能力去機器人本體,在物理世界繼續調優。這是我們對具身智能如何最終走進千行百業、千家萬戶的一點思考與策略。
王博士:CloudRobo平台最上面一層是安全監督,我們希望通過雲端賦予強大的安全監控,一方面有效制止機器人在實際的應用中出現任何可能會損害周圍環境的行爲,另一方面,希望在仿真環境中對可能會發生的事情做出一些預測,達到提前幹預的效果。
Genji:請各位博士分享一下對具身智能的未來有哪些比較好玩或比較有意思的展望。
馬博士:在我看來,目前我們的用戶期待值還是非常高的。實際上在真正工作中會發現,目前我們的機器人還處于非常初期的階段,對我們來說它還是一個小嬰兒,我們要不斷的教它學習各種技能,至于未來它會做什麽樣的事情,還需要通過我們的平台、數據一起去構建。我個人非常想要的是,機器人未來有一天可以代替我上班。
周博士:刚刚大家也提到这个行业还处于非常早期的阶段,但从技术的角度出发,积极的信号同样存在。睙徵,虽然现在具身智能的技术投入百花齐放,但基本是沿着多阶段VLA的路线在发展。已经被实践证明,复用大语言模型中非常成熟的训练链条是有效且远没有触达上限的。也走出了像π0.5这样非常优秀的具身模型,在垂直领域展现出优秀的泛化性。这给出了一条能不断延展具身智能体能力的路径。今天,我们讨论的所有话题,无论是数据、模型、本体,都会参考这条路径的指引向前探索。
張博士:我個人來說,倒是希望機器人是更通用的形態,不僅幫我們去上班,還能在家裏幫我們做家務,甚至等我老了以後,還可以幫我養老,這雖然是很遠的願景,但還是充滿期待的。
王博士:具身智能的前景非常光明。大家都說AI是工業革命,一直停留在互聯網上或只帶來少量的生産力提升,並沒有促進社會生産力突破性的發展,但具身智能就是這樣的技術,能夠真正把AI運用到提升社會生産效率等各個方面,會給人類社會帶來質的發展。道路是曲折的,前景是光明的,所以我們要朝著這個目標不斷努力。
Genji:最近,我剛讀了一本OpenAI研究員寫的書,爲什麽偉大不可複制。當初OpenAI發明出來時,裏面涉及到了一個基本問題,最開始在解決迷宮難題時,起初讓線條把所有的路線都走出來,最後找到一調最短線條,這件事情聽起來特別像是急功近利探索人生或路線最優解的過程,最後提到,爲什麽偉大不可被複制,就是這不是目的,而是探索過程,不預設非常強功力性的目的,就只是讓線條和點進入迷宮瞎轉悠,這種松馳的機制反而能夠産生更多聰明的感覺,或許它晃著晃著便能解決更爲複雜的問題。
周博士:您提到的這個觀點恰好印證了我們的一些觀察,在具身智能往前演進過程中,需要哪些學習範式。我剛才提到的VLA,本質上還是模仿學習,也就是說,它的上線實際上是人類喂給它多少數據,它就有望學到怎樣的能力。那機器人究竟要怎樣超越人?其實就不應該給它設限,讓機器人通過自己的探索找到最適合自己的工作方式。這種情況下,我們依然希望發揮數字世界的優勢,提供多樣的交互式環境,讓機器人可以在裏面隨機交互探索,並及時獲得反饋與獎勵,這種強化學習+VLA的方式是探索機器人真正超越人的一條路徑。
张博士:我见过周博士在实验里做的机器人,它没用夹爪将想要的东西抓起来,而是用吸盘。在仿真里进行学习的时候,我们没有设限,结果机器人的吸盘在手腕关节的位置进行了360度以上的旋拧,而我们人的手腕因为旋转角度的受限,往往需要多次旋转,机器人却可以连续旋拧、达到睙崴更高的效率。我当时眼前一亮,原来这也可以?我想这就很好的回答了您刚才问到的问题,当没有设限的时候,机器人反而变得更加聪明。
馬博士:剛才說的就是探索與利用,我們通過這樣的方法模仿學習後,再進行強化學習,讓它在環境中不斷的自主探索。目前,在工業場景中,它能夠非常好的提升成功率,包括離線場景,我們都采用了這樣的技術。
Genji:我比較好奇,機器人在各種電影、小說裏面,會與人類産生更強的交互,機器人可以爲人帶來情感上的陪伴和依賴,也會和人類戰鬥,所以各位覺得這種時刻是否會到來?什麽時候機器人會像人一樣産生各種念頭,當機器人足夠強大的時候,這個念頭是否會爆發,從而産生倫理安全問題?
王博士:剛才提到了強化學習,隨著強化學習的發展,一定出現這樣的情況。模仿學習讓機器人只能從這些知識學習中抽象總結一些知識,或者進行歸納演繹推理。但在強化學習中,我們不會設置它什麽步驟是正確的,什麽是錯誤的,只有一個模糊的獎勵目標。它將通過自己的探索,自主去發現什麽是正確,什麽是錯誤。如此一來,它便會産生一個更加湧現的情況,不是我們人所能預期的。我們所有的目標都是在探索,就像在生活中,我們會自己給自己一些規定,機器人同樣。
張博士:還是需要有倫理邊界,就像我們原始人也是自由發展,但到了人類文明社會就開始有邊界,如我們的法律、道德共識等,機器人說不定也會有共識,從最早的三定律,到後面演變出機器人法律,機器人監獄等,雖然我只能設想,但我認爲強化學習過程中,爲了讓機器人能夠在物理世界裏與人和諧共處,還是應該給它設置一些基本的道德和法律邊界。
Genji:引用周博士最開始提到的一個詞彙回答這個問題,就是科技向善。其實無論是機器人還是人,或是真實世界裏出現的所有物體,我們都需要給它相對收斂的規則和邊界,就像法律是道德的底線一樣。在啓蒙運動時,哲學家萊辛提到人生毫無意義,人探索的過程就是意義本身。我們看到人工智能、具身智能的發展,其實就是無邊界探索,但它本身就足夠有意義、有內涵。
由數字化仿真、數據合成,以及模型等關鍵技術出發,以“科技向善”爲落點,華爲雲正通過CloudRobo具身智能平台爲起點,不斷探索具身智能在工業等更多場景下的應用。展望未來,以華爲雲爲代表的科技企業將持續探索人工智能與機器人的結合,合力共識共建,爲人類的長遠發展服務。
(推廣)