EAIRCon 2025中國具身智能機(jī)器人大會是由智猩猩面向具身智能與機(jī)器人領(lǐng)域發(fā)起主辦的大型會議,由主論壇+專題論壇+研討會+展覽區(qū)四大板塊組成,近40位產(chǎn)業(yè)代表與青年科研人員與會分享和討論,線下參會觀眾超過1000人。

極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家朱政博士受邀在大會分會場二上午的具身世界模型技術(shù)研討會帶來了報告,主題為《世界模型:從語言智能走向物理智能》

朱政博士首先介紹了物理智能和世界模型的基本概念。他指出,物理智能注重對于4D物理世界的理解、生成、常識和推理,可能是除語言智能之外,通往通用智能的第二條技術(shù)路徑。

世界模型本質(zhì)上是一個預(yù)測模型,旨在預(yù)測給定動作下事物狀態(tài)的演變。朱政博士表示,之所以給汽車、機(jī)器人等Agent建立世界模型,是受人的智能學(xué)習(xí)方式為啟發(fā)。

接著,他介紹了團(tuán)隊在自動駕駛世界模型領(lǐng)域圍繞數(shù)據(jù)生成和閉環(huán)仿真所開展的一些工作。朱政博士認(rèn)為,所有的通用智能問題都正在走向端到端,而端到端的核心正是世界模型。

最后,朱政博士介紹了團(tuán)隊在具身智能世界模型上的多項工作,包括EMMA EgoDemoGen、MimicDreamer等,以及最新提出的由世界模型驅(qū)動的VLA系統(tǒng)GigaBrain-0。他表示,希望VLA會融合一部分世界模型的知識,變成下一代的WA (World Action Model)。

以下為朱政的報告全文:

朱政:感謝主持人的介紹,感謝智猩猩的邀請。今天我給大家分享的主題是《世界模型:從語言智能走向物理智能》

首先給大家介紹一下物理智能和世界模型的一些基本概念。然后給大家匯報一下我們在自動駕駛世界模型數(shù)據(jù)生成方面的一些工作。數(shù)據(jù)生成做完了,下一步自動駕駛世界模型的主要應(yīng)用是要進(jìn)行閉環(huán)仿真來訓(xùn)練強(qiáng)化學(xué)習(xí)算法。最后給大家匯報一下,我們從自動駕駛遷移到具身智能的場景,在具身智能世界模型上面也進(jìn)行了一系列探索。

一、物理智能與世界模型

首先看一下人工智能的發(fā)展歷史,其實是從封閉域走向開放域的過程,從感知走向認(rèn)知決策的過程。如果把語言模型看作是一維的數(shù)據(jù),那么圖像或者視頻就可以認(rèn)為是2D、2.5D或3D的數(shù)據(jù)。3D空間再加上一維的時間,就形成了4D時間。這也是空間智能包括世界模型主要探索的對象。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

物理智能,注重對于4D物理世界的理解、生成、常識和推理。它的最終目標(biāo)就是實現(xiàn)機(jī)器人agent、自動駕駛車輛、人形機(jī)器人在4D空間中的交互和理解。這些大家最熟悉的就是駕駛或者機(jī)器人。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

我們認(rèn)為物理智能可能是除了語言智能之外,通往通用智能的第二條技術(shù)路徑。大家的終極目標(biāo)都是一樣的,最后到行動,與物理世界進(jìn)行交互。但是語言智能更多是對內(nèi),它是從思維鏈COT出發(fā),然后到最后的交互。物理智能更多的是對外,從交互出發(fā)到最后的行動。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

看一下世界模型的具體定義。世界模型在很多時候我們認(rèn)為它是一個預(yù)測的模型,目的就是要預(yù)測事物在給定動作下的演變。這個“給定動作”就是我們所說的條件,在不同領(lǐng)域會有不同的condition。比如在Sora里邊,給定條件就是一段文本??梢宰鑫纳曨l、文+圖生視頻。在自動駕駛里面,可以認(rèn)為是方向盤的轉(zhuǎn)角,或油門的加減速。在具身智能機(jī)器人領(lǐng)域里,可能是關(guān)節(jié)的位置或末端的位姿等。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這就是為什么我們需要給agent,包括汽車、機(jī)器人,建立世界模型,主要是因為我們受到了以人為啟發(fā)的智能學(xué)習(xí)方式。人會使用有限的感官,比如視覺、觸覺、嗅覺來感知世界,會在內(nèi)部建立一個簡化的世界模型,我們的角色包括行動都是基于這個內(nèi)部模型。

這里給大家簡單介紹一下,我們?yōu)槭裁匆⒁粋€內(nèi)部模型?為什么不能靠實時感知來與世界交互。假如只靠實時感知的話,是沒辦法預(yù)測世界可能出現(xiàn)的危險或各種變故的。比如一個老司機(jī)在開車的時候,他除了會實時感知外部的行人、車輛之外,還會對未來發(fā)生的危險進(jìn)行預(yù)判。比如他可以通過觀測一個路口的行人,就能判斷這個行人是要停下等待車輛通行,還是穿過十字路口,這個時候司機(jī)就應(yīng)該做避讓。

再比如一個職業(yè)的棒球運(yùn)動員,可以在0.0幾秒之內(nèi)接到一個高速飛行的棒球。但在這個時間內(nèi),其實視覺信號還沒有從視網(wǎng)膜傳到大腦皮層,實時感知系統(tǒng)還來不及處理這個信號。但是因為人的內(nèi)部有一套預(yù)測系統(tǒng),也就是所謂的世界模型,它可以提前對事物的未來發(fā)展?fàn)顟B(tài)進(jìn)行預(yù)測。人之所以能夠在多變的世界里邊與之交互,很大程度得益于世界模型。當(dāng)然,自動駕駛車輛或人形機(jī)器人,更需要這樣的能力。

這張片子大家應(yīng)該在很多場合都看過,就是Yann LeCun認(rèn)為,人類的大腦可以分為這么幾部分:Configurator、Perception、World Model、短時記憶、Cost、Actor。其中,World Model可能是連接其他幾個部分最重要的橋梁。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

其實在很多領(lǐng)域大家都在談?wù)撌澜缒P?,包括視頻生成、自動駕駛、agent(人形機(jī)器人)領(lǐng)域。這幾個領(lǐng)域的世界模型研究是比較廣泛的,分別有一些基本的任務(wù)和應(yīng)用場景。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

二、自動駕駛世界模型-數(shù)據(jù)生成

介紹完背景之后,接下來和大家匯報一下我們在自動駕駛世界模型數(shù)據(jù)生成上的一些工作。

首先來看一下,我們認(rèn)為所有的通用智能問題,比如數(shù)字世界里的語言模型或者視頻生成模型,物理世界的像特斯拉的FSD或者Optimus,都在走向端到端。我們認(rèn)為端到端的核心就是世界模型。這里面包括了世界模型可以提供閉環(huán)模擬器,也可以建立高質(zhì)量的4D閉環(huán)數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

我們可以看一下之前在沒有世界模型的時候,大家采數(shù)據(jù)是怎么采的。我們可以通過互聯(lián)網(wǎng)數(shù)據(jù)作預(yù)訓(xùn)練,通過仿真數(shù)據(jù)也做預(yù)訓(xùn)練,或通過車隊的實采數(shù)據(jù)、遙操數(shù)據(jù)做后訓(xùn)練。但是這里邊缺點(diǎn)其實是比較明顯的。比如互聯(lián)網(wǎng)數(shù)據(jù)或仿真數(shù)據(jù)缺乏真實性;實采數(shù)據(jù)、遙操作數(shù)據(jù)成本比較高,Corner case少,效率低。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

如果我們用世界模型代替?zhèn)鹘y(tǒng)的方式采集數(shù)據(jù),總結(jié)為四個字叫“多快好省”。

就是可以規(guī)?;纳?。因為GPU可以并行化的生成。

就是不受限制。

就是可以挑選生成Corner case或者長尾的分布,它的價值密度比較高。

的話就是GPU的成本相比較車隊或者本體,還是很低的。

接下來給大家匯報一下我們早些年的一些工作。

DriveDreamer是我們2023年做的,現(xiàn)在已經(jīng)成為常用的一個baseline。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是我們生成多種不同的天氣、背景、時間等。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是根據(jù)結(jié)構(gòu)化信息可以生成,根據(jù)文本的控制,像晴天、雨天、夜晚這樣一些場景。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

然后我們給定相同的初始值,改變模型的輸入,也可以生成不同的未來。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

其實世界模型本身就是一個VLA,因為預(yù)測未來和預(yù)測未來的action其實是一回事。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

在DriveDreamer里面,結(jié)構(gòu)化信息一般來自于數(shù)據(jù)集。但像nuScenes、nuPlan或Waymo,它的數(shù)據(jù)集是預(yù)先采集好的離線數(shù)據(jù)。所以想改變它的結(jié)構(gòu)化信息,比如人工改變不是那么方便。所以我們在DriveDreamer-2里面引入了語言模型,就可以用語言模型去定制化的先生成結(jié)構(gòu)化信息,再根據(jù)結(jié)構(gòu)化信息去生成周視的視頻。

比如在這張圖里邊,我想生成一個雨天車輛Cut-in的場景。我先送給一個結(jié)構(gòu)化信息的生成器,再生成結(jié)構(gòu)化信息,進(jìn)而就可以生成周視的視頻。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

接下來看一下可視化的結(jié)果。第一行、第二行、第三行分別是白天、雨天、夜晚,車輛突然從右邊超車。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

上面是下雨天,下面是白天的一些場景。這些都是在nuScenes上的一些結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

三、自動駕駛世界模型-閉環(huán)仿真

講完了數(shù)據(jù)生成之后,接下來講講自動駕駛世界模型閉環(huán)仿真。

大家都知道,關(guān)于自動駕駛車輛,像一些自動駕駛公司或者車企,這些年積累了幾乎上億公里的數(shù)據(jù)。但為什么我們剛才還要做自動駕駛的數(shù)據(jù)生成呢?

因為在這些數(shù)據(jù)里面,99%的數(shù)據(jù)可能都是晴天道路直行的數(shù)據(jù),Corner case長尾分布非常少。所以這些有價值的數(shù)據(jù)常常被淹沒海量數(shù)據(jù)里邊。而用模仿學(xué)習(xí)在學(xué)習(xí)到的時候,又只能學(xué)習(xí)到數(shù)據(jù)的平均分布,很難學(xué)習(xí)到面對長尾問題應(yīng)該怎么處理。所以我們要做數(shù)據(jù)生成。

做完數(shù)據(jù)生成之后,我們訓(xùn)了BEV的算法,訓(xùn)了一些端到端的算法。接下來就是因為大模型的興起,很多自動駕駛公司開始采用VLA方案。VLA方案一個很重要的問題是需要進(jìn)行閉環(huán)仿真,而世界模型在閉環(huán)仿真領(lǐng)域也有很大用處。

接下來可以看一下我們幾個探索性的工作。

首先看一下自動駕駛的發(fā)展歷史,以及我們?yōu)槭裁匆鲩]環(huán)仿真。自動駕駛從2D感知,到BEV的3D感知時代,然后到端到端時代。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

當(dāng)然端到端會引入很多的優(yōu)點(diǎn),這里我就不再贅述了。同時也有一些缺點(diǎn),有兩個比較重要的缺點(diǎn):

第一個是它的可解釋性下降了,我們需要更系統(tǒng)的測試手段。

第二個是車輛的行為會影響所獲取的圖像。所以沒辦法像感知一樣進(jìn)行開環(huán)的評測,必須要進(jìn)行閉環(huán)的評測。這樣才能在車輛偏離錄制行為的時間,以初始的圖像作為condition,來生成新行為下的圖像,這就是所謂的閉環(huán)仿真。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

閉環(huán)仿真,大概有幾種做法。比如通過CARLA模擬器;一些游戲的引擎或三維重建的仿真;也可以通過我們剛才所講的2D世界模型。但是他們都有一些缺點(diǎn),大家也都比較明確了,我就不再贅述了。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

為了避免像DriveDreamer、DriveDreamer-2這些2D視頻所帶來的閉環(huán)仿真的挑戰(zhàn),我們在DriveDreamer4D里引入了重建,它是聯(lián)合了生成+重建。通過結(jié)構(gòu)化信息生成的視頻,可以加到重建模型里,來填補(bǔ)它沒有見過新視角的缺陷。這樣它新老視角都見過,會重建的更好。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

具體來說,像DriveDreamer4D里,我們會利用首幀+結(jié)構(gòu)化信息生成一些新軌跡的視頻,然后把新老軌跡混合起來訓(xùn)練4DGS??窟@么一套Pipeline下來,我們在多個方法里都達(dá)到SOTA的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

以下是PVG的結(jié)果。左邊原始的PVG有很多偽點(diǎn)、浮影等,但右邊都比較好的被克服了。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是Deformable-GS的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是S3Gaussian的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

然后這些定量化的結(jié)果我就不再贅述了,大家有興趣的話可以看一下我們的文章。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

在做完DriveDreamer4D的時候,其實有進(jìn)一步挖掘的空間。在上一篇工作里面,我們是直接用生成的方法去生成新視角的數(shù)據(jù),加給重建模型進(jìn)行訓(xùn)練。但這種方式?jīng)]有做到生成和重建聯(lián)合優(yōu)化。

所以我們在這ReconDreamer這篇工作里,先對場景進(jìn)行重建。重建完之后,可以渲染新視角的視頻。當(dāng)然這個時候因為它沒有見過新視角,所以一定會有各種偽點(diǎn)、浮影等,甚至有大量的黑塊。然后再送給視頻生成模型進(jìn)行修復(fù),修復(fù)完之后的數(shù)據(jù)再經(jīng)過一個循環(huán)提供給重建模型,這樣就可以做到兩者聯(lián)合優(yōu)化。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

左邊是直接在新視角下渲染的結(jié)果,右邊是經(jīng)過視頻生成修復(fù)模型之后修復(fù)的結(jié)果,可以發(fā)現(xiàn)效果有了非常大的提升。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是我們在當(dāng)時第一次做到了可以偏移兩個車道,也就是偏移6米之后的結(jié)果。

相比較之前的Street Gaussians,或DriveDreamer4D,還是有非常大的提升。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

然后我們做了非常多其他數(shù)據(jù)集的一些結(jié)果,包括nuScenes數(shù)據(jù)集,定量化結(jié)果就不再贅述了。

因為我們發(fā)現(xiàn)ReconDreamer這一套工作確實比較有潛力,所以在持續(xù)挖掘。我們發(fā)現(xiàn)ReconDreamer有一個問題:雖然新視角的渲染質(zhì)量提升很大,但在原視角是有所下降的。那么新老視角兩個能不能同時提升呢?我們發(fā)現(xiàn)在ReconDreamer++里面是可以的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

具體來說,我們現(xiàn)在是把整個場景解耦為路面、背景、前景、動態(tài)物體,來提升它的幾何一致性。另外,我們會把新軌跡的偏移作為輸入,來修正高斯球的參數(shù)。這樣可以緩解生成的新視角數(shù)據(jù)和原視角數(shù)據(jù)之間的的gap。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

我們接下來看一下實驗的結(jié)果。這是我們在Waymo原軌跡下的實驗結(jié)果,可以發(fā)現(xiàn)原軌跡也沒有下降,可以保持的很好。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

然后偏移3米,就是偏移一個車道,效果也有了大幅度的提升。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

另外,我們還做了非常多跨數(shù)據(jù)集的實驗,比如Pandaset的實驗、nuScenes的實驗。

這是一些定量化的結(jié)果。因為時間關(guān)系,我就不再贅述了。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

剛才講了非常多,生成+重建的工作進(jìn)行閉環(huán)仿真。閉環(huán)仿真的一個很重要的目標(biāo)就是和強(qiáng)化學(xué)習(xí)相結(jié)合。因為強(qiáng)化學(xué)習(xí)可以探索出更廣泛的搜索空間,是可以超越人類水平,甚至超越老司機(jī)的絲滑程度。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

那么,如果把強(qiáng)化學(xué)習(xí)引入到剛才的ReconDreamer里會發(fā)生什么呢?可以來看一下。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

因為之前的強(qiáng)化學(xué)習(xí)算法都是在模擬器里訓(xùn)練的,或者像RAD是在3DGS里進(jìn)行訓(xùn)練的,所以對新視角的探索可能是不足的。為了避免這種情況出現(xiàn),用了前面生成+重建的一套pipeline。它可以同時在原軌跡和新軌跡下為強(qiáng)化學(xué)習(xí)算法提供一個高質(zhì)量的傳感器數(shù)據(jù)的反饋。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

另外,我們會采用一些動力學(xué)的模型來確保車輛運(yùn)動軌跡,在物理上是可行的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

另外,在訓(xùn)練強(qiáng)化學(xué)習(xí)算法時,大家都知道有一個痛點(diǎn),就是現(xiàn)在的數(shù)據(jù)集里長尾分布實在是太少了。比如他車變道、自車變道,或者像一些行人鬼探頭等。所以我們對像nuScenes或nuPlan這類數(shù)據(jù)集也做了非常多的增強(qiáng)。像DriveDreamer-2里,我們可以通過文本來生成他車變道,包括自車變道的行為,可以把nuScenes數(shù)據(jù)這樣的長尾分布進(jìn)行比較明顯的改善。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

接下來,看一下可視化的實驗結(jié)果。上面是RAD,它在各種Corner case下碰撞率還是比較高的。但在下面的DriveDreamer-RL里邊,基本可以避免碰撞的發(fā)生。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

四、具身智能世界模型

最后一部分是在具身智能世界模型上。

我們發(fā)現(xiàn)appearance,就是物體的外觀對于VLA的魯棒性影響非常大。外觀形成的因素比較復(fù)雜,包括物體的顏色、材質(zhì)、光照、拍攝時間不同等,都會對VLA的魯棒性帶來比較大的挑戰(zhàn)。所以我們通過EMMA這個工作,對于柔體、流體、剛體的外觀做了非常多的增強(qiáng)。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

第一行是在真機(jī)實采下的一些白色衣服,或在仿真器里布置的一些場景。

第二行是condition的信息,我們用的是depth的信息,這個信息比較容易獲取,也比較快速。

第三行、第四行分別是一些其他方法,比如我們最新的一些EMMA的結(jié)果。我們現(xiàn)在可以通過控制條件對多視角一致的顏色、紋理、材質(zhì)進(jìn)行比較好的增強(qiáng)。

這里包括了兩部分:

第一部分是一個DreamTransfer的模塊,主要負(fù)責(zé)數(shù)據(jù)生成;

第二部分是生成了數(shù)據(jù)之后,怎么把生成的數(shù)據(jù)和真實數(shù)據(jù)進(jìn)行優(yōu)雅的混合,用一種比較好的策略來訓(xùn)練VLA。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

DreamTransfer訓(xùn)完之后,它的控制條件是Prompt+Depth的信息。多視角一致,是通過聯(lián)合建模得到的。模型訓(xùn)練之后,可以通過自然語言指令,對真實或者仿真的數(shù)據(jù),進(jìn)行各種表觀、背景及光照條件的編輯。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是我們一些定量的結(jié)果,就不再贅述了。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

數(shù)據(jù)生成之后,因為生成的數(shù)據(jù)受視頻生成模型的限制,不一定所有生成的數(shù)據(jù)質(zhì)量都是很高的,里面充斥著大量的低質(zhì)量數(shù)據(jù)。所以我們需要先根據(jù)一系列定義好的Metrics進(jìn)行篩選。篩選完之后和真實數(shù)據(jù)聯(lián)合訓(xùn)練VLA的時候,還需要對樣本進(jìn)行自動化權(quán)重的分配,讓模型關(guān)注到這些困難的樣本,關(guān)注到Corner case,以便提升VLA的魯棒性。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是我們定量化的實驗結(jié)果??梢园l(fā)現(xiàn),相比較僅用真實數(shù)據(jù),在一個全新的測試機(jī)器人上,面對沒有見過的顏色、光照上成功率只有28%。但是加上我們的數(shù)據(jù)增強(qiáng)之后,成功率可以達(dá)到65%。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

進(jìn)一步再加上混合訓(xùn)練策略,成功率可以進(jìn)一步達(dá)到78%;并且執(zhí)行軌跡的質(zhì)量也有所提高,平均執(zhí)行時間變短了。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

接下來看一下可視化的效果。第一行是真機(jī)采集的數(shù)據(jù),第二行是我們的condition,第三行是我們生成的多視角一致增強(qiáng)之后的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是一些仿真實驗的結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這里是更多的一些實驗結(jié)果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

接下來看一下VLA的實驗結(jié)果。這個模型在訓(xùn)練的時候只見過白色或黑色的工服。但在測試時可以疊各樣顏色、款式或紋理等的衣服。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

在這個實驗里,雖然訓(xùn)練時只見過白色的碗,但是inference時對不同的顏色的陶瓷碗,也可以比較好的處理。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是一個扔瓶子的實驗,訓(xùn)練時只見過怡寶礦泉水瓶,但是對于碳酸飲料瓶、可樂瓶子,都可以比較好的處理。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

講完這個表觀變化之后,其實機(jī)器人在操作時還有非常多其他的挑戰(zhàn)。比如另一個挑戰(zhàn)是視角的變化,尤其是在機(jī)器人加裝了移動底盤的時候。因為不可能確保移動底盤每次都恰好停在同一個位置進(jìn)行操作,它靠前、靠后、靠左、靠右都有可能的。所以VLV的策略需要對視角也做到魯棒。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這個時候,我們可以通過一系列方法對于視角也進(jìn)行增強(qiáng)。比如可以先進(jìn)行視角的變換,然后進(jìn)行一個action retargeting,最后就可以把原視角變換成新視角。當(dāng)然變換過程中也會因為觀測不到視角,出現(xiàn)一些黑塊、變形等。所以我們會用一個視頻生成模型進(jìn)行修復(fù)。最后,這些生成的數(shù)據(jù)就可以和原來數(shù)據(jù)混合在一起,訓(xùn)練policy的策略。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

在這里可以發(fā)現(xiàn),不管是在仿真環(huán)境還是真機(jī)實驗下,加上EgoDemoGen之后,在標(biāo)準(zhǔn)視角和隨機(jī)新視角下,成功率都有所提升。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

可以看一下一些可視化的實驗結(jié)果。第一列是標(biāo)準(zhǔn)的視角,第二列、第三列分別是一些新視角??梢园l(fā)現(xiàn),基本上視角的變換對于policy執(zhí)行是沒有什么影響的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

我們來可以看一下中間的一些實驗結(jié)果。這個第一列是原視角的,最后一列是變換完新視角的。中間倒數(shù)第二列是我們加了一些機(jī)械臂的約束來保證生成質(zhì)量。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

除了表觀會變化、視角會變化之外,另一個就是前景物體本身的姿態(tài)也會變化。比如我要去拿桌子上的水杯,水杯每次可能擺在不同的位置。這時候可以通過采集一條人類的演示,然后對前景物體進(jìn)行各種自由組合來達(dá)到這個目的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

我們可以看到這個視頻。先采集一條這樣的數(shù)據(jù);然后通過Real2Real的方式對點(diǎn)云進(jìn)行操作,組合出各種前景不同的變化;最后,這些模型可以被混合起來,去訓(xùn)練一個新的策略網(wǎng)絡(luò)。(鏈接可查看視頻:https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg)

我們再看一下這個視頻。加入這樣的數(shù)據(jù)之后,尤其是在機(jī)器人加上了移動底盤的時候,它的視角,包括前景位置每次都可能發(fā)生不同的變換。但是模型也可以比較好的執(zhí)行任務(wù)。根據(jù)視頻可以發(fā)現(xiàn),香蕉雖然每次擺在不同的網(wǎng)格點(diǎn),但都可以比較好的抓取。(鏈接可查看視頻:https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg)

除了剛才講到的可以對真機(jī)數(shù)據(jù)進(jìn)行各種增強(qiáng)之外,還可以利用互聯(lián)網(wǎng)第一人稱的數(shù)據(jù)。

互聯(lián)網(wǎng)第一人稱的數(shù)據(jù)相比較真機(jī)數(shù)據(jù)有兩個優(yōu)點(diǎn):

第一個是執(zhí)行速度快,比如我們通過VR等去遙操一個臂,疊衣服大概需要花20秒到30秒。但人手疊衣服非??欤赡苤恍枰?秒鐘就可以疊一件衣服。

第二點(diǎn)是用第一人稱數(shù)據(jù)其實是不需要本體的,很多時候只需要去帶一個Vision Pro,帶一個VR眼鏡來采集關(guān)節(jié)、手的位置點(diǎn)就行了。

所以在這兩個成本的加持下,我們可以獲取非常多第一人稱的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

但第一人稱的數(shù)據(jù)很多時候在直接用的情況下是存在很多問題的,和直接用來訓(xùn)VLV的數(shù)據(jù),還是存在的一些視角、動作、視覺方面的差異。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

所以我們在MimicDreamer工作里分別提出了三個模塊,把這三個差異消除掉,實現(xiàn)三者對齊。然后把第一人稱的數(shù)據(jù)直接用于訓(xùn)練VLV模型。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

可以發(fā)現(xiàn),在一些定量的實驗任務(wù)里,MimicDreamer生成的人機(jī)對齊數(shù)據(jù),結(jié)合少量真機(jī)數(shù)據(jù)作為示教,就可以實現(xiàn)few-shot的效果。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

接下來看一下Scaling的一些實驗結(jié)果。這六張圖分別是6種Scaling,縱軸是成功率,橫軸是20條真機(jī)實驗數(shù)據(jù),后面分別是加上了第一人稱的數(shù)據(jù)。我們發(fā)現(xiàn):隨著第一人稱的數(shù)據(jù)越加越多,整體成功率有比較大的提升的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

這是VLA執(zhí)行的一些結(jié)果。所有的VLA執(zhí)行結(jié)果都是在第一人稱數(shù)據(jù)下進(jìn)行訓(xùn)練,然后直接部署的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

基于上面講的各種各樣世界模型的加持,我們也做了一款產(chǎn)品叫GigaBrain-0,這是第一個由世界模型驅(qū)動的VLA系統(tǒng)。在這里面我們用到了真機(jī)數(shù)據(jù)、視頻生成的數(shù)據(jù)、Real2Real的數(shù)據(jù)、Sim2Real的、視角變換的數(shù)據(jù),以及第一人稱視角的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

相比較其他的一些系統(tǒng),比如π0、π0.5、GR-3、GR00T N1.5,我們GigaBrain-0數(shù)據(jù)涵蓋面應(yīng)該是最廣的。

極佳科技首席科學(xué)家朱政博士:VLA會融合世界模型知識,變成下一代WA

最后看一下我們的宣傳片。這是不同視角拍的,一鏡到底的視頻:機(jī)器人把衣服從洗衣機(jī)里拿出來,然后搬到桌子上,最后再把它疊好。(鏈接可查看視頻:https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg)

還有一些Sim2Real的實驗數(shù)據(jù),Real2Real的數(shù)據(jù)、視角變換的數(shù)據(jù),還有根據(jù)相同的首幀給它不同的promote,生成的數(shù)據(jù),以及第一人稱的數(shù)據(jù),轉(zhuǎn)換成機(jī)械臂的數(shù)據(jù)。

另外,還有一些機(jī)器人沖倒咖啡或飲料的數(shù)據(jù),這樣的數(shù)據(jù)在仿真引擎里是很難得到的。還有收拾桌面的一些例子,人可以隨機(jī)打斷它,然后給它布置一個新任務(wù)。

還有一個撕卷紙的例子,是我們用夾爪來完成的,還是比較困難的,因為我們沒有用靈巧手或觸覺傳感器。這個機(jī)器人疊衣服的例子是實際速度播放的,它會先把衣服抖平,再去疊衣服。

所以,現(xiàn)在的具身智能世界模型,我們首先進(jìn)行了第一步的探索,就是做數(shù)據(jù)的增強(qiáng),可以給VLA提供這么多的數(shù)據(jù)。第二步是現(xiàn)在我們正在探索的,用世界模型去構(gòu)建一個模擬器,然后用強(qiáng)化學(xué)習(xí)在里邊訓(xùn)練VLA模型,代替之前在模擬器里訓(xùn)練的,它會存在Sim2Real的gap。

此外,我們也可以代替π*0.6用的真機(jī)強(qiáng)化學(xué)習(xí),因為它需要Human-in-the-loop。我們現(xiàn)在正在探索這件事情,大概今年年底會發(fā)布相關(guān)的一些工作。最后,我們希望VLA會融合一部分世界模型的知識,變成下一代的WA (World Action Model)。

以上就是我今天的報告,謝謝大家。