EAIRCon 2025中國具身智能機(jī)器人大會是由智猩猩面向具身智能與機(jī)器人領(lǐng)域發(fā)起主辦的大型會議，由主論壇+專題論壇+研討會+展覽區(qū)四大板塊組成，近40位產(chǎn)業(yè)代表與青年科研人員與會分享和討論，線下參會觀眾超過1000人。

極佳科技聯(lián)合創(chuàng)始人、首席科學(xué)家朱政博士受邀在大會分會場二上午的具身世界模型技術(shù)研討會帶來了報告，主題為《世界模型：從語言智能走向物理智能》。

朱政博士首先介紹了物理智能和世界模型的基本概念。他指出，物理智能注重對于4D物理世界的理解、生成、常識和推理，可能是除語言智能之外，通往通用智能的第二條技術(shù)路徑。

世界模型本質(zhì)上是一個預(yù)測模型，旨在預(yù)測給定動作下事物狀態(tài)的演變。朱政博士表示，之所以給汽車、機(jī)器人等Agent建立世界模型，是受人的智能學(xué)習(xí)方式為啟發(fā)。

接著，他介紹了團(tuán)隊在自動駕駛世界模型領(lǐng)域圍繞數(shù)據(jù)生成和閉環(huán)仿真所開展的一些工作。朱政博士認(rèn)為，所有的通用智能問題都正在走向端到端，而端到端的核心正是世界模型。

最后，朱政博士介紹了團(tuán)隊在具身智能世界模型上的多項工作，包括EMMA EgoDemoGen、MimicDreamer等，以及最新提出的由世界模型驅(qū)動的VLA系統(tǒng)GigaBrain-0。他表示，希望VLA會融合一部分世界模型的知識，變成下一代的WA （World Action Model）。

以下為朱政的報告全文：

朱政：感謝主持人的介紹，感謝智猩猩的邀請。今天我給大家分享的主題是《世界模型：從語言智能走向物理智能》

首先給大家介紹一下物理智能和世界模型的一些基本概念。然后給大家匯報一下我們在自動駕駛世界模型數(shù)據(jù)生成方面的一些工作。數(shù)據(jù)生成做完了，下一步自動駕駛世界模型的主要應(yīng)用是要進(jìn)行閉環(huán)仿真來訓(xùn)練強(qiáng)化學(xué)習(xí)算法。最后給大家匯報一下，我們從自動駕駛遷移到具身智能的場景，在具身智能世界模型上面也進(jìn)行了一系列探索。

一、物理智能與世界模型

首先看一下人工智能的發(fā)展歷史，其實是從封閉域走向開放域的過程，從感知走向認(rèn)知決策的過程。如果把語言模型看作是一維的數(shù)據(jù)，那么圖像或者視頻就可以認(rèn)為是2D、2.5D或3D的數(shù)據(jù)。3D空間再加上一維的時間，就形成了4D時間。這也是空間智能包括世界模型主要探索的對象。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

物理智能，注重對于4D物理世界的理解、生成、常識和推理。它的最終目標(biāo)就是實現(xiàn)機(jī)器人agent、自動駕駛車輛、人形機(jī)器人在4D空間中的交互和理解。這些大家最熟悉的就是駕駛或者機(jī)器人。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

我們認(rèn)為物理智能可能是除了語言智能之外，通往通用智能的第二條技術(shù)路徑。大家的終極目標(biāo)都是一樣的，最后到行動，與物理世界進(jìn)行交互。但是語言智能更多是對內(nèi)，它是從思維鏈COT出發(fā)，然后到最后的交互。物理智能更多的是對外，從交互出發(fā)到最后的行動。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

看一下世界模型的具體定義。世界模型在很多時候我們認(rèn)為它是一個預(yù)測的模型，目的就是要預(yù)測事物在給定動作下的演變。這個“給定動作”就是我們所說的條件，在不同領(lǐng)域會有不同的condition。比如在Sora里邊，給定條件就是一段文本?？梢宰鑫纳曨l、文+圖生視頻。在自動駕駛里面，可以認(rèn)為是方向盤的轉(zhuǎn)角，或油門的加減速。在具身智能機(jī)器人領(lǐng)域里，可能是關(guān)節(jié)的位置或末端的位姿等。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這就是為什么我們需要給agent，包括汽車、機(jī)器人，建立世界模型，主要是因為我們受到了以人為啟發(fā)的智能學(xué)習(xí)方式。人會使用有限的感官，比如視覺、觸覺、嗅覺來感知世界，會在內(nèi)部建立一個簡化的世界模型，我們的角色包括行動都是基于這個內(nèi)部模型。

這里給大家簡單介紹一下，我們?yōu)槭裁匆⒁粋€內(nèi)部模型？為什么不能靠實時感知來與世界交互。假如只靠實時感知的話，是沒辦法預(yù)測世界可能出現(xiàn)的危險或各種變故的。比如一個老司機(jī)在開車的時候，他除了會實時感知外部的行人、車輛之外，還會對未來發(fā)生的危險進(jìn)行預(yù)判。比如他可以通過觀測一個路口的行人，就能判斷這個行人是要停下等待車輛通行，還是穿過十字路口，這個時候司機(jī)就應(yīng)該做避讓。

再比如一個職業(yè)的棒球運(yùn)動員，可以在0.0幾秒之內(nèi)接到一個高速飛行的棒球。但在這個時間內(nèi)，其實視覺信號還沒有從視網(wǎng)膜傳到大腦皮層，實時感知系統(tǒng)還來不及處理這個信號。但是因為人的內(nèi)部有一套預(yù)測系統(tǒng)，也就是所謂的世界模型，它可以提前對事物的未來發(fā)展?fàn)顟B(tài)進(jìn)行預(yù)測。人之所以能夠在多變的世界里邊與之交互，很大程度得益于世界模型。當(dāng)然，自動駕駛車輛或人形機(jī)器人，更需要這樣的能力。

這張片子大家應(yīng)該在很多場合都看過，就是Yann LeCun認(rèn)為，人類的大腦可以分為這么幾部分：Configurator、Perception、World Model、短時記憶、Cost、Actor。其中，World Model可能是連接其他幾個部分最重要的橋梁。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

其實在很多領(lǐng)域大家都在談?wù)撌澜缒Ｐ?，包括視頻生成、自動駕駛、agent（人形機(jī)器人）領(lǐng)域。這幾個領(lǐng)域的世界模型研究是比較廣泛的，分別有一些基本的任務(wù)和應(yīng)用場景。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

二、自動駕駛世界模型-數(shù)據(jù)生成

介紹完背景之后，接下來和大家匯報一下我們在自動駕駛世界模型數(shù)據(jù)生成上的一些工作。

首先來看一下，我們認(rèn)為所有的通用智能問題，比如數(shù)字世界里的語言模型或者視頻生成模型，物理世界的像特斯拉的FSD或者Optimus，都在走向端到端。我們認(rèn)為端到端的核心就是世界模型。這里面包括了世界模型可以提供閉環(huán)模擬器，也可以建立高質(zhì)量的4D閉環(huán)數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

我們可以看一下之前在沒有世界模型的時候，大家采數(shù)據(jù)是怎么采的。我們可以通過互聯(lián)網(wǎng)數(shù)據(jù)作預(yù)訓(xùn)練，通過仿真數(shù)據(jù)也做預(yù)訓(xùn)練，或通過車隊的實采數(shù)據(jù)、遙操數(shù)據(jù)做后訓(xùn)練。但是這里邊缺點(diǎn)其實是比較明顯的。比如互聯(lián)網(wǎng)數(shù)據(jù)或仿真數(shù)據(jù)缺乏真實性；實采數(shù)據(jù)、遙操作數(shù)據(jù)成本比較高，Corner case少，效率低。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

如果我們用世界模型代替?zhèn)鹘y(tǒng)的方式采集數(shù)據(jù)，總結(jié)為四個字叫“多快好省”。

多就是可以規(guī)?；纳?。因為GPU可以并行化的生成。

快就是不受限制。

好就是可以挑選生成Corner case或者長尾的分布，它的價值密度比較高。

省的話就是GPU的成本相比較車隊或者本體，還是很低的。

接下來給大家匯報一下我們早些年的一些工作。

DriveDreamer是我們2023年做的，現(xiàn)在已經(jīng)成為常用的一個baseline。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是我們生成多種不同的天氣、背景、時間等。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是根據(jù)結(jié)構(gòu)化信息可以生成，根據(jù)文本的控制，像晴天、雨天、夜晚這樣一些場景。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

然后我們給定相同的初始值，改變模型的輸入，也可以生成不同的未來。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

其實世界模型本身就是一個VLA，因為預(yù)測未來和預(yù)測未來的action其實是一回事。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

在DriveDreamer里面，結(jié)構(gòu)化信息一般來自于數(shù)據(jù)集。但像nuScenes、nuPlan或Waymo，它的數(shù)據(jù)集是預(yù)先采集好的離線數(shù)據(jù)。所以想改變它的結(jié)構(gòu)化信息，比如人工改變不是那么方便。所以我們在DriveDreamer-2里面引入了語言模型，就可以用語言模型去定制化的先生成結(jié)構(gòu)化信息，再根據(jù)結(jié)構(gòu)化信息去生成周視的視頻。

比如在這張圖里邊，我想生成一個雨天車輛Cut-in的場景。我先送給一個結(jié)構(gòu)化信息的生成器，再生成結(jié)構(gòu)化信息，進(jìn)而就可以生成周視的視頻。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

接下來看一下可視化的結(jié)果。第一行、第二行、第三行分別是白天、雨天、夜晚，車輛突然從右邊超車。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

上面是下雨天，下面是白天的一些場景。這些都是在nuScenes上的一些結(jié)果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

三、自動駕駛世界模型-閉環(huán)仿真

講完了數(shù)據(jù)生成之后，接下來講講自動駕駛世界模型閉環(huán)仿真。

大家都知道，關(guān)于自動駕駛車輛，像一些自動駕駛公司或者車企，這些年積累了幾乎上億公里的數(shù)據(jù)。但為什么我們剛才還要做自動駕駛的數(shù)據(jù)生成呢？

因為在這些數(shù)據(jù)里面，99%的數(shù)據(jù)可能都是晴天道路直行的數(shù)據(jù)，Corner case長尾分布非常少。所以這些有價值的數(shù)據(jù)常常被淹沒海量數(shù)據(jù)里邊。而用模仿學(xué)習(xí)在學(xué)習(xí)到的時候，又只能學(xué)習(xí)到數(shù)據(jù)的平均分布，很難學(xué)習(xí)到面對長尾問題應(yīng)該怎么處理。所以我們要做數(shù)據(jù)生成。

做完數(shù)據(jù)生成之后，我們訓(xùn)了BEV的算法，訓(xùn)了一些端到端的算法。接下來就是因為大模型的興起，很多自動駕駛公司開始采用VLA方案。VLA方案一個很重要的問題是需要進(jìn)行閉環(huán)仿真，而世界模型在閉環(huán)仿真領(lǐng)域也有很大用處。

接下來可以看一下我們幾個探索性的工作。

首先看一下自動駕駛的發(fā)展歷史，以及我們?yōu)槭裁匆鲩]環(huán)仿真。自動駕駛從2D感知，到BEV的3D感知時代，然后到端到端時代。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

當(dāng)然端到端會引入很多的優(yōu)點(diǎn)，這里我就不再贅述了。同時也有一些缺點(diǎn)，有兩個比較重要的缺點(diǎn)：

第一個是它的可解釋性下降了，我們需要更系統(tǒng)的測試手段。

第二個是車輛的行為會影響所獲取的圖像。所以沒辦法像感知一樣進(jìn)行開環(huán)的評測，必須要進(jìn)行閉環(huán)的評測。這樣才能在車輛偏離錄制行為的時間，以初始的圖像作為condition，來生成新行為下的圖像，這就是所謂的閉環(huán)仿真。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

閉環(huán)仿真，大概有幾種做法。比如通過CARLA模擬器；一些游戲的引擎或三維重建的仿真；也可以通過我們剛才所講的2D世界模型。但是他們都有一些缺點(diǎn)，大家也都比較明確了，我就不再贅述了。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

為了避免像DriveDreamer、DriveDreamer-2這些2D視頻所帶來的閉環(huán)仿真的挑戰(zhàn)，我們在DriveDreamer4D里引入了重建，它是聯(lián)合了生成+重建。通過結(jié)構(gòu)化信息生成的視頻，可以加到重建模型里，來填補(bǔ)它沒有見過新視角的缺陷。這樣它新老視角都見過，會重建的更好。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

具體來說，像DriveDreamer4D里，我們會利用首幀+結(jié)構(gòu)化信息生成一些新軌跡的視頻，然后把新老軌跡混合起來訓(xùn)練4DGS?？窟@么一套Pipeline下來，我們在多個方法里都達(dá)到SOTA的結(jié)果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

以下是PVG的結(jié)果。左邊原始的PVG有很多偽點(diǎn)、浮影等，但右邊都比較好的被克服了。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是Deformable-GS的結(jié)果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是S3Gaussian的結(jié)果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

然后這些定量化的結(jié)果我就不再贅述了，大家有興趣的話可以看一下我們的文章。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

在做完DriveDreamer4D的時候，其實有進(jìn)一步挖掘的空間。在上一篇工作里面，我們是直接用生成的方法去生成新視角的數(shù)據(jù)，加給重建模型進(jìn)行訓(xùn)練。但這種方式?jīng)]有做到生成和重建聯(lián)合優(yōu)化。

所以我們在這ReconDreamer這篇工作里，先對場景進(jìn)行重建。重建完之后，可以渲染新視角的視頻。當(dāng)然這個時候因為它沒有見過新視角，所以一定會有各種偽點(diǎn)、浮影等，甚至有大量的黑塊。然后再送給視頻生成模型進(jìn)行修復(fù)，修復(fù)完之后的數(shù)據(jù)再經(jīng)過一個循環(huán)提供給重建模型，這樣就可以做到兩者聯(lián)合優(yōu)化。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

左邊是直接在新視角下渲染的結(jié)果，右邊是經(jīng)過視頻生成修復(fù)模型之后修復(fù)的結(jié)果，可以發(fā)現(xiàn)效果有了非常大的提升。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是我們在當(dāng)時第一次做到了可以偏移兩個車道，也就是偏移6米之后的結(jié)果。

相比較之前的Street Gaussians，或DriveDreamer4D，還是有非常大的提升。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

然后我們做了非常多其他數(shù)據(jù)集的一些結(jié)果，包括nuScenes數(shù)據(jù)集，定量化結(jié)果就不再贅述了。

因為我們發(fā)現(xiàn)ReconDreamer這一套工作確實比較有潛力，所以在持續(xù)挖掘。我們發(fā)現(xiàn)ReconDreamer有一個問題：雖然新視角的渲染質(zhì)量提升很大，但在原視角是有所下降的。那么新老視角兩個能不能同時提升呢？我們發(fā)現(xiàn)在ReconDreamer++里面是可以的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

具體來說，我們現(xiàn)在是把整個場景解耦為路面、背景、前景、動態(tài)物體，來提升它的幾何一致性。另外，我們會把新軌跡的偏移作為輸入，來修正高斯球的參數(shù)。這樣可以緩解生成的新視角數(shù)據(jù)和原視角數(shù)據(jù)之間的的gap。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

我們接下來看一下實驗的結(jié)果。這是我們在Waymo原軌跡下的實驗結(jié)果，可以發(fā)現(xiàn)原軌跡也沒有下降，可以保持的很好。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

然后偏移3米，就是偏移一個車道，效果也有了大幅度的提升。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

另外，我們還做了非常多跨數(shù)據(jù)集的實驗，比如Pandaset的實驗、nuScenes的實驗。

這是一些定量化的結(jié)果。因為時間關(guān)系，我就不再贅述了。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

剛才講了非常多，生成+重建的工作進(jìn)行閉環(huán)仿真。閉環(huán)仿真的一個很重要的目標(biāo)就是和強(qiáng)化學(xué)習(xí)相結(jié)合。因為強(qiáng)化學(xué)習(xí)可以探索出更廣泛的搜索空間，是可以超越人類水平，甚至超越老司機(jī)的絲滑程度。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

那么，如果把強(qiáng)化學(xué)習(xí)引入到剛才的ReconDreamer里會發(fā)生什么呢？可以來看一下。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

因為之前的強(qiáng)化學(xué)習(xí)算法都是在模擬器里訓(xùn)練的，或者像RAD是在3DGS里進(jìn)行訓(xùn)練的，所以對新視角的探索可能是不足的。為了避免這種情況出現(xiàn)，用了前面生成+重建的一套pipeline。它可以同時在原軌跡和新軌跡下為強(qiáng)化學(xué)習(xí)算法提供一個高質(zhì)量的傳感器數(shù)據(jù)的反饋。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

另外，我們會采用一些動力學(xué)的模型來確保車輛運(yùn)動軌跡，在物理上是可行的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

另外，在訓(xùn)練強(qiáng)化學(xué)習(xí)算法時，大家都知道有一個痛點(diǎn)，就是現(xiàn)在的數(shù)據(jù)集里長尾分布實在是太少了。比如他車變道、自車變道，或者像一些行人鬼探頭等。所以我們對像nuScenes或nuPlan這類數(shù)據(jù)集也做了非常多的增強(qiáng)。像DriveDreamer-2里，我們可以通過文本來生成他車變道，包括自車變道的行為，可以把nuScenes數(shù)據(jù)這樣的長尾分布進(jìn)行比較明顯的改善。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

接下來，看一下可視化的實驗結(jié)果。上面是RAD，它在各種Corner case下碰撞率還是比較高的。但在下面的DriveDreamer-RL里邊，基本可以避免碰撞的發(fā)生。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

四、具身智能世界模型

最后一部分是在具身智能世界模型上。

我們發(fā)現(xiàn)appearance，就是物體的外觀對于VLA的魯棒性影響非常大。外觀形成的因素比較復(fù)雜，包括物體的顏色、材質(zhì)、光照、拍攝時間不同等，都會對VLA的魯棒性帶來比較大的挑戰(zhàn)。所以我們通過EMMA這個工作，對于柔體、流體、剛體的外觀做了非常多的增強(qiáng)。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

第一行是在真機(jī)實采下的一些白色衣服，或在仿真器里布置的一些場景。

第二行是condition的信息，我們用的是depth的信息，這個信息比較容易獲取，也比較快速。

第三行、第四行分別是一些其他方法，比如我們最新的一些EMMA的結(jié)果。我們現(xiàn)在可以通過控制條件對多視角一致的顏色、紋理、材質(zhì)進(jìn)行比較好的增強(qiáng)。

這里包括了兩部分：

第一部分是一個DreamTransfer的模塊，主要負(fù)責(zé)數(shù)據(jù)生成；

第二部分是生成了數(shù)據(jù)之后，怎么把生成的數(shù)據(jù)和真實數(shù)據(jù)進(jìn)行優(yōu)雅的混合，用一種比較好的策略來訓(xùn)練VLA。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

DreamTransfer訓(xùn)完之后，它的控制條件是Prompt+Depth的信息。多視角一致，是通過聯(lián)合建模得到的。模型訓(xùn)練之后，可以通過自然語言指令，對真實或者仿真的數(shù)據(jù)，進(jìn)行各種表觀、背景及光照條件的編輯。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是我們一些定量的結(jié)果，就不再贅述了。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

數(shù)據(jù)生成之后，因為生成的數(shù)據(jù)受視頻生成模型的限制，不一定所有生成的數(shù)據(jù)質(zhì)量都是很高的，里面充斥著大量的低質(zhì)量數(shù)據(jù)。所以我們需要先根據(jù)一系列定義好的Metrics進(jìn)行篩選。篩選完之后和真實數(shù)據(jù)聯(lián)合訓(xùn)練VLA的時候，還需要對樣本進(jìn)行自動化權(quán)重的分配，讓模型關(guān)注到這些困難的樣本，關(guān)注到Corner case，以便提升VLA的魯棒性。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是我們定量化的實驗結(jié)果?？梢园l(fā)現(xiàn)，相比較僅用真實數(shù)據(jù)，在一個全新的測試機(jī)器人上，面對沒有見過的顏色、光照上成功率只有28%。但是加上我們的數(shù)據(jù)增強(qiáng)之后，成功率可以達(dá)到65%。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

進(jìn)一步再加上混合訓(xùn)練策略，成功率可以進(jìn)一步達(dá)到78%；并且執(zhí)行軌跡的質(zhì)量也有所提高，平均執(zhí)行時間變短了。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

接下來看一下可視化的效果。第一行是真機(jī)采集的數(shù)據(jù)，第二行是我們的condition，第三行是我們生成的多視角一致增強(qiáng)之后的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是一些仿真實驗的結(jié)果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這里是更多的一些實驗結(jié)果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

接下來看一下VLA的實驗結(jié)果。這個模型在訓(xùn)練的時候只見過白色或黑色的工服。但在測試時可以疊各樣顏色、款式或紋理等的衣服。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

在這個實驗里，雖然訓(xùn)練時只見過白色的碗，但是inference時對不同的顏色的陶瓷碗，也可以比較好的處理。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是一個扔瓶子的實驗，訓(xùn)練時只見過怡寶礦泉水瓶，但是對于碳酸飲料瓶、可樂瓶子，都可以比較好的處理。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

講完這個表觀變化之后，其實機(jī)器人在操作時還有非常多其他的挑戰(zhàn)。比如另一個挑戰(zhàn)是視角的變化，尤其是在機(jī)器人加裝了移動底盤的時候。因為不可能確保移動底盤每次都恰好停在同一個位置進(jìn)行操作，它靠前、靠后、靠左、靠右都有可能的。所以VLV的策略需要對視角也做到魯棒。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這個時候，我們可以通過一系列方法對于視角也進(jìn)行增強(qiáng)。比如可以先進(jìn)行視角的變換，然后進(jìn)行一個action retargeting，最后就可以把原視角變換成新視角。當(dāng)然變換過程中也會因為觀測不到視角，出現(xiàn)一些黑塊、變形等。所以我們會用一個視頻生成模型進(jìn)行修復(fù)。最后，這些生成的數(shù)據(jù)就可以和原來數(shù)據(jù)混合在一起，訓(xùn)練policy的策略。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

在這里可以發(fā)現(xiàn)，不管是在仿真環(huán)境還是真機(jī)實驗下，加上EgoDemoGen之后，在標(biāo)準(zhǔn)視角和隨機(jī)新視角下，成功率都有所提升。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

可以看一下一些可視化的實驗結(jié)果。第一列是標(biāo)準(zhǔn)的視角，第二列、第三列分別是一些新視角?？梢园l(fā)現(xiàn)，基本上視角的變換對于policy執(zhí)行是沒有什么影響的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

我們來可以看一下中間的一些實驗結(jié)果。這個第一列是原視角的，最后一列是變換完新視角的。中間倒數(shù)第二列是我們加了一些機(jī)械臂的約束來保證生成質(zhì)量。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

除了表觀會變化、視角會變化之外，另一個就是前景物體本身的姿態(tài)也會變化。比如我要去拿桌子上的水杯，水杯每次可能擺在不同的位置。這時候可以通過采集一條人類的演示，然后對前景物體進(jìn)行各種自由組合來達(dá)到這個目的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

我們可以看到這個視頻。先采集一條這樣的數(shù)據(jù)；然后通過Real2Real的方式對點(diǎn)云進(jìn)行操作，組合出各種前景不同的變化；最后，這些模型可以被混合起來，去訓(xùn)練一個新的策略網(wǎng)絡(luò)。（鏈接可查看視頻：https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg）

我們再看一下這個視頻。加入這樣的數(shù)據(jù)之后，尤其是在機(jī)器人加上了移動底盤的時候，它的視角，包括前景位置每次都可能發(fā)生不同的變換。但是模型也可以比較好的執(zhí)行任務(wù)。根據(jù)視頻可以發(fā)現(xiàn)，香蕉雖然每次擺在不同的網(wǎng)格點(diǎn)，但都可以比較好的抓取。（鏈接可查看視頻：https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg）

除了剛才講到的可以對真機(jī)數(shù)據(jù)進(jìn)行各種增強(qiáng)之外，還可以利用互聯(lián)網(wǎng)第一人稱的數(shù)據(jù)。

互聯(lián)網(wǎng)第一人稱的數(shù)據(jù)相比較真機(jī)數(shù)據(jù)有兩個優(yōu)點(diǎn)：

第一個是執(zhí)行速度快，比如我們通過VR等去遙操一個臂，疊衣服大概需要花20秒到30秒。但人手疊衣服非?？欤赡苤恍枰?秒鐘就可以疊一件衣服。

第二點(diǎn)是用第一人稱數(shù)據(jù)其實是不需要本體的，很多時候只需要去帶一個Vision Pro，帶一個VR眼鏡來采集關(guān)節(jié)、手的位置點(diǎn)就行了。

所以在這兩個成本的加持下，我們可以獲取非常多第一人稱的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

但第一人稱的數(shù)據(jù)很多時候在直接用的情況下是存在很多問題的，和直接用來訓(xùn)VLV的數(shù)據(jù)，還是存在的一些視角、動作、視覺方面的差異。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

所以我們在MimicDreamer工作里分別提出了三個模塊，把這三個差異消除掉，實現(xiàn)三者對齊。然后把第一人稱的數(shù)據(jù)直接用于訓(xùn)練VLV模型。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

可以發(fā)現(xiàn)，在一些定量的實驗任務(wù)里，MimicDreamer生成的人機(jī)對齊數(shù)據(jù)，結(jié)合少量真機(jī)數(shù)據(jù)作為示教，就可以實現(xiàn)few-shot的效果。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

接下來看一下Scaling的一些實驗結(jié)果。這六張圖分別是6種Scaling，縱軸是成功率，橫軸是20條真機(jī)實驗數(shù)據(jù)，后面分別是加上了第一人稱的數(shù)據(jù)。我們發(fā)現(xiàn)：隨著第一人稱的數(shù)據(jù)越加越多，整體成功率有比較大的提升的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

這是VLA執(zhí)行的一些結(jié)果。所有的VLA執(zhí)行結(jié)果都是在第一人稱數(shù)據(jù)下進(jìn)行訓(xùn)練，然后直接部署的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

基于上面講的各種各樣世界模型的加持，我們也做了一款產(chǎn)品叫GigaBrain-0，這是第一個由世界模型驅(qū)動的VLA系統(tǒng)。在這里面我們用到了真機(jī)數(shù)據(jù)、視頻生成的數(shù)據(jù)、Real2Real的數(shù)據(jù)、Sim2Real的、視角變換的數(shù)據(jù)，以及第一人稱視角的數(shù)據(jù)。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

相比較其他的一些系統(tǒng)，比如π0、π0.5、GR-3、GR00T N1.5，我們GigaBrain-0數(shù)據(jù)涵蓋面應(yīng)該是最廣的。

極佳科技首席科學(xué)家朱政博士：VLA會融合世界模型知識，變成下一代WA

最后看一下我們的宣傳片。這是不同視角拍的，一鏡到底的視頻：機(jī)器人把衣服從洗衣機(jī)里拿出來，然后搬到桌子上，最后再把它疊好。（鏈接可查看視頻：https://mp.weixin.qq.com/s/VmuUURZnwirvz1D1Lm_mpg）

還有一些Sim2Real的實驗數(shù)據(jù)，Real2Real的數(shù)據(jù)、視角變換的數(shù)據(jù)，還有根據(jù)相同的首幀給它不同的promote，生成的數(shù)據(jù)，以及第一人稱的數(shù)據(jù)，轉(zhuǎn)換成機(jī)械臂的數(shù)據(jù)。

另外，還有一些機(jī)器人沖倒咖啡或飲料的數(shù)據(jù)，這樣的數(shù)據(jù)在仿真引擎里是很難得到的。還有收拾桌面的一些例子，人可以隨機(jī)打斷它，然后給它布置一個新任務(wù)。

還有一個撕卷紙的例子，是我們用夾爪來完成的，還是比較困難的，因為我們沒有用靈巧手或觸覺傳感器。這個機(jī)器人疊衣服的例子是實際速度播放的，它會先把衣服抖平，再去疊衣服。

所以，現(xiàn)在的具身智能世界模型，我們首先進(jìn)行了第一步的探索，就是做數(shù)據(jù)的增強(qiáng)，可以給VLA提供這么多的數(shù)據(jù)。第二步是現(xiàn)在我們正在探索的，用世界模型去構(gòu)建一個模擬器，然后用強(qiáng)化學(xué)習(xí)在里邊訓(xùn)練VLA模型，代替之前在模擬器里訓(xùn)練的，它會存在Sim2Real的gap。

此外，我們也可以代替π*0.6用的真機(jī)強(qiáng)化學(xué)習(xí)，因為它需要Human-in-the-loop。我們現(xiàn)在正在探索這件事情，大概今年年底會發(fā)布相關(guān)的一些工作。最后，我們希望VLA會融合一部分世界模型的知識，變成下一代的WA （World Action Model）。

以上就是我今天的報告，謝謝大家。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、物理智能與世界模型

二、自動駕駛世界模型-數(shù)據(jù)生成

三、自動駕駛世界模型-閉環(huán)仿真

四、具身智能世界模型

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、物理智能與世界模型

二、自動駕駛世界模型-數(shù)據(jù)生成

三、自動駕駛世界模型-閉環(huán)仿真

四、具身智能世界模型

相關(guān)推薦

一、物理智能與世界模型

二、自動駕駛世界模型-數(shù)據(jù)生成

三、自動駕駛世界模型-閉環(huán)仿真

四、具身智能世界模型