機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

如果機(jī)器人能在行動(dòng)之前,先“預(yù)演”未來(lái)——發(fā)生什么接觸、物體會(huì)如何移動(dòng)、軌跡是否合理——它會(huì)變得更聰明嗎?

機(jī)器人前瞻3月23日?qǐng)?bào)道,近日,RoboScience推出了「具身世界模型」。它不是簡(jiǎn)單地生成好看的視頻,而是讓機(jī)器人在數(shù)字世界中構(gòu)建一個(gè)可交互、可預(yù)測(cè)、符合物理規(guī)律的“想象空間”,可以無(wú)限試錯(cuò)、預(yù)演未來(lái)、評(píng)估風(fēng)險(xiǎn),再到真實(shí)世界中從容執(zhí)行。

當(dāng)前,行業(yè)內(nèi)的世界模型大多聚焦在兩個(gè)方向:一是2D視頻生成,預(yù)測(cè)下一幀像素卻不懂三維空間;二是3D靜態(tài)重建,能還原空間結(jié)構(gòu)卻無(wú)法預(yù)測(cè)物體如何隨時(shí)間運(yùn)動(dòng)。RoboScience的「具身世界模型」選擇第三條路——3D動(dòng)態(tài)世界模型:在三維空間中,預(yù)測(cè)物體隨時(shí)間的連續(xù)運(yùn)動(dòng)軌跡。

「具身世界模型」是RoboScience VLOA大模型的兩大核心引擎之一,與「通用操作模型」共同構(gòu)成通往通用具身智能的完整閉環(huán)。前者負(fù)責(zé)理解物理世界、預(yù)演未來(lái)軌跡,后者則將想象轉(zhuǎn)化為精準(zhǔn)動(dòng)作。

一、以物體為中心的3D點(diǎn)云軌跡:讓思考可見

該「具身世界模型」接收自然語(yǔ)言指令與視覺圖像作為輸入,可以處理單視角或多視角圖像,在復(fù)雜場(chǎng)景中精準(zhǔn)定位目標(biāo)物體及其未來(lái)運(yùn)動(dòng)狀態(tài)。

與傳統(tǒng)方法預(yù)測(cè)下一幀像素不同,「具身世界模型」關(guān)注物體狀態(tài)的語(yǔ)義變化——物體在三維空間中的位置、姿態(tài)、形變、與周圍環(huán)境的交互關(guān)系。它將場(chǎng)景分解為一個(gè)個(gè)物體,分別預(yù)測(cè)其未來(lái)的運(yùn)動(dòng)路徑。

最終輸出是描述物體未來(lái)運(yùn)動(dòng)路徑的3D點(diǎn)云軌跡:一串帶有時(shí)間戳的三維點(diǎn)序列,每個(gè)點(diǎn)包含位置坐標(biāo)、姿態(tài)信息、時(shí)間步和預(yù)測(cè)置信度。

為什么是3D點(diǎn)云?因?yàn)樗?strong>顯式可解釋,可以直觀看到模型預(yù)測(cè)的路徑;它在真實(shí)三維空間中建模,天然滿足幾何約束;而且軌跡可直接作為下游操作模型的輸入,實(shí)現(xiàn)從感知到執(zhí)行的無(wú)損傳遞。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱 RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱
▲「具身世界模型」生成的視頻及其3D點(diǎn)云軌跡

這些3D點(diǎn)云軌跡并非憑空產(chǎn)生,而是通過(guò)一個(gè)專為動(dòng)態(tài)三維世界設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu),從輸入的視覺圖像和語(yǔ)言指令中端到端生成。

下圖展示了「具身世界模型」的內(nèi)部結(jié)構(gòu):

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

▲「具身世界模型」架構(gòu)圖

「具身世界模型」會(huì)先將RGB觀測(cè)、3D點(diǎn)云先驗(yàn)與任務(wù)指令分別編碼為可計(jì)算的語(yǔ)義與空間表征,再送入世界因果Transformer對(duì)任務(wù)條件下的未來(lái)世界演化進(jìn)行建模,形成統(tǒng)一的潛在世界表征;隨后,模型通過(guò)解碼過(guò)程輸出場(chǎng)景與目標(biāo)物體的3D flow,并可沿可選分支進(jìn)一步生成未來(lái)操作視頻,從而把“看見當(dāng)下、理解指令、預(yù)測(cè)未來(lái)”連成一條完整鏈路。

這一架構(gòu)賦予模型三大核心亮點(diǎn):

亮點(diǎn)一:
跨物體泛化——理解物理屬性

無(wú)論是光滑的洗發(fā)水瓶、透明的棉簽盒,還是不同樣式、顏色的飲料盒與包裝——面對(duì)材質(zhì)、形狀、尺寸各異的物體,模型均能精準(zhǔn)預(yù)測(cè)其運(yùn)動(dòng)軌跡。

這體現(xiàn)的是模型對(duì)物體物理屬性的深刻理解:它知道硬質(zhì)物體如何被抓取、軟質(zhì)物體會(huì)如何形變、不同材質(zhì)的物體需要怎樣的接近角度。模型無(wú)需針對(duì)每個(gè)新物體重新訓(xùn)練,而是將對(duì)物理世界的通用理解遷移到未見過(guò)的物體上。

多物體抓取演示

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

在同一個(gè)收納場(chǎng)景中,模型針對(duì)棉簽盒、瓶子等不同物品生成適配的抓取與展示動(dòng)作。

面對(duì)桌面上的檸檬茶盒、咖啡膠囊盒、橙色汽水瓶、袋裝咖啡,模型為每個(gè)物體生成精準(zhǔn)的運(yùn)動(dòng)軌跡。

亮點(diǎn)二:
動(dòng)態(tài)過(guò)程建模——想象物理變化

給定第一人稱視角的第一幀圖像,模型能“想象”出后續(xù)倒水的完整過(guò)程——水壺如何傾斜、水流如何注入杯子、杯中的水位如何上升。

即使倒水動(dòng)作涉及液體動(dòng)態(tài)和精細(xì)操作,模型依然能生成符合物理規(guī)律的3D點(diǎn)云軌跡。這一能力遠(yuǎn)超單純“補(bǔ)全視頻”的范疇,是真正對(duì)物理未來(lái)的建模。

▎第一人稱視角操作演示

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱 RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱
模型預(yù)測(cè)水壺向碗中倒水的完整過(guò)程,包括傾斜角度、水流注入和水位上升。

模型預(yù)測(cè)手持白色馬克杯放上餐盤的運(yùn)動(dòng)軌跡。

亮點(diǎn)三:
指令跟隨與個(gè)體區(qū)分——理解語(yǔ)義意圖

模型不僅能識(shí)別物體,更能理解指令中的語(yǔ)義差異:對(duì)象是誰(shuí)、動(dòng)作是什么、意圖有何不同。這是跨模態(tài)語(yǔ)義對(duì)齊與細(xì)粒度實(shí)例區(qū)分能力的體現(xiàn)。

模型生成機(jī)械臂將白色馬克杯和裝有食物的小綠碗分別放入橙色碗中的不同操作。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱 RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

模型預(yù)測(cè)機(jī)械臂從洗衣籃中分別取出棕色衣物和熒光黃色衣物放入洗衣機(jī)的不同操作。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱 RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

通過(guò)以上的可視化案例,其讓世界模型從一個(gè)“黑箱”變成了一個(gè)可解釋、可調(diào)試、可信賴的認(rèn)知引擎。每個(gè)視頻中的軌跡變化,都是模型內(nèi)部思考的直接映射。

二、四大能力:讓想象更真實(shí)

上述案例所展現(xiàn)的跨物體泛化、動(dòng)態(tài)過(guò)程建模、指令跟隨等能力,根植于模型內(nèi)在的四項(xiàng)核心技術(shù)特性。這些特性確保「具身世界模型」不僅是“想象”,更是“可靠的想象”。

·物理約束滿足:所有軌跡嚴(yán)格滿足動(dòng)力學(xué)、碰撞、穩(wěn)定性等真實(shí)世界物理約束。倒水案例中,水壺傾斜角度與水流軌跡的匹配、水面的平穩(wěn)上升,都體現(xiàn)模型對(duì)重力、流體行為的精準(zhǔn)把握。這是2D視頻生成無(wú)法做到的——2D世界沒有重力方向,而我們的模型在三維空間中真正“理解”物理定律。

·原生支持物理多解性建模:真實(shí)世界充滿不確定性。本方案利用擴(kuò)散模型的生成特性,在潛在空間內(nèi)構(gòu)建物理演化的概率分布,從而能夠推演出同一任務(wù)下多種合理的軌跡方案。這種對(duì)不確定性的建模能力,為具身智能在復(fù)雜場(chǎng)景下的決策安全性提供了堅(jiān)實(shí)的底層支撐。

·長(zhǎng)時(shí)序空間一致性:在復(fù)雜多步驟任務(wù)中,模型能保持預(yù)測(cè)狀態(tài)在時(shí)間和空間上的全局連續(xù)。倒水視頻長(zhǎng)達(dá)數(shù)秒的預(yù)測(cè)中,物體相對(duì)位置始終合理,沒有幻覺。

·硬件解耦:模型核心與具體機(jī)器人結(jié)構(gòu)解耦,生成的規(guī)劃可無(wú)損遷移至任何形態(tài)機(jī)器人本體——無(wú)論是機(jī)械臂、人形機(jī)器人還是靈巧手,都能理解同樣的物體軌跡。

正是這四項(xiàng)核心技術(shù)特性,讓「具身世界模型」的每一次“想象”都有據(jù)可依、有律可循。

「具身世界模型」的能力也會(huì)隨著訓(xùn)練次數(shù)的迭代持續(xù)進(jìn)化。下圖展示了模型在預(yù)訓(xùn)練過(guò)程中,隨著訓(xùn)練次數(shù)的增加,模型能力在多個(gè)關(guān)鍵指標(biāo)上的提升。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

▲模型訓(xùn)練迭代過(guò)程中的指標(biāo)變化趨勢(shì),Content Alignment、Subjective Quality、Photometric Consistency和Motion Smoothness在微調(diào)過(guò)程中均持續(xù)提升。?表示最終checkpoint,標(biāo)注給出了最終分?jǐn)?shù)及其相對(duì)初始模型的提升幅度。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱
▲從基礎(chǔ)模型到最終 checkpoint 的性能增益,左圖表示各指標(biāo)的絕對(duì)提升,右圖表示相對(duì)提升百分比。Photometric Consistency 的提升最大,其次是 Motion Smoothness。

可以看到,投喂的數(shù)據(jù)和投入的算力越多,模型對(duì)物理世界的理解就就越精準(zhǔn),生成的未來(lái)軌跡就越貼近真實(shí)。

這正是具身智能領(lǐng)域的Scaling Law——模型的成長(zhǎng)性是可預(yù)測(cè)、可持續(xù)的。隨著我們以每周數(shù)十萬(wàn)小時(shí)的速度持續(xù)擴(kuò)充視頻數(shù)據(jù)集,世界模型的能力將持續(xù)進(jìn)化,為機(jī)器人提供越來(lái)越可靠的“想象空間”。

而在完整VLOA架構(gòu)中,具身世界模型扮演“認(rèn)知大腦”角色——理解物理世界、預(yù)測(cè)物體狀態(tài)、生成可執(zhí)行的3D點(diǎn)云軌跡。這個(gè)軌跡通過(guò)Object Trajectory(物體軌跡)接口,傳遞給下一個(gè)核心模塊:通用操作模型。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱

值得一提的是,支撐兩大模型持續(xù)進(jìn)化的底層基石,是規(guī)模與質(zhì)量并重的數(shù)據(jù)體系。

該公司通過(guò)全自動(dòng)數(shù)據(jù)標(biāo)注與清洗pipeline,從海量互聯(lián)網(wǎng)視頻中篩選與物體狀態(tài)變化、物理交互相關(guān)的高價(jià)值內(nèi)容,已累積超過(guò)100萬(wàn)小時(shí)高維多模態(tài)操作相關(guān)的視頻數(shù)據(jù)(上千萬(wàn)video clips),并以每周數(shù)十萬(wàn)小時(shí)的速度持續(xù)增長(zhǎng),目標(biāo)是到2026年底構(gòu)建千萬(wàn)小時(shí)級(jí)的全球領(lǐng)先視頻數(shù)據(jù)集,為「具身世界模型」的持續(xù)進(jìn)化提供不竭燃料。

同時(shí),在「通用操作模型」數(shù)據(jù)方面,其基于自研的多模態(tài)物理引擎,已積累10B(100億次)高質(zhì)量全空間物體操作數(shù)據(jù)集,目標(biāo)是到2026年構(gòu)建超過(guò)1T(1萬(wàn)億次)的操作數(shù)據(jù)集。

今天,其展示了具身世界模型如何用3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱。但這只是故事的一半——如何將這些想象軌跡轉(zhuǎn)化為機(jī)器人手部精確的接觸點(diǎn)、合適的力控、流暢的動(dòng)作?如何適配不同形態(tài)機(jī)器人?這正是 《VLOA系列解讀(二):通用操作模型》 即將揭曉的答案。

而承載這些能力的,是該公司同步研發(fā)的機(jī)器人本體產(chǎn)品。它們是VLOA大模型技術(shù)的最佳載體,也是智能真正落地物理世界的最終形態(tài)。

RoboScience打造具身世界模型,用物體3D點(diǎn)云軌跡打開物理認(rèn)知的黑箱