機(jī)器人前瞻(公眾號(hào):robot_pro)
作者 | 江宇
編輯 | 漠影

機(jī)器人前瞻1月14日?qǐng)?bào)道,昨日,OpenAI投資的挪威人形機(jī)器人公司1X發(fā)布了一款全新世界模型“1X World Model(1XWM)”,用于賦予機(jī)器人通識(shí)行為能力,并提升其對(duì)物理世界的理解與推理能力。

1XWM是一種在推理階段可通過(guò)文字和初始畫(huà)面生成未來(lái)視頻、再?gòu)闹型评沓鰴C(jī)器人動(dòng)作的世界模型,訓(xùn)練時(shí)借助了網(wǎng)頁(yè)視頻和少量機(jī)器人數(shù)據(jù)。

其主要應(yīng)用對(duì)象為1X正在量產(chǎn)的人形機(jī)器人Neo,這是一款“穿著瑜伽服、表情呆萌”的陪伴型機(jī)器人,主打家庭使用場(chǎng)景。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

1X創(chuàng)始人兼CEO Bernt B?rnich稱(chēng):“Neo如今能夠?qū)⑷我庵噶钷D(zhuǎn)化為新動(dòng)作,即便此前從未執(zhí)行過(guò)類(lèi)似任務(wù)。這標(biāo)志著其通往‘自我學(xué)習(xí)’能力的起點(diǎn),未來(lái)幾乎可以掌握人類(lèi)所能想到的任何技能。”

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲1X創(chuàng)始人兼CEO Bernt B?rnich

不過(guò),官方也澄清稱(chēng),當(dāng)前模型仍需經(jīng)過(guò)視頻與動(dòng)作的雙重建模過(guò)程,尚未實(shí)現(xiàn)真正“零樣本即執(zhí)行”。

一、利用視頻推理世界,1XWM跳出“圖像到動(dòng)作”的舊思路

不同于多數(shù)以圖文輸入直接預(yù)測(cè)動(dòng)作的VLA(視覺(jué)語(yǔ)言動(dòng)作)模型路線,1XWM通過(guò)“文字指導(dǎo)的視頻生成”推理機(jī)器人應(yīng)執(zhí)行的動(dòng)作路徑。

其核心由兩個(gè)部分構(gòu)成:一是基于14B視頻生成模型訓(xùn)練的主干World Model(WM),用于預(yù)測(cè)場(chǎng)景的未來(lái)狀態(tài);二是Inverse Dynamics Model(IDM),將視頻幀序列轉(zhuǎn)化為實(shí)際可執(zhí)行的機(jī)器人動(dòng)作軌跡。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲圖源:1X World Model技術(shù)博客

這一流程可簡(jiǎn)單概括為:接收文字指令與起始視頻幀,WM生成未來(lái)的視頻片段,IDM提取控制動(dòng)作,Neo執(zhí)行任務(wù)。得益于NEO與人類(lèi)動(dòng)態(tài)結(jié)構(gòu)的高度擬合,模型在物理互動(dòng)(如摩擦、慣性、接觸)等方面能實(shí)現(xiàn)更真實(shí)的轉(zhuǎn)譯。

整體架構(gòu)在設(shè)計(jì)上強(qiáng)調(diào)了將人形結(jié)構(gòu)視作模型泛化的前提。

該模型無(wú)需大規(guī)模真實(shí)機(jī)器人數(shù)據(jù),僅通過(guò)900小時(shí)第一視角人類(lèi)視頻中訓(xùn)練出的操控直覺(jué),結(jié)合70小時(shí)Neo特定數(shù)據(jù)進(jìn)行微調(diào),即可在視覺(jué)-空間-物理層面展現(xiàn)出較強(qiáng)泛化能力。

這一訓(xùn)練策略顯著提升了模型對(duì)“從未見(jiàn)過(guò)的物體與動(dòng)作”的適應(yīng)力,使得Neo能完成雙手配合、與人交互等未曾直接訓(xùn)練過(guò)的復(fù)雜任務(wù)。

二、視頻質(zhì)量可預(yù)估任務(wù)成功率,模型探索“自我改進(jìn)飛輪”

為了量化1XWM在真實(shí)世界中的能力,1X進(jìn)行了多輪測(cè)試,包括廚房、衣物處理等實(shí)際任務(wù)。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲抽紙巾

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲擺放椅子

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲比耶

測(cè)試數(shù)據(jù)顯示,該模型在大部分任務(wù)上表現(xiàn)穩(wěn)定,盡管在如“倒牛奶”和“畫(huà)笑臉”等更精細(xì)的操作中仍有挑戰(zhàn)。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲1XWM在不同家務(wù)任務(wù)上的成功率

研究團(tuán)隊(duì)還發(fā)現(xiàn):生成視頻的物理真實(shí)性與動(dòng)作成功率呈正相關(guān)。若生成的視頻動(dòng)作存在物理邏輯錯(cuò)誤(如物體漂浮、深度錯(cuò)位),實(shí)際機(jī)器人執(zhí)行幾乎為0%成功率。

基于這一觀察,團(tuán)隊(duì)測(cè)試了“多版本生成、優(yōu)選最佳”的策略,并發(fā)現(xiàn)將單次生成擴(kuò)展為8次并挑選最優(yōu)者,可顯著提升任務(wù)成功率。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲抽紙巾任務(wù)中,不同生成次數(shù)對(duì)執(zhí)行成功率的影響(“拉紙巾”任務(wù)成功率從30%提升至45%)

在提升視頻質(zhì)量方面,1X團(tuán)隊(duì)使用了“文字說(shuō)明增強(qiáng)”策略,即用VLM模型擴(kuò)寫(xiě)訓(xùn)練視頻的任務(wù)描述文字,以更好對(duì)齊視頻生成模型的文字理解能力。

另一個(gè)關(guān)鍵是加入了第一視角人類(lèi)操作視頻的訓(xùn)練階段,這一做法顯著提升了模型在新任務(wù)和新環(huán)境上的泛化質(zhì)量。

OpenAI投的機(jī)器人公司,發(fā)世界模型,靠“想象”干活兒

▲洗碗

1XWM當(dāng)前每輪推理需約11秒,能生成5秒真實(shí)世界可執(zhí)行的動(dòng)作視頻,并已與Verda團(tuán)隊(duì)合作優(yōu)化GPU推理。

下一步,1X計(jì)劃加速模型響應(yīng)速度,并探索長(zhǎng)時(shí)任務(wù)的閉環(huán)重規(guī)劃?rùn)C(jī)制,逐步邁向機(jī)器人“通識(shí)行動(dòng)力”與“自我提升閉環(huán)”的目標(biāo)。

1X團(tuán)隊(duì)稱(chēng),1XWM已經(jīng)具備“由機(jī)器人自身經(jīng)驗(yàn)驅(qū)動(dòng)探索、評(píng)估與策略?xún)?yōu)化”的機(jī)制,只需保持任務(wù)覆蓋的非零成功率,就有望持續(xù)推進(jìn)性能提升與任務(wù)泛化,進(jìn)入真正意義上的“自我改進(jìn)飛輪”。

結(jié)語(yǔ):生成視頻,推理動(dòng)作,再到執(zhí)行

1XWM尚未實(shí)現(xiàn)真正意義上的“零樣本即執(zhí)行”,但它提供了一種新思路:機(jī)器人不再直接從數(shù)據(jù)中學(xué)動(dòng)作,而是先生成一段對(duì)未來(lái)的“視頻想象”,再?gòu)闹型评沓隹蓤?zhí)行的動(dòng)作路徑。

在這種架構(gòu)下,視頻成為連接任務(wù)場(chǎng)景、推理與行動(dòng)的中間環(huán)節(jié)。當(dāng)模型能夠基于當(dāng)前場(chǎng)景主動(dòng)生成對(duì)未來(lái)的預(yù)測(cè),并據(jù)此推理出下一步動(dòng)作時(shí),具身智能或許正邁向更高層次的泛化能力。