激情大尺度一区二区,国产精品传媒成人免费,av网址亚洲中文字幕

機(jī)器人前瞻（公眾號(hào)：robot_pro）
作者 | 江宇
編輯 | 漠影

機(jī)器人前瞻1月14日?qǐng)?bào)道，昨日，OpenAI投資的挪威人形機(jī)器人公司1X發(fā)布了一款全新世界模型“1X World Model（1XWM）”，用于賦予機(jī)器人通識(shí)行為能力，并提升其對(duì)物理世界的理解與推理能力。

1XWM是一種在推理階段可通過(guò)文字和初始畫(huà)面生成未來(lái)視頻、再?gòu)闹型评沓鰴C(jī)器人動(dòng)作的世界模型，訓(xùn)練時(shí)借助了網(wǎng)頁(yè)視頻和少量機(jī)器人數(shù)據(jù)。

其主要應(yīng)用對(duì)象為1X正在量產(chǎn)的人形機(jī)器人Neo，這是一款“穿著瑜伽服、表情呆萌”的陪伴型機(jī)器人，主打家庭使用場(chǎng)景。

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

1X創(chuàng)始人兼CEO Bernt B?rnich稱(chēng)：“Neo如今能夠?qū)⑷我庵噶钷D(zhuǎn)化為新動(dòng)作，即便此前從未執(zhí)行過(guò)類(lèi)似任務(wù)。這標(biāo)志著其通往‘自我學(xué)習(xí)’能力的起點(diǎn)，未來(lái)幾乎可以掌握人類(lèi)所能想到的任何技能。”

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲1X創(chuàng)始人兼CEO Bernt B?rnich

不過(guò)，官方也澄清稱(chēng)，當(dāng)前模型仍需經(jīng)過(guò)視頻與動(dòng)作的雙重建模過(guò)程，尚未實(shí)現(xiàn)真正“零樣本即執(zhí)行”。

一、利用視頻推理世界，1XWM跳出“圖像到動(dòng)作”的舊思路

不同于多數(shù)以圖文輸入直接預(yù)測(cè)動(dòng)作的VLA（視覺(jué)語(yǔ)言動(dòng)作）模型路線，1XWM通過(guò)“文字指導(dǎo)的視頻生成”推理機(jī)器人應(yīng)執(zhí)行的動(dòng)作路徑。

其核心由兩個(gè)部分構(gòu)成：一是基于14B視頻生成模型訓(xùn)練的主干World Model（WM），用于預(yù)測(cè)場(chǎng)景的未來(lái)狀態(tài)；二是Inverse Dynamics Model（IDM），將視頻幀序列轉(zhuǎn)化為實(shí)際可執(zhí)行的機(jī)器人動(dòng)作軌跡。

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲圖源：1X World Model技術(shù)博客

這一流程可簡(jiǎn)單概括為：接收文字指令與起始視頻幀，WM生成未來(lái)的視頻片段，IDM提取控制動(dòng)作，Neo執(zhí)行任務(wù)。得益于NEO與人類(lèi)動(dòng)態(tài)結(jié)構(gòu)的高度擬合，模型在物理互動(dòng)（如摩擦、慣性、接觸）等方面能實(shí)現(xiàn)更真實(shí)的轉(zhuǎn)譯。

整體架構(gòu)在設(shè)計(jì)上強(qiáng)調(diào)了將人形結(jié)構(gòu)視作模型泛化的前提。

該模型無(wú)需大規(guī)模真實(shí)機(jī)器人數(shù)據(jù)，僅通過(guò)900小時(shí)第一視角人類(lèi)視頻中訓(xùn)練出的操控直覺(jué)，結(jié)合70小時(shí)Neo特定數(shù)據(jù)進(jìn)行微調(diào)，即可在視覺(jué)-空間-物理層面展現(xiàn)出較強(qiáng)泛化能力。

這一訓(xùn)練策略顯著提升了模型對(duì)“從未見(jiàn)過(guò)的物體與動(dòng)作”的適應(yīng)力，使得Neo能完成雙手配合、與人交互等未曾直接訓(xùn)練過(guò)的復(fù)雜任務(wù)。

二、視頻質(zhì)量可預(yù)估任務(wù)成功率，模型探索“自我改進(jìn)飛輪”

為了量化1XWM在真實(shí)世界中的能力，1X進(jìn)行了多輪測(cè)試，包括廚房、衣物處理等實(shí)際任務(wù)。

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲抽紙巾

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲擺放椅子

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲比耶

測(cè)試數(shù)據(jù)顯示，該模型在大部分任務(wù)上表現(xiàn)穩(wěn)定，盡管在如“倒牛奶”和“畫(huà)笑臉”等更精細(xì)的操作中仍有挑戰(zhàn)。

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲1XWM在不同家務(wù)任務(wù)上的成功率

研究團(tuán)隊(duì)還發(fā)現(xiàn)：生成視頻的物理真實(shí)性與動(dòng)作成功率呈正相關(guān)。若生成的視頻動(dòng)作存在物理邏輯錯(cuò)誤（如物體漂浮、深度錯(cuò)位），實(shí)際機(jī)器人執(zhí)行幾乎為0%成功率。

基于這一觀察，團(tuán)隊(duì)測(cè)試了“多版本生成、優(yōu)選最佳”的策略，并發(fā)現(xiàn)將單次生成擴(kuò)展為8次并挑選最優(yōu)者，可顯著提升任務(wù)成功率。

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲抽紙巾任務(wù)中，不同生成次數(shù)對(duì)執(zhí)行成功率的影響（“拉紙巾”任務(wù)成功率從30%提升至45%）

在提升視頻質(zhì)量方面，1X團(tuán)隊(duì)使用了“文字說(shuō)明增強(qiáng)”策略，即用VLM模型擴(kuò)寫(xiě)訓(xùn)練視頻的任務(wù)描述文字，以更好對(duì)齊視頻生成模型的文字理解能力。

另一個(gè)關(guān)鍵是加入了第一視角人類(lèi)操作視頻的訓(xùn)練階段，這一做法顯著提升了模型在新任務(wù)和新環(huán)境上的泛化質(zhì)量。

OpenAI投的機(jī)器人公司，發(fā)世界模型，靠“想象”干活兒

▲洗碗

1XWM當(dāng)前每輪推理需約11秒，能生成5秒真實(shí)世界可執(zhí)行的動(dòng)作視頻，并已與Verda團(tuán)隊(duì)合作優(yōu)化GPU推理。

下一步，1X計(jì)劃加速模型響應(yīng)速度，并探索長(zhǎng)時(shí)任務(wù)的閉環(huán)重規(guī)劃?rùn)C(jī)制，逐步邁向機(jī)器人“通識(shí)行動(dòng)力”與“自我提升閉環(huán)”的目標(biāo)。

1X團(tuán)隊(duì)稱(chēng)，1XWM已經(jīng)具備“由機(jī)器人自身經(jīng)驗(yàn)驅(qū)動(dòng)探索、評(píng)估與策略?xún)?yōu)化”的機(jī)制，只需保持任務(wù)覆蓋的非零成功率，就有望持續(xù)推進(jìn)性能提升與任務(wù)泛化，進(jìn)入真正意義上的“自我改進(jìn)飛輪”。

結(jié)語(yǔ)：生成視頻，推理動(dòng)作，再到執(zhí)行

1XWM尚未實(shí)現(xiàn)真正意義上的“零樣本即執(zhí)行”，但它提供了一種新思路：機(jī)器人不再直接從數(shù)據(jù)中學(xué)動(dòng)作，而是先生成一段對(duì)未來(lái)的“視頻想象”，再?gòu)闹型评沓隹蓤?zhí)行的動(dòng)作路徑。

在這種架構(gòu)下，視頻成為連接任務(wù)場(chǎng)景、推理與行動(dòng)的中間環(huán)節(jié)。當(dāng)模型能夠基于當(dāng)前場(chǎng)景主動(dòng)生成對(duì)未來(lái)的預(yù)測(cè)，并據(jù)此推理出下一步動(dòng)作時(shí)，具身智能或許正邁向更高層次的泛化能力。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、利用視頻推理世界，1XWM跳出“圖像到動(dòng)作”的舊思路

二、視頻質(zhì)量可預(yù)估任務(wù)成功率，模型探索“自我改進(jìn)飛輪”

結(jié)語(yǔ)：生成視頻，推理動(dòng)作，再到執(zhí)行

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、利用視頻推理世界，1XWM跳出“圖像到動(dòng)作”的舊思路

二、視頻質(zhì)量可預(yù)估任務(wù)成功率，模型探索“自我改進(jìn)飛輪”

結(jié)語(yǔ)：生成視頻，推理動(dòng)作，再到執(zhí)行

相關(guān)推薦

一、利用視頻推理世界，1XWM跳出“圖像到動(dòng)作”的舊思路

二、視頻質(zhì)量可預(yù)估任務(wù)成功率，模型探索“自我改進(jìn)飛輪”

結(jié)語(yǔ)：生成視頻，推理動(dòng)作，再到執(zhí)行