機(jī)器人前瞻(公眾號(hào):robot_pro)
作者?|??許麗思
編輯?|??漠影

機(jī)器人前瞻7月4日?qǐng)?bào)道,今天,極佳視界發(fā)布具身基礎(chǔ)模型GigaBrain-0 Preview,90%以上的訓(xùn)練數(shù)據(jù)來(lái)自該公司自研的世界模型平臺(tái),不到10%來(lái)自真機(jī)實(shí)采數(shù)據(jù),成為全球首個(gè)主要依靠世界模型生成數(shù)據(jù)驅(qū)動(dòng)的端到端VLA具身基礎(chǔ)模型。

另外,該公司還將于近期發(fā)布面向具身智能方向的世界模型平臺(tái)Preview版本。

極佳視界成立于2023年,是一家空間智能公司,致力于將視頻生成提升到4D世界模型,使AI大模型具備對(duì)4D空間理解、生成、常識(shí)和推理能力,進(jìn)而實(shí)現(xiàn)4D空間中交互和行動(dòng)。

極佳視界創(chuàng)始人兼CEO黃冠是清華大學(xué)AI方向博士,擁有超過(guò)十年的AI技術(shù)和產(chǎn)業(yè)經(jīng)驗(yàn),曾在微軟、三星、地平線等負(fù)責(zé)算法工作,擁有AI、自動(dòng)駕駛等方向連續(xù)創(chuàng)業(yè)經(jīng)驗(yàn)。

GigaBrain-0 Preview的執(zhí)行過(guò)程如下:

  • 在輸入端,對(duì)RGB圖像與深度信息進(jìn)行聯(lián)合編碼,提升模型對(duì)3D空間結(jié)構(gòu)的理解能力以及對(duì)復(fù)雜場(chǎng)景的感知表征。
  • 在輸出端,系統(tǒng)可利用多種感知模塊的中間輸出(2D框、3D框、6DoF抓取點(diǎn),末端執(zhí)行器軌跡等)作為多模態(tài)監(jiān)督信號(hào),增強(qiáng)決策過(guò)程的準(zhǔn)確性和魯棒性。
  • 引入了面向語(yǔ)言任務(wù)拆解的思維鏈(Chain-of-Thought,CoT)機(jī)制,將高層用戶指令逐步解析為低層可執(zhí)行的prompt,實(shí)現(xiàn)任務(wù)邏輯的結(jié)構(gòu)化分解。與此同時(shí),前序感知模塊輸出的中間結(jié)果也為CoT提供了空間推理所需的語(yǔ)義支持。
  • 低層執(zhí)行prompt將激活對(duì)應(yīng)的action expert模塊,并通過(guò)降噪解碼機(jī)制生成機(jī)器人可執(zhí)行的動(dòng)作序列,從而實(shí)現(xiàn)從感知到動(dòng)作的完整控制。

在多項(xiàng)復(fù)雜任務(wù)中,GigaBrain-0 Preview都表現(xiàn)不錯(cuò)。

在疊衣服時(shí),GigaBrain-0不僅可以絲滑精細(xì)的完成任意形態(tài)和多種款式的衣服自動(dòng)疊放,而且在疊放過(guò)程中可以對(duì)中間狀態(tài)進(jìn)行主動(dòng)思考,自動(dòng)修正疊放方式和平整度。

機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

面對(duì)物品擺放混亂的餐桌,模型會(huì)自主推理最優(yōu)策略,先思考餐盤怎么擺放,然后雙臂協(xié)同完成垃圾清掃工作。就算人為再次隨機(jī)丟棄垃圾,模型也能迅速識(shí)別并主動(dòng)調(diào)整策略,反復(fù)清掃直至桌面整潔。
機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

在沖倒飲料這一類需要雙臂協(xié)同完成長(zhǎng)程任務(wù)中,GigaBrain VLA模型實(shí)現(xiàn)了對(duì)長(zhǎng)程任務(wù)的子任務(wù)的自動(dòng)拆分和模型指令遵循。此外,它還對(duì)動(dòng)作進(jìn)行了平滑性約束,以確保在飲料不灑出。

機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

模型還支持自然語(yǔ)音交互,比如用戶只需一句話就可以觸發(fā)餐具擺放任務(wù)。
機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

機(jī)器人保姆級(jí)絲滑干家務(wù)!九成數(shù)據(jù)靠仿真,清華系創(chuàng)企發(fā)首個(gè)具身基礎(chǔ)模型

相比于真機(jī)的實(shí)際采集,基于世界模型的仿真2.0在數(shù)據(jù)獲取效率上展現(xiàn)出明顯優(yōu)勢(shì),其生成效率可以達(dá)到真機(jī)采集的10-100倍以上。

這種效率提升,不僅可以降低了數(shù)據(jù)采集的時(shí)間成本,還使得大規(guī)模、快速迭代的數(shù)據(jù)生成和模型迭代成為可能,為物理世界通用智能的訓(xùn)練和測(cè)試提供了支持。