??頭圖由智象未來(lái)AI大模型生成

智東西(公眾號(hào):zhidxcom)
作者 |? 王涵
編輯 |? 漠影

在演唱會(huì)、各大晚會(huì)的舞臺(tái)上,機(jī)器人伴舞團(tuán)以整齊劃一、精準(zhǔn)卡點(diǎn)的舞姿驚艷全場(chǎng)。這種整齊劃一不僅是硬件的勝利,更是“訓(xùn)練有素”的結(jié)果。

具身智能訓(xùn)練的核心難點(diǎn)之一,就在于如何讓模型在虛擬環(huán)境中學(xué)習(xí)到符合物理規(guī)律的真實(shí)交互能力,這也成為眾多企業(yè)布局具身智能領(lǐng)域時(shí)難以跨越的門檻。

近日,專注于AIGC 視頻大模型及應(yīng)用的國(guó)產(chǎn)AI企業(yè)智象未來(lái)(HiDream),選擇和具身智能企業(yè)諾亦騰機(jī)器人(Noitom Robotics)展開(kāi)戰(zhàn)略合作,通過(guò)“真實(shí)數(shù)據(jù)+虛擬增強(qiáng)”的方法,為行業(yè)提供可規(guī)?;母哔|(zhì)量具身訓(xùn)練數(shù)據(jù)。

這種跨界協(xié)同的模式,也為破解行業(yè)發(fā)展瓶頸提供了全新思路。

一、諾亦騰機(jī)器人提供真實(shí)數(shù)據(jù)種子,智象未來(lái)用生成式模型放大百倍

此次合作的核心就在于真實(shí)數(shù)據(jù)與生成式技術(shù)的結(jié)合,以及雙方技術(shù)優(yōu)勢(shì)的互補(bǔ)。

真實(shí)數(shù)據(jù)的價(jià)值正在于其不可替代的物理關(guān)聯(lián)性,是確保模型貼合現(xiàn)實(shí)的核心前提。而生成式技術(shù)的核心價(jià)值,就在于打破真實(shí)數(shù)據(jù)采集的視覺(jué)幻象,以及規(guī)模與多樣性的局限。

諾亦騰機(jī)器人作為具身智能數(shù)據(jù)底座的構(gòu)建者,依托高精度人體動(dòng)作捕捉與多模態(tài)數(shù)據(jù)采集基礎(chǔ)設(shè)施,為合作提供真實(shí)世界中精準(zhǔn)的人類動(dòng)作數(shù)據(jù)“種子”

這些數(shù)據(jù)源自物理世界的真實(shí)交互,具備真實(shí)可靠的物理反饋,為模型訓(xùn)練奠定了真實(shí)的物理規(guī)律基礎(chǔ)。

智象未來(lái)發(fā)揮其多模態(tài)大模型的毫米級(jí)高可控視頻生成能力,扮演“數(shù)據(jù)煉金術(shù)士”的角色。

通過(guò)對(duì)諾亦騰機(jī)器人高精度采集的多模態(tài)Human-centric數(shù)據(jù)進(jìn)行百倍以上的精細(xì)化放大與視覺(jué)多樣化場(chǎng)景擴(kuò)展和泛化,智象未來(lái)將精準(zhǔn)的動(dòng)作指令與豐富的視覺(jué)元素深度融合,不僅實(shí)現(xiàn)了數(shù)據(jù)規(guī)模的指數(shù)級(jí)增長(zhǎng),更確保了每一幀生成視頻與底層動(dòng)作數(shù)據(jù)的精準(zhǔn)配對(duì)。

機(jī)器人舞姿爆紅背后:具身智能行業(yè)“卡脖子”難題,終于有了新解法

▲左:諾亦騰機(jī)器人數(shù)據(jù)采集原始場(chǎng)景 右:智象未來(lái)生成式模型生成式處理效果

雙方公司多項(xiàng)深度技術(shù)合作之一,利用視頻生成技術(shù)去除數(shù)據(jù)中的vision gap及視覺(jué)干擾項(xiàng)。

二、李飛飛“三層金字塔”之下:真實(shí)數(shù)據(jù)采集的兩道難關(guān)

為什么要這樣合作?想要回答這個(gè)問(wèn)題,就要先搞清楚,具身智能的數(shù)據(jù)目前面臨怎樣的困境。

“AI教母”李飛飛曾提出“具身數(shù)據(jù)三層金字塔”概念:最底層為網(wǎng)絡(luò)數(shù)據(jù)與人類視頻層,中間層為仿真合成數(shù)據(jù),最上層為真實(shí)機(jī)器人數(shù)據(jù)。

機(jī)器人舞姿爆紅背后:具身智能行業(yè)“卡脖子”難題,終于有了新解法

針對(duì)最上層和最底層,業(yè)界已經(jīng)做了許多嘗試,并且發(fā)現(xiàn)了兩個(gè)最嚴(yán)峻的問(wèn)題:

一方面,真實(shí)數(shù)據(jù)的采集成本與模型所需的視覺(jué)泛化能力之間存在固有矛盾。這一矛盾本質(zhì)上是效率與質(zhì)量的失衡,也是行業(yè)內(nèi)長(zhǎng)期難以調(diào)和的痛點(diǎn)。

標(biāo)準(zhǔn)化的環(huán)境能夠顯著提升采集效率,降低單位數(shù)據(jù)成本。但想要提升模型的視覺(jué)泛化能力,則需要多樣化環(huán)境、多樣化物體分布,覆蓋復(fù)雜真實(shí)世界,以應(yīng)對(duì)環(huán)境中的各種不確定性。

另一方面,在高精度、多模態(tài)數(shù)據(jù)采集的過(guò)程中,各類光學(xué)、慣性動(dòng)作捕捉系統(tǒng)以及觸覺(jué)采集裝置的穿戴將會(huì)對(duì)人體形態(tài)、遮擋關(guān)系和整體視覺(jué)分布產(chǎn)生干擾,形成明顯的「Vision Gap」。

如果對(duì)采集到的圖像進(jìn)行后期修復(fù),雖然可以對(duì)局部區(qū)域進(jìn)行填補(bǔ),但效果通常差強(qiáng)人意,難以滿足具身智能模型訓(xùn)練的數(shù)據(jù)質(zhì)量要求。

這也讓真實(shí)數(shù)據(jù)的應(yīng)用受到了進(jìn)一步限制。

三、探索數(shù)據(jù)生產(chǎn)的第三范式,數(shù)萬(wàn)小時(shí)數(shù)據(jù)已在路上

智象未來(lái)與諾亦騰機(jī)器人的合作正是針對(duì)以上行業(yè)痛點(diǎn)的精準(zhǔn)破局,創(chuàng)造了一種全新的數(shù)據(jù)生產(chǎn)范式:真實(shí)采集+生成式大模型協(xié)同。

這種范式既規(guī)避了單一數(shù)據(jù)類型的短板,又實(shí)現(xiàn)了兩者的優(yōu)勢(shì)互補(bǔ),既保留了真實(shí)數(shù)據(jù)的物理一致性,又突破了傳統(tǒng)采集方式在場(chǎng)景多樣性與規(guī)模上的局限。

雙方的協(xié)同試驗(yàn)表明,智象未來(lái)的生成式模型在消除視覺(jué)鴻溝方面表現(xiàn)極其優(yōu)異,能夠有效填補(bǔ)真實(shí)采集數(shù)據(jù)的視覺(jué)缺陷,生成符合物理規(guī)律的高保真訓(xùn)練數(shù)據(jù)。

通過(guò)這種“生成式去除Vision Gap”的技術(shù)路徑,雙方成功實(shí)現(xiàn)了訓(xùn)練數(shù)據(jù)的精度與合理性需求,能夠規(guī)?;厣a(chǎn)出既真實(shí)又多樣的訓(xùn)練數(shù)據(jù)。

這為訓(xùn)練一個(gè)能真正理解物理世界的“世界模型”提供了充足的“燃料”。合作雙方預(yù)計(jì),其年內(nèi)合作生成的具身智能視頻數(shù)據(jù)將達(dá)到數(shù)萬(wàn)小時(shí)以上。

結(jié)語(yǔ):具身智能進(jìn)入“混合數(shù)據(jù)”時(shí)代

2026年,被業(yè)內(nèi)視為具身智能的“數(shù)據(jù)元年”,這一判斷并非空穴來(lái)風(fēng)。

過(guò)去幾年,行業(yè)在“純真實(shí)采集”與“純虛擬仿真”之間反復(fù)搖擺,各自的天花板已清晰可見(jiàn)。真實(shí)數(shù)據(jù)精度高但成本陡峭、場(chǎng)景有限。仿真數(shù)據(jù)規(guī)模大但物理真實(shí)性存疑,難以跨越“仿真到現(xiàn)實(shí)”的鴻溝。行業(yè)里越來(lái)越多的人開(kāi)始意識(shí)到,無(wú)論是只靠真實(shí)采集,還是只靠虛擬仿真,都走不遠(yuǎn)。

智象未來(lái)和諾亦騰機(jī)器人的合作,正好踩在了這個(gè)轉(zhuǎn)折點(diǎn)上。

如今,智象未來(lái)與諾亦騰機(jī)器人的合作給業(yè)界提供了第三條路,即“真實(shí)數(shù)據(jù)+生成式擴(kuò)展”的混合范式,將有望成為行業(yè)新的基礎(chǔ)設(shè)施標(biāo)準(zhǔn)。

放眼整個(gè)行業(yè),這種“真實(shí)捕捉數(shù)據(jù)+生成式大模型增強(qiáng)擴(kuò)容”的混合路徑,正在成為越來(lái)越多企業(yè)的選擇。具身智能,正在進(jìn)入“混合數(shù)據(jù)”時(shí)代。