機(jī)器人前瞻(公眾號:robot_pro)
作者 | 江宇
編輯 | 漠影

機(jī)器人前瞻2月11日報(bào)道,昨日,原力靈機(jī)在首次技術(shù)開放日Dexmal Open Day上,集中發(fā)布了具身原生大模型DM0具身原生開發(fā)框架Dexbotic2.0、以及具身原生應(yīng)用量產(chǎn)工作流DFOL三項(xiàng)技術(shù)成果。

這是原力靈機(jī)自2025年成立以來,首次對外完整呈現(xiàn)其具身智能的技術(shù)體系,覆蓋模型訓(xùn)練、框架開發(fā)到工程部署的全鏈路。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

在當(dāng)前業(yè)內(nèi)多數(shù)具身智能公司仍處于單點(diǎn)技術(shù)驗(yàn)證階段之際,原力靈機(jī)選擇直接奔向具身智能的“原生時(shí)刻”。

在技術(shù)開放日之前,創(chuàng)始團(tuán)隊(duì)四位核心成員——CEO唐文斌、范浩強(qiáng)、周而進(jìn)與汪天才接受了包括機(jī)器人前瞻在內(nèi)的媒體采訪。

他們透露:過去一年,原力靈機(jī)重點(diǎn)搭建了具身智能基礎(chǔ)設(shè)施與業(yè)內(nèi)首個(gè)真機(jī)評測平臺(tái)RoboChallenge,補(bǔ)上行業(yè)長久以來缺失的“評測地基”。

而現(xiàn)在,原力靈機(jī)在此基礎(chǔ)上推出了具身原生大模型DM0,作為這一體系的階段性答卷。

一、2B參數(shù)登頂真機(jī)榜單,是“智能密度最高”的具身大模型

在模型普遍以參數(shù)量為主要競爭指標(biāo)的當(dāng)下,DM0展現(xiàn)出一種不同的突破方式。

其推出的具身原生大模型DM0,在真機(jī)評測平臺(tái)RoboChallenge的30多個(gè)桌面級任務(wù)中取得了最高綜合得分,成為首個(gè)同時(shí)拿下“單任務(wù)”和“多任務(wù)”雙榜第一的具身大模型。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

▲真機(jī)評測目前位列RoboChallenge-Table 30全球第一

盡管參數(shù)量僅為2.4B,DM0在毫米級工業(yè)操作中依然展現(xiàn)出高度穩(wěn)定的執(zhí)行性能。

這一結(jié)果不僅打破了“大模型=高性能”的簡單疊加邏輯,也釋放出一個(gè)明確信號:在具身智能場景下,智能密度或許比參數(shù)體量更值得關(guān)注。

原力靈機(jī)團(tuán)隊(duì)認(rèn)為,“DM0只有2.4B參數(shù),但它理解‘拿起杯子’和‘輕輕放下杯子’的區(qū)別——這不是參數(shù)量能堆出來的,這是原生設(shè)計(jì)帶來的物理直覺?!?/p>

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

而何為“原生設(shè)計(jì)帶來的物理直覺”?

正如原力靈機(jī)合伙人周而進(jìn)所言:“我們不是拿一個(gè)現(xiàn)成的VLM(視覺語言模型),再外掛一個(gè)動(dòng)作頭。而是從VLM的第一天起,就把具身數(shù)據(jù)加了進(jìn)來,從頭訓(xùn)練出來的?!?/p>

他將這種方式比作嬰兒學(xué)習(xí):“就像人類嬰兒,不是先會(huì)說話、再學(xué)找奶瓶,而是從出生那一刻起就在和物理世界打交道?!?/p>

也正因此,DM0從數(shù)據(jù)到結(jié)構(gòu),都是為具身任務(wù)量身定制的。

▲應(yīng)用場景案例:掃碼計(jì)價(jià)格

其訓(xùn)練融合互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)、駕駛行為數(shù)據(jù)與具身多傳感數(shù)據(jù),通過“空間推理鏈”機(jī)制,將感知、理解與動(dòng)作生成打通為閉環(huán)。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

其訓(xùn)練流程分為三個(gè)階段:首先在視覺-語言數(shù)據(jù)上完成VLM預(yù)訓(xùn)練,其次在多任務(wù)跨機(jī)型的具身數(shù)據(jù)上進(jìn)行空間推理建模,最后通過SFT完成硬件適配。正是這一從零構(gòu)建的范式,使DM0打破了微調(diào)模型的性能上限,具備更強(qiáng)的泛化與執(zhí)行能力。

在操作泛化方面,DM0預(yù)訓(xùn)練覆蓋了操作、導(dǎo)航、全身控制3類任務(wù)。目前,DM0已覆蓋UR、Franka、ARX、Aloha等8類主流機(jī)器人機(jī)型,目標(biāo)是推進(jìn)具身模型從“一機(jī)一模型”走向“通用策略”。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

此外,DM0采用高分辨率圖像輸入,并控制在60ms內(nèi)推理延遲,在4090、5090等在消費(fèi)級顯卡上就能進(jìn)行二次開發(fā)與微調(diào)。

周而進(jìn)解釋道,目前不少VLA模型仍采用224至384的輸入分辨率,這在執(zhí)行精細(xì)動(dòng)作時(shí)容易因像素誤差放大而影響表現(xiàn)。因此,原力靈機(jī)團(tuán)隊(duì)針對精細(xì)操作場景設(shè)計(jì)了728×728高分辨率輸入,并希望模型能直接處理720P級別的視頻畫面,同時(shí)盡可能控制精度損失。

DM0當(dāng)前已在Hugging Face、GitHub等平臺(tái)完成代碼與權(quán)重開源,同時(shí)發(fā)布了RoboChallenge Table30全套評測任務(wù)的推理代碼 。

在DM0開源的基礎(chǔ)上,原力靈機(jī)也披露了后續(xù)的技術(shù)推進(jìn)計(jì)劃。

團(tuán)隊(duì)透露,2026年,原力靈機(jī)將持續(xù)發(fā)布新一代具身模型,擴(kuò)展路徑不僅包括參數(shù)規(guī)模的增長,還將涵蓋更豐富的數(shù)據(jù)維度、更大規(guī)模的真機(jī)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn),以及任務(wù)類型與執(zhí)行時(shí)長的進(jìn)一步拉長。

具體而言,未來模型將支持更長鏈條的復(fù)雜任務(wù),從當(dāng)前的3-5分鐘延伸至十分鐘以上,并計(jì)劃引入結(jié)合world model與memory的閉環(huán)架構(gòu)。

二、從訓(xùn)練到部署,這家公司在補(bǔ)上具身智能的工程斷層

在模型之外,原力靈機(jī)這次同步升級并開源了具身原生開發(fā)框架Dexbotic2.0。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

相比單點(diǎn)算法更新,這套框架更直接指向一個(gè)現(xiàn)實(shí)問題:具身智能到底該如何被高效地開發(fā)、復(fù)用和驗(yàn)證。

原力靈機(jī)合伙人汪天才透露,自2025年10月推出1.0版本以來,已有數(shù)十家機(jī)構(gòu)與高校、上千名開發(fā)者使用該框架。此次升級的2.0要進(jìn)一步擴(kuò)大它在具身生態(tài)中的職能范圍,降低具身算法開發(fā)門檻。

Dexbotic2.0以“V(視覺)、L(語言)、A(動(dòng)作)”為模塊化組合方式,允許開發(fā)者自由替換子模塊,快速實(shí)驗(yàn)任務(wù)流程。

▲插線板

正如原力靈機(jī)團(tuán)隊(duì)所言:“PyTorch讓每個(gè)研究者都能快速驗(yàn)證想法,我們希望Dexbotic2.0也能做到類似的事情——讓開發(fā)者能用‘樂高式’方式搭建自己的具身應(yīng)用?!?/p>

該框架支持Libero、CALVIN、ManiSkill等主流仿真環(huán)境與SO-101、DOS- W1等真機(jī)平臺(tái)。

為了構(gòu)建更完整的開發(fā)生態(tài),原力靈機(jī)還聯(lián)合清華大學(xué)、無問芯穹團(tuán)隊(duì),打造統(tǒng)一模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)開發(fā)鏈路,推動(dòng)“具身智能的PyTorch”生態(tài)成型。

如果說模型與框架回答的是“如何訓(xùn)練”,DFOL方案針對的就是“如何上線”。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

這是原力靈機(jī)發(fā)布的用于機(jī)器人在真實(shí)場景中持續(xù)進(jìn)化的部署系統(tǒng),其核心是“數(shù)據(jù)回流閉環(huán)”:機(jī)器人現(xiàn)場執(zhí)行任務(wù)時(shí)自動(dòng)采集訓(xùn)練片段(episode)與負(fù)樣本(chunk),回傳至云端,更新策略后再次部署。?

▲工裝上料以及扣合

其部署方式已覆蓋工件裝配、布料分揀等任務(wù),并控制在兩天內(nèi)完成從數(shù)據(jù)采集到穩(wěn)定輸出的流程。

原力靈機(jī)團(tuán)隊(duì)認(rèn)為:“具身智能的死亡之谷不是技術(shù)問題,是工程問題、是成本問題、是規(guī)?;瘡?fù)制的問題?!?/p>

三、數(shù)據(jù)不只看時(shí)長,落地不靠想象,這支團(tuán)隊(duì)選了一條難而正確的路

隨著交流逐步深入,我們也對原力靈機(jī)團(tuán)隊(duì)的長期規(guī)劃產(chǎn)生了不少好奇。

這家成立時(shí)間并不算長的公司,已經(jīng)呈現(xiàn)出相對完整的技術(shù)體系。其團(tuán)隊(duì)成員幾乎全部來自“AI 1.0”時(shí)代,擁有在曠視打磨視覺模型和軟硬協(xié)同方向的實(shí)戰(zhàn)經(jīng)驗(yàn),部分成員也曾主導(dǎo)CV技術(shù)的產(chǎn)業(yè)化落地。

我們關(guān)心的問題主要集中在兩個(gè)方向:具身數(shù)據(jù)該怎么擴(kuò)展、商業(yè)化節(jié)奏如何把握。

團(tuán)隊(duì)談道,目前訓(xùn)練中使用的互聯(lián)網(wǎng)、自駕數(shù)據(jù)遠(yuǎn)多于具身數(shù)據(jù),但在使用過程中會(huì)動(dòng)態(tài)調(diào)整配比,三類數(shù)據(jù)基本以均衡比例參與訓(xùn)練。

最強(qiáng)具身大模型DM0出爐!2.4B參數(shù)干翻一票大模型,登頂具身真機(jī)榜

▲DM0由多源數(shù)據(jù)混訓(xùn)

在Scaling路線圖上,他們明確提出:這不應(yīng)只看“小時(shí)數(shù)”的增長。原力靈機(jī)創(chuàng)始團(tuán)隊(duì)成員范浩強(qiáng)認(rèn)為,Scaling是一個(gè)多維擴(kuò)展過程,要兼顧任務(wù)復(fù)雜性、環(huán)境真實(shí)性,2025年的目標(biāo)是從“萬小時(shí)”躍遷至“幾十萬小時(shí)”級別

汪天才則補(bǔ)充,除了總時(shí)長,還必須同時(shí)提升“訓(xùn)練方式質(zhì)量、數(shù)據(jù)質(zhì)量、模型參數(shù)”三條軸線。他認(rèn)為,當(dāng)前行業(yè)中一些模型智能密度不高,根源在于訓(xùn)練方式本身的不足。

針對當(dāng)前行業(yè)中“用視頻訓(xùn)練機(jī)器人”的做法,原力靈機(jī)團(tuán)隊(duì)也表達(dá)了自己的看法。他們認(rèn)為,視頻是一種重要的數(shù)據(jù)形式,但并非全部,尤其在具身智能中遠(yuǎn)遠(yuǎn)不夠。

周而進(jìn)打了一個(gè)比方:“就像你把梅西所有踢球的視頻都看了一遍,也不代表你會(huì)上場踢球??磧?yōu)秀運(yùn)動(dòng)員的視頻肯定有幫助,但不替代你在場上親自去找感覺。”他認(rèn)為,視頻可以提供感知上的豐富性,卻無法支撐機(jī)器人對物理世界的直接控制。

在他們看來,當(dāng)前能較為完整刻畫物理世界的三類數(shù)據(jù),分別是互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)、駕駛行為數(shù)據(jù)與具身多傳感數(shù)據(jù)。其中具身數(shù)據(jù)又包括室內(nèi)導(dǎo)航與操作類數(shù)據(jù),是目前唯一能覆蓋閉環(huán)決策與控制的樣本來源。

對于外界最關(guān)心的商業(yè)化問題,原力靈機(jī)創(chuàng)始人兼CEO唐文斌將當(dāng)前產(chǎn)品形態(tài)劃分為兩類:一是面向客戶的端到端方案,原力靈機(jī)要負(fù)責(zé)從算法到硬件系統(tǒng)的完整交付,更接近Solution Provider(解決方案提供商)的角色,在業(yè)務(wù)方向主要集中在工業(yè)和物流場景,聚焦倉儲(chǔ)和產(chǎn)線。二是面向科研場景的標(biāo)準(zhǔn)化產(chǎn)品,例如數(shù)據(jù)采集機(jī)型等,用于支持生態(tài)開發(fā)。

談及業(yè)界對“閉環(huán)落地”的預(yù)期,范浩強(qiáng)判斷:“2026年閉不了環(huán)”是目前的共識(shí)。2025年仍是探索期,2026年可能出現(xiàn)真實(shí)使用的案例,而真正達(dá)到幾十套、上百套的部署規(guī)模,仍要等到2027年之后。

結(jié)語:從框架、訓(xùn)練到應(yīng)用,原力靈機(jī)釋放“工程型供應(yīng)商”的信號

當(dāng)前具身智能領(lǐng)域,很少有團(tuán)隊(duì)能像原力靈機(jī)這樣,把模型、框架、部署三段流程做成體系并對外發(fā)布。

在成立不到一年的時(shí)間里,這支由曠視系核心成員唐文斌、范浩強(qiáng)、周而進(jìn)、汪天才等組成的團(tuán)隊(duì),已完成模型開源、框架應(yīng)用落地、系統(tǒng)級部署方案構(gòu)建,邁出了向工程型系統(tǒng)供應(yīng)商過渡的關(guān)鍵一步。

當(dāng)行業(yè)尋找具身智能從實(shí)驗(yàn)室走入工廠、物流、家庭的落地邏輯時(shí),原力靈機(jī)已先拋出了他們的版本。