智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

在具身智能領(lǐng)域,一個(gè)越來(lái)越突出的現(xiàn)實(shí)是:Demo,似乎成為了技術(shù)能力的通用敘事方式。

在發(fā)布會(huì)、短視頻和展臺(tái)上,我們反復(fù)看到類似的場(chǎng)景,機(jī)器人在精心布置的環(huán)境里完成一次抓取、一段行走,流程流暢、效果驚艷。

然而,一旦離開展示場(chǎng)景,問題便變得復(fù)雜得多。換一個(gè)光照條件、換一個(gè)物體材質(zhì)、稍微打亂順序,系統(tǒng)是否還能穩(wěn)定工作,外界往往無(wú)從得知。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

不同廠商基于不同任務(wù)與展示方式來(lái)定義“領(lǐng)先”,使得這些Demo之間既難以橫向比較,也難以被復(fù)現(xiàn)驗(yàn)證。在缺乏統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)的情況下,Demo與實(shí)際落地之間的差異逐漸放大。

日前,圖靈獎(jiǎng)得主姚期智便在一場(chǎng)演講中點(diǎn)破了這一現(xiàn)狀:(具身智能行業(yè))要從各說(shuō)各話到統(tǒng)一評(píng)測(cè),建立開放機(jī)制、安全規(guī)范等等,鼓勵(lì)開源復(fù)現(xiàn)與挑戰(zhàn)賽,讓優(yōu)秀的算法可以重復(fù)使用,可驗(yàn)證、可產(chǎn)業(yè)化。

這一呼吁背后的核心,正是建立一套統(tǒng)一、科學(xué)且可被反復(fù)驗(yàn)證的評(píng)測(cè)體系。2026年開年,上海交通大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布的GM-100,正是目前國(guó)內(nèi)少數(shù)試圖在這一方向上給出系統(tǒng)性解決方案的嘗試之一。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

一、具身智能,缺一張“統(tǒng)考卷”

在一個(gè)仍處于早期探索階段的技術(shù)領(lǐng)域,評(píng)測(cè)體系的意義并不止于給模型排個(gè)名次,更像是一張“統(tǒng)考卷”:它通過題目設(shè)置,明確哪些能力被認(rèn)為是重要的,哪些問題值得被長(zhǎng)期投入,從而在無(wú)形中塑造和引領(lǐng)整個(gè)行業(yè)的研究方向與技術(shù)路線。

但從現(xiàn)實(shí)情況來(lái)看,具身智能領(lǐng)域的評(píng)測(cè)體系仍然較為分散。不同企業(yè)和研究團(tuán)隊(duì)往往使用各自的任務(wù)集、評(píng)測(cè)流程和指標(biāo)體系:有的側(cè)重抓取成功率,有的關(guān)注路徑規(guī)劃,有的強(qiáng)調(diào)單一長(zhǎng)任務(wù)完成情況。

現(xiàn)有的評(píng)測(cè)在一定程度上推動(dòng)了行業(yè)早期的發(fā)展,但其任務(wù)設(shè)置多集中于高頻、相對(duì)簡(jiǎn)單的場(chǎng)景。隨著模型能力的提升,這類基準(zhǔn)對(duì)真實(shí)應(yīng)用的區(qū)分度正在下降,也越來(lái)越難以反映具身智能在復(fù)雜環(huán)境中的核心挑戰(zhàn)。

當(dāng)模型已經(jīng)可以穩(wěn)定完成這些“標(biāo)準(zhǔn)動(dòng)作”時(shí),繼續(xù)在同一類任務(wù)上刷分,往往只能體現(xiàn)工程調(diào)優(yōu)或場(chǎng)景適配能力,而難以揭示模型在復(fù)雜條件下的真實(shí)表現(xiàn)。行業(yè)在判斷技術(shù)成熟度時(shí),仍然缺乏一個(gè)被廣泛認(rèn)可的客觀參照。

面向具身智能的未來(lái),一個(gè)好的評(píng)測(cè)體系不只考“常見題”,還應(yīng)覆蓋偏題、難題和綜合題,結(jié)構(gòu)上既有基礎(chǔ)能力測(cè)試,也有對(duì)長(zhǎng)尾行為和復(fù)雜交互的檢驗(yàn)。

它的目標(biāo)不是讓模型看起來(lái)“很強(qiáng)”,而是清晰呈現(xiàn)模型在真實(shí)執(zhí)行中的能力邊界——在哪些條件下可以穩(wěn)定工作,在哪些情況下會(huì)失敗,失敗模式又是什么。

同時(shí),隨著具身任務(wù)從單一動(dòng)作走向長(zhǎng)序列、多步驟協(xié)作,評(píng)測(cè)也不能唯結(jié)果論。是否完成任務(wù)固然重要,但完成過程中的決策質(zhì)量、異常處理方式、對(duì)環(huán)境和人類行為的響應(yīng),同樣是衡量系統(tǒng)成熟度的關(guān)鍵維度。

過去一段時(shí)間里,學(xué)術(shù)界和工業(yè)界已關(guān)注到這一問題,并著手解決。從李飛飛教授的BEHAVIOR,到HuggingFace聯(lián)合業(yè)內(nèi)打造的RoboChallenge,各種新的評(píng)測(cè)體系,恰恰折射出了行業(yè)對(duì)更全面評(píng)測(cè)的迫切需求。他們希望通過更具挑戰(zhàn)性和解釋力的測(cè)試體系,為技術(shù)演進(jìn)提供清晰坐標(biāo)。

二、讓機(jī)器人穿糖葫蘆、開抽屜,如何揭示具身智能的能力邊界?

GM-100由100個(gè)任務(wù)組成,每個(gè)任務(wù)大約有100條訓(xùn)練軌跡和30條測(cè)試軌跡,總計(jì)13000條操作軌跡,規(guī)模已經(jīng)不小。不過,相比單純追求規(guī)模的數(shù)據(jù)集,真正讓GM-100與其他測(cè)評(píng)集打出差異化的,是其任務(wù)多樣性和評(píng)估系統(tǒng)性。

GM-100的主要作者與項(xiàng)目牽頭人、上海交通大學(xué)副教授李永露告訴智東西,其實(shí)驗(yàn)室踐行的理念是“以數(shù)據(jù)為中心的具身智能”。

他認(rèn)為在這個(gè)時(shí)代,數(shù)據(jù)集和評(píng)測(cè)對(duì)科研的貢獻(xiàn)超過了60%,加些數(shù)據(jù),或是讓數(shù)據(jù)的分布更為健康,便有可能大幅推動(dòng)模型能力的提升。

研究中,團(tuán)隊(duì)對(duì)現(xiàn)有的海量數(shù)據(jù)集和任務(wù)進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)大部分任務(wù)仍以 “pick, hold, place”這三大類為核心。因此,GM-100選擇了以長(zhǎng)尾任務(wù)和精細(xì)操作為重點(diǎn),力圖展現(xiàn)當(dāng)前具身智能在真實(shí)世界操作中的能力邊界。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

任務(wù)設(shè)計(jì)過程中,研究團(tuán)隊(duì)先對(duì)人類與物體的交互原語(yǔ)進(jìn)行了系統(tǒng)分析,然后借助大語(yǔ)言模型生成候選任務(wù),再經(jīng)過專家篩選與優(yōu)化,最終形成100個(gè)任務(wù)。這些任務(wù)從日常常見到罕見,從簡(jiǎn)單到復(fù)雜。

這些任務(wù)中有不少“反直覺”的存在——人類覺得非常精細(xì)困難的任務(wù),機(jī)器人反而能夠較好完成;而人類認(rèn)為非常簡(jiǎn)單的操作,機(jī)器人卻經(jīng)常失敗。

該實(shí)驗(yàn)室成員、上海交通大學(xué)博士生王梓宇告訴我們,像穿糖葫蘆這樣人類認(rèn)為對(duì)機(jī)器人比較復(fù)雜的任務(wù),機(jī)器人已經(jīng)能夠做到一定水平,而開抽屜、按臺(tái)燈開關(guān)或整理小物體等直覺上簡(jiǎn)單的任務(wù),卻因?yàn)闄C(jī)械臂構(gòu)型、物體材質(zhì)、位置擺放以及指令理解等因素而變得困難。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

▲GM-100中的部分任務(wù)

在現(xiàn)有評(píng)測(cè)體系普遍面臨任務(wù)同質(zhì)化、容易被針對(duì)性優(yōu)化“刷榜”的背景下,GM-100通過高度多樣化且長(zhǎng)尾的任務(wù)來(lái)貼近真實(shí)物理世界。這拉高了針對(duì)性優(yōu)化的成本,進(jìn)而有效引導(dǎo)模型發(fā)展通用能力,避免模型僅在簡(jiǎn)單任務(wù)上過擬合的傾向。

在研究論文中,GM-100背后的團(tuán)隊(duì)已經(jīng)驗(yàn)證了這一測(cè)評(píng)集的有效性。他們對(duì)Diffusion Policy(DP)、π?、π?.?及GR00T等主流具身學(xué)習(xí)模型進(jìn)行了測(cè)試。值得注意的是,GM-100評(píng)估指標(biāo)不止于傳統(tǒng)的任務(wù)成功率(SR),還引入了部分成功率(PSR)和動(dòng)作預(yù)測(cè)誤差。

PSR讓多步驟任務(wù)的細(xì)節(jié)完成情況可量化,動(dòng)作預(yù)測(cè)誤差則衡量模型在新軌跡上的模仿精度。這種多維度指標(biāo)使研究者能從不同角度衡量模型表現(xiàn)的強(qiáng)弱,遏制了模型通過“作弊”、“走捷徑”完成部分動(dòng)作,鼓勵(lì)研究者關(guān)注模型真正的泛化和模仿能力。

結(jié)果顯示,GM-100的任務(wù)在許多機(jī)器人平臺(tái)上都可執(zhí)行,但也沒有過于簡(jiǎn)單,不同模型在GM-100上的表現(xiàn)拉開了區(qū)分度,這證明任務(wù)設(shè)計(jì)本身是合理的。跨平臺(tái)測(cè)試也表明,這些任務(wù)在不同機(jī)器上具有一定的泛化價(jià)值,為評(píng)估模型能力提供了可靠參考。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

三、不做“爹味很濃”的測(cè)評(píng)集,Benchmark不只靠權(quán)威說(shuō)話

不過,對(duì)一個(gè)測(cè)評(píng)集來(lái)說(shuō),打造出來(lái)僅僅是第一步。如何讓更多的人用起來(lái),對(duì)它產(chǎn)生信賴,可能是更為關(guān)鍵的一步。

在與李永露的溝通中,我們了解到,GM-100團(tuán)隊(duì)在打造這一測(cè)評(píng)集的時(shí)候就意識(shí)到,一個(gè)真正有生命力的評(píng)測(cè)體系不能只靠“權(quán)威”,而應(yīng)走向“社區(qū)共建”。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

▲李永露

換言之,他們似乎并未將自己定位為“裁判”,而是“搭臺(tái)者”。

當(dāng)前的機(jī)器人學(xué)習(xí)模型仍顯著受到測(cè)試者能力和環(huán)境條件的影響,GM-100不是要成為一個(gè)絕對(duì)公平的物理測(cè)試環(huán)境,這在當(dāng)前的產(chǎn)業(yè)發(fā)展階段也不現(xiàn)實(shí)。GM-100打造了一個(gè)開放平臺(tái),研究人員可以自主上傳測(cè)試結(jié)果與證據(jù)視頻。

為了讓更多人參與這一評(píng)測(cè),GM-100開源了全部100個(gè)任務(wù)的詳細(xì)說(shuō)明,需要購(gòu)買的物料清單精確到了淘寶鏈接,還上傳了每個(gè)任務(wù)約130條真實(shí)機(jī)器人操作數(shù)據(jù),極大降低了復(fù)現(xiàn)門檻。

對(duì)于開源模型,GM-100團(tuán)隊(duì)進(jìn)行驗(yàn)證與作者身份確認(rèn),要求提交模型權(quán)重以供審核,并為符合標(biāo)準(zhǔn)的提交打上“已驗(yàn)證”標(biāo)簽。未來(lái),GM-100還會(huì)豐富社區(qū)的功能,讓用戶可以點(diǎn)評(píng)、收藏,表達(dá)自己的見解。

李永露說(shuō),他們不想成為一個(gè)“爹味很濃”的組織,來(lái)告訴大家應(yīng)該怎么做,因?yàn)檫@樣很有可能喪失公信力。相反,他們希望讓研究社區(qū)以“悠悠眾口”的模式,長(zhǎng)期討論并建立共識(shí),最終形成對(duì)模型能力的客觀評(píng)價(jià)。這種模式也有望讓“刷榜”、“作弊”的模型在群眾監(jiān)督下現(xiàn)出原形,最終建立起透明、可信的基準(zhǔn)測(cè)試體系。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”,這會(huì)是機(jī)器人的LMArena嗎?

▲GM-100的數(shù)據(jù)采集工作(圖源:RHOS)

對(duì)熟悉大模型評(píng)測(cè)的讀者來(lái)說(shuō),GM?100在理念上讓人聯(lián)想到LMArena。

LMArena 的公信力來(lái)自一種去權(quán)威化的評(píng)測(cè)機(jī)制:平臺(tái)通過匿名雙盲對(duì)比和真實(shí)用戶投票,讓性能評(píng)估不依賴單一指標(biāo)、不受品牌影響,再用Elo排名體系動(dòng)態(tài)反映真實(shí)偏好,而非靠構(gòu)建者主觀設(shè)定的權(quán)威分?jǐn)?shù)。

在這一點(diǎn)上,GM 100同樣強(qiáng)調(diào)機(jī)制而非權(quán)威背書。它通過跨平臺(tái)數(shù)據(jù)、詳盡的交互說(shuō)明和多維度指標(biāo)體系,使評(píng)估結(jié)果具有可復(fù)現(xiàn)性和解釋性,而非依賴實(shí)驗(yàn)者主觀裁定。

兩者都探索了一種面向社區(qū)與實(shí)際表現(xiàn)的評(píng)估范式,試圖讓評(píng)測(cè)結(jié)果既透明可檢驗(yàn)、又不受單一權(quán)威框架制約。

結(jié)語(yǔ):GM-100將進(jìn)一步擴(kuò)展,不怕干“臟活累活”

李永露告訴我們,團(tuán)隊(duì)不會(huì)止步于GM-100數(shù)據(jù)集的發(fā)布。GM取自“Great March”,寓意“長(zhǎng)征”,團(tuán)隊(duì)將逐步把任務(wù)庫(kù)擴(kuò)展至300乃至1000項(xiàng),并推進(jìn)跨機(jī)器人平臺(tái)評(píng)測(cè),以增強(qiáng)評(píng)測(cè)的覆蓋面。

長(zhǎng)遠(yuǎn)來(lái)看,他們希望通過任務(wù)設(shè)計(jì)的系統(tǒng)化、評(píng)測(cè)維度的多元化(如引入進(jìn)度評(píng)分、安全性、社會(huì)價(jià)值等指標(biāo)),打造更科學(xué)、更工程化的具身智能評(píng)測(cè)“奧林匹克”。

數(shù)據(jù)集和評(píng)測(cè)的構(gòu)建是公認(rèn)的“臟活累活”。正如李永露所說(shuō):“評(píng)測(cè)其實(shí)是一個(gè)挺苦的事情,這類工作并非在空調(diào)房里寫寫代碼就能完成,而需要實(shí)實(shí)在在動(dòng)手操作,甚至擰螺絲。但完成后,對(duì)整個(gè)世界的貢獻(xiàn)卻非常巨大?!彼M嗄贻p人、研究團(tuán)隊(duì)和企業(yè)能夠參與,共同推進(jìn)這一事業(yè)。