麻豆国内产娇喘呻吟在线观看,轻轻操在线视频观看免费,不卡的国产熟女av

智東西（公眾號(hào)：zhidxcom）
作者 | 陳駿達(dá)
編輯 | 漠影

在具身智能領(lǐng)域，一個(gè)越來(lái)越突出的現(xiàn)實(shí)是：Demo，似乎成為了技術(shù)能力的通用敘事方式。

在發(fā)布會(huì)、短視頻和展臺(tái)上，我們反復(fù)看到類似的場(chǎng)景，機(jī)器人在精心布置的環(huán)境里完成一次抓取、一段行走，流程流暢、效果驚艷。

然而，一旦離開展示場(chǎng)景，問題便變得復(fù)雜得多。換一個(gè)光照條件、換一個(gè)物體材質(zhì)、稍微打亂順序，系統(tǒng)是否還能穩(wěn)定工作，外界往往無(wú)從得知。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”，這會(huì)是機(jī)器人的LMArena嗎？

不同廠商基于不同任務(wù)與展示方式來(lái)定義“領(lǐng)先”，使得這些Demo之間既難以橫向比較，也難以被復(fù)現(xiàn)驗(yàn)證。在缺乏統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)的情況下，Demo與實(shí)際落地之間的差異逐漸放大。

日前，圖靈獎(jiǎng)得主姚期智便在一場(chǎng)演講中點(diǎn)破了這一現(xiàn)狀：（具身智能行業(yè)）要從各說(shuō)各話到統(tǒng)一評(píng)測(cè)，建立開放機(jī)制、安全規(guī)范等等，鼓勵(lì)開源復(fù)現(xiàn)與挑戰(zhàn)賽，讓優(yōu)秀的算法可以重復(fù)使用，可驗(yàn)證、可產(chǎn)業(yè)化。

這一呼吁背后的核心，正是建立一套統(tǒng)一、科學(xué)且可被反復(fù)驗(yàn)證的評(píng)測(cè)體系。2026年開年，上海交通大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)布的GM-100，正是目前國(guó)內(nèi)少數(shù)試圖在這一方向上給出系統(tǒng)性解決方案的嘗試之一。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”，這會(huì)是機(jī)器人的LMArena嗎？

一、具身智能，缺一張“統(tǒng)考卷”

在一個(gè)仍處于早期探索階段的技術(shù)領(lǐng)域，評(píng)測(cè)體系的意義并不止于給模型排個(gè)名次，更像是一張“統(tǒng)考卷”：它通過題目設(shè)置，明確哪些能力被認(rèn)為是重要的，哪些問題值得被長(zhǎng)期投入，從而在無(wú)形中塑造和引領(lǐng)整個(gè)行業(yè)的研究方向與技術(shù)路線。

但從現(xiàn)實(shí)情況來(lái)看，具身智能領(lǐng)域的評(píng)測(cè)體系仍然較為分散。不同企業(yè)和研究團(tuán)隊(duì)往往使用各自的任務(wù)集、評(píng)測(cè)流程和指標(biāo)體系：有的側(cè)重抓取成功率，有的關(guān)注路徑規(guī)劃，有的強(qiáng)調(diào)單一長(zhǎng)任務(wù)完成情況。

現(xiàn)有的評(píng)測(cè)在一定程度上推動(dòng)了行業(yè)早期的發(fā)展，但其任務(wù)設(shè)置多集中于高頻、相對(duì)簡(jiǎn)單的場(chǎng)景。隨著模型能力的提升，這類基準(zhǔn)對(duì)真實(shí)應(yīng)用的區(qū)分度正在下降，也越來(lái)越難以反映具身智能在復(fù)雜環(huán)境中的核心挑戰(zhàn)。

當(dāng)模型已經(jīng)可以穩(wěn)定完成這些“標(biāo)準(zhǔn)動(dòng)作”時(shí)，繼續(xù)在同一類任務(wù)上刷分，往往只能體現(xiàn)工程調(diào)優(yōu)或場(chǎng)景適配能力，而難以揭示模型在復(fù)雜條件下的真實(shí)表現(xiàn)。行業(yè)在判斷技術(shù)成熟度時(shí)，仍然缺乏一個(gè)被廣泛認(rèn)可的客觀參照。

面向具身智能的未來(lái)，一個(gè)好的評(píng)測(cè)體系不只考“常見題”，還應(yīng)覆蓋偏題、難題和綜合題，結(jié)構(gòu)上既有基礎(chǔ)能力測(cè)試，也有對(duì)長(zhǎng)尾行為和復(fù)雜交互的檢驗(yàn)。

它的目標(biāo)不是讓模型看起來(lái)“很強(qiáng)”，而是清晰呈現(xiàn)模型在真實(shí)執(zhí)行中的能力邊界——在哪些條件下可以穩(wěn)定工作，在哪些情況下會(huì)失敗，失敗模式又是什么。

同時(shí)，隨著具身任務(wù)從單一動(dòng)作走向長(zhǎng)序列、多步驟協(xié)作，評(píng)測(cè)也不能唯結(jié)果論。是否完成任務(wù)固然重要，但完成過程中的決策質(zhì)量、異常處理方式、對(duì)環(huán)境和人類行為的響應(yīng)，同樣是衡量系統(tǒng)成熟度的關(guān)鍵維度。

過去一段時(shí)間里，學(xué)術(shù)界和工業(yè)界已關(guān)注到這一問題，并著手解決。從李飛飛教授的BEHAVIOR，到HuggingFace聯(lián)合業(yè)內(nèi)打造的RoboChallenge，各種新的評(píng)測(cè)體系，恰恰折射出了行業(yè)對(duì)更全面評(píng)測(cè)的迫切需求。他們希望通過更具挑戰(zhàn)性和解釋力的測(cè)試體系，為技術(shù)演進(jìn)提供清晰坐標(biāo)。

二、讓機(jī)器人穿糖葫蘆、開抽屜，如何揭示具身智能的能力邊界？

GM-100由100個(gè)任務(wù)組成，每個(gè)任務(wù)大約有100條訓(xùn)練軌跡和30條測(cè)試軌跡，總計(jì)13000條操作軌跡，規(guī)模已經(jīng)不小。不過，相比單純追求規(guī)模的數(shù)據(jù)集，真正讓GM-100與其他測(cè)評(píng)集打出差異化的，是其任務(wù)多樣性和評(píng)估系統(tǒng)性。

GM-100的主要作者與項(xiàng)目牽頭人、上海交通大學(xué)副教授李永露告訴智東西，其實(shí)驗(yàn)室踐行的理念是“以數(shù)據(jù)為中心的具身智能”。

他認(rèn)為在這個(gè)時(shí)代，數(shù)據(jù)集和評(píng)測(cè)對(duì)科研的貢獻(xiàn)超過了60%，加些數(shù)據(jù)，或是讓數(shù)據(jù)的分布更為健康，便有可能大幅推動(dòng)模型能力的提升。

研究中，團(tuán)隊(duì)對(duì)現(xiàn)有的海量數(shù)據(jù)集和任務(wù)進(jìn)行了統(tǒng)計(jì)，發(fā)現(xiàn)大部分任務(wù)仍以 “pick, hold, place”這三大類為核心。因此，GM-100選擇了以長(zhǎng)尾任務(wù)和精細(xì)操作為重點(diǎn)，力圖展現(xiàn)當(dāng)前具身智能在真實(shí)世界操作中的能力邊界。

任務(wù)設(shè)計(jì)過程中，研究團(tuán)隊(duì)先對(duì)人類與物體的交互原語(yǔ)進(jìn)行了系統(tǒng)分析，然后借助大語(yǔ)言模型生成候選任務(wù)，再經(jīng)過專家篩選與優(yōu)化，最終形成100個(gè)任務(wù)。這些任務(wù)從日常常見到罕見，從簡(jiǎn)單到復(fù)雜。

這些任務(wù)中有不少“反直覺”的存在——人類覺得非常精細(xì)困難的任務(wù)，機(jī)器人反而能夠較好完成；而人類認(rèn)為非常簡(jiǎn)單的操作，機(jī)器人卻經(jīng)常失敗。

該實(shí)驗(yàn)室成員、上海交通大學(xué)博士生王梓宇告訴我們，像穿糖葫蘆這樣人類認(rèn)為對(duì)機(jī)器人比較復(fù)雜的任務(wù)，機(jī)器人已經(jīng)能夠做到一定水平，而開抽屜、按臺(tái)燈開關(guān)或整理小物體等直覺上簡(jiǎn)單的任務(wù)，卻因?yàn)闄C(jī)械臂構(gòu)型、物體材質(zhì)、位置擺放以及指令理解等因素而變得困難。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”，這會(huì)是機(jī)器人的LMArena嗎？

▲GM-100中的部分任務(wù)

在現(xiàn)有評(píng)測(cè)體系普遍面臨任務(wù)同質(zhì)化、容易被針對(duì)性優(yōu)化“刷榜”的背景下，GM-100通過高度多樣化且長(zhǎng)尾的任務(wù)來(lái)貼近真實(shí)物理世界。這拉高了針對(duì)性優(yōu)化的成本，進(jìn)而有效引導(dǎo)模型發(fā)展通用能力，避免模型僅在簡(jiǎn)單任務(wù)上過擬合的傾向。

在研究論文中，GM-100背后的團(tuán)隊(duì)已經(jīng)驗(yàn)證了這一測(cè)評(píng)集的有效性。他們對(duì)Diffusion Policy（DP）、π?、π?.?及GR00T等主流具身學(xué)習(xí)模型進(jìn)行了測(cè)試。值得注意的是，GM-100評(píng)估指標(biāo)不止于傳統(tǒng)的任務(wù)成功率（SR），還引入了部分成功率（PSR）和動(dòng)作預(yù)測(cè)誤差。

PSR讓多步驟任務(wù)的細(xì)節(jié)完成情況可量化，動(dòng)作預(yù)測(cè)誤差則衡量模型在新軌跡上的模仿精度。這種多維度指標(biāo)使研究者能從不同角度衡量模型表現(xiàn)的強(qiáng)弱，遏制了模型通過“作弊”、“走捷徑”完成部分動(dòng)作，鼓勵(lì)研究者關(guān)注模型真正的泛化和模仿能力。

結(jié)果顯示，GM-100的任務(wù)在許多機(jī)器人平臺(tái)上都可執(zhí)行，但也沒有過于簡(jiǎn)單，不同模型在GM-100上的表現(xiàn)拉開了區(qū)分度，這證明任務(wù)設(shè)計(jì)本身是合理的。跨平臺(tái)測(cè)試也表明，這些任務(wù)在不同機(jī)器上具有一定的泛化價(jià)值，為評(píng)估模型能力提供了可靠參考。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”，這會(huì)是機(jī)器人的LMArena嗎？

三、不做“爹味很濃”的測(cè)評(píng)集，Benchmark不只靠權(quán)威說(shuō)話

不過，對(duì)一個(gè)測(cè)評(píng)集來(lái)說(shuō)，打造出來(lái)僅僅是第一步。如何讓更多的人用起來(lái)，對(duì)它產(chǎn)生信賴，可能是更為關(guān)鍵的一步。

在與李永露的溝通中，我們了解到，GM-100團(tuán)隊(duì)在打造這一測(cè)評(píng)集的時(shí)候就意識(shí)到，一個(gè)真正有生命力的評(píng)測(cè)體系不能只靠“權(quán)威”，而應(yīng)走向“社區(qū)共建”。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”，這會(huì)是機(jī)器人的LMArena嗎？

▲李永露

換言之，他們似乎并未將自己定位為“裁判”，而是“搭臺(tái)者”。

當(dāng)前的機(jī)器人學(xué)習(xí)模型仍顯著受到測(cè)試者能力和環(huán)境條件的影響，GM-100不是要成為一個(gè)絕對(duì)公平的物理測(cè)試環(huán)境，這在當(dāng)前的產(chǎn)業(yè)發(fā)展階段也不現(xiàn)實(shí)。GM-100打造了一個(gè)開放平臺(tái)，研究人員可以自主上傳測(cè)試結(jié)果與證據(jù)視頻。

為了讓更多人參與這一評(píng)測(cè)，GM-100開源了全部100個(gè)任務(wù)的詳細(xì)說(shuō)明，需要購(gòu)買的物料清單精確到了淘寶鏈接，還上傳了每個(gè)任務(wù)約130條真實(shí)機(jī)器人操作數(shù)據(jù)，極大降低了復(fù)現(xiàn)門檻。

對(duì)于開源模型，GM-100團(tuán)隊(duì)進(jìn)行驗(yàn)證與作者身份確認(rèn)，要求提交模型權(quán)重以供審核，并為符合標(biāo)準(zhǔn)的提交打上“已驗(yàn)證”標(biāo)簽。未來(lái)，GM-100還會(huì)豐富社區(qū)的功能，讓用戶可以點(diǎn)評(píng)、收藏，表達(dá)自己的見解。

李永露說(shuō)，他們不想成為一個(gè)“爹味很濃”的組織，來(lái)告訴大家應(yīng)該怎么做，因?yàn)檫@樣很有可能喪失公信力。相反，他們希望讓研究社區(qū)以“悠悠眾口”的模式，長(zhǎng)期討論并建立共識(shí)，最終形成對(duì)模型能力的客觀評(píng)價(jià)。這種模式也有望讓“刷榜”、“作弊”的模型在群眾監(jiān)督下現(xiàn)出原形，最終建立起透明、可信的基準(zhǔn)測(cè)試體系。

上海交大給具身智能發(fā)了一張“統(tǒng)考卷”，這會(huì)是機(jī)器人的LMArena嗎？

▲GM-100的數(shù)據(jù)采集工作（圖源：RHOS）

對(duì)熟悉大模型評(píng)測(cè)的讀者來(lái)說(shuō)，GM?100在理念上讓人聯(lián)想到LMArena。

LMArena 的公信力來(lái)自一種去權(quán)威化的評(píng)測(cè)機(jī)制：平臺(tái)通過匿名雙盲對(duì)比和真實(shí)用戶投票，讓性能評(píng)估不依賴單一指標(biāo)、不受品牌影響，再用Elo排名體系動(dòng)態(tài)反映真實(shí)偏好，而非靠構(gòu)建者主觀設(shè)定的權(quán)威分?jǐn)?shù)。

在這一點(diǎn)上，GM 100同樣強(qiáng)調(diào)機(jī)制而非權(quán)威背書。它通過跨平臺(tái)數(shù)據(jù)、詳盡的交互說(shuō)明和多維度指標(biāo)體系，使評(píng)估結(jié)果具有可復(fù)現(xiàn)性和解釋性，而非依賴實(shí)驗(yàn)者主觀裁定。

兩者都探索了一種面向社區(qū)與實(shí)際表現(xiàn)的評(píng)估范式，試圖讓評(píng)測(cè)結(jié)果既透明可檢驗(yàn)、又不受單一權(quán)威框架制約。

結(jié)語(yǔ)：GM-100將進(jìn)一步擴(kuò)展，不怕干“臟活累活”

李永露告訴我們，團(tuán)隊(duì)不會(huì)止步于GM-100數(shù)據(jù)集的發(fā)布。GM取自“Great March”，寓意“長(zhǎng)征”，團(tuán)隊(duì)將逐步把任務(wù)庫(kù)擴(kuò)展至300乃至1000項(xiàng)，并推進(jìn)跨機(jī)器人平臺(tái)評(píng)測(cè)，以增強(qiáng)評(píng)測(cè)的覆蓋面。

長(zhǎng)遠(yuǎn)來(lái)看，他們希望通過任務(wù)設(shè)計(jì)的系統(tǒng)化、評(píng)測(cè)維度的多元化（如引入進(jìn)度評(píng)分、安全性、社會(huì)價(jià)值等指標(biāo)），打造更科學(xué)、更工程化的具身智能評(píng)測(cè)“奧林匹克”。

數(shù)據(jù)集和評(píng)測(cè)的構(gòu)建是公認(rèn)的“臟活累活”。正如李永露所說(shuō)：“評(píng)測(cè)其實(shí)是一個(gè)挺苦的事情，這類工作并非在空調(diào)房里寫寫代碼就能完成，而需要實(shí)實(shí)在在動(dòng)手操作，甚至擰螺絲。但完成后，對(duì)整個(gè)世界的貢獻(xiàn)卻非常巨大?！彼Ｍ嗄贻p人、研究團(tuán)隊(duì)和企業(yè)能夠參與，共同推進(jìn)這一事業(yè)。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、具身智能，缺一張“統(tǒng)考卷”

二、讓機(jī)器人穿糖葫蘆、開抽屜，如何揭示具身智能的能力邊界？

三、不做“爹味很濃”的測(cè)評(píng)集，Benchmark不只靠權(quán)威說(shuō)話

結(jié)語(yǔ)：GM-100將進(jìn)一步擴(kuò)展，不怕干“臟活累活”

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、具身智能，缺一張“統(tǒng)考卷”

二、讓機(jī)器人穿糖葫蘆、開抽屜，如何揭示具身智能的能力邊界？

三、不做“爹味很濃”的測(cè)評(píng)集，Benchmark不只靠權(quán)威說(shuō)話

結(jié)語(yǔ)：GM-100將進(jìn)一步擴(kuò)展，不怕干“臟活累活”

相關(guān)推薦

一、具身智能，缺一張“統(tǒng)考卷”

二、讓機(jī)器人穿糖葫蘆、開抽屜，如何揭示具身智能的能力邊界？

三、不做“爹味很濃”的測(cè)評(píng)集，Benchmark不只靠權(quán)威說(shuō)話

結(jié)語(yǔ)：GM-100將進(jìn)一步擴(kuò)展，不怕干“臟活累活”