智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 云鵬

智東西8月11日報道,在世界機(jī)器人大會上,阿里達(dá)摩院宣布開源其自研的 VLA(視覺-語言-動作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及機(jī)器人上下文協(xié)議RynnRCP,推動數(shù)據(jù)、模型和機(jī)器人的兼容適配,打通具身智能開發(fā)全流程。

達(dá)摩院將MCP(模型上下文協(xié)議)理念引入具身智能,首次提出并開源RCP(Robotics Context Protocol)協(xié)議,推出一套完整的機(jī)器人服務(wù)協(xié)議和框架RynnRCP。它類似于一個“萬能連接器”,能夠打通從傳感器數(shù)據(jù)采集、模型推理到機(jī)器人動作執(zhí)行的完整工作流,目前已支持Pi0、GR00T N1.5等多款熱門模型以及SO-100、SO-101等多種機(jī)械臂。

RynnRCP是一套完整的機(jī)器人服務(wù)協(xié)議和框架,主要由兩個模塊組成:RCP框架和RobotMotion。

RCP目前實(shí)現(xiàn)的主要功能包括:提供機(jī)器人本體及相關(guān)傳感器能力的抽象,對外提供各種功能,并通過標(biāo)準(zhǔn)協(xié)議、不同的傳輸層和模型服務(wù)進(jìn)行交互;RobotMotion作為云端推理與機(jī)器人本體控制之間的橋梁,將離散的低頻推理命令實(shí)時轉(zhuǎn)換為高頻的連續(xù)控制信號,驅(qū)動機(jī)器人完成運(yùn)動任務(wù)。此外,它還配備了運(yùn)動規(guī)劃與控制所需的工具包,助力具身智能融入物理世界。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲機(jī)器人上下文協(xié)議RynnRCP開源頁面截圖

開源地址:
https://github.com/alibaba-damo-academy/RynnRCP

RynnVLA-001是達(dá)摩院自研的基于視頻生成和人體軌跡預(yù)訓(xùn)練的視覺-語言-動作模型,能夠從第一人稱視角的視頻中學(xué)習(xí)人類的操作技能,隱式遷移到機(jī)器人手臂的操控上。

如下面動圖所示,當(dāng)研發(fā)人員告訴機(jī)械臂把草莓放到手掌上,機(jī)械臂能夠理解語言的意思,隨后在一些物品中識別出草莓,拿起并放到正確的位置。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲RynnVLA-001演示

研發(fā)人員在同一數(shù)據(jù)集上對基線進(jìn)行了微調(diào),以評估其性能。對比結(jié)果如下圖所示,RynnVLA-001在多項(xiàng)具體的撿拾物品放置測評中都取得了最高分成績。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲RynnVLA-001測評結(jié)果

研發(fā)團(tuán)隊(duì)提供了如何使用開發(fā)者自己的LeRobot數(shù)據(jù)(第 2 階段和第 3 階段)對模型進(jìn)行微調(diào)的說明,后續(xù)還將發(fā)布如何從零開始訓(xùn)練模型的說明。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲VLA模型RynnVLA-001開源頁面截圖

開源地址:
https://github.com/alibaba-damo-academy/RynnVLA-001

世界理解模型RynnEC將多模態(tài)大語言模型引入具身世界,賦予了大模型理解物理世界的能力。該模型能夠從位置、功能、數(shù)量等11個維度全面解析場景中的物體,并在復(fù)雜的室內(nèi)環(huán)境中精準(zhǔn)定位和分割目標(biāo)物體,建立連續(xù)的空間感知并支持靈活交互。

RynnEC是一種專為具身認(rèn)知任務(wù)設(shè)計(jì)的視頻多模態(tài)大型語言模型(MLLM),如下圖所示,能夠?qū)ΜF(xiàn)實(shí)世界中幾乎無限的事物進(jìn)行識別和認(rèn)知分析。本次,達(dá)摩院推出了RynnEC-2B 模型、RynnEC-Bench和訓(xùn)練代碼。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲RynnEC演示

如下圖所示,RynnEC-2B在Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(狀態(tài))、Surface(表面)等對象認(rèn)知測試中超越了Gemini-2.5-Pro、Qwen2.5-VL-72B等頂尖模型,并在空間認(rèn)知測試中大幅超越了這些模型。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲RynnEC-2B測評結(jié)果

聚焦RynnEC-Bench基準(zhǔn),其在兩個關(guān)鍵領(lǐng)域?qū)δP瓦M(jìn)行評估:object cognition(對象認(rèn)知)和spatial cognition(空間認(rèn)知),評估總體22體現(xiàn)的認(rèn)知能力。

阿里達(dá)摩院開源具身智能三件套!RCP協(xié)議首解機(jī)器人開發(fā)碎片化難題

▲世界理解模型RynnEC開源頁面截圖

開源地址:
https://github.com/alibaba-damo-academy/RynnEC

結(jié)語:打通機(jī)器人從感知到執(zhí)行的完整鏈路

達(dá)摩院此次開源的“三件套”——貫通硬件的RynnRCP協(xié)議、擬人化操控的RynnVLA模型與理解物理世界的RynnEC模型,如同為具身智能開發(fā)者提供了一套“樂高式工具包”。

它們通過標(biāo)準(zhǔn)化連接、擬人化控制與空間認(rèn)知三大突破,打通了機(jī)器人從感知到執(zhí)行的完整鏈路,有望在之后迭代的過程中大幅降低開發(fā)門檻,加速具身智能在工業(yè)、家庭等場景的規(guī)?;涞兀寵C(jī)器人真正“看得懂世界,動得像人類”。