機器人前瞻(公眾號:robot_pro)
作者?|??許麗思
編輯?|??漠影

機器人前瞻11月5日報道,今天,銀河通用聯(lián)合北京大學、阿德萊德大學、浙江大學等團隊,推出了全球首個跨本體全域環(huán)視的導航基座大模型——NavFoM(Navigation Foundation Model)。

在今年6月,銀河通用發(fā)布端到端導航大模型TrackVLA,讓機器狗在未訓練過的真實場景跟隨用戶,完成自主移動、避障、轉向,并能聽懂語音語音指令。 而這次發(fā)布的NavFoM則是讓機器人具備了更強的自主性,在完全未知的環(huán)境中自己決定去哪、怎么走。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)
比如,在執(zhí)行送甜點的任務時,NavFoM能夠讓機器狗跟隨用戶行動,遇到人流密集的情況,自主避開;而當跟隨的人員從視線消失后,它可以自主分析尋找。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

機器狗支持從跟隨模式切換至導航模式,自主規(guī)劃路線,知道過馬路要走斑馬線,避開可移動物體,遵守交規(guī);導航讓走過街天橋,機器狗也是說一不二,穩(wěn)妥地完成上樓梯、下樓梯,最終將物品送抵目的地。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā) 全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

一、模型支持適配多種不同本體,讓機器人學會自己找路,

NavFoM作為基座大模型,具有以下三大亮點:

全場景:同時支持室內和室外場景,未見過的場景 Zero-Shot 運行,無需建圖和額外采集訓練數(shù)據;

多任務:支持自然語言指令驅動的目標跟隨和自主導航等不同細分導航任務;

跨本體:可快速低成本適配機器狗、輪式人形、腿式人形、無人機、甚至汽車等不同尺寸的異構本體。

除此之外,該模型允許開發(fā)人員以之為基座,通過后訓練,進一步進化成滿足特定導航要求的應用模型。

而這背后,是NavFoM重新定義了機器人導航的底層邏輯。過去,導航任務往往被拆分成識別、定位、規(guī)劃等獨立模塊,模型之間缺乏統(tǒng)一語言。

NavFoM則建立了一個新的通用范式:“視頻流 + 文本指令 → 動作軌跡”。無論是“跟著那個人走”,還是“找到門口的紅車”,在 NavFoM 里都是同一種輸入輸出形式。模型不再依賴模塊化拼接,而是端到端地完成“看到—理解—行動”的全過程。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

NavFoM通過兩項關鍵技術創(chuàng)新構建統(tǒng)一學習范式,讓機器人不僅看得懂、記得住、學得會,還能聯(lián)合利用不同本體、不同任務和不同場景的數(shù)據實現(xiàn)知識共享:

1、TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——讓模型理解時間與方向

不同相機、不同角度、不同時間拍到的畫面,常常讓模型“迷失”。TVI Tokens 就像時間軸與方向羅盤,給每一幀畫面加上時間和視角的標記,讓模型知道這幅圖像來自哪個角度、哪個時刻,從而理解空間的連續(xù)變化。它讓模型同時兼容單目、環(huán)視、無人機等多種視覺輸入方式,具備“世界在變化”的時空理解能力。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

2、BATS 策略(Budget-Aware Token Sampling)——讓模型在算力受限下依然聰明

導航時的視頻數(shù)據極其龐大,不可能每一幀都處理。BATS 策略像人類的注意力系統(tǒng),會動態(tài)判斷哪些畫面是“關鍵幀”,哪些可以略過。越靠近當前時刻、越重要的場景,采樣概率越高,從而節(jié)省算力又不損失判斷準確性。這一機制讓 NavFoM,這一7B參數(shù)級別的基座模型也能在真實機器人上毫秒級響應,兼顧實時性與精度。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

▲左為給定 Token 上限,在不同幀數(shù)下的采樣分布;右為給定視頻幀數(shù),在不同Token上限下的采樣分布

二、以千萬級高質量數(shù)據為基礎,一個模型驅動所有形態(tài)

銀河通用構建了一個跨任務數(shù)據集:包含八百萬條跨任務、跨本體導航數(shù)據,覆蓋視覺語言導航,目標導航,目標跟蹤,自動駕駛,網絡導航數(shù)據等多種任務;以及四百萬條開放問答數(shù)據,讓模型具備語言與空間之間的語義理解能力,這一訓練量約為以往工作的兩倍左右。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

▲訓練數(shù)據量對比

為降低訓練對硬件的需求并支持更大規(guī)模訓練,團隊還對圖像數(shù)據采用了視覺特征緩存(cache)機制,從而減少在線計算開銷、提升訓練效率,這些數(shù)據覆蓋了四足、人形、輪式、無人機等多種機器人形態(tài)。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

▲數(shù)據預處理

NavFoM?在多個國際公開基準上均達到或刷新?SOTA?水平:在?VLN-CE、HM3D-OVON、NavSim?等任務中表現(xiàn)領先;在目標搜索、視覺語言導航、自動駕駛等任務上均展現(xiàn)強大的跨任務泛化能力。更重要的是,它能在真實機器人上直接部署,無需針對任務微調,只需修改自然語言指令或相機配置即可。

在實測中,NavFoM?能夠驅動多種形態(tài)機器人執(zhí)行復雜任務:四足機器人長程自主跟隨、輪式機器人室內外混合導航、無人機復雜地形規(guī)劃飛行、自動駕駛系統(tǒng)的路徑推理與避障決策。

三、針對不同場景需求,已發(fā)布三個應用模型

以 NavFoM 的統(tǒng)一架構為基石,銀河通用針對不同的落地需求,訓練并發(fā)布了三個的應用模型:

TrackVLA++?:其能力相對于TrackVLA顯著升級,能實現(xiàn) 30 分鐘以上穩(wěn)定的長程自主跟隨,室內和室外均不在話下、并能適應多種更復雜路況和地形。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

UrbanVLA:針對室外場景應用需求,和 第三方地圖軟件打通,可根據地圖指引,自主規(guī)劃最優(yōu)路線并行至目的地,在街道、天橋、單元樓等各種環(huán)境中穿梭自如。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

MM-Nav:?支持 360° 無死角厘米級純視覺避障,解決了躲避玻璃、細線等難題。

全球首個!機器人也有“高德”了,銀河通用聯(lián)合北大研發(fā)

結語:機器人具有方向感,是未來具身智能大規(guī)模落地的關鍵

像 NavFoM 這樣的基座模型的出現(xiàn),讓機器人具備理解空間、適應變化、自主行走的能力,是未來具身智能大規(guī)模落地的關鍵。

當機器人能夠在陌生街區(qū)中找路、在人群中穿行、在復雜空間中預測障礙,擁有了像人類一樣的方向感時,就能進一步突破固定場景作業(yè)的限制,融入更多核心應用領域,加速人機協(xié)同時代的到來。