智東西(公眾號:zhidxcom)
作者|許麗思
編輯|漠影

一臺機器人,昨天還在倉庫里熟練地分揀包裹,今天換了個貨架就懵了,這是眼下不少機器人面臨的尷尬處境:稍微改變一下工作環(huán)境,機器人的干活能力就像失效了一樣,沒法舉一反三。

這背后折射出的,正是主流VLA路線的局限性:VLA曾被視作通往通用機器人的關鍵路徑,但越來越多人意識到,其在面對物理世界千變萬化的實時交互時,顯得力不從心,泛化能力有限,難以舉一反三。

在這樣的背景下,一家成立于2025年的上海創(chuàng)企眸深智能獨辟蹊徑,沿著生成式路線打造機器人原生通用大腦,該公司也是全球首家生成式通用具身大腦公司。

眸深智能由三位復旦校友聯(lián)手創(chuàng)辦:首席科學家陳濤為復旦教授、原華為海思AI圖像算法引擎負責人,CEO穆澤林是連續(xù)創(chuàng)業(yè)者,張益民為英特爾中國前首席科學家及英特爾首席工程師,掌舵工程與架構。

“眸深”這個公司名字背后,也帶著團隊對具身智能的理解:英文源于團隊核心技術的“Motion GPT”(動作生成大模型),中文“眸”代表以視覺為基石,讓機器人手眼并用,真正在物理世界動起來。

獨特技術路線、完備且資深的團隊讓眸深智能受資本青睞,今年1月,該公司剛連續(xù)完成數(shù)千萬人民幣天使輪追加投資,由上海國和投資領投。穆澤林在接受智東西專訪時透露,該公司基本上每個月都會交割一輪融資。

眸深選擇對標美國Skild AI,這兩家公司的產品思路都強調“一腦多形”,只是技術范式和能力重點有所不同。眸深智能的終極目標,是要成為“具身智能時代的Windows”,打造市值千億以上的通用大腦平臺。

一、復旦“鐵三角”聯(lián)手創(chuàng)業(yè),要讓機器人真正在物理世界動起來

眸深智能的誕生,源于CEO穆澤林對更大機會的追尋,以及首席科學家陳濤將學術成果落地為產業(yè)價值的渴望。

穆澤林有著豐富的創(chuàng)業(yè)經(jīng)歷,曾創(chuàng)辦了聚焦于AI外呼領域的木心智能。在成功將木心智能做到年營收過億后,他敏銳地看到了業(yè)務的天花板,選擇賣掉公司,繼續(xù)在AI領域尋找一個能做十年、二十年的方向。

陳濤的動機則更像一個學者對產業(yè)化的主動轉身。他曾任職華為新加坡中央研究院、現(xiàn)任復旦大學教授。在長期的學術研究過程中,他覺得,高校科研與產業(yè)結合度低,難以將成果落地,應該要借助產業(yè)資源將原創(chuàng)理論落地;反過來,真實場景中遇到的挑戰(zhàn)還可以倒逼高校研究更有針對性。

事實上,兩人早在2019年就已經(jīng)有過共同創(chuàng)業(yè)的念頭。只是當時陳濤剛從海外和企業(yè)回到復旦,科研平臺剛起步,還不適合馬上投入創(chuàng)業(yè)。

直到2023年ChatGPT出現(xiàn)后,創(chuàng)業(yè)的想法經(jīng)過幾年的沉淀后終于開始走向落地,兩人決定聚焦具身智能模型的相關領域。

團隊“鐵三角”的補齊,得益于前英特爾中國首席科學家張益民的加入。張益民與穆澤林、陳濤同是復旦校友,是前英特爾中國研究院首席科學家及英特爾首席工程師,原機器人交互實驗室高級總監(jiān),從2015年起負責服務機器人研發(fā)。

至此,眸深智能形成了“模型算法+商業(yè)化+工程架構”的互補組合:穆澤林負責商業(yè)化與組織,陳濤主導模型算法,張益民補上工程與架構。

據(jù)了解,眸深智能的團隊規(guī)模并不大,全職員工不到20人。但其背后依托著與復旦大學的校企聯(lián)合研究中心,擁有一支60余人的強大博士研究團隊。這種“小型公司+大研究院”的結構,構成了它與大部分創(chuàng)業(yè)公司不同的組織基礎。

具身智能行業(yè)迭代速度快,為了平衡短期成功壓力與長期基礎研究的投入,眸深智能內部形成了獨特的“頂天+立地”的雙線研發(fā)陣型。

“頂天”的研究由高校聯(lián)合實驗室的博士團隊負責前沿探索,聚焦從0到1的創(chuàng)新技術研發(fā);而“立地”則偏向于工程化落地,由公司內部的工程師團隊結合成熟技術與自研模塊,以客戶為中心進行交付。這兩條線形成閉環(huán),前沿探索為工程落地提供技術儲備,工程實踐又為前沿研究指明方向。

陳濤談道,眸深智能在開展研究前期,就通過考察國內外頭部機構的研究進展,堅決避開VLA等已過度內卷的同質化賽道,專注于生成式和端側部署等更具特色的深層研究。

但不碰同質化,不等于閉門造車。眸深同時也秉持兼容并包、取長補短的理念,借鑒外界出色的研究成果優(yōu)點,并與自研技術融合,在差異化中形成自身特色。更重要的是,團隊堅持技術與場景同步推進,不等技術100%成熟才考慮落地,而是主動尋求場景和業(yè)務。

二、不走尋常路,堅持生成式是人機互動的理想范式

眸深選擇生成式技術路線,根植于陳濤早期形成的技術信仰。

在他看來,AI的終極目標是服務人,人首先需要的是互動的價值,傳統(tǒng)模仿學習或預編程機器人缺乏互動性,而生成式是實現(xiàn)人機互動的理想范式。

以ChatGPT為例,生成式模型能夠根據(jù)人的問題和反饋不斷修正和完善自己的回應,這種動態(tài)交互的能力正是具身智能所需要的核心特質。

眸深自主研發(fā)的全球首個數(shù)字人動作生成模型MotionGPT,首創(chuàng)了“動作基元”技術,將復雜的動作序列拆解為上千個基礎元素,模型可根據(jù)自然語言指令,動態(tài)調用并組合這些基元,生成全新的、未訓練過的動作序列。

獲宇樹、小米合作,復旦教授聯(lián)手前英特爾首席科學家創(chuàng)業(yè),打造具身智能的OpenAI▲MotionGPT框架圖

為了攻克數(shù)據(jù)瓶頸,眸深開創(chuàng)性地采用了“三段式訓練架構”:先用90%的互聯(lián)網(wǎng)視頻讓模型理解通用運動規(guī)律,再用仿真數(shù)據(jù)微調適配,最后僅需極少量的真機數(shù)據(jù)進行強化學習校準,大幅降低了數(shù)據(jù)成本,提升訓練效率。

▲機械臂抓取物體,相比目前最前沿的Pi0.5模型效率高80%

針對互聯(lián)網(wǎng)視頻數(shù)據(jù)質量參差不齊的問題,陳濤團隊還自研了一套半自動的數(shù)據(jù)篩選、標注以及自動化數(shù)據(jù)搜索與蒸餾技術,讓模型在學習過程中動態(tài)選擇最適合當前階段的數(shù)據(jù),最后用價值觀對齊和真機微調提升模型性能。

在模型輕量化與端側部署上,眸深研發(fā)了全球首個多模態(tài)模型輕量化方案MADTP動態(tài)令牌剪枝算法,目前已經(jīng)升級到第三代MADTP++,實現(xiàn)將模型壓縮至原來的1/8、推理速度提升10-20倍的效果,實現(xiàn)百億參數(shù)模型在機器人端側芯片上的高效運行。

獲宇樹、小米合作,復旦教授聯(lián)手前英特爾首席科學家創(chuàng)業(yè),打造具身智能的OpenAI

▲眸深具身大模型算側壓縮框架獲得IJCAI 2025全球最佳論文獎

這個算法能夠把模型變“輕”,不僅可以通過壓縮,把體量大的模型壓到端側可承載的規(guī)模,還能在推理階段做動態(tài)調用,按任務復雜度調動不同參數(shù)量,避免端側每次滿負荷運轉,從而把算力消耗壓到可控區(qū)間。

眸深智能還提出了全球首個“世界動作模型(World Motion Model)”。它使機器人擁有理解物理規(guī)律和動作原理的通用能力,能夠根據(jù)外部環(huán)境做出實時反應,生成最符合當下環(huán)境的動作。

▲多機協(xié)同運動演示

歸根結底,眸深智能一直堅持生成式路線,瞄準的就是讓機器人具備像人一樣在交互中理解環(huán)境、生成決策并即時行動的能力,這也是機器人真正走出實驗室、進入復雜現(xiàn)實場景的核心前提。

三、找準生態(tài)位,以原生大腦賦能千行百業(yè)落地

當前,不少具身智能項目容易卡在POC或Demo階段,穆澤林認為,主要有兩大原因:一是技術本身泛化性不足,產品難以從示范走向規(guī)?;?;二是POC設計之初就沒有考慮規(guī)?;蟮墓?jié)拍、續(xù)航、工作壽命等現(xiàn)實問題,一個Demo或許可以忽略這些約束,但現(xiàn)實商業(yè)化落地不能。

所以,眸深智能的商業(yè)化打法,就是選擇那些技術能領先市場6-12個月、容錯率較高的領域,作為技術的最佳試驗場,逐步實現(xiàn)規(guī)?;涞兀苊庀萑爰兗夹g演示的困境。

圍繞這一思路,眸深目前明確聚焦兩個垂直方向:工業(yè)物流等多場景搬運,以及家庭健康養(yǎng)老。前者重點對應動態(tài)避障、多機協(xié)同等需求,后者則會從安全監(jiān)護逐步延伸到肢體輔助等更復雜服務。

在接訂單這件事上,眸深智能顯得有些克制。穆澤林提到,眸深智能在訂單選擇上有著清晰的三大標準:只與千億級以上的產業(yè)龍頭合作;只合作單一類型有萬臺以上潛在訂單的規(guī)?;椖?;只投入面向國家重大需求、具有戰(zhàn)略意義的領域。不符合標準的訂單一概不接,確保資源集中投入到長期價值項目中。

目前,眸深智能的技術已快速進入產業(yè)化驗證階段。據(jù)了解,該公司在成立第一年就獲得了來自宇樹科技、國地中心、禾川科技、小米集團等頭部客戶的青睞,去年已確認三千萬元的訂單收入。

展望今年,穆澤林對訂單增長有明確預期,預計將達到六七千萬元,主要增長將來自其核心產品“大腦模組”和ODM機器人出貨,目前已簽約兩家行業(yè)龍頭企業(yè),將帶來數(shù)千萬元的收入。

穆澤林覺得,具身智能產業(yè)將像PC時代和自動駕駛時代一樣走向分工協(xié)作,機器人本體長期將是多種物理拓撲結構共存,很難由單一結構的機器人適應所有需求。因此,眸深立志成為機器人領域的通用“大腦”供應商,專注賦能下游本體廠商和終端客戶。

對于是否會涉足硬件本體,首席科學家陳濤表示,當前階段將非常專注大腦及端側模組,打造軟硬結合的系統(tǒng)。未來,眸深智能不排除根據(jù)特定場景需求,與本體廠商合作DIY定制本體,但不會從頭到尾自研機械結構。

結語:破解架構瓶頸,眸深智能以第一性原理為機器人重塑可持續(xù)學習的原生大腦

談及當前影響具身模型為何難以收斂,陳濤認為,關鍵在于缺乏一個為機器人原生的模型架構。現(xiàn)有模型多從語言模型演化而來,原生能力是時序語言建模,其“基因”注定難以應對具身領域高度非結構化的數(shù)據(jù)和場景。

具身智能領域好的訓練目標,也不應僅僅是預測下一個動作token,而是應該實現(xiàn)對視覺、語言意圖和行為動作這三類token的精準預測與深度融合,這才是通往通用物理智能的關鍵。

所以,具身智能需要專為其打造的原生大腦,根據(jù)第一性原理,從機器人操作的本質和物理規(guī)律出發(fā)來設計模型。同時要能夠實現(xiàn)機器人大腦的端側部署閉環(huán),可以實現(xiàn)像人一樣邊干邊學,在執(zhí)行的過程中不斷提升模型能力,這恰恰是眸深長期以來一直在做的事情。

據(jù)了解,未來三年,眸深智能已經(jīng)有了明確的規(guī)劃:客戶端今年實現(xiàn)10家以上上市公司的戰(zhàn)略合作簽約,5-6家以上進入小批量產,3家實現(xiàn)規(guī)模化放量,并最終在三年內服務約20家頭部客戶。資本層面,完成3-4輪新的融資,迅速躋身行業(yè)頭部。

技術上,眸深智能即將發(fā)布全球首個人類思維方式的世界模型(HL3DWM),未來將繼續(xù)致力于減少物理幻覺、增強交互實時性,并進一步升級其生成式架構,朝著測試即訓練、在執(zhí)行中進化的機器人原生大腦邁進。