EAIRCon 2025中國具身智能機器人大會是由智猩猩面向具身智能與機器人領域發(fā)起主辦的大型會議,由主論壇+專題論壇+研討會+展覽區(qū)四大板塊組成,近40位產業(yè)代表與青年科研人員與會分享和討論,線下參會觀眾超過1000人。

清華大學自動化系長聘副教授、靈御智能創(chuàng)始人兼首席科學家莫一林受邀在大會主會場下午的具身智能人形機器人專題論壇帶來報告,主題為《具身智能機器人的實現路徑探析》。

清華大學副教授莫一林表示,我們最終希望機器人能實現三角形的愿景,即成為一個通用、自主且高效的機器人。但路徑仍不明確,目前具身智能的發(fā)展甚至可能比07年自動駕駛還要早期。核心原因是數據非常稀缺,通用、高效、自主存在矛盾,也并沒有找到很好的人機交互方式。

在現在的三角不可得情況下,莫一林老師總結了以下三種技術路線:第一種是基于全自主的模型,在自主的基礎之上逐漸提升通用和性能;第二種是在專機的基礎上增加通用性;第三種是類似于自動駕駛的技術路徑,先通過人類操作實現機器人的落地應用,保證效率和通用性,再逐漸通過采集真實數據,提升自主性。

莫一林老師選擇的是類似自動駕駛的路線,以遙操作為切入點,先確保通用和高效,犧牲自主性;再通過在真實世界中采集真實數據,逐步實現L0-L2-L4的過渡。

以下為莫一林老師的報告全文:

莫一林:各位老師同學大家好。非常感謝主辦方的邀請。向大家自我介紹一下,我是來自于清華大學自動化系,之前主要在做控制理論。機器人是一個很復雜的系統(tǒng),今天上午也有很多老師講過。從某種角度來說,控制做的是機器人底層的,類似于如果給機器人發(fā)一個指令,讓它去實現這個指令,并在過程中克服外界的干擾。

后面我們逐漸在做一些機器狗,或上肢機器人。大約從去年開始,我們逐漸接觸到具身智能的概念,并進行了初步探索。我其實在學術圈也做了很多很多年了,也有一些自己的思考,所以也算拋磚引玉,給大家講一些我對具身智能機器人的理解。

一、具身智能機器人是最具潛力的發(fā)展方向

具身智能現在是一個非常火爆的事情。不管是從國家政策的支持,還有資本的下場,包括很多知名企業(yè)都在做。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

我們回顧整個過程,不管是具身智能的DeepSeek moment也好,ChatGPT moment也好,我們都要去看當中一些重要的時間節(jié)點。

我們首先要提到的是2019年OpenAI在Science上發(fā)表的一篇論文,這是他們用的靈巧手,這種靈巧手很貴,可能需要100萬一只。他們做了通過強化學習控制靈巧手來單手擰魔方的視頻。這件事情最開始大家都認為是非常困難的,因為手和魔方之間的接觸很難用傳統(tǒng)的方法解決。比如,手到底什么地方碰到魔方,這件事情是很難建模的。所以在2019年,OpenAI展示了一種基于強化學習的方法,不光是在打游戲或下圍棋能夠實現很好效果,而且在真實機器人應用中也能實現很好的效果。

2020年,ETH團隊在Science Robotics上首次將強化學習算法應用于他們設計的ETH animal機器狗上,從而實現了優(yōu)于傳統(tǒng)控制方法的效果。

后來到了21年,也是我認為一個很大的突破是NVIDIA推出了Isaac仿真環(huán)境。因為比如19年OpenAI在做這件事情的時候,使用了百臺計算機集群。這是因為要進行物理世界的仿真,尤其是模擬手與魔方的交互,最初只能通過CPU進行仿真,這就需要大規(guī)模的集群和眾多CPU核來做這件事情。但Isaac仿真環(huán)境使得物理世界的仿真在GPU上實現?,F在,甚至一張消費級的NVIDIA顯卡就可以跑數萬個機器狗的仿真。這個在19年的時候,可能需要百臺CPU集群才能做到的。這些都是跟強化學習有關的。

到了2023年,谷歌推出了第一個VLA模型,第一次把language引入到機器人中,這也是一個現在非常主流的技術路線。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

今年4月或5月,谷歌推出了名為Gemini Robotics的模型,該模型能夠執(zhí)行多種操作,包括處理柔性物體。它能夠聽從人類的指令,并根據這些指令做一些東西。(鏈接可查看視頻:https://mp.weixin.qq.com/s/ag4dmZ9m2iS0kXlT_AEzBQ)

大家的VLA模型放出來的demo都看上去是非常好的。但PI放出了很多失敗的案例。這是π0模型的一些失敗的案例,而且是經過長時間加速的??梢钥吹剿磸偷恼归_衣服,包括嘗試把盤子里的東西夾起來,然后放到盒子里面,最后還導致一些東西掉出來了。事實上我認為這些單純的通過模仿學習的VLA模型,在很多情況下,其實并沒有達到可用的程度,可能會放出很多漂亮的演示視頻,但它距離成功率達到99%或99.9%,還是有很大距離的。(鏈接可查看視頻:https://mp.weixin.qq.com/s/ag4dmZ9m2iS0kXlT_AEzBQ)

這是我覺得是今年一個很大的突破,是Dyna發(fā)布的一個demo,引入了在線的真機強化學習。包括像最近的PI新發(fā)布的π0.6。Dyna 發(fā)布的模型通過真機和真實物理世界產生交互,可以達到99%的可靠性,或非常長時間的運作,不需要人來中途干預。這是我認為是今年一個非常重要的突破。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

二、具身智能不可能三角:通用、性能、自主

這一次具身智能機器人和之前的機器人有什么區(qū)別?我覺得核心是之前我們做的更多的是專機,比如工業(yè)機械臂,是被編程好來做這件事情的;我們做一個掃地機器人就只能掃地,干不了其他事情。

我們這一代機器人,之所以選擇人形或其他各種靈活的構型,核心目標是希望在之前專機的基礎之上,還能做到通用。如果要分析一個機器人的各個性能指標的話,我覺得這三個維度是最核心的:通用、性能、自主。

通用就是它可以在復雜環(huán)境下執(zhí)行多樣任務,甚至是之前沒有見過的任務。

性能某種角度來說有兩個方面:一個方面是干的事情有多可靠,成功率有多高;另一方面就是干這件事情的速度,能不能以一個接近人類甚至超越人類的速度把這件事情做好。

最后是自主性,就是我這個機器連續(xù)運行多長時間,沒有人干預,這是我們希望做到一件事情。

事實上,上一代的專用機器人是有非常好的性能。在很多情況下,這些工業(yè)機械臂、掃地機器人等可能干的比我們自己都好,因為它們在干非常專的事情,同時可以做到100%的自動來干這件事情。

但另一方面,人肯定是通用的,什么任務都能干。人的性能從某種角度來說也是相當不錯的。但人沒有機器的自主,這件事100%是人做的。

而我們理想的機器人是這樣一個兼具了通用、性能和自主三角形的狀態(tài)。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

三、具身智能可能比07年自動駕駛還要早期

如果現在我們去客觀評價一下,現在具身智能發(fā)展到了什么程度。同樣我們去看自動駕駛,大概在07年的時候已經可以完成。在DARPA組織的Urban Challenge(自動駕駛挑戰(zhàn)賽)里,已經可以完成四、五個小時在城市道路上和人共享道路,沒有接管、違規(guī)和交通事故。這是07年自動駕駛的水平。

但是到今天,如果說L4級別的自動駕駛,事實上我認為它屬于還沒有完全滲透到生活中各個方面的階段,可能是在大規(guī)模商業(yè)落地剛要開始的階段。反過來看,輔助駕駛的人機混駕模式。如果現在去買一輛新能源的車,但它沒有輔助駕駛,大概率也不太好賣,大家總歸是希望自己的車有一些簡單的高速巡航等功能。

如果以這個標準來說,07年大概能做到若干個小時不需要去控制這個車。但現在的VLA模型或具身智能在非常復雜環(huán)境下,可能就很難做到長時間沒有接管,連1小時沒有接管都非常難。所以如果從這個維度去看的話,我們甚至比07年自動駕駛可能還要早期。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

四、具身智能數據量遠小于可用水平

為什么會這樣呢?我覺得這個核心的原因是數據,數據非常稀缺。稀缺到什么程度呢?人形機器人或具身智能機器人,現在從機器人身上采集到的最大的數據集大概在萬小時到10萬小時的級別。最新的Generalist發(fā)布的,他說他采了27萬個小時,一周可以再多采1萬個小時,這是他的水平。

再看一下特斯拉,特斯拉一年獲得數據是500億英里的數據,這是他一年獲得的數據,全部都用來訓練,比如FSD等,都是用基于這些數據去訓練的。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

但是對比具身智能和自動駕駛的難度,我們會認為具身智能遠遠比自動駕駛要困難的多。因為自動駕駛更多的是二維的問題,不需要考慮三維的環(huán)境,你的車本身也飛不起來,它的控制量很少,只有油門和方向盤。它不需要和周圍的物體產生任何交互,不需要知道這個東西是軟的還是硬的,是重的還是輕的,因為不能碰任何這些東西。

反過來說,如果我們要做一個靈巧操作機器人的話,一個機械臂就是六個自由度,一個靈巧手20幾個自由度又出去了。這個問題必然是三維空間的問題,而且一定要和物體產生交互,這個物體的輕重、軟硬,到底是澀的,還是滑的,這些都會極大影響我和它交互的效果。所以我覺得現在的具身智能機器人上有欠缺,核心的原因是數據非常少。

當然也有很多方法,比如有人提出通過數據增強,或世界模型通過仿真的方式來獲得數據。

這個是逐際動力的張巍老師發(fā)布的一個demo。但是同樣的argument,自動駕駛一樣可以數據增強,且遠比機器人做數據增強要簡單的多。所以是否能夠通過簡單的數據增強,彌補5到6個數量級,因為現在是萬小時對億小時的差別。如果能彌補5到6個數量級差距的話,技術需要非常強才能做到。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

另外,我們也會看到,最近特斯拉開始逐漸用人去采數據。用真人采數據,希望成本能夠便宜一點。因為對人來說,就是穿了一套衣服,可能會簡單一點。

但是我覺得這個里面其實有兩個argument。

一個問題是這件事情是否真的是一個低成本的事情?因為如果用人去采數據的話,不管怎么說,他要佩戴一套很復雜的衣服,也是為了采數據而去采數據。那這件事情就是你付給這個人的工資還是那么多,成本也不一定真的降下來,因為采數據的過程本身并沒有產生任何價值。

另外,我覺得還有一個很大劣勢,像我們現在國內很多機器人的靈巧手,并沒有像特斯拉這么高的自由度。在這種情況下,你用人手去操作一個物體,人能做出來的動作,機器人不一定能做出來。比如我們用一個夾爪,手可能是做了一個擰瓶蓋的動作,但夾爪根本就不可能做出這個動作。在這種情況下,你必須要有一個非常昂貴的、擬人的本體,才有可能把人類采集的數據直接用上去。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

五、目前沒有找到很好的人機交互方式

現在具身智能另外一個稀缺的事情:我們并沒有找到一個能很好的和機器人交互的方式。

現在大量的交互的方式,要不然就是不需要交互。比如在各種展會上看到demo,其實那個機器人就是一直在干一件事情,不需要跟它去說話。另外一個方式,類似于ChatBot式的交互方式,像大模型一樣,我跟它說一句話讓它去干。但這里就有一個很大的問題,比如我現在有一個很雜亂的房間,和機器人說讓它把這個房間收拾了。如果大家請過小時工或者家里有人來幫忙收拾的話,那你肯定會發(fā)現他收拾的結果和你想象的是不一樣的,因為你沒有告訴怎么收拾。為了讓機器人收拾的結果和你習慣的東西擺放位置是一樣的,就需要給它非常多的語言信息,其中是否用語言去交互就很成問題。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

因為我做是比較理論的,這里引用了我們學科中一個重要的信息論的結論,就是從信息的角度來說,這件事兒是不可能的。有這樣的一個Shannon信息處理不等式。就是告訴機器人一句非常簡潔的話,比如把房間收拾了,然后又希望它做這個事情是非??煽兀凑漳愕南敕ò逊块g收拾了。這個事情從某種角度來說就是不可能的,因為這個任務很復雜,機器人也沒有讀心術,它不可能知道你心里想的是什么。所以任務的復雜性,交互的簡潔性和機器人在干這件事情當中的可控性,這幾件事情是矛盾,是由Shannon信息處理不等式所決定的。我們老祖宗也說,書不盡言,言不盡意。你說一句話,別人的理解肯定是有偏差的,是不一樣的。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

實際上如果我們以這個角度去思考問題的話,可以想象自動駕駛本身是一個比較well-behaved,是一個定義的比較好的問題。因為自動駕駛的任務是簡單的,就是從點A到點B。比如我告訴它去機場,這個任務一旦設定所有信息量就告訴它了,機器是一個完全可控的狀態(tài)。它就是去機場,交互也很簡潔,任務本身是一個簡單的。

另外,有時候就是需要機器人很可控,它在執(zhí)行一個很復雜任務,交互必然復雜。比如手術機器人,醫(yī)生要做一個遠程手術的話,需要一直控制機器人在做這件事情。

另外一種可能性就是任務很復雜,交互很簡潔。結果就是這個機器人不是聽你的話在做,而且按照它自己的意志做這件事情。這個事情發(fā)展到極致,可能就是類似于像終結者這樣,這種東西是不是可以被接受的呢?今天上午有很多老師講安全,講倫理,這個我覺得是一個需要去探討的問題。

六、遙操作是一種人機交互方式

所以我覺得即使是在現在,做具身智能很大程度上是受到LLM的影響,一個自然的與智能體交互的方式,就是和它說話。這件事情我覺得是一個很值得探討的事情。尤其是當你與一個物理世界的智能體互動時,比如通過手勢、眼神或指向某個物體的方式,是否是一種更有效的方法?我認為在許多情況下,答案是肯定的。肢體語言實際上傳遞了大量信息,這也是為什么我們認為遙操作本身并不是一個很low的事情,從某種角度來說,是一種和機器人交互的方式。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

七、當前幾種具身智能的技術路線

我們最終希望機器人能實現這個三角形的愿景,即成為一個通用、自主且高效的機器人。但在現在的三角不可得情況下,我覺得有幾種可能的技術路線。

第一種是基于π0等全自主的模型,我們已經看到現在已經能夠在全自主模型上,盡量讓機器人更高效的完成更多任務,在自主的基礎之上去做通用和性能的提升。

第二種是在專機上增加通用性。比如在掃地機器人上加一個機械臂,它不光能掃地,還能把地上的東西撿起來。比如在工業(yè)機器人上增加攝像頭,那它就能看到那個工件,可以直接算出來不同的工件怎么抓,不需要編程。這是從專用到通用的技術路線。

另外一條相對易于想象,是類似于自動駕駛的技術路徑。我們先通過人類操作來實現機器人的落地應用,在這個過程中,機器人的自主性較弱。落地之后,因為背后有操作員,可以保證效率和通用性。然后,我們再逐漸通過采集真實場景中的真實數據,逐漸過渡到自動駕駛。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

這是兩個例子。上面是今年石頭發(fā)布的一款帶機械臂的掃地機器人。下面是一個梅卡曼德做的深框抓取的例子。在這個例子中,它是通過一個攝像頭,來分辨各種奇形怪狀的物體應該怎么樣抓取。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

另外,我們也認為上午星塵智能的老師分享的路線可能是另一個可行的方案。這條路線是從無自動駕駛功能逐漸過渡到人機混合駕駛,最終實現完全自動駕駛。這就需要人與機器人的緊密配合。因為以前的機器人純粹就是一個機器人,如果是自主的話,那也不需要人。但現在就需要開發(fā)一套人側(硬件),怎么讓機器人去理解人的意圖,還需要讓人和機很好的配合起來。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

這是我們做的一些工作,是機器人在做力控問題。因為在現實生活中,并不是人的手在什么地方,機器人手就應該在什么地方。一個很簡單例子是,人的手在這兒,但是機器人為了到這兒,要打穿一堵墻。它到不了這個地方,要不然把墻打穿,要不然把自己手打壞。所以現實中的機器人,為了和真實世界中受控的物體產生交互,一定是力控的狀態(tài)。也就是說機器人是柔順的,能夠分辨出在什么方向上應該施加什么力,在什么方向上又應該是有彈性的。(鏈接可查看視頻:https://mp.weixin.qq.com/s/ag4dmZ9m2iS0kXlT_AEzBQ)

左邊是我們做的用粉筆寫字的例子。用毛筆寫字更多的是關于位置的控制,因為毛筆本身是軟的。但是用粉筆寫字時,為了保證每一筆都寫的非常準確,不能抬筆,不能落下,也不能用太大的力氣,這就需要對桌面施加一個相對恒定的壓力。右邊是疊衣服的一個例子。這兩個例子雖然都是通過遙控來做到的,但遙控可以達到非常好的上限,可以完成非常通用的任務。

八、遙操作機器人的核心應用場景

事實上我們也跟很多人在聊,遙控機器人是不是有一些落地場景。實際上,單純的遙控在很多情況下已經可以產生一些應用了。比如有很多危險場景,最常見的遙操作已經落地的例子是無人礦山。因為礦山里面很可能就是有時候會出現事故,所以希望遙操作一些挖掘機等。

另外,就像今天上午星塵智能的老師說,有一些勞動力的價格是有差別的,如果能遠程操作的話,就能用一個比如墨西哥人去控制美國的機器人,或者用一個馬來西亞人去控制新加坡的機器人。

還有一類非常有意思的應用,也是當時找到我們,但我們沒有想到的。這些應用并不希望人出現。比如在養(yǎng)殖業(yè),人身上會攜帶各種病原體。在養(yǎng)豬或養(yǎng)雞場,如果人進去,可能會攜帶病原體,那可能人感冒了,動物也會感冒。再比如金庫,如果人進去,在金庫里面進行某些操作,再出來,那就需要很多安全手段來防止人把東西拿出來。但是機器人可以永遠關在里面,永遠也不出來。所以這種純粹的遙控已經有一些例子了。

另外還有一些非常有趣的場景,我們把它定義為操作比較少的場景。例如工業(yè)巡檢與維護,機器人大量的時間是在導航和移動上。在這個情況下,人就不需要在機器人導航的時候,在背后盯著;或者完全可以一個人盯著比如十個機器人。那機器人在移動或處理簡單任務的時候,就是它自己在做。但是當機器人需要比如擰一個閥門或摁一個按鈕等專用的維護操作時,就可以切到人類模式。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

今天上午我們都在暢想具身智能未來可能的發(fā)展路徑。我覺得在五年甚至十年之內,可能會看到很多遙控機器人。當然它不一定是百分之百時間在遙控,可能有10%的時間是在遙控的,但它背后終歸是有一個人的。通過逐漸把人機比提上去,把經濟的賬算過來。在這個過程中,我們也可以采集大量數據,像自動駕駛一樣,逐漸實現自動駕駛。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

因為數據很少,另外一個很重要的就是一些傳統(tǒng)的機器人經典算法,是不需要數據的。比如像我們之前做的模型預測控制、全身控制等,是不需要任何數據就可以做的。但因為這些沒有真實數據,所以在真實場景里性能不是那么好。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

但后面像我之前提到的19年OpenAI、20年ETH把強化學習引入了。但是事實上我們現在做強化學習,很多時候都是在做一個非常通用的神經網絡,比如這是一個奔跑的機器狗,強化學習就需要和真實世界交互,需要在真實世界中采集很多數據。

我們覺得一個好的事情是:不一定要通過強化學習訓練一個非常通用的神經網絡,可以把一些知識預先內嵌到被學習的對象里。舉一個很簡單的例子,大家在伸手抓一個東西的時候不會想我的每一個關節(jié)到底應該彎曲多少度,因為這件事情是直接計算出來的。在機器人里叫逆運動學,這件事情也可以直接計算出來。比如機器人想抓這個東西,不需要強化學習的算法告訴它每個關節(jié)要多少度,只需要告訴它末端要到什么地方,可以自動把這件事情算出來,那就省掉了對機械臂的學習。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

同樣的,比如換一個更長的機械臂,或者一個更短機械臂,因為背后的算法都在這個地方,可能會有更好的遷移性能,而且學習的也會更快。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025

這是我們最近在TRO上的一個工作,這是我們最后實現的效果。傳統(tǒng)的強化學習就沒有辦法做到約束的保持。但因為我們內嵌了很多結構信息,就可以做到機器狗在地上不會打滑,也不會把這個東西給踩漏。(鏈接可查看視頻:https://mp.weixin.qq.com/s/ag4dmZ9m2iS0kXlT_AEzBQ)

最后總結一下

我覺得具身智能的目標是明確的,應該實現通用、高效、自主這三件事情,但它的結果是不明確的。這里面最核心的就是數據缺口。在這個數據缺口的情況下,可能只能實現這三個目標中的兩個。我們選擇的一條路線可能是通過遙控的方式,犧牲自主性,逐漸提升自主性,先確保通用和高效。

我匯報就到這里,謝謝大家。

清華大學莫一林教授:破解具身智能“不可能三角”,遙操作是可行路徑 | EAIRCon 2025