智東西(公眾號:zhidxcom)
編譯 | 陳駿達
編輯 | Panken
智東西11月17日消息,昨日,斯坦福大學(xué)教授、World Labs聯(lián)合創(chuàng)始人兼CEO李飛飛在海外科技播客Lenny’s Podcast上,分享了她對AI未來的犀利觀點。她認為,AI的發(fā)展不能永遠依賴Scaling Law,更需要根本性的技術(shù)創(chuàng)新;而“通用人工智能”(AGI)更像是一句營銷話術(shù),而非嚴謹?shù)目茖W(xué)術(shù)語。
李飛飛回顧了自己20多年的科研與創(chuàng)業(yè)經(jīng)歷,總結(jié)出現(xiàn)代AI的黃金配方:神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)與GPU的結(jié)合。時至今日,ChatGPT的成功依然使用了相同的配方。
然而,她同時警告,單靠擴大數(shù)據(jù)規(guī)模和算力的“堆砌”,并不足以實現(xiàn)智能的突破。當(dāng)前的AI仍難以完成許多對人類來說輕而易舉的任務(wù),例如從視頻中精確數(shù)清物體數(shù)量,或者像牛頓那樣從觀測數(shù)據(jù)中推導(dǎo)物理定律。
李飛飛認為,我們距離真正具備創(chuàng)造力、抽象能力和情感智能的AI系統(tǒng)還有很長的路要走,“如今還有太多AI做不到的事情”。
對于業(yè)界熱議的AGI概念,李飛飛持保留態(tài)度。她認為,AGI的定義模糊,作為科學(xué)家,她更關(guān)注如何解決AI面臨的根本性技術(shù)挑戰(zhàn),而不是陷入概念爭論的無底洞。

▲李飛飛接受采訪(圖源:Lenny’s Podcast)
作為創(chuàng)業(yè)者,她也坦言AI領(lǐng)域的競爭空前激烈。過去“簡單模型+海量數(shù)據(jù)”的成功經(jīng)驗,也就是所謂的“苦澀的教訓(xùn)”,在機器人等涉及物理世界的應(yīng)用中并不完全適用。自動駕駛的發(fā)展近二十年仍未完全成熟,就是一個典型例子。
而數(shù)據(jù)獲取難、硬件受限,使得在三維空間中操控物體的機器人技術(shù),面臨比自動駕駛技術(shù)還要大的挑戰(zhàn)。
盡管道路漫長,李飛飛始終堅信,AI的進步是幾代人積累的成果,光靠當(dāng)前的“語言智能”是不夠的。人類在許多關(guān)鍵場景中依賴的是空間智能,研究空間智能,不僅對機器人、具身智能的發(fā)展有極大作用,還能在具身層面增強人類,使我們在空間理解、物體操作和現(xiàn)實世界任務(wù)中獲得新的力量。
以下是對李飛飛本場訪談的精華整理,完整內(nèi)容可參考文末鏈接:
一、從寒冬走出后,現(xiàn)代AI迎來黃金配方
在訪談中,李飛飛回顧起了自己剛剛涉足AI領(lǐng)域時的經(jīng)歷。
2000年,李飛飛開始在加州理工大學(xué)攻讀博士學(xué)位。作為第一代機器學(xué)習(xí)研究員,她的研究重點之一是神經(jīng)網(wǎng)絡(luò)。當(dāng)時,AI還處在少有人問津的“寒冬”。公眾并不關(guān)注這一領(lǐng)域,也沒有那么多資金。
李飛飛的學(xué)術(shù)興趣始終聚焦在視覺智能上。在她看來,如果人類的智能極度依賴視覺,那么機器的智能也必須從“看懂世界”開始。于是,她在自己的博士階段和教學(xué)生涯早期,選擇了最基礎(chǔ)、也最艱難的方向——物體識別。
當(dāng)時,數(shù)據(jù)對AI的重要價值,尚未得到廣泛認可。隨著研究的不斷深入,李飛飛和她的學(xué)生才逐漸意識到:大數(shù)據(jù),是讓AI活起來的關(guān)鍵要素。
于是,她做出了一個頗具野心的決定——收集互聯(lián)網(wǎng)中所有關(guān)于物體的圖像數(shù)據(jù)。就這樣,2006年左右,ImageNet項目開始了。最終,這一項目收集了1500萬張圖片、2.2萬個物體類別,并擁有每年舉辦的挑戰(zhàn)賽。
這個看似瘋狂的項目成了現(xiàn)代AI的火種。2012年,辛頓團隊使用ImageNet數(shù)據(jù)與兩塊普通游戲GPU,訓(xùn)練出了突破性的神經(jīng)網(wǎng)絡(luò)模型。大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和GPU這三者的結(jié)合,被李飛飛稱為“現(xiàn)代AI的黃金配方”。
快進十年,當(dāng)ChatGPT橫空出世,讓全世界第一次真正意識到AI的力量時,其背后的三大要素仍然是當(dāng)年那套組合:神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)、GPU。李飛飛認為,兩者之間的區(qū)別只不過是規(guī)模。
雖然常有人稱她為“AI教母”,但李飛飛更愿意強調(diào):AI的進步不是某個人的奇跡,而是幾代研究者共同的積累。
二、我不知道AI和AGI有什么區(qū)別,圖靈或許也不知道
AGI還有多遠?這一問題幾乎已經(jīng)成為所有AI學(xué)者、大牛和企業(yè)高管在訪談中的必答題。在李飛飛看來,AGI這個概念十分耐人尋味,甚至很少有人能清晰定義。
李飛飛直言:“我進入AI領(lǐng)域是因為受到一個問題的啟發(fā)——機器能否像人一樣思考和行動。從這個角度來看,我不知道AI和AGI有什么區(qū)別。”她還設(shè)想,如果艾倫·圖靈還健在,并被問及AI與AGI的區(qū)別時,他也可能只會聳聳肩說:“我在上世紀(jì)40年代問的是同樣的問題?!?/p>
AI是引領(lǐng)李飛飛前進的“北極星”,她稱自己不想陷入定義AI與AGI的兔子洞,AGI更像是一個營銷話術(shù),而不是科學(xué)術(shù)語。作為科學(xué)家和技術(shù)專家,她并不在意他人如何稱呼這項技術(shù)。
李飛飛在對話中強調(diào),盡管更大的數(shù)據(jù)集、更多的GPU和擴展現(xiàn)有模型架構(gòu)仍能帶來性能提升,AI的發(fā)展遠不能只依賴Scaling Law。
當(dāng)前的AI依然無法完成許多連兒童都能輕松做到的任務(wù),例如在一段視頻中準(zhǔn)確數(shù)清椅子;更不用說像牛頓或愛因斯坦那樣,從觀測中推導(dǎo)出新的自然規(guī)律。即便給AI提供現(xiàn)代儀器收集的全部數(shù)據(jù),它仍無法重建17世紀(jì)的運動定律。
這些例子表明,我們距離真正具備創(chuàng)造力、抽象能力和情感智能的AI還有很長的路,未來需要根本性的技術(shù)創(chuàng)新,而非簡單的堆疊算力。
近日,李飛飛發(fā)布了一篇萬字長文,詳解了空間智能的概念,并提出AI的下一個前沿是空間智能。在昨日發(fā)布的訪談中,她也分享了類似的觀點。李飛飛認為,僅靠語言智能是不夠的,因為人類在許多關(guān)鍵場景中依賴的是空間智能——例如火災(zāi)、交通事故或自然災(zāi)害現(xiàn)場的應(yīng)急決策。
這些活動需要對物體、動作、空間關(guān)系和情境的即時理解,而不是單靠語言就能完成。她在機器人研究中逐漸意識到,具身智能的關(guān)鍵在于理解三維世界。
在這樣的背景下,“世界模型”成為推動下一階段AI發(fā)展的關(guān)鍵方向。與傳統(tǒng)的語言模型不同,世界模型不僅能根據(jù)文字或圖像生成一個完整的虛擬世界,還能讓智能體在其中進行互動、推理。如果用于機器人,世界模型將成為其規(guī)劃路徑、理解場景、執(zhí)行操作的基礎(chǔ)。
李飛飛強調(diào),世界模型與空間智能不僅是機器人發(fā)展的關(guān)鍵缺失環(huán)節(jié),也與人類自身息息相關(guān)。人類本身就是具身智能體,而AI已經(jīng)在語言層面增強了我們的能力,例如寫作或軟件工程;未來,世界模型同樣能夠在具身層面增強人類,使我們在空間理解、物體操作和現(xiàn)實世界任務(wù)中獲得新的力量。
世界模型與空間智能還將深刻影響設(shè)計、工程和科學(xué)發(fā)現(xiàn)。例如,DNA雙螺旋結(jié)構(gòu)的發(fā)現(xiàn)依賴于人類從一張扁平的2D X射線衍射圖像中進行3D空間推理,而這類跨維度的空間抽象正是當(dāng)前AI難以達到的。世界模型若能突破,將使AI具備這種更深層次的空間推理能力。
三、Marble不是視頻生成模型,AI創(chuàng)業(yè)競爭激烈程度很“震撼”
李飛飛還談到了World Labs最近發(fā)布的產(chǎn)品Marble,這是一個基于前沿世界模型的應(yīng)用程序,能夠僅通過一句話或一張圖像生成可探索的三維世界。用戶可以在這些虛擬環(huán)境中自由行走、互動和導(dǎo)航,從而實現(xiàn)創(chuàng)意、設(shè)計、虛擬制作和機器人模擬等多種應(yīng)用。
她強調(diào),Marble不僅僅是生成二維視頻,而是提供具有真實空間結(jié)構(gòu)的世界,使創(chuàng)作者、游戲開發(fā)者、設(shè)計師和研究者能夠快速生成沉浸式場景。實際案例包括電影虛擬制作、心理學(xué)實驗和機器人訓(xùn)練環(huán)境合成等等。
Marble與視頻生成模型有著本質(zhì)的區(qū)別。李飛飛稱,Marble核心關(guān)注空間智能,強調(diào)對三維和四維世界的理解、互動和推理。同時,平臺支持將場景導(dǎo)出為視頻或網(wǎng)格數(shù)據(jù),用于創(chuàng)作或模擬。
李飛飛透露,成立18個月的World Labs如今擁有一個大約30人的團隊,主要由研究人員和工程師組成,但也擁有設(shè)計師和產(chǎn)品人員。
李飛飛此前有過不少“創(chuàng)業(yè)”的經(jīng)歷,從19歲時開過的干洗店,到作為AI首席科學(xué)家領(lǐng)導(dǎo)谷歌云的相關(guān)研究,再到斯坦福以人為本AI研究所,她對創(chuàng)業(yè)這件事兒的挑戰(zhàn)性已經(jīng)有了一定心理準(zhǔn)備。
然而,當(dāng)真正投身AI創(chuàng)業(yè)后,她仍被AI領(lǐng)域的激烈競爭所“震撼”,從模型和技術(shù)之爭,到頂尖人才的爭奪,她意識到必須時刻保持警惕。
四、造機器人比造自動駕駛汽車還難,“苦澀的教訓(xùn)”并不適用
李飛飛在訪談中,也談到了強化學(xué)習(xí)先驅(qū)Richard Sutton提出的“苦澀的教訓(xùn)”:簡單模型配合海量數(shù)據(jù)往往比復(fù)雜模型加少量數(shù)據(jù)更有效。對她而言,這并非“苦澀”,而是“甜蜜”的教訓(xùn),也是她當(dāng)初建設(shè)ImageNet的核心信念。不過,她強調(diào),這一教訓(xùn)無法簡單套用于機器人領(lǐng)域。
原因首先在于機器人數(shù)據(jù)極難獲取。與語言模型不同,語言訓(xùn)練數(shù)據(jù)是天然結(jié)構(gòu)化的詞與token,輸入與輸出形式高度一致,而機器人真正需要的是三維世界中的動作數(shù)據(jù)。
網(wǎng)絡(luò)視頻雖然豐富,卻缺乏可以直接用于訓(xùn)練行動策略的動作標(biāo)注。因此,機器人訓(xùn)練不得不依靠遙操作數(shù)據(jù)或合成數(shù)據(jù)來補齊。換言之,機器人數(shù)據(jù)不像語言一樣自然“對齊”,這使得苦澀教訓(xùn)中的“大數(shù)據(jù)”假設(shè)難以完全成立。
其次,機器人是物理系統(tǒng),而不是純軟件模型。與語言模型或視覺模型不同,機器人更像自動駕駛汽車——必須在現(xiàn)實世界中運行、涉及硬件、供應(yīng)鏈、應(yīng)用場景等多種復(fù)雜因素。
李飛飛回顧了自動駕駛的發(fā)展:從2005年斯坦福贏得DARPA挑戰(zhàn)賽至今已近20年,深度學(xué)習(xí)雖然加速了算法進步,但自動駕駛依然未完全解決。而自動駕駛只是簡單得多的機器人,僅需要在二維平面上避免碰撞,相比之下,機器人要在三維空間中操控物體,難度更高。
盡管如此,她依然認為大數(shù)據(jù)、世界模型和空間智能將是機器人突破的關(guān)鍵,只是目前仍處在非常早期的探索階段。
結(jié)語:AI時代里,每個人都有屬于自己的一席之地
在訪談的尾聲,李飛飛主動談起了全球范圍內(nèi)對AI是否會取代人類的普遍焦慮。她認為,任何技術(shù)的發(fā)展都不應(yīng)以犧牲人的尊嚴與能動性為代價,這應(yīng)當(dāng)成為技術(shù)開發(fā)、部署與治理的核心準(zhǔn)則。
無論是年輕藝術(shù)家利用AI進行創(chuàng)作,還是臨近退休的農(nóng)民作為公民參與對AI的監(jiān)管決策,抑或是護士在AI的輔助下從繁重的工作中解脫,AI的真正價值,在于成為增強人類能力、服務(wù)于人類需求的賦能者。
對于AI取代人類的終極命題,李飛飛給出了一個明確而有力的回答:在AI時代里,每個人都有屬于自己的一席之地。
來源:
https://www.youtube.com/watch?v=Ctjiatnd6Xk