智東西(公眾號:zhidxcom)
編譯?| ?程茜
編輯 | ?李水青

智東西10月15日消息,F(xiàn)acebook在AR領域投入了大量時間和金錢,包括與雷朋(Ray-Ban)合作,打造自己的AR眼鏡。目前,這些小工具只能記錄和共享圖像,未來Facebook又將會賦予它們什么功能?

Ego 4D是Facebook在AI領域的一個長期項目,旨在增強AI從第一人稱視角理解世界并與人類互動的能力,解決研究AI對以自我為中心的感知時面臨的挑戰(zhàn)。

昨天,F(xiàn)acebook宣布開源Ego 4D(Egocentric?4D Perception)計劃數(shù)據(jù)集,該計劃是對第一人稱或“以自我為中心”的視頻進行分析,由兩個主要部分組成:一個開放的以自我為中心的視頻數(shù)據(jù)集和一系列Facebook將在未來賦予AI系統(tǒng)的基準。

據(jù)稱,該數(shù)據(jù)集的開源大大增加了在研究界公開可用的第一人稱視頻的數(shù)據(jù)量,鏡頭時長比任何其他數(shù)據(jù)集都高出至少20倍。

一、面向AR,讓AI從第一人稱視角理解世界

Facebook開源Ego 4D數(shù)據(jù)集,3000小時第一人視角視頻,向AR元宇宙躍進

此前,AI通常從第三人稱拍攝的照片和視頻中進行學習,但下一代AI將需要從第一視角來展示世界的視頻中學習。

以此來看,能夠理解世界的AI系統(tǒng)將會開啟沉浸式體驗的新時代,因為在未來AR眼鏡和VR頭顯等設備將會和智能手機一樣日常。

Ego 4D計劃試想讓AI系統(tǒng)能夠使用第一人稱視角不斷分析人們的生活,通過記錄人們的所見所聞所做,以幫助他們完成日常任務。

但目前,任何AI系統(tǒng)都無法可靠地完成此類任務,F(xiàn)acebook強調(diào)這是一個研究項目,而不是商業(yè)開發(fā)項目。然而,可以很明顯地看出,F(xiàn)acebook將這些功能視為AR計算的未來?!爱斎?,考慮到增強現(xiàn)實以及我們希望能夠用它做什么,未來我們可能會對這項研究加以利用。”Facebook AI研究科學家克里斯汀·格勞曼(Kristen Grauman)在接受外媒The?Verge采訪時表示。

但Facebook的野心對用戶的隱私數(shù)據(jù)具有巨大影響。隱私專家已經(jīng)對 Facebook的AR眼鏡表示擔心,該設備如何讓佩戴者隱蔽地記錄其他公眾成員,而不會竊取他人的數(shù)據(jù)。如果未來版本的硬件將佩戴者變成行走的監(jiān)視機器,用戶不僅可以記錄鏡頭,而且會分析和轉錄,只會加劇這種擔憂。

二、數(shù)據(jù)集:855人3205小時視頻,跨越歐洲中亞

Facebook開源Ego 4D數(shù)據(jù)集,3000小時第一人視角視頻,向AR元宇宙躍進

Ego 4D計劃包含兩個任務,分別是推進開放的以自我為中心的視頻數(shù)據(jù)集和推進AI系統(tǒng)完成一系列基準或任務。

Facebook與全球9個國家13所大學和實驗室合作收集數(shù)據(jù)。最新數(shù)據(jù)顯示總共有大約3,205小時的鏡頭,由居住在9個不同國家的855名參與者錄制。參與者佩戴GoPro相機和AR眼鏡來錄制無腳本活動的視頻,視頻內(nèi)容包括建筑工作、烘焙、與寵物玩耍和與朋友交往等行為。

13所大學負責數(shù)據(jù)收集,并對部分圖像內(nèi)容進行處理,會對所有鏡頭進行去標識化處理,其中包括模糊旁觀者的面部并刪除所有的個人身份信息。

格勞曼表示,該數(shù)據(jù)集“在規(guī)模和多樣性方面都是同類中的首創(chuàng)”。她說,同類中位于第二的數(shù)據(jù)集僅包含100小時,且完全位于廚房拍攝的第一人稱鏡頭。“我們讓這些AI系統(tǒng)的視野不僅僅面向英國和西西里島的廚房,還有來自沙特阿拉伯、東京、洛杉磯和哥倫比亞的鏡頭。”

三、五大基準挑戰(zhàn):情景記憶、社交互動

Facebook開源Ego 4D數(shù)據(jù)集,3000小時第一人視角視頻,向AR元宇宙躍進

Ego 4D的第二個組成部分是一系列基準或任務,F(xiàn)acebook希望世界各地的研究人員使用在其數(shù)據(jù)集上訓練的AI系統(tǒng),去嘗試解決這些問題。Facebook為開發(fā)更智能、更有用的AI助手制定了以下五個基準挑戰(zhàn),

1、情景記憶(Episodic memory):什么時候發(fā)生的(例如,“我把鑰匙放哪兒了?”)

2、預測(Forecasting):接下來我可能會做什么(例如,“等等,你已經(jīng)在這個食譜中加了鹽”)

3、手和物體操作(Hand and object manipulation):我在做什么(例如,“教我如何打鼓”)

4、視聽日記(Audio-visual diarization):誰在什么時候說什么(例如,“課堂上的主要話題是什么?”)

5、社交互動(Social interaction):誰在與誰互動(例如,“在這嘈雜的餐廳里幫助我更好地聽到對話者的聲音”)

目前,AI系統(tǒng)對上述問題的解決都非常困難,但創(chuàng)建數(shù)據(jù)集和基準測試是一種長效方法,可以刺激AI領域的發(fā)展。

事實上,ImageNet項目已經(jīng)作為創(chuàng)建一個特定的數(shù)據(jù)集和相關的年度競賽而存在,該項目是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫,通常被認為掀起了最近的AI熱潮。ImagetNet數(shù)據(jù)集由研究人員訓練AI系統(tǒng),對大量不同對象圖片進行識別而得到的數(shù)據(jù)組成。2012年,該比賽的獲勝者使用一種特殊的深度學習方法,擊敗了競爭對手,開啟了當前的研究時代。

Facebook希望其Ego 4D項目能夠?qū)R領域產(chǎn)生類似的影響。該公司表示,在Ego 4D上訓練的系統(tǒng)有朝一日不僅可以用于可穿戴相機,還可以用于家庭助理機器人,這些機器人也將依靠第一人稱相機來分析周圍世界。

“該項目有機會以一種尚未真正實現(xiàn)的方式,對該領域的工作起到促進作用?!备駝诼f,“為了將我們的領域從分析人類拍攝的大量照片和視頻的能力,轉移到這種流動的、持續(xù)的第一人稱視覺流,AR系統(tǒng)、機器人需要在連續(xù)的背景下理解活動。”

四、Facebook“黑料”頻出,數(shù)據(jù)隱私引爭議

Facebook不斷探索AI領域,開發(fā)人工智能監(jiān)控系統(tǒng)。盡管Facebook概述的任務確實看起來很實用,但該公司在這一領域的繼續(xù)探索會讓很多人感到擔憂。

原因在于Facebook在隱私方面的記錄非常糟糕,曾經(jīng)發(fā)生過數(shù)據(jù)泄露事件,并收到聯(lián)邦貿(mào)易委員會(FTC)對其?50億美元的罰款。它還反復表明,該公司在許多領域只重視增長和參與,而不是用戶的利益。

令人擔憂的是,這個Ego 4D項目中的基準不包括突出的隱私保護措施。例如,“視聽日記”功能可以轉錄不同人所說的內(nèi)容,從未提及刪除有關不想被記錄的人的數(shù)據(jù)。

當被問及這些問題時,F(xiàn)acebook的一位發(fā)言人在接受外媒The Verge采訪時表示,它預計將進一步引入隱私保護措施。發(fā)言人說:“我們預計,在公司使用此數(shù)據(jù)集和基準開發(fā)商業(yè)應用程序的范圍內(nèi),他們將為此類應用程序開發(fā)保護措施。例如,在AR眼鏡可以增強某人的聲音之前,他們可能會遵循一個協(xié)議來征求其他人的眼鏡許可,或者他們可以限制設備的范圍,使其只能從正在與佩戴者交談或在其附近的人那里接收聲音?!?/p>

但到目前為止,此類保障措施仍只是假設性的。

結語:Facebook大步邁向元宇宙

Facebook以第一人稱視頻數(shù)據(jù)訓練人工智能模型,有望開辟新的具有沉浸式甚至是自我意識的AI,從而應用在AR、機器人等領域。結合其今年以來對元宇宙的推崇,可以想象這個非商業(yè)化的項目日后可能發(fā)揮更大的商業(yè)價值。

值得一提的是,用戶隱私與數(shù)據(jù)分析的界限如何把握,F(xiàn)acebook將AI系統(tǒng)落地時如何讓用戶信賴,能夠讓更多用戶參與其中,這是橫跨在Facebook與發(fā)展AI系統(tǒng)面前的鴻溝。

來源、Facebook、The Verge