機(jī)器人前瞻(公眾號(hào):robot_pro)
編譯 |? 江宇
編輯 | ?漠影
機(jī)器人前瞻4月21日消息,谷歌DeepMind迎來(lái)突破性進(jìn)展,其世界構(gòu)建AI模型Genie 2展現(xiàn)了在機(jī)器人訓(xùn)練領(lǐng)域的巨大潛力。
DeepMind CEO兼聯(lián)合創(chuàng)始人Demis Hassabis向《60分鐘》節(jié)目展示了這一創(chuàng)新技術(shù),強(qiáng)調(diào)其在創(chuàng)建可交互3D環(huán)境及加速機(jī)器人學(xué)習(xí)方面的應(yīng)用前景。
Genie 2能夠從單一靜態(tài)圖像生成可探索的3D虛擬世界,為AI代理和機(jī)器人提供逼真的模擬環(huán)境。
在演示中,DeepMind研究科學(xué)家Jack Parker-Holder展示了一張加州瀑布頂部照片,Genie 2將其轉(zhuǎn)化為類(lèi)似第一人稱(chēng)視角的視頻游戲場(chǎng)景。用戶(hù)或AI代理可以在虛擬環(huán)境中自由移動(dòng),例如在瀑布頂部的水池周?chē)凶?,甚至探索原始圖像中不存在的景觀。

▲實(shí)機(jī)演示:Genie 2將加州瀑布頂部的照片轉(zhuǎn)化為類(lèi)似視頻游戲場(chǎng)景
Hassabis表示,Genie 2的“世界模型”能夠動(dòng)態(tài)生成環(huán)境,模擬現(xiàn)實(shí)世界的物理特性。這種能力使其不僅適用于娛樂(lè)領(lǐng)域(如生成游戲和視頻),更重要的是為AI和機(jī)器人提供高效的訓(xùn)練平臺(tái)。
Hassabis強(qiáng)調(diào),Genie 2的核心目標(biāo)是構(gòu)建理解現(xiàn)實(shí)世界的模型,為機(jī)器人訓(xùn)練提供低成本、高效率的解決方案。傳統(tǒng)的機(jī)器人數(shù)據(jù)采集受限于現(xiàn)實(shí)世界的復(fù)雜性和高成本,數(shù)據(jù)量有限且收集速度慢。
而Genie 2的模擬環(huán)境可以生成近乎無(wú)限的數(shù)據(jù)量,允許機(jī)器人在虛擬世界中進(jìn)行初步學(xué)習(xí),隨后通過(guò)少量現(xiàn)實(shí)世界數(shù)據(jù)進(jìn)行微調(diào)。
在一個(gè)演示中,AI控制的騎士角色在一個(gè)由Genie 2生成的3D環(huán)境中自主完成任務(wù),例如從三個(gè)門(mén)廊中選擇正確路徑并爬上樓梯。Hassabis指出,這種技術(shù)可以讓機(jī)器人在模擬環(huán)境中學(xué)習(xí)復(fù)雜任務(wù),如導(dǎo)航、物體交互和決策制定,從而大幅減少對(duì)現(xiàn)實(shí)世界數(shù)據(jù)的依賴(lài)。

▲實(shí)機(jī)演示:AI騎士角色在由Genie 2生成的3D環(huán)境中自主完成任務(wù)
Hassabis透露,DeepMind正在探索利用谷歌地圖、谷歌地球和街景視圖等地理數(shù)據(jù),進(jìn)一步增強(qiáng)AI的世界理解能力。這些數(shù)據(jù)可以為AI提供豐富的現(xiàn)實(shí)世界背景,幫助機(jī)器人更好地適應(yīng)真實(shí)環(huán)境。
同時(shí),Genie 2還能將靜態(tài)圖像(如街景或個(gè)人度假照片)轉(zhuǎn)化為交互式3D場(chǎng)景,為機(jī)器人訓(xùn)練和用戶(hù)體驗(yàn)開(kāi)辟新可能性。
Hassabis還表示,未來(lái)版本的Genie模型將能夠創(chuàng)建更多樣化、復(fù)雜的虛擬世界,為機(jī)器人學(xué)習(xí)新技能、執(zhí)行任務(wù)以及與人類(lèi)和物體交互提供支持。這一技術(shù)不僅有望革新機(jī)器人開(kāi)發(fā),還可能在工業(yè)、醫(yī)療和探索等領(lǐng)域推動(dòng)智能化應(yīng)用的廣泛普及。
來(lái)源:CBS NEWS