智東西(公眾號(hào):zhidxcom)
編譯 | 楊暢
編輯 | 李水青

智東西6月15日消息,據(jù)美國(guó)科技媒體Tech Xplore報(bào)道,麻省理工學(xué)院、MIT-IBM沃森人工智能實(shí)驗(yàn)室(MIT-IBM Watson AI Lab)和加州大學(xué)圣地亞哥分校的研究人員在今年5月的國(guó)際學(xué)習(xí)表征會(huì)議(The International Conference on Learning Representations)上公布了一款新的軟體模擬仿真軟件PlasticineLab,旨在讓機(jī)器人進(jìn)行更直觀地學(xué)習(xí)。

機(jī)器人可以解魔方,可以在火星崎嶇的地形中前行,但是它們很難完成一些簡(jiǎn)單的任務(wù),比如搟面皮或者拿起一雙筷子。即使有海量數(shù)據(jù)、清晰的說(shuō)明和大規(guī)模訓(xùn)練,機(jī)器人在完成孩子們可以輕松完成的任務(wù)時(shí)還是存在困難。

研究人員通過(guò)將物理世界的知識(shí)構(gòu)建到模擬器中,希望能夠更輕松地訓(xùn)練機(jī)器人擺弄現(xiàn)實(shí)世界的經(jīng)常彎曲變形不能復(fù)原的物體和材料。

在PlasticineLab中,機(jī)器人通過(guò)模擬操縱各種柔軟的物體來(lái)感知學(xué)習(xí)如何完成一系列特定的任務(wù)。搟面杖測(cè)試中,目標(biāo)是讓機(jī)器人通過(guò)按壓或滾動(dòng)搟面杖壓平一塊面團(tuán);繩索測(cè)試中,是要機(jī)器人完成將繩子纏繞到柱子上;在筷子測(cè)試中,是要機(jī)器人用筷子夾起一根繩子并移動(dòng)到目標(biāo)位置。

難倒老外的筷子,機(jī)器人會(huì)使了!MIT新研究教機(jī)器人做細(xì)活

研究人員表示他們通過(guò)將現(xiàn)實(shí)世界中的物理知識(shí)嵌入模擬器來(lái)進(jìn)行感知訓(xùn)練,比在強(qiáng)化學(xué)習(xí)(Reinforcement Learning)算法下進(jìn)行感知學(xué)習(xí),可以讓機(jī)器人更快地完成這些和其他任務(wù)。這也使研究人員能夠利用基于梯度下降的優(yōu)化技術(shù)來(lái)找到最佳的解決方案。

“將物理學(xué)基本知識(shí)寫入模擬器中,可以使機(jī)器人學(xué)習(xí)過(guò)程更高效。”該研究的主要負(fù)責(zé)人、前MIT-IBM沃森人工智能實(shí)驗(yàn)室實(shí)習(xí)生、現(xiàn)在是加州大學(xué)圣地亞哥分校博士生的Zhiao Huang說(shuō):“這讓機(jī)器人對(duì)現(xiàn)實(shí)世界有更直觀的感知,了解現(xiàn)實(shí)世界充滿有生命的和可變形的物體?!?/p>

“機(jī)器人可能需要經(jīng)過(guò)數(shù)千次迭代才能通過(guò)強(qiáng)化學(xué)習(xí)中的試錯(cuò)技術(shù)來(lái)掌握一項(xiàng)任務(wù),而這種強(qiáng)化學(xué)習(xí)方法通常用于在模擬中訓(xùn)練機(jī)器人?!痹撗芯康馁Y深作者,IBM研究員Chuang Gan說(shuō):“我們通過(guò)補(bǔ)充一些物理知識(shí)可以更快完成機(jī)器人的訓(xùn)練,允許機(jī)器人使用基于梯度的規(guī)劃算法來(lái)學(xué)習(xí)。”

通過(guò)名為太極(Taichi)的圖形編程語(yǔ)言,研究人員將基本物理方程融入到PlasticineLab中。TaiChi和早期的PlasticineLab模擬器乾坤(ChainQueen)都是由合作者Yuanming Hu開發(fā)的。通過(guò)使用基于梯度的規(guī)劃算法,在PlasticineLab中機(jī)器人能夠不斷地將其目標(biāo)與其在該點(diǎn)上所做的運(yùn)動(dòng)進(jìn)行比較,從而更快地修正路線。

“與用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技術(shù)相同,我們可以通過(guò)反向傳播找到最佳解決方案?!毖芯亢献髡?、麻省理工博士生Tao Du說(shuō):“反向傳播為機(jī)器人提供了更新其所需的反饋,使機(jī)器人更快地實(shí)現(xiàn)其目標(biāo)?!?/p>

這項(xiàng)工作是一項(xiàng)持續(xù)研究的一部分,旨在賦予機(jī)器人更多的常識(shí),以便他們有一天能夠在現(xiàn)實(shí)世界中做飯、打掃、疊衣服和執(zhí)行其他日常的任務(wù)。

結(jié)語(yǔ):當(dāng)機(jī)器人“懂了”物理知識(shí),能做的更多了

仿真模擬軟件是開發(fā)和評(píng)估技能學(xué)習(xí)算法的主要驅(qū)動(dòng)力之一,現(xiàn)有的模擬環(huán)境軟件通常只能模擬剛體操作,PlasticineLab的出現(xiàn)使模擬軟體操作成為可能。

機(jī)器人可以完成的事情越來(lái)越多了,無(wú)論是模仿人類動(dòng)作還是超越人類表現(xiàn)方面,都有很多新進(jìn)展。除了科學(xué)家要懂物理知識(shí)給機(jī)器人制造硬件外殼之外,機(jī)器人進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練的數(shù)據(jù)中也融入物理知識(shí),來(lái)實(shí)現(xiàn)以前不能實(shí)現(xiàn)的動(dòng)作??赡苋祟惪磥?lái)很簡(jiǎn)單的動(dòng)作,要讓機(jī)器人完成并不容易。眾多科學(xué)家的努力讓機(jī)器人能做的更多了。

來(lái)源:Tech Xplore