「AI新青年講座」將邀請世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們在計算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。

「AI新青年講座」目前已完結(jié)210講,有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊進(jìn)行郵件(class@m.loveliyi.com)聯(lián)系。

機(jī)器人的自主探索具有許多重要的應(yīng)用。然而,基于信息增益或邊界的經(jīng)典探索方法僅依靠機(jī)器人的當(dāng)前狀態(tài)確定即時的探索目標(biāo),缺乏預(yù)測未來狀態(tài)價值的能力,從而導(dǎo)致探索決策效率低下。

最近幾年隨著離線強(qiáng)化學(xué)習(xí)算法的興起,相關(guān)算法也被應(yīng)用在機(jī)器人控制,規(guī)劃以及決策等領(lǐng)域。離線強(qiáng)化學(xué)習(xí)由于其安全性,數(shù)據(jù)可復(fù)用性,以及預(yù)訓(xùn)練的便捷性,使得其在機(jī)器人領(lǐng)域擁有巨大前景。隨著基礎(chǔ)模型在視覺和語言領(lǐng)域的成功,離線強(qiáng)化學(xué)習(xí)也成為機(jī)器人控制基礎(chǔ)模型的潛在解決方案。

針對此類問題,來自 CMU 機(jī)器人研究所的在讀博士胡亞飛等人在提出的最新研究工作 OPERE 中,使用離線預(yù)訓(xùn)練與在線自適應(yīng)算法來學(xué)習(xí)狀態(tài)價值函數(shù),讓機(jī)器人可以在稀疏的外在獎勵下獲得更多信息。

最終的結(jié)果也表明,OPERE 在復(fù)雜的場景中可以有效提升移動機(jī)器人自主探索的效果。與其他最先進(jìn)的 OPE 方法相比,OPERE 算法實現(xiàn)了更好的預(yù)測性能。同時,這也是首次在具有挑戰(zhàn)性的地下和城市環(huán)境中的機(jī)器人探索的真實數(shù)據(jù)集上展示價值函數(shù)預(yù)測的工作。

6月2日早10點(diǎn),在「AI新青年講座」第211中,CMU 機(jī)器人研究所在讀博士胡亞飛將主講《基于離線強(qiáng)化學(xué)習(xí)和在線自適應(yīng)學(xué)習(xí)的機(jī)器人自主探索》。

講者
胡亞飛,CMU Robotics Institute在讀博士;主要研究方向為機(jī)器人感知與決策,涉及深度強(qiáng)化學(xué)習(xí),運(yùn)動規(guī)劃,機(jī)器人自主探索,視覺SLAM等問題。在計算機(jī)視覺和機(jī)器人領(lǐng)域頂會頂刊發(fā)表數(shù)篇論文,并擔(dān)任審稿人。

第211講

主 題
《基于離線強(qiáng)化學(xué)習(xí)和在線自適應(yīng)學(xué)習(xí)的機(jī)器人自主探索》

提 綱
1、離線強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域應(yīng)用
2、預(yù)訓(xùn)練模型對機(jī)器人技術(shù)的影響
3、探索機(jī)器人控制的基礎(chǔ)模型
4、使用離線預(yù)訓(xùn)練與在線自適應(yīng)學(xué)習(xí)的機(jī)器人探索方法OPERE
5、OPERE在復(fù)雜場景中的真機(jī)測試

直 播 信 息
直播時間:6月2日10:00
直播地點(diǎn):智東西公開課知識店鋪

成果
論文標(biāo)題:《Off-Policy Evaluation with Online Adaptation for Robot Exploration in Challenging Environments》
論文地址:https://arxiv.org/abs/2204.03140
開源地址:https://github.com/JeffreyYH/opere