2024年已行進(jìn)尾聲,但對于生成式AI而言,這又是波瀾壯闊的一年。Sora掀起視頻生成熱潮,多模態(tài)世界模型的研究熱度漸起。更具革命性的推理模型o1悄然出世,帶來的思維鏈CoT+強化學(xué)習(xí)這一新范式,正推動生成式AI邁入新的階段。

大語言模型仍在狂飆,但價格戰(zhàn)、營銷戰(zhàn)硝煙燃起,融資熱度正在降溫。不過行業(yè)賦能持續(xù)進(jìn)行,應(yīng)用層的興起更加受到期待。同時,大模型向邊端下沉的趨勢日趨明顯,AI手機、AI PC等AI硬件紛紛站上風(fēng)口。GPT-4o的出現(xiàn),將輕量化模型和端側(cè)大模型推向新高度之余,端側(cè)設(shè)備的交互革新也有了前進(jìn)方向。不止AI硬件,大模型驅(qū)動下的具身智能更是熱度空前,人形機器人正開啟星辰大海。

作為支撐大模型運行以及生成式AI應(yīng)用開發(fā)的關(guān)鍵,AI Infra走到了臺前,從智算集群到基礎(chǔ)軟件,發(fā)展勢頭強勁,但挑戰(zhàn)不少。

在上述背景下,2024中國生成式AI大會(上海站)「GenAICon 2024」將于12月5-6日上海中星鉑爾曼大酒店盛大舉辦。中國生成式AI大會已成功舉辦兩屆,迅速成長為國內(nèi)生成式AI領(lǐng)域最具影響力的產(chǎn)業(yè)峰會之一。

此次也是中國生成式AI大會首次登陸上海舉辦。大會由智一科技旗下智能產(chǎn)業(yè)第一媒體智東西、AI與硬科技知識分享社區(qū)智猩猩共同發(fā)起主辦。上海市人工智能行業(yè)協(xié)會為大會的指導(dǎo)單位。

大會上海站以“智能躍進(jìn) 創(chuàng)造無限”為主題,50+位嘉賓將帶來致辭、演講、報告和對話討論,基于前瞻性視角解構(gòu)和把脈生成式AI的技術(shù)產(chǎn)品創(chuàng)新、商業(yè)落地解法、未來趨勢走向與前沿研究焦點。

上海站由“主會場峰會+分會場研討會+展覽區(qū)”組成。主會場將進(jìn)行大模型峰會、AI Infra峰會,分會場將進(jìn)行端側(cè)生成式AI技術(shù)研討會、AI視頻生成技術(shù)研討會和具身智能技術(shù)研討會。展覽區(qū)則緊鄰會場門口設(shè)置,14家企業(yè)將進(jìn)行技術(shù)產(chǎn)品展示。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

其中,端側(cè)生成式AI技術(shù)研討會將于12月5日下午進(jìn)行,AI視頻生成技術(shù)研討會于12月6日上午進(jìn)行,具身智能技術(shù)研討會于12月6日下午進(jìn)行。

目前,分會場三場研討會邀請到17位來自學(xué)術(shù)界和工業(yè)界的青年學(xué)者和技術(shù)專家與會,并帶來主題報告和圓桌Panel。今天將為大家正式揭曉分會場研討會的完整議程。

一、分會場研討會完整議程

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

二、端側(cè)生成式AI技術(shù)研討會報告介紹

本次研討會將于12月5日下午進(jìn)行,目前邀請到上海人工智能實驗室博士后研究員羅根,西湖大學(xué)工學(xué)院助理教授王歡,聯(lián)想集團(tuán)首席研究員、聯(lián)想研究院人工智能實驗室研發(fā)總監(jiān)師忠超,vivo AI全球研究院AI技術(shù)總監(jiān)李方圓,愛芯元智智慧IoT事業(yè)部產(chǎn)品總監(jiān)吳煒5位青年學(xué)者和技術(shù)專家?guī)韴蟾妗?/p>

主題報告環(huán)節(jié)結(jié)束后,商湯科技研究院模型計算部系統(tǒng)研究員雷丹將受邀參與并主持圓桌Panel。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:上海人工智能實驗室博士后研究員 羅根
報告主題:《多模態(tài)大模型的高效感知、建模與計算》
內(nèi)容概要:近年來,多模態(tài)大模型的不斷進(jìn)步也對端側(cè)設(shè)備的部署和使用提出了更大的要求。針對該問題,羅根博士將從感知、建模與計算三個方面進(jìn)行深入探討:在感知層面,主要介紹通過混合分辨率視覺融合實現(xiàn)高效的視覺感知;在建模層面,主要介紹通過內(nèi)生視覺專家實現(xiàn)緊湊的一體化多模態(tài)建模;在計算層面,主要介紹通過混合深度計算實現(xiàn)稀疏的模型動態(tài)推理。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:西湖大學(xué)工學(xué)院助理教授 王歡
報告主題:《神經(jīng)網(wǎng)絡(luò)剪枝、蒸餾在Efficient AI中的發(fā)展與應(yīng)用》
內(nèi)容概要:AI模型深刻改變了我們的生活,但這些模型無論是訓(xùn)練還是測試階段都需要消耗大量資源,導(dǎo)致速度慢、能耗高、存儲及運存冗余等問題,解決這些問題亟需提高AI模型的效能(Efficiency),因此需要Efficient AI。Efficient AI涉及軟硬件、算法等多個維度的協(xié)同設(shè)計和優(yōu)化,硬件不足時往往可以通過在算法上的改進(jìn)來補齊短板。在算法層面,要想實現(xiàn)提高效能,需要解決兩個問題:(1)效能如何提高,(2)性能如何保證。前者一般是通過縮小模型大小來實現(xiàn),最具代表性的方法就是神經(jīng)網(wǎng)絡(luò)剪枝(Pruning);后者一般是通過重訓(xùn)練(Retraining)、微調(diào)(Fine-tuning)得到,最具代表性的方法就是知識蒸餾(Knowledge Distillation)。

在這次交流中,我將介紹剪枝和蒸餾的主要歷史背景和當(dāng)前研究現(xiàn)狀,結(jié)合我的研究經(jīng)歷,重點介紹如何利用剪枝和蒸餾實現(xiàn)對神經(jīng)輻射場(NeRF)、文生圖(T2I)等任務(wù)進(jìn)行效能提升。其中文生圖加速的工作SnapFusion(NeurIPS’23)是世界上首個端上文生圖時間小于2s、且性能可以對標(biāo)SD-v1.5的模型。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:聯(lián)想集團(tuán)首席研究員、聯(lián)想研究院人工智能實驗室研發(fā)總監(jiān) 師忠超
報告主題:《聯(lián)想AIPC端側(cè)智能體》
內(nèi)容概要:本次演講將重點介紹聯(lián)想AIPC端側(cè)智能體的獨特架構(gòu),旨在通過開發(fā)端側(cè)智能體,顯著提升端側(cè)大模型在處理復(fù)雜任務(wù)和場景應(yīng)用時的性能。我們將深入探討聯(lián)想端側(cè)個人智能體如何結(jié)合大模型的關(guān)鍵能力定向增強與端側(cè)異構(gòu)加速技術(shù),在設(shè)備資源有限的條件下達(dá)到卓越的性能。此外,本次演講也將展示聯(lián)想如何運用混合意圖理解與復(fù)雜任務(wù)自動分解策略等創(chuàng)新方法,優(yōu)化個人知識庫及工具庫的應(yīng)用,進(jìn)而為用戶提供更智能、更個性化的服務(wù)體驗。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:vivo AI全球研究院AI技術(shù)總監(jiān) 李方圓
報告主題:《智能手機的未來:端側(cè)大模型重塑用戶體驗》
內(nèi)容概要:手機是從早到晚伴隨我們工作、學(xué)習(xí)、生活、娛樂最長時間的智能設(shè)備。在AIGC時代,現(xiàn)有的手機AI功能已無法滿足用戶對更高層次體驗的追求,主要表現(xiàn)在單點功能與系統(tǒng)融合不夠緊密、機械的被動執(zhí)行缺乏主動性,通用的功能難以與用戶個性化需求相結(jié)合等不足。手機終端大模型憑借其強大的語義理解、語言生成和邏輯推理能力,一方面能夠大幅提升傳統(tǒng)AI功能的準(zhǔn)確性和效果,另一方面能夠理解執(zhí)行用戶更加復(fù)雜的指令,結(jié)合用戶使用手機的情景,提供更加主動、個性化的智能服務(wù)。

本次演講,將分享vivo如何從傳統(tǒng)的AI時代邁向大模型AI時代的技術(shù)演進(jìn)之路。圍繞記憶、端側(cè)化、主動執(zhí)行3個方面探索更懂用戶、更懂手機、更加主動的個人智能的應(yīng)用場景,并與大家揭秘背后的核心技術(shù)藍(lán)心端側(cè)大模型的構(gòu)建思路與方案。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:愛芯元智智慧IoT事業(yè)部產(chǎn)品總監(jiān) 吳煒
報告主題:《多模態(tài)大模型在端側(cè)的創(chuàng)新實踐與挑戰(zhàn)》
內(nèi)容概要:隨著大模型的發(fā)展,AI已從簡單的圖像分類識別功能,升級為對視頻、音頻、文字等多模態(tài)信息的整合分析,實現(xiàn)對內(nèi)容更深刻的理解。多模態(tài)大模型已成為推動各行各業(yè)發(fā)展的重要力量。然而,要將大模型應(yīng)用于端側(cè)設(shè)備,面臨著算力、帶寬、功耗和成本之間的多重平衡挑戰(zhàn)。愛芯元智致力于打造世界領(lǐng)先的AI芯片,積極布局多模態(tài)大模型,助力大模型在端側(cè)的普及和高效部署。

本次演講,將通過展示實際應(yīng)用案例,探討多模態(tài)大模型如何在更廣泛的應(yīng)用場景中發(fā)揮更大的價值。同時,還將與行業(yè)伙伴共同探索大模型在端側(cè)應(yīng)用的無限可能,推動“普惠AI,造就美好生活”的使命。

三、AI視頻生成技術(shù)研討會報告介紹

本次研討會將于12月6日上午進(jìn)行,目前邀請到中存算董事長陳巍,上海交通大學(xué)人工智能研究院助理教授晏軼超,新壹科技AI算法主任架構(gòu)師李璋,井英科技聯(lián)合創(chuàng)始人、CTO王健,曠視研究院高級研究員李華東5位青年學(xué)者和技術(shù)專家?guī)韴蟾妗?/p>

主題報告環(huán)節(jié)結(jié)束后的圓桌Panel,將由中存算董事長陳巍,上海交通大學(xué)人工智能研究院助理教授晏軼超,井英科技聯(lián)合創(chuàng)始人、CTO王健,以及曠視研究院高級研究員李華東一起帶來。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:中存算董事長 陳巍
報告主題:《視頻大模型架構(gòu)對比及長序列模型加速》
內(nèi)容概要:隨著大模型技術(shù)的快速發(fā)展,視頻大模型(VLM)正與短視頻產(chǎn)業(yè)結(jié)合并迎來新的爆發(fā)機遇,逐漸成為互聯(lián)網(wǎng)應(yīng)用的熱點。

本次分享從視頻大模型與世界模型的角度,對比主流視頻生成大模型架構(gòu),探討視頻生成的關(guān)鍵技術(shù)(包括NaViT、RADM等),分析視頻生成類大模型的主要挑戰(zhàn)與發(fā)展趨勢;探討內(nèi)存墻(Memory Wall)和通信墻對視頻大模型GPGPU/TPU集群訓(xùn)練和部署的挑戰(zhàn),并針對這類視頻長序列模型的算力芯片級訓(xùn)練部署,結(jié)合具體項目給出軟硬結(jié)合的解決方案與系統(tǒng)經(jīng)驗。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:上海交通大學(xué)人工智能研究院助理教授 晏軼超
報告主題:《先驗引導(dǎo)的三維數(shù)字人視頻生成》
內(nèi)容概要:“人”一直是視頻生成的核心對象,面對大規(guī)模視頻的生成需求,利用生成式人工智能技術(shù)產(chǎn)生高擬真,規(guī)?;奶摂M數(shù)字人正逐漸成為研究熱點。三維高斯、大模型等技術(shù)在過去一年快速發(fā)展,并與數(shù)字人技術(shù)進(jìn)行了廣泛結(jié)合,本次報告將從數(shù)字人重建、生成、編輯等方向介紹數(shù)字人視頻生成領(lǐng)域的最近進(jìn)展,對三維數(shù)字人技術(shù)的發(fā)展趨勢進(jìn)行探討。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:新壹科技AI算法主任架構(gòu)師 李璋
報告主題:《視頻垂直大模型在智能數(shù)字人生成中的應(yīng)用》
內(nèi)容概要:在生成式AI技術(shù)蓬勃發(fā)展的背景下,智能數(shù)字人已成為內(nèi)容創(chuàng)作、虛擬助手和人機交互等領(lǐng)域的重要應(yīng)用之一。然而,傳統(tǒng)生成模型在高精度、多模態(tài)的智能數(shù)字人生成中仍面臨諸多挑戰(zhàn)。為此,垂直領(lǐng)域的大模型提供了一條全新路徑。

本次演講,首先會介紹從通用大模型到垂直大模型的演進(jìn),之后將著重講解新壹視頻大模型的整體架構(gòu)設(shè)計及其在數(shù)字人視頻生成與優(yōu)化中的核心技術(shù)突破;此外,還將對智能數(shù)字人生成的技術(shù)難點,包括數(shù)字人生成中實現(xiàn)自然語言驅(qū)動動作與表情生成的關(guān)鍵技術(shù)等進(jìn)行深入分析,并分享視頻垂直大模型驅(qū)動的智能數(shù)字人在相關(guān)領(lǐng)域的典型應(yīng)用案例。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:井英科技聯(lián)合創(chuàng)始人、CTO 王健
報告主題:《AI短劇拐點背后的技術(shù)突破》
內(nèi)容概要:自今年2月OpenAI發(fā)布Sora起,視頻生成大模型成為了熱點方向。但其具體落地的業(yè)務(wù)場景卻一直不明確。近期,井英科技通過視頻生成模型實現(xiàn)了100分鐘以上短視頻的制作,并成功實現(xiàn)了用戶付費觀看的商業(yè)模式。

本次分享將介紹AI短劇從最初的不可行到現(xiàn)如今可行的關(guān)鍵技術(shù)突破,并探討了除視頻生成大模型之外的其他關(guān)鍵技術(shù)進(jìn)展。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:曠視研究院高級研究員李華東
報告主題:《可控人物視頻生成》
內(nèi)容概要:短視頻、影視和游戲動畫創(chuàng)作正在迅速發(fā)展。然而,傳統(tǒng)的視頻制作過程耗時耗力,通常需要大量的人工后期編輯。視頻生成大模型算法提供了一種低成本、高效的高質(zhì)量視頻內(nèi)容生成解決方案。但視頻生成算法生成的內(nèi)容可控性不足,限制了其實際應(yīng)用的有效性。因此,如何實現(xiàn)視頻生成內(nèi)容的可控性仍是一大關(guān)鍵挑戰(zhàn)。

在本次報告中,我將介紹 MegActor 系列工作,這是一種支持混合模態(tài)控制的人像視頻生成算法。該算法支持角色自定義(包括真實人物、二次元人物和游戲人物等),并能夠通過視頻、音頻和文本輸入實現(xiàn)單獨和混合控制。其功能涵蓋了控制角色說話、唱歌和生成表情動畫等。MegActor 系列是社區(qū)內(nèi)的首個開源可控人物視頻生成大模型,將持續(xù)優(yōu)化以推動技術(shù)的不斷發(fā)展。

四、具身智能技術(shù)研討會報告介紹

本次研討會將于12月6日下午進(jìn)行,目前邀請到上海人工智能實驗室青年科學(xué)家王泰,上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院助理教授、博士生導(dǎo)師顧家遠(yuǎn),上海交通大學(xué)在讀博士、穹徹智能實習(xí)研究員呂峻,國地共建具身智能機器人創(chuàng)新中心數(shù)據(jù)智能負(fù)責(zé)人李廣宇,哈爾濱工業(yè)大學(xué)計算學(xué)部在讀博士王雪松,中國科學(xué)院空天信息創(chuàng)新研究院特別研究助理姚方龍6位青年學(xué)者和技術(shù)專家?guī)韴蟾妗?/p>

主題報告環(huán)節(jié)結(jié)束后的圓桌Panel,也將由上述6位嘉賓一起帶來。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:上海人工智能實驗室青年科學(xué)家 王泰
報告主題:《大規(guī)模具身多模態(tài)三維感知》
內(nèi)容概要:近年來,大模型的成功以及模仿學(xué)習(xí)、強化學(xué)習(xí)等方法的突破持續(xù)推動著具身智能的快速發(fā)展。但這一領(lǐng)域仍然面臨著數(shù)據(jù)匱乏的核心問題,大規(guī)模訓(xùn)練和評測仍存在客觀瓶頸。生成式 AI 的進(jìn)展為解決這一問題提供了重要路徑。

本報告將聚焦于三維場景中具身多模態(tài)感知相關(guān)的具體任務(wù),詳細(xì)介紹團(tuán)隊利用多模態(tài)大模型的生成能力設(shè)計三維多模態(tài)數(shù)據(jù)的自動化標(biāo)注管線,從而形成大規(guī)模三維物體、場景在不同粒度全方位的語料標(biāo)注,構(gòu)建帶有顯式三維建模和空間感知能力的具身感知基礎(chǔ)模型,并最終利用大模型實現(xiàn)更符合人類判斷的自動化評測。最后,報告將展望生成式 AI 在機器人交互數(shù)據(jù)方面的巨大潛力,同時探討其潛在的局限性。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院助理教授、博士生導(dǎo)師 顧家遠(yuǎn)
報告主題:《服務(wù)于具身智能的仿真評估平臺和數(shù)字資產(chǎn)》
內(nèi)容概要:在具身智能領(lǐng)域,通用機器人決策模型的開發(fā)取得了顯著進(jìn)展。然而,收集真實世界的訓(xùn)練數(shù)據(jù)和對這些模型進(jìn)行真實環(huán)境下的評估仍然成本高昂。仿真技術(shù)提供了一種可行的替代方案,但其有效性高度依賴于多樣且逼真的數(shù)字資產(chǎn)。傳統(tǒng)上,這些資產(chǎn)主要由游戲產(chǎn)業(yè)創(chuàng)建,但隨著具身智能的發(fā)展,對高質(zhì)量數(shù)字資產(chǎn)的需求激增,以提高仿真環(huán)境的多樣性和逼真度。這引發(fā)了一系列關(guān)鍵問題:這些資產(chǎn)的真實程度應(yīng)達(dá)到何種水平?我們?nèi)绾斡行У貏?chuàng)建這些仿真環(huán)境?在此過程中,哪些工具是必不可少的?

在本次報告中,我將介紹最近的工作SimplerEnv,一個專為評估基于真實世界數(shù)據(jù)訓(xùn)練的決策模型而開發(fā)的仿真環(huán)境平臺。該平臺支持對多種通用機器人操作模型的評估,如RT-1和Octo。此外,我還將討論另一個研究成果Point-SAM,一個3D原生工具,能夠?qū)θS部件和物體進(jìn)行交互式分割。理解物體的功能性部件對具身智能的研究至關(guān)重要,這一工具為此提供了重要支持。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:上海交通大學(xué)在讀博士、穹徹智能實習(xí)研究員 呂峻
報告主題:《Real2Sim2Real:一種基于多信息源的具身操作技能開發(fā)系統(tǒng)》
內(nèi)容概要:數(shù)據(jù)是具身智能在今天面臨的核心問題之一。如何利用來自不同信息源的數(shù)據(jù),例如仿真數(shù)據(jù)、人類演示數(shù)據(jù)、靜態(tài)視覺數(shù)據(jù)等,構(gòu)建數(shù)據(jù)金字塔,共同實現(xiàn)具身操作技巧開發(fā),降低對真實機器人數(shù)據(jù)的依賴與數(shù)據(jù)成本成為值得關(guān)注的課題。過去幾年,我們構(gòu)建了包含Real2Sim、Learn@Sim、Sim2Real模塊的具身智能系統(tǒng),旨在通過各類感知技術(shù)對現(xiàn)實物理世界進(jìn)行建模,基于建模在人類演示數(shù)據(jù)、自然語言提示詞等的指導(dǎo)下于仿真環(huán)境中學(xué)習(xí)開發(fā)特定的機器人操作技巧,并將仿真中學(xué)習(xí)到技能遷移到真實環(huán)境中。相關(guān)成果發(fā)表在IJRR、RSS、CoRL、ICRA等期刊與會議上,曾獲選RSS 2023 Best System Finalist。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:國地共建具身智能機器人創(chuàng)新中心數(shù)據(jù)智能負(fù)責(zé)人 李廣宇
報告主題:《數(shù)據(jù)視角下的具身操作》
內(nèi)容概要:數(shù)據(jù)稀缺是目前困擾具身操作研究的共識。從各種機器人整機、機械臂、靈巧手等本體廠家紛紛推出的遙操作采集系統(tǒng),到以UMI為代表的低成本采集設(shè)備,再到各類人類操作動作捕捉方案,以及各種仿真數(shù)據(jù)合成方法。如何高效的獲取具身操作數(shù)據(jù),已經(jīng)成為學(xué)術(shù)界和產(chǎn)業(yè)界的研究重點。

另一方面,針對不同途徑獲取的數(shù)據(jù),具身數(shù)據(jù)金字塔的概念已經(jīng)廣為傳播:下層是數(shù)據(jù)量大、獲取成本低,但單位價值較低的互聯(lián)網(wǎng)數(shù)據(jù)和仿真合成數(shù)據(jù);頂層是采集成本昂貴,單位價值高的真機遙操作數(shù)據(jù);而中間層是介于真機遙操作和仿真合成之間的,人類動作捕捉數(shù)據(jù)和仿真遙操作數(shù)據(jù)。同時當(dāng)前的機器人數(shù)據(jù)中,本體構(gòu)型豐富多樣,傳感器配置各異。如何有效融合多種來源,多種本體的具身數(shù)據(jù),也是研究者和工程師的關(guān)注點。

本次報告中,我將梳理具身數(shù)據(jù)方向的各種技術(shù)路線,并介紹具身智能國創(chuàng)中心在數(shù)據(jù)方面的進(jìn)展,包括數(shù)據(jù)采集和訓(xùn)練基地建設(shè)情況、數(shù)據(jù)集開源開放情況,以及一些圍繞數(shù)據(jù)融合方向的探索和嘗試。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:哈爾濱工業(yè)大學(xué)計算學(xué)部在讀博士 王雪松
報告主題:《具身智能大模型研究的關(guān)鍵問題與展望》
內(nèi)容概要:隨著深度學(xué)習(xí)、大模型技術(shù)的突破性進(jìn)展,人工智能的發(fā)展從感知智能和認(rèn)知智能,逐步向能夠與真實物理環(huán)境進(jìn)行交互的具身智能階段發(fā)展,并在大模型在多種任務(wù)上的強大泛化能力和人形機器人對于人類社會場景的適應(yīng)能力的基礎(chǔ)上,有望通過具身智能的發(fā)展,最終實現(xiàn)通用人工智能。不過,具身智能為我們帶來希望的同時,也更多的帶來了挑戰(zhàn),機器人如何感知世界、理解世界?如何擁有對自己行為的認(rèn)知?如何高效合理的運動?等等。

本次報告將從大模型技術(shù)和人形機器人技術(shù)是如何推動具身智能發(fā)展的角度進(jìn)行切入,闡述當(dāng)前大模型技術(shù)在解決具身智能問題時的諸多不足,進(jìn)而詳解具身智能大模型在感知、規(guī)劃、導(dǎo)航、乃至機器人操控方面有哪些亟待研究的關(guān)鍵問題,同時也將對未來具身智能如何更好發(fā)展做出展望。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能

報告嘉賓:中國科學(xué)院空天信息創(chuàng)新研究院特別研究助理 姚方龍
報告主題:《萬物具身:耦合空間智能與具身智能的復(fù)空間具身體系》
內(nèi)容概要:空間智能旨在開發(fā)理解三維物理世界的模型,模擬物體物理特性、空間位置和功能,具身智能通過賦予智能“身體”,與環(huán)境交互反饋中實現(xiàn)智能增長和環(huán)境自適應(yīng),二者既有區(qū)別又相互補充。本報告旨在嘗試聯(lián)結(jié)空間智能與具身智能,構(gòu)思出“萬物具身(Embodiment-of-Objects)”概念,設(shè)計了復(fù)空間具身體系(Multiverse Embodied System)計算范式,探索了“超圖+空天世界模擬器+空天世界模型”的研究路線,初步形成思維超圖引導(dǎo)的智能體世界模型、異質(zhì)超圖引導(dǎo)的智能體關(guān)聯(lián)導(dǎo)航、時空超圖引導(dǎo)的智能體預(yù)測規(guī)劃等關(guān)鍵技術(shù),推動從單體智能向空天地海任務(wù)、環(huán)境、場景耦合的體系智能演進(jìn)。

五、報名進(jìn)入最后階段,立即搶票參加研討會

分會場三場研討會主要面向大會購票用戶及定向邀請的用戶開放。

希望到現(xiàn)場參加研討會的朋友,可以掃描下方二維碼,添加小助手“泡泡”進(jìn)行咨詢。已添加過“泡泡”的老朋友,給“泡泡”私信,發(fā)送“GenAI24”即可。

GenAICon 2024上海站分會場議程公布!3場研討會17位學(xué)者專家拆解端側(cè)AI、視頻生成與具身智能