「AI新青年講座」將邀請(qǐng)世界頂尖AI研究機(jī)構(gòu)和大學(xué)的科研新青年,主講他們?cè)谟?jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過(guò)與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過(guò)程中遇到的問(wèn)題,也能夠盡快解決。
「AI新青年講座」目前已完結(jié)201講;有興趣分享學(xué)術(shù)成果的朋友,可以與智東西公開課教研團(tuán)隊(duì)進(jìn)行郵件(class@m.loveliyi.com)聯(lián)系。
基于生成對(duì)抗式網(wǎng)絡(luò)(Generative Adversarial Network, GAN),除了能夠生成高分辨率、逼真的圖片之外,還能進(jìn)行圖片個(gè)性化編輯、圖片動(dòng)畫化等。但是,如何利用 GAN 進(jìn)行視頻生成仍然是一個(gè)頗有挑戰(zhàn)的問(wèn)題。當(dāng)前基于GAN的視頻生成方法也有很多,比如MoCoGAN、MoCoGAN- HD、VideoGPT、DIGAN、LongVideoGAN、StyleGAN-V等。
然而如何有效并合理地建模時(shí)序關(guān)系,并能如何生成高質(zhì)量的任意長(zhǎng)度(包括無(wú)限長(zhǎng))的視頻呢?在ICLR 2023上,來(lái)自香港中文大學(xué)、上海人工智能實(shí)驗(yàn)室、螞蟻技術(shù)研究院以及加州大學(xué)洛杉磯分校的研究者提出了一個(gè)新的視頻生成方法StyleSV。
StyleSV采納了StyleGAN-V 的設(shè)計(jì),并將其作為基準(zhǔn)。針對(duì)不同跨度的時(shí)序關(guān)系:短時(shí)間(~5 幀)時(shí)序關(guān)系、中等長(zhǎng)度(~5 秒)時(shí)序關(guān)系和無(wú)限長(zhǎng)視頻生成,StyleSV也分別進(jìn)行了細(xì)致的建模與改進(jìn)。
StyleSV在三個(gè)數(shù)據(jù)集(YouTube Driving, Timelapse, Taichi-HD)上進(jìn)行了充分的實(shí)驗(yàn),并充分對(duì)比了先前的工作。結(jié)果顯示,StyleSV在圖片質(zhì)量(FID)以及視頻質(zhì)量(FVD)上,都大幅度超越先前工作。同時(shí),該工作也為基于 GAN 的視頻生成方向提供了一個(gè)簡(jiǎn)單且有效的新基準(zhǔn)。
4月7日晚6點(diǎn),AI新青年講座第202講邀請(qǐng)到StyleSV一作、香港中文大學(xué)MMLab在讀博士章啟航參與,主講《基于GAN的任意長(zhǎng)度高質(zhì)量視頻生成》。
講者
章啟航,香港中文大學(xué)MMLab在讀博士,合作導(dǎo)師為周博磊教授;研究方向圍繞embodied intelligence,包括場(chǎng)景生成與策略學(xué)習(xí),已在TPAMI、ECCV、CORL、ICLR上發(fā)表多篇論文。
第202講
主 題
《基于GAN的任意長(zhǎng)度高質(zhì)量視頻生成》
提 綱
1、視頻生成的研究及經(jīng)典方法概述
2、長(zhǎng)視頻生成的難點(diǎn)
3、針對(duì)短時(shí)、中等以及長(zhǎng)時(shí)間跨度視頻建模方法
4、GAN視頻生成的挑戰(zhàn)及展望
直 播 信 息
直播時(shí)間:4月7日18:00
直播地點(diǎn):智東西公開課知識(shí)店鋪
成果
《Towards Smooth Video Composition》
https://arxiv.org/pdf/2212.07413
https://github.com/genforce/StyleSV