智東西(公眾號:zhidxcom)
編譯 | 王涵
編輯 | 漠影

智東西6月16日消息,上周五,IEEE計算機學(xué)會(CS)與計算機視覺基金會(CVF)聯(lián)合公布了2025年計算機視覺與模式識別會議(CVPR)獲獎?wù)撐募氨灸甓華I藝術(shù)獎項。本次公布的7篇獲獎?wù)撐?strong>全部都華人科研人員參與其中,其中2篇文章由全華人團隊完成。尤為亮眼的是,斬獲 “CVPR 2025 最佳論文” 的成果同樣出自華人研究員之手。

CVPR是IEEE國際計算機視覺與模式識別會議 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 。它是計算機視覺和模式識別領(lǐng)域最重要的年度國際會議之一,被公認(rèn)為該領(lǐng)域的頂級盛會,許多人甚至稱其為計算機視覺界的“奧斯卡”。

該會議的論文錄用標(biāo)準(zhǔn)非常嚴(yán)格,今年共有13008份有效投稿并進(jìn)入評審流程,其中2878篇被錄用,最終錄用率為22.1%。而其中能夠進(jìn)行口頭報告的論文更是少之又少,這意味著能被CVPR錄用的論文,通常代表了該領(lǐng)域最前沿、最具創(chuàng)新性的研究方向和最高水平。

一、CVPR 2025最佳論文:華人一作,多項3D任務(wù)達(dá)最先進(jìn)水平

摘得CVPR 2025最佳論文的論文題目為《VGGT: Visual Geometry Grounded Transformer》(VGGT:視覺幾何基礎(chǔ)Transformer)。作者包括Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,來自牛津大學(xué)與Meta AI的工程師團隊,其中第一作者Jianyuan Wang、第二作者M(jìn)inghao Chen均為華人。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該文章提出VGGT(視覺幾何基礎(chǔ)Transformer),能夠直接從單視角、多視角乃至上百個視角中推斷場景的所有關(guān)鍵3D屬性,包括相機參數(shù)、點云圖、深度圖和3D點軌跡。該方法推動了3D計算機視覺領(lǐng)域的發(fā)展,傳統(tǒng)模型通常局限于單一任務(wù)且需要專門優(yōu)化。

VGGT不僅結(jié)構(gòu)簡潔高效(圖像重建耗時不足1秒),其性能更超越了需要視覺幾何優(yōu)化技術(shù)進(jìn)行后處理的替代方案。該網(wǎng)絡(luò)在多項3D任務(wù)中達(dá)到最先進(jìn)水平,包括相機參數(shù)估計、多視角深度估計、稠密點云重建和3D點追蹤。實驗表明,將預(yù)訓(xùn)練的VGGT作為特征骨干網(wǎng)絡(luò),可顯著提升非剛性點追蹤和前饋式新視角合成等下游任務(wù)的性能。

二、CVPR 2025最佳學(xué)生論文:根據(jù)物理規(guī)律逆向渲染,可屏蔽反射光干擾

獲得CVPR 2025最佳學(xué)生論文的是《Neural Inverse Rendering from Propagating Light》(傳播光線的神經(jīng)逆向渲染),作者包括Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O’Toole、David B. Lindell,來自多倫多大學(xué)、Vector研究所與卡內(nèi)基梅隆大學(xué),其中第三作者Andrew Xie為華人。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團隊首次實現(xiàn)基于物理的神經(jīng)逆向渲染系統(tǒng),能夠處理多視角傳播光線視頻。該方法通過擴展神經(jīng)輻射緩存技術(shù)(一種通過存儲任意點從各方向接收的無限次彈射輻射來加速逆向渲染的技術(shù)),引入時間分辨率維度。所構(gòu)建的模型能精確模擬直接與間接光傳輸效應(yīng),當(dāng)應(yīng)用于閃光激光雷達(dá)系統(tǒng)的捕獲數(shù)據(jù)時,可在強間接光照環(huán)境下實現(xiàn)最先進(jìn)的3D重建。此外,該團隊還展示了傳播光線的視角合成、捕獲數(shù)據(jù)的直接/間接光自動分解,以及多視角時間分辨重照明等創(chuàng)新功能。

三、榮譽提名獎項:華為和北大浙大的全華團隊奪得最佳學(xué)生論文提名

榮譽提名獎項授予那些在質(zhì)量上僅次于最佳論文,但同樣非常優(yōu)秀且具有顯著影響力的論文。它表明這些論文雖然不是最終的“第一名”,但其研究成果和貢獻(xiàn)也得到了高度認(rèn)可。

其中共有4篇論文獲得最佳論文榮譽提名,1篇論文獲得最佳學(xué)生論文提名,分別是:

1、最佳論文榮譽提名

《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:從動態(tài)視頻中快速穩(wěn)健地重建結(jié)構(gòu)與運動),作者包括Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,來自谷歌DeepMind與加州大學(xué)伯克利分校和密歇根大學(xué),其中第一作者Zhengqi Li和共同作者Qianqian Wang、Linyi Jin、Vickie Ye為華人。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

來自谷歌DeepMind與加州大學(xué)伯克利分校、密歇根大學(xué)的團隊提出了一種能夠從動態(tài)場景的單目視頻中快速、準(zhǔn)確且穩(wěn)定地估計相機參數(shù)和深度圖的系統(tǒng)。傳統(tǒng)運動恢復(fù)結(jié)構(gòu)(Structure from Motion)和單目SLAM技術(shù)大多假設(shè)輸入視頻以靜態(tài)場景為主且具有顯著視差,當(dāng)這些條件不滿足時往往會產(chǎn)生錯誤估計。近期基于神經(jīng)網(wǎng)絡(luò)的方法嘗試解決這些問題,但這些方法要么計算成本高昂,要么在相機運動不受控或視場未知的動態(tài)視頻中表現(xiàn)脆弱。

該團隊證明了一個深度視覺SLAM框架經(jīng)過訓(xùn)練和推理方案的精心改進(jìn)后,能夠驚人地適應(yīng)真實世界中相機路徑不受限的復(fù)雜動態(tài)場景視頻(包括相機視差較小的視頻)。在合成與真實視頻上的大量實驗表明,相較于現(xiàn)有研究,該系統(tǒng)在相機位姿和深度估計方面顯著提升了精度與穩(wěn)定性,同時保持相當(dāng)或更快的運行速度。

《Navigation World Models》(導(dǎo)航世界模型),作者包括Amir Bar、Gaoyue Zhou?Danny Tran、Trevor Darrell、Yann LeCun(楊立昆),來自Meta FAIR團隊、紐約大學(xué)與伯克利大學(xué)AI研究所,其中第二作者Gaoyue Zhou為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團隊提出導(dǎo)航世界模型(Navigation World Model,NWM),這是一種基于視覺運動能力的智能體基礎(chǔ)導(dǎo)航系統(tǒng)。作為可控視頻生成模型,NWM能根據(jù)歷史觀測和導(dǎo)航動作預(yù)測未來視覺場景。為捕捉復(fù)雜環(huán)境動態(tài),NWM采用條件擴散Transformer架構(gòu)(Conditional Diffusion Transformer, CDiT),通過大規(guī)模訓(xùn)練(10億參數(shù))于人類和機器人主體的第一視角視頻數(shù)據(jù)集。

在熟悉環(huán)境中,NWM可通過軌跡模擬與目標(biāo)達(dá)成度評估自主規(guī)劃路徑。與傳統(tǒng)固定行為的監(jiān)督式導(dǎo)航策略不同,NWM能在規(guī)劃過程中動態(tài)整合約束條件。實驗證明其具備兩種核心能力:(1)從零開始規(guī)劃軌跡;(2)對外部策略采樣軌跡進(jìn)行擇優(yōu)。更突出的是,NWM能基于單張輸入圖像,利用學(xué)習(xí)到的視覺先驗對陌生環(huán)境進(jìn)行軌跡推演,這使其成為新一代導(dǎo)航系統(tǒng)中兼具靈活性與強大性能的工具。

《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo與PixMo:先進(jìn)視覺語言模型的開源權(quán)重與數(shù)據(jù)),有Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini等39名作者,來自艾倫人工智能研究所與華盛頓大學(xué),有Yue Yang等多名華人為共同作者

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團隊提出Molmo系列模型。核心突破在于PixMo數(shù)據(jù)集組合:包含用于預(yù)訓(xùn)練的精細(xì)化圖像描述數(shù)據(jù)集、用于微調(diào)的自由格式圖像問答數(shù)據(jù)集,以及創(chuàng)新的2D指向數(shù)據(jù)集,所有數(shù)據(jù)均未借助外部VLM生成。該方案的成功取決于三個要素:(1)精細(xì)的建模選擇;(2)優(yōu)化充分的訓(xùn)練流程;(3)最關(guān)鍵的新建數(shù)據(jù)集質(zhì)量。他們提出的72B旗艦?zāi)P筒粌H超越同類開源模型,更在學(xué)術(shù)基準(zhǔn)和大規(guī)模人工評估中勝過Claude 3.5 Sonnet、Gemini 1.5 Pro/Flash等商業(yè)大模型,性能僅次于GPT-4o。

《3D Student Splatting and Scooping》(3D學(xué)生飛濺與挖掘技術(shù)),作者包括Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,來自倫敦大學(xué)與倫敦大學(xué)AI中心、利茲大學(xué),三名作者全部為華人

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

該團隊提出了一個由靈活的學(xué)生t分布(Student’s t distributions)組成的新混合模型,該模型同時包含正密度(濺射)和負(fù)密度(舀?。?。此模型被命名為“學(xué)生濺射與舀取”(Student Splatting and Scooping),簡稱SSS。通過在多個數(shù)據(jù)集、設(shè)置和指標(biāo)上進(jìn)行的詳盡評估與比較,該團隊證明了SSS在質(zhì)量和參數(shù)效率方面均優(yōu)于現(xiàn)有方法。例如,在使用相似數(shù)量組件的情況下,SSS能達(dá)到同等或更優(yōu)的質(zhì)量;并且在將組件數(shù)量減少高達(dá)82%的情況下,仍能獲得可比較的結(jié)果。

2、最佳學(xué)生論文榮譽提名

獲得最佳學(xué)生論文榮譽提名的論文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于離散擴散時間步長tokens的生成式多模態(tài)預(yù)訓(xùn)練),作者包括Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,來自華為新加坡研究中心、北京大學(xué)、浙江大學(xué)與南洋理工大學(xué),全華人團隊

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

多模態(tài)大語言模型(MLLM)的最新研究致力于通過結(jié)合LLM與擴散模型(分別為各自任務(wù)中的前沿技術(shù))來實現(xiàn)視覺理解與生成的統(tǒng)一?,F(xiàn)有方法依賴于空間視覺tokens,即圖像塊按空間順序(如光柵掃描)編碼排列。但研究發(fā)現(xiàn),空間tokens缺乏語言固有的遞歸結(jié)構(gòu),導(dǎo)致LLM難以掌握這種 “非語言化” 表征。

該研究提出通過擴散時間步長學(xué)習(xí)離散遞歸視覺tokens,可隨時間步長遞增遞歸補償噪聲圖像的漸進(jìn)屬性損失,使擴散模型能在任意時間步重建原始圖像。該方法有效融合了LLM自回歸推理優(yōu)勢與擴散模型精確圖像生成能力,在統(tǒng)一框架內(nèi)實現(xiàn)了無縫多模態(tài)理解與生成。大量實驗表明,相比其他MLLMs,該模型在多模態(tài)理解與生成任務(wù)上同步取得了更優(yōu)性能。

四、讓AI與藝術(shù)對話,全華人團隊獲獎

除技術(shù)研究外,CVPR AI藝術(shù)項目(AI Art Program)探索科學(xué)與藝術(shù)的交叉領(lǐng)域,征集運用計算機視覺技術(shù)(包括生成模型、物體與面部識別等)的創(chuàng)作作品。今日公布的獲獎作品從100余件入選作品中脫穎而出:

1、Tom White的《Atlas of Perception(感知圖冊)》,通過探索神經(jīng)網(wǎng)絡(luò)的潛空間(latent space),揭示視覺模型的“視覺詞匯”。該雕塑作品解析機器如何理解世界,展現(xiàn)外觀本身的語法規(guī)則:視覺的模塊化語義。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

2、Masaru Mizuochi的《Green Diffusion(綠色擴散)》,將土壤微生物分解物質(zhì)為養(yǎng)分的“破壞”過程,與AI擴散模型(diffusion model)的加噪去噪“創(chuàng)造”過程并置,凸顯二者的同步性。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

3、全華人團隊Mingyong Cheng, Sophia Sun, Han Zhang的《Learning to Move, Learning to Play, Learning to Animate(學(xué)習(xí)運動、學(xué)習(xí)游戲、學(xué)習(xí)動畫)》,是跨學(xué)科多媒體表演作品,包含自主研發(fā)的拾得材料機器人、實時AI生成、動作追蹤、音頻空間化及基于生物反饋(bio-feedback)的音頻合成技術(shù)。

計算機視覺界“奧斯卡”揭榜!華人霸榜CVPR 2025,突破3D視覺瓶頸

AI藝術(shù)項目策展人Luba Elliott評價稱:“AI與藝術(shù)交匯處蘊藏豐富素材,本項目鼓勵藝術(shù)家持續(xù)探索其潛力。祝賀所有獲獎?wù)呒皡⑴c者對當(dāng)下圖景的深刻詮釋?!?/p>

結(jié)語:華人正站在世界AI研究前沿

CVPR 2025程序委員會聯(lián)合主席、美國麻省理工學(xué)院(MIT)副教授Phillip Isola對以上獲獎?wù)撐馁澷p稱:“這些論文代表了本屆會議最高質(zhì)量的研究成果,包含突破性發(fā)現(xiàn)、廣受關(guān)注的重要工具以及富有創(chuàng)造力的新思路?!?/p>

此次CVPR 2025大會上,科技巨頭Meta和谷歌都沒有缺席領(lǐng)獎臺,華為的研究團隊也獲得了榮譽提名。除此之外,華人在獲獎?wù)撐闹械膮⑴c度讓人十分驚喜。

華人在CVPR 2025上的超高“出鏡率”?凸顯了華人在全球計算機視覺與模式識別領(lǐng)域的卓越貢獻(xiàn),多篇獲獎?wù)撐募俺晒舱蔑@了中國在全球AI發(fā)展進(jìn)程中日益增長的影響力。

來源:CVPR 2025