智東西(公眾號:zhidxcom)
作者 | 王涵
編輯 | 心緣

智東西2月3日報道,近期,英偉達宣布其全新3D通用模型論文將發(fā)表于2026國際3D視覺會議,論文的預印本已于去年7月發(fā)表。這篇論文構建出了一種建構3D世界的新范式,驗證了“AI生成的3D合成數據”可規(guī)模化替代人工標注數據,能夠大幅降低視覺模型預訓練的成本。

論文的主要成果為3D-GENERALIST模型,該模型使用統(tǒng)一化框架,將3D環(huán)境生成的四大核心要素即布局、材質、光照、資產等統(tǒng)一到序貫決策框架中。研究團隊還提出了基于CLIP評分的自改進微調策略,可以讓模型在下一輪生成中能自主修正前序錯誤。

這篇論文的作者有8位華人,第一二作者都是中國留學生,清華“姚班”出身的斯坦福大學助理教授吳佳俊也名列其中。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

CES 2025上,英偉達正式推出世界基礎模型平臺Cosmos。在CES 2026的演講中,黃仁勛依舊將“Physical AI”作為了整場發(fā)布的核心靈魂,正式將Cosmos定位為Physical AI的“底層代碼”與“世界模擬器”。此外,黃仁勛還發(fā)布了Cosmos Reason 2,讓AI不僅生成世界,還能用自然語言進行鏈式因果推理。

3D-GENERALIST這一技術會給英偉達的Cosmos補全哪塊拼圖?又是如何實現技術突破的?我們試圖從論文中尋找答案。

論文鏈接:https://arxiv.org/abs/2507.06484

一、現有痛點:只是在生成3D圖像,杯子水杯不能獨立交互

當前可交互3D環(huán)境的創(chuàng)建仍面臨諸多痛點。

例如,現有技術往往聚焦于3D生成的單一環(huán)節(jié),僅優(yōu)化布局或合成紋理,難以實現全要素的協同優(yōu)化。

且現有技術生成的場景缺乏可分離、可操作的物體和表面,即便借助大語言模型或擴散模型的方法,現有成果也難以通過擴展計算資源提升生成質量。生成的數據也不適合需要精準標注的合成數據應用或機器人交互仿真場景,與下游任務對3D環(huán)境的質量要求存在差距。

簡單來說,現有技術只是在生成一個整體的3D圖像,虛擬世界中的杯子、書本沒辦法獨立交互。

而3D-GENERALIST就是來解決這些痛點的。

二、研究方法:引入自改進機制,讓擴散模型畫圖、VLM指揮、API執(zhí)行

斯坦福和英偉達研究團隊的核心思路就是將一個“設計師”擴展為一個“建筑師團隊”,把搭房子的工作細化,每個步驟交給專門的人去做。

具體來講,研究團隊首先通過全景擴散模型生成360°引導圖像,這一步就相當于先畫了一張戶型圖,之后的建設都要按照這一圖像來。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

然后,研究團隊提出了“場景性策略”,一共分為三步:

首先利用HorizonNet提取房間基礎結構,搭好房梁結構,后通過Grounded-SAM技術,在識別好的墻體上,分割出門和窗戶的具體區(qū)域。最后再由GPT-4o等VLM(視覺語言模型)標注門窗類型與材質,通過程序化生成構建帶基礎構件的3D房間。

搭好毛坯房后,研究團隊以VLM作為決策“大腦”,向其輸入含坐標標記、資產名稱標記的多視角場景渲染圖和文本提示。

隨后VLM會直接輸出代碼形式的具體動作指令,比如添加資產、調整光照、更換材質等,這些代碼指令會對接3D環(huán)境的工具API,API自動執(zhí)行指令,實時更新整個3D房間。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

為了讓虛擬場景中的每一個物體都能實現獨立交互,研究團隊還針對性設計了一套資產級優(yōu)化策略。

具體來看,團隊先借助GPT-4o識別出場景中可承載小物件的容器類資產,例如桌子、書架等載體,再通過基于網格的表面檢測技術,精準定位這些載體上適合放置物品的有效區(qū)域。

隨后,團隊引入擅長像素級精細推理的視覺語言模型Molmo-7B,進一步確定小物體的具體放置像素點,并通過3D射線轉換,將像素位置換算為高精度的3D空間坐標

結合碰撞檢測技術,3D-GENERALIST最終實現如把書擺到桌上、把筆放在書上這類貼合現實邏輯的交互效果。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

此外,3D-GENERALIST背后還有3大關鍵技術做支撐:

首先研究團隊引入了自改進微調機制,模型在每輪微調中會生成多個候選動作序列,通過CLIP評分篩選出與文本提示最對齊的最優(yōu)動作,再用該最優(yōu)動作對VLM進行監(jiān)督微調,以此提升模型自我修正能力。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

其次,研究團隊還規(guī)范了場景領域特定語言,定義了類別、放置位置、材質、光照等核心描述符,規(guī)范VLM輸出的動作指令格式,確保其與工具API兼容。

研究團隊使用的上下文庫收錄能顯著提升CLIP對齊分數的動作代碼片段,生成時隨機采樣作為示例,提升動作序列的多樣性和有效性。

三、成績驗證:物理合理性99%,合成數據訓練效果接近真實數據

在模擬就緒3D環(huán)境生成任務中,3D-GENERALIST的3D環(huán)境生成質量層級全面超越LayoutGPT、Holodeck、LayoutVLM等基線方法。

物理合理性方面,3D-GENERALIST的無碰撞分數達99.0,邊界內分數達98.0。語義一致性方面,其位置連貫性和旋轉連貫性的分數分別為78.279.1,綜合物理語義對齊分數達67.9,遠高于基線最高值58.8。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

經3輪自改進微調后,3D-GENERALIST的CLIP分數達0.275,顯著高于無微調版本和無上下文庫版本,且能迭代修正場景缺陷。

資產級策略生成的場景平均CLIP分數達0.282,高于基線方法的0.269,可自然實現小物體的語義對齊和物理合理放置,避免物體重疊。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

自改進微調技術的引入還降低了VLM的視覺幻覺率,在Object HalBench和AMBER基準測試中,微調后模型的幻覺相關指標均優(yōu)于原始GPT-4o

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

基于3D-GENERALIST生成的合成數據預訓練視覺模型ImageNet-1K Top-1,使用86萬條標簽訓練時,準確率達0.731,超過基于人工構建的HyperSim數據集。

當標簽量擴展至1217萬條時,ImageNet-1K Top-1準確率提升至0.776,接近基于50億真實數據訓練的模型效果,驗證了其在合成數據規(guī)?;缮系膬?yōu)勢。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

四、研究團隊:8個華人,創(chuàng)企CEO、清華姚班天才,還有Qwen實習生

除了研究本身,論文的作者欄也十分引人矚目。

該篇論文的第一作者Fan-Yun Sun是斯坦福大學AI實驗室(SAIL)的計算機科學博士生,隸屬于Autonomous Agents Lab和斯坦福視覺與學習實驗室(SVL)。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

在讀博期間,他也深度參與了英偉達研究院的工作,曾效力于學習與感知研究組、Metropolis深度學習(Omniverse)以及自動駕駛汽車研究組。

他的研究興趣主要在于生成具身環(huán)境與數據,用于訓練機器人和強化學習策略,致力于推動具身、多模態(tài)基礎模型及其推理能力的發(fā)展。

此外,他還創(chuàng)辦了AI游戲公司Moonlake,是一家專注于交互式世界構建的前沿人工智能實驗室,融合了多模態(tài)推理和世界建模。

該創(chuàng)企此前已從Threshold Ventures、AIX Ventures和NVentureS(NVIDIA的風險投資部門)籌集了2800萬美元(約合人民幣1.95億元)的種子資金。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

第二作者Shengguang Wu目前是斯坦福大學計算機科學系的博士生,在北京大學獲得碩士學位。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

他此前曾在Qwen團隊擔任研究實習生,并且參與了Qwen 1的研究工作。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

吳佳俊是斯坦福大學計算機科學和心理學的助理教授。2014年他從清華大學交叉信息研究院“姚班”本科畢業(yè),師從屠卓文(Zhuowen Tu)教授。在校期間,他曾三年都是年級名次第一,還擔任了世界頂級的計算機視覺會議CVPR審稿人。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

吳佳俊博士畢業(yè)于麻省理工學院,導師是Bill Freeman和Josh Tenenbaum。在加入斯坦福大學之前,他曾是谷歌Research的客座研究員,和Noah Snavely一起工作。

目前,他的團隊致力于物理場景理解研究——即構建能夠觀察、推理并與物理世界互動的智能機器,以及以下方面:

1、基于視覺、聽覺與觸覺信號的多模態(tài)感知(如物體文件夾、真實影響力項目)

2、四維物理世界的視覺生成(如三維生成對抗網絡、π生成對抗網絡、點體素擴散模型、SDEdit圖像編輯、奇幻世界)

3、通過物理概念基底的視覺推理(常采用神經符號化方法,如神經符號視覺問答、形狀程序、動態(tài)視覺推理數據集、邏輯視覺推理框架)

4、運用習得物理場景表征的機器人學與具身人工智能(如機器人廚師、行為模擬平臺)。

Shangru Li目前是英偉達公司的高級系統(tǒng)軟件工程師,之前曾在騰訊有過工作經歷。

他2019年本科畢業(yè)于廣東外語外貿大學的計算機軟件工程專業(yè),在大三的時候,其曾在騰訊實習。2021年,Shangru Li于美國賓夕法尼亞大學的計算機圖形學和游戲技術專業(yè)碩士畢業(yè),此后便一直在英偉達工作。

英偉達3D模型打造“AI建筑師特工隊”,8位華人合著,包括千問實習生

此外,還有4位華人研究員參與其中,分別為Haoming Zou、Yu-Hsin Chou、Ethem Can以及Xunlei Wu。

結語:模型與機器人訓練成本或將進一步降低

3D-GENERALIST將傳統(tǒng)分離的建模、布局、材質、光照等環(huán)節(jié)整合為統(tǒng)一的決策序列,并通過自改進機制賦予AI自我改錯的能力。

這不僅顯著提升了復雜3D場景的構建效率與物理合理性,更關鍵的是,其驗證了高質量合成數據規(guī)?;娲斯俗⒌目尚行?,將有望降低下游視覺與機器人模型訓練的成本門檻。