智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西6月21日報(bào)道,今日,英偉達(dá)研究院(NVIDIA Research)的新研究在全球計(jì)算機(jī)視覺三大頂級會議之一CVPR 2022(計(jì)算機(jī)視覺與模式識別會議)上亮相。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

NVIDIA提出的3D MoMa逆渲染流程方法,展示了一種能將2D照片變成3D物體的新方法。圖形創(chuàng)作者可以快速將物體導(dǎo)入圖形引擎,并修改比例、改變材質(zhì)或嘗試不同的照明效果。

本周,關(guān)于3D MoMa的論文將在CVPR上發(fā)表。其論文名為《從圖像中提取三角形三維模型、材質(zhì)和照明》(Extracting Triangular 3D Models, Materials, and Lighting From Images)。這將是NVIDIA在本次CVPR上發(fā)表的38篇論文之一。

論文地址:https://arxiv.org/abs/2111.12503

項(xiàng)目地址:https://nvlabs.github.io/nvdiffrec/

一、用2D照片快速生成3D物體

3D內(nèi)容建模既需要藝術(shù)建模技能,又需要掌握計(jì)算機(jī)技術(shù)知識。而實(shí)現(xiàn)自動(dòng)化3D建模,可以節(jié)約大量的生產(chǎn)成本,或加速更多樣化的內(nèi)容創(chuàng)建。

其中,逆渲染是將一系列靜態(tài)照片重建為3D物體或場景模型的技術(shù)。NVIDIA圖形學(xué)研究副總裁David Luebke稱:“該技術(shù)長期以來一直是統(tǒng)一計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)的關(guān)鍵。”

他談道:“NVIDIA 3D MoMa渲染流水線能將逆渲染問題的每個(gè)部分表示為GPU加速的可微分組件,然后使用現(xiàn)代AI機(jī)器和NVIDIA GPU的原始算力快速生成3D物體,且創(chuàng)作者可以在現(xiàn)有工具中自由地導(dǎo)入、編輯和擴(kuò)展這些物體?!?/p>

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

為了使藝術(shù)家或工程師能夠充分利用3D物體,其形式應(yīng)能夠?qū)胗螒蛞妗?/b>3D建模器和電影渲染器等各種被廣泛使用的工具。

帶有紋理、材質(zhì)的三角網(wǎng)格形式,就是此類3D工具使用的通用語言。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

三角網(wǎng)格是用于定義3D圖形和建模形狀的基本框架。游戲工作室和其他創(chuàng)作者習(xí)慣于使用復(fù)雜的攝影測量技術(shù)來創(chuàng)建3D物體,這需要耗費(fèi)大量的時(shí)間和精力。

近期的神經(jīng)輻射場(Neural Radiance Fields)研究可以快速生成物體或場景的3D模型,但并不是使用易于編輯的三角網(wǎng)格形式。

當(dāng)在單個(gè)NVIDIA Tensor Core GPU上運(yùn)行時(shí),NVIDIA 3D MoMa能在1小時(shí)內(nèi)生成三角網(wǎng)格模型。該流水線的輸出結(jié)果與創(chuàng)作者現(xiàn)在使用的3D圖形引擎和建模工具直接兼容。

流水線的重建功能包括3D網(wǎng)格模型、材質(zhì)和照明。網(wǎng)格就像由三角形構(gòu)建的3D形狀混凝紙漿模型。有了它,開發(fā)者就可以依照自己的創(chuàng)意對物體進(jìn)行修改。材質(zhì)是疊加在3D網(wǎng)格上的2D紋理,就像人的皮膚一樣。NVIDIA 3D MoMa通過對場景光線進(jìn)行估算,使創(chuàng)作者能夠在日后修改物體上的照明。

相比之下,近年來許多類似的3D重建研究,或者不能輕松支持場景編輯操作,或者犧牲了重建質(zhì)量,在神經(jīng)網(wǎng)絡(luò)中編碼的材質(zhì)也不能輕易地被編輯或提取成與傳統(tǒng)游戲引擎兼容的形式。

二、為虛擬爵士樂隊(duì)調(diào)校樂器

為了展示NVIDIA 3D MoMa的功能,NVIDIA的研究和創(chuàng)意團(tuán)隊(duì)首先從不同角度收集了五種爵士樂隊(duì)樂器(小號、長號、薩克斯、架子鼓和單簧管)的約100張圖片。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

NVIDIA 3D MoMa將2D圖像重建為每種樂器的3D表示,并以網(wǎng)格形式呈現(xiàn)。

然后,NVIDIA團(tuán)隊(duì)將這些樂器從原始場景中取出,并將其導(dǎo)入NVIDIA Omniverse 3D模擬平臺中進(jìn)行編輯。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

在任何傳統(tǒng)圖形引擎中,創(chuàng)作者都能輕松為形狀調(diào)換由NVIDIA 3D MoMa生成的材質(zhì),就像給網(wǎng)格穿上不同的衣服一樣。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

例如,該團(tuán)隊(duì)對小號模型采取了這種做法,將原來的塑料材質(zhì),快速更換成黃金、大理石、木材或軟木。

創(chuàng)作者可以將新編輯的物體放入任何虛擬場景中。NVIDIA團(tuán)隊(duì)將這些樂器放入了經(jīng)典的圖形渲染質(zhì)量測試康奈爾盒中。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

他們證明了虛擬樂器對光線的反應(yīng)與在物理世界中完全一樣:閃亮的銅管樂器反射出亮光,啞光的鼓皮則會吸收光線。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會

這些通過逆渲染生成的新物體可以作為復(fù)雜動(dòng)畫場景的構(gòu)成要素。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會▲虛擬爵士樂隊(duì)

三、高效的逆渲染方法,整體研究思路概述

總體來說,研究人員提出了一種高效的逆渲染方法,能從多視角圖像中提取具有空間變化的材料和環(huán)境照明的未知拓?fù)淙蔷W(wǎng)格,它們可以部署在任何傳統(tǒng)圖形引擎中而未經(jīng)修改。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會▲研究方法的概述

NVIDIA團(tuán)隊(duì)假設(shè)在一個(gè)未知的環(huán)境光照條件下,有相應(yīng)的攝像機(jī)位姿和背景分割掩模來指示這些圖像中的物體,進(jìn)行3D重建。

該方法學(xué)習(xí)曲面網(wǎng)格的拓?fù)浜晚旤c(diǎn)位置,而無需對3D幾何圖形進(jìn)行任何初始猜測。其目標(biāo)表示由三角網(wǎng)格、空間變化的材質(zhì)(存儲在2D紋理中)和照明(一個(gè)高動(dòng)態(tài)范圍的環(huán)境探針)組成。

該方法的核心是基于可變性四面體網(wǎng)格的可微分曲面模型,并通過一種新的可微分分割和近似方法將其擴(kuò)展到支持空間變化的材料和高動(dòng)態(tài)范圍(HDR)環(huán)境照明。

研究人員使用高度優(yōu)化的可微分光柵與延遲遮光,聯(lián)合優(yōu)化幾何、材料和照明。生成的3D模型無需轉(zhuǎn)換,就能部署在手機(jī)、web瀏覽器等任意支持三角渲染的設(shè)備上,并以交互速率呈現(xiàn)。

NVIDIA用照片造出逼真3D樂器,大秀爵士樂表演,論文入選計(jì)算機(jī)視覺頂會▲NVIDIA團(tuán)隊(duì)從2D監(jiān)督中聯(lián)合學(xué)習(xí)拓?fù)?、材質(zhì)、照明,重建三角網(wǎng)格,無需修改即可在標(biāo)準(zhǔn)游戲引擎中使用

實(shí)驗(yàn)表明,該研究提取的模型可用于場景編輯、材料分解和高質(zhì)量視圖插值,所有這些模型都在基于三角形的渲染器(光柵器和路徑跟蹤器)中以交互速率運(yùn)行。

結(jié)語:將助力簡化創(chuàng)意團(tuán)隊(duì)的工作流程

在論文最后,本篇論文作者提到,這項(xiàng)研究的主要限制是簡化了陰影模型,沒有考慮全局照明或陰影。這一選擇是有意加速優(yōu)化,但受制于材質(zhì)提取和重照明。

隨著可微分路徑追蹤的研究取得新進(jìn)展,研究人員期待在未來的工作中去除這一限制。其他限制還包括靜態(tài)照明假設(shè)、沒有優(yōu)化攝像機(jī)位姿、訓(xùn)練期間高計(jì)算資源和內(nèi)存消耗等。

當(dāng)然,每當(dāng)涉及場景重建方法,大眾普遍會關(guān)心深度偽造問題。對此,研究人員稱尚未察覺或預(yù)見到其方法的負(fù)面用途。

總的來說,NVIDIA這項(xiàng)能幫助創(chuàng)作者快速將2D照片變成3D物體、兼容現(xiàn)代3D引擎和建模工具的新研究,將有助于進(jìn)一步簡化建筑師、設(shè)計(jì)師、概念藝術(shù)家和游戲開發(fā)者等創(chuàng)意團(tuán)隊(duì)的工作流程,為他們騰出更多發(fā)揮創(chuàng)意的時(shí)間。