時(shí)尚圖像編輯旨在根據(jù)給定的指令修改人物的外觀。現(xiàn)有的方法通常需要輔助工具,如分割器和關(guān)鍵點(diǎn)提取器,缺乏靈活且統(tǒng)一的框架。此外,這些方法在能夠處理的服裝種類上也有局限性,因?yàn)榇蠖鄶?shù)數(shù)據(jù)集只集中于干凈背景下的人物形象,且只包含如上衣、褲子和連衣裙等通用服飾。這使其在現(xiàn)實(shí)場(chǎng)景中的適用性受到限制。

對(duì)于以上問題,來自中國(guó)科學(xué)院自動(dòng)化研究所的在讀博士牛蘊(yùn)方與武漢人工智能研究院等研究人員共同擴(kuò)展了一個(gè)現(xiàn)有的人體生成數(shù)據(jù)集,并且提出了一種基于擴(kuò)散模型的時(shí)尚編輯方法AnyDesign,實(shí)現(xiàn)了實(shí)現(xiàn)了無需掩碼的服裝編輯功能。相關(guān)論文為《AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion》。

中科院自動(dòng)化所王金橋教授團(tuán)隊(duì)發(fā)布!利用無掩碼擴(kuò)散技術(shù)實(shí)現(xiàn)多功能時(shí)尚編輯 | 一作牛蘊(yùn)方博士講座預(yù)告

AnyDesign是一個(gè)靈活高效的時(shí)尚圖像編輯框架。用戶無需手動(dòng)創(chuàng)建掩碼,只需輸入一張人物圖像以及相應(yīng)的文本或圖像格式的提示,通過無掩碼的擴(kuò)散模型,即可實(shí)現(xiàn)時(shí)尚圖像編輯。

首先,擴(kuò)展了一個(gè)現(xiàn)有的人體生成數(shù)據(jù)集,以包括更廣泛的服飾種類和更復(fù)雜的背景。擴(kuò)展后的數(shù)據(jù)集包含穿著多種服飾的人物形象,如上衣、褲子、連衣裙、裙子、頭飾、圍巾、鞋子、襪子和包包。

AnyDesign采用了一個(gè)兩階段的圖像訓(xùn)練框架。第一階段,使用基于掩碼的擴(kuò)散模型生成偽樣本。擴(kuò)散模型利用未配對(duì)的文本提示或圖像提示,在原始圖像上生成相應(yīng)的服裝區(qū)域掩碼、修改圖像中的服裝部分,從而生成偽樣本。第二階段,利用第一階段生成的偽樣本訓(xùn)練無掩碼模型。它直接對(duì)圖像中的服裝區(qū)域進(jìn)行修改,以生成符合用戶的輸入提示的高質(zhì)量時(shí)尚編輯圖像。

在圖像的去噪過程中,提出Fashion DiT,通過創(chuàng)新的FGA(Fashion-Guidance Attention,時(shí)尚引導(dǎo)注意力)模塊融合明確的服飾類型和通過CLIP編碼的服飾特征,使AnyDesign能夠自動(dòng)識(shí)別目標(biāo)區(qū)域,指導(dǎo)其對(duì)圖像中的服裝區(qū)域進(jìn)行精確編輯。

實(shí)驗(yàn)表明,AnyDesign擁有高質(zhì)量的時(shí)尚編輯效果,并且在性能上優(yōu)于其他先進(jìn)的文本引導(dǎo)時(shí)尚編輯方法。

中科院自動(dòng)化所王金橋教授團(tuán)隊(duì)發(fā)布!利用無掩碼擴(kuò)散技術(shù)實(shí)現(xiàn)多功能時(shí)尚編輯 | 一作牛蘊(yùn)方博士講座預(yù)告

9月29日晚7點(diǎn),智猩猩邀請(qǐng)到論文一作、中國(guó)科學(xué)院自動(dòng)化研究所在讀博士牛蘊(yùn)方參與「智猩猩AI新青年講座」252講,主講《利用無掩碼擴(kuò)散技術(shù)實(shí)現(xiàn)多功能時(shí)尚編輯》。

講者

牛蘊(yùn)方

中科院自動(dòng)化所在讀博士

師從王金橋研究員,參與多模態(tài)大模型“紫東太初”研制。主要研究興趣為圖像生成與編輯、人物服飾編輯、虛擬試穿等。代表工作有PFDM: Parser-Free Virtual Try-On via Diffusion Model、AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion等。

主題

利用無掩碼擴(kuò)散技術(shù)實(shí)現(xiàn)多功能時(shí)尚編輯

提綱

1、AIGC時(shí)尚設(shè)計(jì)與人物服飾編輯研究進(jìn)展與挑戰(zhàn)
2、針對(duì)多種類型的服飾編輯數(shù)據(jù)集擴(kuò)展方法
3、基于Fashion DiT的無掩碼圖像編輯模型
4、實(shí)驗(yàn)結(jié)果分析、討論與總結(jié)展望

直播信息

直播時(shí)間:9月29日19:00

成果

論文標(biāo)題
《AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion》

論文鏈接
https://arxiv.org/abs/2408.11553

開源代碼
https://github.com/nyf8/AnyDesign

入群方式

有講座直播觀看需求的朋友,可以添加小助手“米婭”進(jìn)行報(bào)名。已添加過“米婭”的老朋友,可以給“米婭”私信,發(fā)送“ANY252”進(jìn)行報(bào)名。對(duì)于通過報(bào)名的朋友,之后將邀請(qǐng)入群進(jìn)行觀看和交流。

中科院自動(dòng)化所王金橋教授團(tuán)隊(duì)發(fā)布!利用無掩碼擴(kuò)散技術(shù)實(shí)現(xiàn)多功能時(shí)尚編輯 | 一作牛蘊(yùn)方博士講座預(yù)告