智東西(公眾號(hào):zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西5月15日?qǐng)?bào)道,昨日晚間,阿里通義萬相團(tuán)隊(duì)開源Wan2.1-VACE(Video All-in-one Creation and Editing model,視頻編輯與生成統(tǒng)一模型)。

這是目前業(yè)界功能最全的視頻生成與編輯模型。單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長(zhǎng)延展等多種生成和編輯能力,并支持多任務(wù)組合生成。

例如,Wan2.1-VACE可將豎版《蒙娜麗莎》靜態(tài)圖擴(kuò)展為橫版動(dòng)態(tài)視頻,并為其“戴上”參考圖中的眼鏡,一次性完成畫幅擴(kuò)展、時(shí)長(zhǎng)延展和圖像參考三項(xiàng)任務(wù)。

蒙娜麗莎戴墨鏡橫屏耍酷!阿里視頻生成模型王炸開源,消費(fèi)級(jí)顯卡可玩

該模型基于通義萬相V2.1基座訓(xùn)練,本次共開源1.3B和14B兩個(gè)版本。其中1.3B版(輕量級(jí))支持480P視頻輸出,可在消費(fèi)級(jí)顯卡運(yùn)行;14B版(滿血版)支持480P/720P,效果更優(yōu)。

開發(fā)者可在GitHub、Huggingface及魔搭社區(qū)下載體驗(yàn),該模型還將逐步在通義萬相官網(wǎng)和阿里云百煉上線。

開源地址:
GitHub:https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區(qū):https://www.modelscope.cn/organization/Wan-AI?tab=model

蒙娜麗莎戴墨鏡橫屏??幔“⒗镆曨l生成模型王炸開源,消費(fèi)級(jí)顯卡可玩

一、單一模型搞定視頻生成和編輯

Wan2.1-VACE定位為“視頻領(lǐng)域的全能模型”,支持全部主流輸入形式,涵蓋文本、圖像、視頻、Mask和控制信號(hào),可以實(shí)現(xiàn)角色一致性、布局、運(yùn)動(dòng)姿態(tài)和幅度等要素的控制。

主要能力覆蓋了:

1.視頻重繪:支持通過景深、姿態(tài)、運(yùn)動(dòng)軌跡等多維度控制條件生成新視頻。

2.局部編輯:實(shí)現(xiàn)視頻對(duì)象的增刪改,例如擦除人物、替換物體(如熊貓變獅子)。

3.圖像參考生成:支持單圖/多圖作為主體或背景參考,例如將卡通形象與實(shí)景結(jié)合。

4.背景延展:自動(dòng)擴(kuò)展視頻畫幅(如橫屏變超寬屏),或生成新背景替換綠幕。

5.時(shí)長(zhǎng)延展:支持在時(shí)域上的生成變化,如幀延續(xù)、片段延續(xù)、相接等。

6.基礎(chǔ)生成:基礎(chǔ)的文生視頻、圖生視頻、首尾幀等。

二、多任務(wù)組合,一次性完成視頻增刪改擴(kuò)

Wan2.1-VACE的核心突破在于單模型支持多任務(wù)靈活組合處理,無需傳統(tǒng)多模型串聯(lián)的復(fù)雜工作流。

其支持任意基礎(chǔ)能力的自由組合,用戶無需針對(duì)特定功能訓(xùn)練一個(gè)新的專家模型,即可完成更復(fù)雜的任務(wù),極大地?cái)U(kuò)展了AI視頻生成的想象空間。

例如:在視頻中框選區(qū)域替換為貓,同時(shí)參考原視頻動(dòng)作序列和新貓圖片,實(shí)現(xiàn)局部編輯+動(dòng)作遷移。

這種靈活的組合機(jī)制,不僅大幅簡(jiǎn)化創(chuàng)作流程,也極大拓展了 AI 視頻生成的創(chuàng)意邊界,例如:

組合圖片參考 + 主體重塑功能 → 視頻中物體替換

組合運(yùn)動(dòng)控制 + 首幀參考功能 → 靜態(tài)圖片的姿態(tài)控制

組合圖片參考 + 首幀參考 + 背景擴(kuò)展 + 時(shí)長(zhǎng)延展 → 將豎版圖拓展為橫屏視頻,并且在其中加入?yún)⒖紙D片中的元素。

三、模型亮點(diǎn)解讀:統(tǒng)一四大輸入,破解多模態(tài)難題

Wan2.1-VACE基于通義萬相文生視頻模型研發(fā),同時(shí)創(chuàng)新性提出了全新的視頻條件單元 VCU,它在輸入形態(tài)上統(tǒng)一了文生視頻、參考圖生視頻、視頻生視頻、局部視頻生視頻4大類視頻生成和編輯任務(wù)。

蒙娜麗莎戴墨鏡橫屏???!阿里視頻生成模型王炸開源,消費(fèi)級(jí)顯卡可玩

視頻條件單元 VCU將多模態(tài)的各類上下文輸入,總結(jié)成了文本、幀序列、Mask序列三大形態(tài),在輸入形式上統(tǒng)一了 4 類視頻生成與編輯任務(wù)的統(tǒng)一。VCU 的幀序列和Mask序列在數(shù)學(xué)上可以相互疊加,為多任務(wù)的自由組合創(chuàng)造條件。

同時(shí),Wan2.1-VACE還進(jìn)一步解決了多模態(tài)輸入的token序列化難題,將VCU輸入的幀序列進(jìn)行概念解耦,分開重構(gòu)成可變序列和不可變序列后進(jìn)行編碼。

蒙娜麗莎戴墨鏡橫屏耍酷!阿里視頻生成模型王炸開源,消費(fèi)級(jí)顯卡可玩

結(jié)語:視頻生成技術(shù)進(jìn)化,從單任務(wù)向多任務(wù)組合邁進(jìn)

通義萬相Wan2.1-VACE的推出,體現(xiàn)了視頻生成技術(shù)從單任務(wù)向多任務(wù)組合邁進(jìn)的趨勢(shì)。其開源策略或有望降低AI視頻創(chuàng)作門檻,從而進(jìn)一步推動(dòng)生成式AI在影視、廣告等領(lǐng)域的應(yīng)用。

自今年2月以來,通義萬相已先后開源文生視頻模型、圖生視頻模型和首尾幀生視頻模型,目前在開源社區(qū)的下載量已超330萬,在GitHub上斬獲超1.1w star,是同期最受歡迎的視頻生成模型。