智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西12月16日報道,今日,阿里推出新一代萬相2.6系列模型。該系列模型支持音畫同步、多鏡頭生成及聲音驅動等多項功能,號稱是全球功能最全的視頻生成模型,并且是國內首個支持角色扮演功能的視頻模型。

相比于9月發(fā)布的萬相2.5,萬相2.6本次升級面向專業(yè)影視和圖像創(chuàng)作,進一步提升了畫質、音效、指令遵循等能力,單次視頻時長實現國內最高的15s,還新增了角色扮演分鏡控制功能。

智東西第一時間試用了萬相2.6,發(fā)現穩(wěn)定的音畫同步生成在這一版本中已經是標配,指令遵循能力提升;全新的分鏡控制功能表現驚艷,能夠理解腳本分鏡術語,多鏡頭間的主體、場景一致性較強,剪輯效果連貫,多人互動仍略有機械感,但比此前更接近真人;角色扮演功能也能實現貼合原角色特征,但多人場景可能出現角色替換錯配問題。

即日起,所有人可直接在萬相官網體驗萬相2.6,企業(yè)用戶還能通過阿里云百煉調用模型API,據悉,千問APP也將于近期上線該模型。

體驗鏈接:
萬相官網:https://tongyi.aliyun.com/wan/
阿里云百煉API:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan

一、上傳多鏡頭腳本,AI直接生成15秒劇情短片

如下視頻所示,當我上傳一張我的數字人分身的照片,輸入一段分鏡腳本提示詞,萬相2.6在幾分鐘之內一次就成功生成了我需要的帶音畫同步的視頻,與提示詞精準匹配,分鏡銜接具有大片感,并且生成的人物保持了較好一致性,沒有出現明顯“穿幫”鏡頭。

提示詞:
愛豆的臺前與幕后。
鏡頭1 [0-2秒] 女孩在臺上唱歌,星光璀璨。
鏡頭2 [3-6秒] 周圍的燈光驟暗,女生在化妝鏡前卸妝。
鏡頭3 [7-10秒] 遠景,女生穿著機車服,騎著摩托車呼嘯而過。

▲萬相2.6生成的視頻(源自:智東西)

當我加大難度,上傳了一個男生和女生走在操場上的照片,并輸入圍繞“男生向女生表白”主題的相關分鏡提示詞,如下視頻所示,萬相2.6也能夠在幾分鐘之內生成準確呈現劇情的15秒視頻,人物的動作、嘴型和聲音比較一致,人物的情緒飽滿,不過相比于上一個單人視頻略顯AI味,不如真人表演具有靈動感,但已經好過之前的AI生成效果。

提示詞:
校園操場,男生真誠跪地表白,氛圍溫暖感人。
鏡頭1 [0-5秒]?中景:男生叫住女生,緊張遞花,女生疑惑。
鏡頭2 [6-10秒]?遠景:男女生對視,認真告白,女生驚訝捂嘴。
鏡頭3 [10-15秒]?特寫,女生點頭接受,對男生笑。

▲萬相2.6生成的視頻(源自:智東西)

下面是一段通義萬相官方公布的分鏡控制功能示例,更加專業(yè)的操作人員配合萬相2.6試用,有望生成大片感更足的多分鏡視頻。

阿里視頻生成模型登場!號稱全球功能最全,附一手體驗

▲萬相2.6分鏡控制功能示例(圖源:通義萬相)

二、國內首個AI視頻角色扮演模型,實測一鍵變“女版馬斯克”

然后來看看角色扮演,萬相2.6能參考輸入視頻中的角色外觀和音色、實現角色扮演,按照提示詞生成單人、多人、人與物合拍的視頻。

當我上傳一段馬斯克采訪的相關視頻,并輸入我的數字人分身,希望讓我的分身去模仿馬斯克的受訪時的神態(tài),萬相2.6能快速將馬斯克替換為我的“數字分身”——一個女版馬斯克,穿著大碼的夾克叉腿作者,兩手交叉一邊深度一思考一邊認真講述自己的觀點,神態(tài)高度還原了馬斯克,但生成視頻的聲音依然保留了男性聲音

▲萬相2.6生成的視頻(源自:智東西)

當我加大難度,上傳了一個動態(tài)效果更強、有多個角色的視頻:哈利?波特的好朋友赫敏?格蘭杰飛奔向他兩人擁抱,只見萬相2.6也能夠捕捉到人物,準確地將赫敏替換成我的數字分身,從遠處飛奔過來,朋友見面的喜悅的神態(tài)、動作都還原地十分生動。

阿里視頻生成模型登場!號稱全球功能最全,附一手體驗

▲萬相2.6生成的視頻(源自:智東西)

美中不足是萬相2.6捕捉和替換角色有點像短視頻平臺的變身特效一樣“隨意”,有一幀依然保留了原演員艾瑪?沃特森的畫面,而最后一幀將哈利·波特的臉換成了我的數字分身。理論上這是可以通過提示詞調整的,但在我使用的時候該功能無法進行提示詞編輯。如果萬相2.6能針對多角色視頻增加一個“角色選擇”勾選功能,這一功能的可用性或許將更高。

針對角色扮演,下面是通義萬相官方提供的一個示例:用戶上傳一段個人視頻,并輸入一段科幻懸疑風格的提示詞,萬相2.6能快速完成分鏡設計、角色演繹、畫面配音等環(huán)節(jié)工作。

阿里視頻生成模型登場!號稱全球功能最全,附一手體驗 阿里視頻生成模型登場!號稱全球功能最全,附一手體驗

▲萬相2.6角色扮演功能實例(圖源:通義萬相)

三、支持多模態(tài)聯合建模與學習,可進行高層語義理解

主打“面向專業(yè)影視制作”,萬相2.6在業(yè)界十分關注的“細節(jié)穿幫”問題上表現如何,做了哪些工作?

萬相2.6相關負責人在采訪中告訴智東西,現在沒有任何一個模型完全做到沒有Bad Case(所謂的“穿幫”),萬相2.6的穩(wěn)定性要比上個版本明顯加強,當用戶多次輸入提示詞可能得到不同的結果,其實真人演員對同一個劇本每次的表現也是不一樣的。它不是為了去解決“穿幫”問題,(不過)用戶可以使用多次生成來看哪一個結果更符合預期。

其在模型結構上集成了多項創(chuàng)新技術,可對輸入參考視頻進行多模態(tài)聯合建模與學習,參考具有時序信息的主體情緒、姿態(tài)和多角度全面視覺特征,同時提取音色、語速等聲學特征,在生成階段作為參考條件控制,實現從畫面到聲音的全感官全維度一致性保持與遷移,目前萬相可支持單人和多人的表演。

在分鏡控制上,通義萬相能通過高層語義理解,將原始輸入構建為具備完整故事線與敘事張力的專業(yè)級多鏡頭段落,在多鏡頭切換的過程中保持核心主體、場景布局和環(huán)境氛圍統(tǒng)一建模,確保全片在內容、節(jié)奏和氛圍上的高一致性。

結語:國產視覺生成模型功能加速迭代

今年9月,阿里率先在國內發(fā)布音畫同步的視頻生成模型萬相2.5,在權威大模型評測集LMArena上,萬相圖生視頻位居國內第一。三個多月后,萬相2.6又推出了角色替換、多鏡頭控制等功能,提升幅度明顯。

國產視覺生成模型正在刷新更多全球記錄。目前,萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等10多種視覺創(chuàng)作能力,據稱已成為全球功能最全的視頻生成模型。