智東西(公眾號:zhidxcom)
作者 | 陳佳
編輯 | 心緣

智東西4月1日報道,剛剛,阿里正式發(fā)布新一代圖像生成與編輯統(tǒng)一模型Wan2.7-Image,一舉將文生圖、圖生組圖、圖像指令編輯和交互式編輯整合進同一套模型架構。

新模型主打四大能力:可自由定制五官骨相的“千人千面”捏臉功能、能精準提取和控制色彩配比的“調(diào)色盤”功能、最高支持3K token超長文字渲染的印刷級排版能力,以及支持框選區(qū)域精準操作的像素級交互式編輯能力。

我們重點測試了該模型“千人千面”、交互式編輯和多主體一致性三個方面的能力。

在人物生成測試中,無需精細控制提示詞,該模型已能在同一組輸出中呈現(xiàn)臉型輪廓、顴骨位置、下頜線各異的差異化人像,告別批量同臉問題。加入臉型關鍵詞后,不同輪廓的響應可感知,但方臉、長臉等強特征的精準度仍有提升空間。

剛剛,阿里發(fā)了款能“捏臉”的新模型

在交互式編輯測試中,我們以《唐頓莊園》電影劇照為素材執(zhí)行人物位置互換,模型在保留服飾特征和背景環(huán)境的前提下完成了對調(diào)。

剛剛,阿里發(fā)了款能“捏臉”的新模型

在多主體一致性測試中,我們基于參考人物要求模型生成咖啡館、戶外街拍、正式會議室三大場景共12張圖像,模型精準保留了參考人物的面部特征、發(fā)型輪廓與整體氣質(zhì),跨場景辨識度穩(wěn)定,同時對不同場景的光影邏輯和環(huán)境氛圍適配良好,是三項測試中表現(xiàn)最為亮眼的一項。

剛剛,阿里發(fā)了款能“捏臉”的新模型

同步上線的Wan2.7-Image-pro在構圖穩(wěn)定性和語義理解上進一步提升。

從官方盲測結果來看,Wan2.7-Image多項能力已位列國內(nèi)第一,整體水平接近Nano Banana Pro。

剛剛,阿里發(fā)了款能“捏臉”的新模型

目前,兩款模型均已在阿里云百煉平臺開放API調(diào)用,萬相官網(wǎng)也支持直接體驗。

萬相官網(wǎng):https://tongyi.aliyun.com/wan

百煉國內(nèi)站:https://bailian.console.aliyun.com/cn-beijing?tab=api#/api/?type=model&url=3026980

百煉國際站:https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=api#/api/?type=model&url=3026980

一、告別“AI標準臉”,還能寫滿一頁A4紙

AI生成人像“千篇一律”是業(yè)界長期的痛點,Wan2.7-Image強化了虛擬形象“捏臉”功能,支持從骨相到五官細節(jié)的全方位定制——臉型可在鵝蛋臉、圓臉、方臉、長方臉之間切換。

在人物生成能力上,我們使用了一條基礎的提示詞進行測試:“一個年輕女性肖像,半身照,電影感光影,高清細節(jié),真實皮膚質(zhì)感”。

在未加入任何臉型、五官或身份限定的情況下,Wan2.7-Image一次生成了4張人像。從結果來看,這組圖已經(jīng)明顯不同于以往常見的“AI標準臉”,人物之間呈現(xiàn)出較為自然的差異。

剛剛,阿里發(fā)了款能“捏臉”的新模型

四張圖中的人物在臉型輪廓、顴骨位置和下頜線條上各不相同,并非簡單的“同一張臉微調(diào)”。

同時,皮膚紋理、毛孔及輕微瑕疵(如泛紅、肌理不均)均被真實保留,未出現(xiàn)過度磨皮的失真感。

在光影控制與整體氛圍營造方面,Wan2.7-Image表現(xiàn)出色。四張圖像均采用自然窗光作為主光源,形成強烈的明暗對比與電影化質(zhì)感,背景環(huán)境元素虛實得當,未對主體造成干擾,且不同圖像間的人物特征保持了較高的一致性。

整體來看,在無精細控制提示詞的情況下,Wan2.7-Image已經(jīng)可以生成風格統(tǒng)一但人物不同的人像結果,相比以往容易出現(xiàn)的“批量同臉”問題,有明顯改善。

在基礎人像生成測試后,我們進一步加入明確的臉型約束,對Wan2.7-Image的“捏臉能力”進行驗證。測試提示詞在原有基礎上增加:鵝蛋臉/圓臉/方臉/長臉。

剛剛,阿里發(fā)了款能“捏臉”的新模型

從實測結果來看,Wan2.7-Image模型能夠?qū)δ樞吞卣髯龀霾町惢憫?,不同生成樣本中,人物面部輪廓呈現(xiàn)出從鵝蛋臉到圓臉、方臉的明顯區(qū)分,下頜線、顴骨寬度、面部長寬比等核心臉型指標存在可感知的差異。

在皮膚質(zhì)感、電影感光影等方面,限定臉型后生成的圖片畫面細節(jié)保留度基本穩(wěn)定。但該模型的臉型控制仍存在精度與一致性的不足。部分圖片存在特征模糊、臉型特征不典型的問題,難以完全匹配“方臉”“長臉”等強特征的嚴格定義。

對比未添加臉型關鍵詞的基礎生成版本,限定臉型后生成的圖片人物面部占比整體偏大,臉部視覺尺寸有所擴增,頭身比例、半身構圖的原有平衡被打破。

在官方演示案例當中,Wan2.7-Image模型生成的圖片人物眼部特征支持杏仁眼、深邃眼窩、圓眼、丹鳳眼等多種選項,并能跨越國籍與年齡生成差異化人像。

剛剛,阿里發(fā)了款能“捏臉”的新模型

另一大亮點是“調(diào)色盤”功能。用戶可一鍵提取參考圖的顏色及其占比,并以此為基礎生成同色系圖片,同時自由調(diào)控各顏色的數(shù)量和比例,構建個性化配色方案。無論是馬蒂斯?jié)庥舻募t色系、梵高明媚的黃色系,還是畢加索清冷的藍色系,都可作為輸入?yún)⒖迹敵錾{(diào)高度一致的全新畫面。

剛剛,阿里發(fā)了款能“捏臉”的新模型

在文字渲染方面,Wan2.7-Image支持12種語言,最高可處理3K token的超長文字輸入,輸出效果達到印刷級質(zhì)量。這一能力讓其在信息圖、教育插畫、旅游攻略長圖海報等場景中頗具實用價值——理論上可以一口氣生成排滿一頁A4紙的論文。

剛剛,阿里發(fā)了款能“捏臉”的新模型

二、一次生成12張圖,還能“哪里不爽改哪里”

Wan2.7-Image的編輯能力也迎來了顯著升級,其“交互式編輯”功能支持用戶在指定區(qū)域內(nèi)精準框選,對框內(nèi)元素進行添加、對齊、移動操作,也可進行Logo插入和人物位置互換,實現(xiàn)像素級意圖對齊。

實測中,我們用《唐頓莊園》電影劇照圖片執(zhí)行“兩人位置調(diào)換”的編輯指令,Wan2.7-Image成功將原圖中左側(cè)藍裙人物與右側(cè)黃裙人物的站位進行了對調(diào)。

剛剛,阿里發(fā)了款能“捏臉”的新模型

人物主體、服飾特征(藍/黃緞面禮服、頭飾、項鏈、長手套)均完整保留,未出現(xiàn)主體丟失、嚴重變形等致命問題,整體場景的背景環(huán)境(宴會廳裝飾、背景人物、花藝陳設)也基本維持了原圖的一致性,實現(xiàn)了編輯指令的核心訴求。

官方演示中,用戶框選圖中兩個人物后輸入“互換位置”指令,模型準確完成了人物交換,且背景及其他元素保持不變。

剛剛,阿里發(fā)了款能“捏臉”的新模型

在另一官方案例中,用戶通過框選區(qū)域、指定對話氣泡風格和文字內(nèi)容,直接生成了毛氈風格的對話場景,文字與畫面風格統(tǒng)一。

剛剛,阿里發(fā)了款能“捏臉”的新模型

多主體一致性是圖像生成中難度較高的任務。Wan2.7-Image在這一方向支持最多9圖的風格與特征統(tǒng)一,可用于合影生成、電影海報及家具組合圖等場景。官方展示了AI女團海報和家具組合圖的生成效果,多人物之間的風格一致性較高。

剛剛,阿里發(fā)了款能“捏臉”的新模型

我們基于參考人物進行多場景生成測試,發(fā)現(xiàn)Wan2.7-Image在核心人物特征的一致性還原上展現(xiàn)出較高水準。模型根據(jù)提示詞“基于參考人物,生成3張圖:(1)咖啡館內(nèi)看書;(2)戶外街拍;(3)正式會議室”,輸出了一組共12張圖像。

從輸出結果來看,模型精準保留了參考人物的核心面部特征、發(fā)型輪廓與整體氣質(zhì),在咖啡館、戶外街拍、正式會議室三大場景中,人物主體的辨識度始終穩(wěn)定,未出現(xiàn)五官變形缺陷。

同時,模型對場景環(huán)境的適配性表現(xiàn)優(yōu)異,不同場景的光影邏輯、環(huán)境氛圍與人物狀態(tài)高度匹配,咖啡館的暖光、戶外的自然光、會議室的室內(nèi)冷光均符合場景邏輯,人物服飾、姿態(tài)也與場景屬性高度契合。

剛剛,阿里發(fā)了款能“捏臉”的新模型 剛剛,阿里發(fā)了款能“捏臉”的新模型

三、不只會畫圖,還開始“理解圖”

從技術層面看,Wan2.7-Image有三個維度的升級。

在訓練數(shù)據(jù)上,模型底座整合了超大規(guī)模異構視覺素材,并額外加入了理解類數(shù)據(jù),使模型不止于像素級擬合,還具備底層語義認知能力。

在模型架構上,Wan2.7-Image采用生成與理解統(tǒng)一的模型架構,在共享隱空間(Latent Space)內(nèi)實現(xiàn)語義映射——文字緊挨著畫面,模型不需要費力推斷文字對應的畫面區(qū)域。同時,訓練流程中引入了多模態(tài)指令(文字+圖片),進一步強化了從“像素擬合”到“語義認知”的跨越。

此外,模型還支持調(diào)用WanImage Skill工具,據(jù)官方介紹可實現(xiàn)“讓龍蝦畫畫”等創(chuàng)意指令編排。

在人類偏好盲測中,Wan2.7-Image多項能力位列全國第一,綜合成績接近Nano Banana Pro。同步上線的Wan2.7-Image-pro版本在訓練數(shù)據(jù)規(guī)模和模型尺寸上進一步擴大,構圖穩(wěn)定性和語義理解精準度更高。

四、從電商到短劇,圖像模型開始全面落地

Wan2.7-Image在多個垂直場景展示了行業(yè)落地潛力。

在短劇制作方向,模型支持角色生成中的“一人分飾多角”,通過多主體一致性能力保持同一角色在不同場景中的特征穩(wěn)定;分鏡生成可將人物自然融入場景,并通過交互式編輯精準調(diào)整人物位置和大小。

剛剛,阿里發(fā)了款能“捏臉”的新模型

剛剛,阿里發(fā)了款能“捏臉”的新模型

在電商廣告場景,模型支持從單張模特圖一鍵裂變出多張不同角度、不同場景的展示圖,并可按電商上架格式自動輸出場景圖、特寫圖、尺寸圖和賣點圖等套圖組合。

剛剛,阿里發(fā)了款能“捏臉”的新模型

顏色變裝(通過調(diào)色盤功能切換服裝色彩)、四季拼圖生成以及“拯救廢片”(消除閉眼)等功能,可滿足小紅書、B站等社交平臺的內(nèi)容創(chuàng)作需求。OOTD穿搭生成和不露臉服裝替換也在演示中效果穩(wěn)定。

剛剛,阿里發(fā)了款能“捏臉”的新模型剛剛,阿里發(fā)了款能“捏臉”的新模型

該模型可生成圖文并茂的知識卡片和教育插畫,內(nèi)容創(chuàng)作方向支持B站封面、小紅書封面、種草圖文等常見內(nèi)容格式。

剛剛,阿里發(fā)了款能“捏臉”的新模型

結語:圖像模型正在走向“可控化”和“生產(chǎn)力工具”

從Wan2.7-Image的技術突破中可見,圖像模型的技術競賽已轉(zhuǎn)向更深層的維度。其核心價值不再局限于“畫得像不像”的表象還原,而是能否精準控制人物形象、顏色搭配和畫面布局,能否深入理解文本與語義內(nèi)涵,能否無縫融入設計、電商、內(nèi)容創(chuàng)作等工作流程。

隨著長文本渲染能力的突破、交互式編輯的靈活操作以及多主體風格一致性的顯著提升,圖像模型正從輔助性的“創(chuàng)意工具”蛻變成為驅(qū)動產(chǎn)業(yè)效率的“高效生產(chǎn)力工具”。“千人千面”和“調(diào)色盤”這類能力,也意味著AI生成內(nèi)容開始走向個性化與可控化。