智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西5月15日?qǐng)?bào)道,騰訊文生圖負(fù)責(zé)人蘆清林周二宣布騰訊混元文生圖大模型全面開(kāi)源。

該模型已在Hugging Face平臺(tái)及Github上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,與騰訊混元文生圖產(chǎn)品最新版本完全一致,基于騰訊海量應(yīng)用場(chǎng)景訓(xùn)練,可供企業(yè)與個(gè)人開(kāi)發(fā)者免費(fèi)商用。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

這是業(yè)內(nèi)首個(gè)中文原生DiT架構(gòu)文生圖開(kāi)源模型,支持中英文雙語(yǔ)輸入及理解,參數(shù)量15億。

跟其他業(yè)界開(kāi)源模型對(duì)比,混元DiT在多個(gè)維度上無(wú)短板,并在美學(xué)和清晰度維度上具有一定優(yōu)勢(shì)。其綜合指標(biāo)在所有開(kāi)源和閉源算法中排名第三,實(shí)現(xiàn)開(kāi)源版本中的SOTA。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

評(píng)測(cè)數(shù)據(jù)顯示,騰訊混元文生圖模型效果遠(yuǎn)超開(kāi)源的Stable Diffusion模型及其他開(kāi)源文生圖模型,是目前效果最好的開(kāi)源文生圖模型;整體能力屬于國(guó)際領(lǐng)先水平。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

升級(jí)后的混元文生圖大模型采用了與Sora、Stable Diffusion 3一致的DiT架構(gòu),可支持文生圖,也可作為視頻等多模態(tài)視覺(jué)生成的基礎(chǔ)。

混元文生圖整體模型主要由3個(gè)部分組成:a)多模態(tài)大語(yǔ)言模型,支持用戶(hù)文本改寫(xiě)以及多輪繪畫(huà);b)雙語(yǔ)文本編碼器,構(gòu)建中英文雙語(yǔ)CLIP理解文本,同時(shí)具備雙語(yǔ)生成能力;c)生成模型,從U-Net升級(jí)為DiT,采用隱空間模型,生成多分辨率的圖像,確保圖像整體的穩(wěn)定結(jié)構(gòu)。

GitHub項(xiàng)目頁(yè)面建議使用具有32GB內(nèi)存的GPU運(yùn)行模型,以獲得更好的生成質(zhì)量。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

在蘆清林看來(lái),此前開(kāi)源與閉源文生圖模型的差距逐漸拉大,他希望騰訊混元文生圖大模型的開(kāi)源后能夠?qū)⒉罹嗫s小。

騰訊混元已面向社會(huì)全面開(kāi)放,企業(yè)級(jí)用戶(hù)或開(kāi)發(fā)者可通過(guò)騰訊云使用騰訊混元大模型,個(gè)人用戶(hù)可通過(guò)網(wǎng)頁(yè)端與小程序體現(xiàn)騰訊混元的能力。

官網(wǎng):http://dit.hunyuan.tencent.com/

代碼:https://github.com/Tencent/HunyuanDiT

模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDi

論文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

一、更懂中文的開(kāi)源文生圖大模型:基于DiT架構(gòu),多輪對(duì)話(huà)能力增強(qiáng)

過(guò)去,視覺(jué)生成擴(kuò)散模型主要基于U-Net架構(gòu),但隨著參數(shù)量提升,基于Transformer架構(gòu)的擴(kuò)散模型(DiT)展現(xiàn)出了更好的擴(kuò)展性。

U-Net只懂圖片,遇到難題易卡殼,而Transfomer能懂不同模態(tài)信息,參數(shù)/數(shù)據(jù)量越多越厲害。DiT是結(jié)合擴(kuò)散模型和Transformer架構(gòu)的創(chuàng)新技術(shù),有高擴(kuò)展和低損失的優(yōu)勢(shì),更易擴(kuò)展,有助于提升模型的生成質(zhì)量及效率。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

該架構(gòu)通過(guò)Transformer block堆疊,可極大提升模型性能,并最大程度緩解U-Net下采樣引入的信息壓縮,提升圖像生成精度和創(chuàng)造力。

據(jù)騰訊文生圖負(fù)責(zé)人蘆清林分享,在原始DiT架構(gòu)之上,混元DiT有三大升級(jí):

一是強(qiáng)大建模能力,將文生圖架構(gòu)從自研U-Net架構(gòu)升級(jí)為更大參數(shù)的DiT模型,提升圖像質(zhì)量和擴(kuò)展能力,讓DiT架構(gòu)具備了長(zhǎng)文本理解能力,支持最長(zhǎng)256個(gè)字符的圖片生成指令;同時(shí)利用多模態(tài)大語(yǔ)言模型,對(duì)簡(jiǎn)單/抽象的用戶(hù)指令文本進(jìn)行強(qiáng)化,轉(zhuǎn)寫(xiě)成更豐富/具象的畫(huà)面文本描述,最終提升文生圖的生成效果。

二是增加中文原生的理解能力,自主訓(xùn)練中文原生文本編碼器,讓中文語(yǔ)義理解能力更強(qiáng),對(duì)中文新概念學(xué)習(xí)速度更快,對(duì)中文認(rèn)知更深刻,同時(shí)讓模型更細(xì)致地分辨不同粒度文本信息。

三是增強(qiáng)多輪對(duì)話(huà)能力,與自研大語(yǔ)言模型結(jié)合,讓模型具備上下文連貫的理解能力,同時(shí)通過(guò)技術(shù)手段控制同一話(huà)題與主體下圖片主體的一致性。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

1、升級(jí)一:核心算子升級(jí),從UNet升級(jí)到DiT

學(xué)術(shù)界去年提出基礎(chǔ)DiT架構(gòu),混元DiT在此之上進(jìn)一步升級(jí),有更強(qiáng)語(yǔ)義編碼,針對(duì)更長(zhǎng)、更復(fù)雜的文本能理解得更準(zhǔn)確,原生中英雙語(yǔ)支持,尺寸更易擴(kuò)展。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

混元DiT架構(gòu)具備更穩(wěn)定的訓(xùn)練過(guò)程,通過(guò)優(yōu)化模型結(jié)構(gòu),支持?jǐn)?shù)十億參數(shù)和1024分辨率的模型穩(wěn)定訓(xùn)練。它還擁有更好的生態(tài)兼容性,可靈活支持ControlNet、LoRA、IP-Adapter、Photomaker等Stable Diffusion社區(qū)的插件。

同時(shí),該架構(gòu)支持輸出多分辨率圖像,提升不同分辨率生成圖像的質(zhì)量,包括1:1、4:3、2:4、16:9、9:16等多種分辨率,支持768~1280分辨率圖像生成。

2、升級(jí)二:語(yǔ)言編碼器升級(jí)-支持原生中文理解能力

混元文生圖是首個(gè)中文原生的DiT模型,具備中英文雙語(yǔ)理解及生成能力,在古詩(shī)詞、俚語(yǔ)、傳統(tǒng)建筑、中華美食等中國(guó)元素生成上表現(xiàn)出色。

通過(guò)語(yǔ)言編碼器升級(jí),混元DiT架構(gòu)對(duì)中文的認(rèn)知更加深刻,相比核心數(shù)據(jù)集以英文為主的Stable Diffusion等主流開(kāi)源模型,能更好理解中國(guó)的語(yǔ)言、美食、文化、習(xí)俗、地標(biāo)等。

比如在生成昆曲藝術(shù)家表演的圖像時(shí),混元文生圖在理解昆曲藝術(shù)方面明顯比其他國(guó)外主流文生圖模型更準(zhǔn)確。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

升級(jí)的混元文生圖能更細(xì)致地分辨不同信息。其訓(xùn)練方式是把數(shù)據(jù)做成正負(fù)樣本,對(duì)比學(xué)習(xí)損失,讓模型學(xué)會(huì)什么是對(duì)、什么是錯(cuò),做到理解和表達(dá)更細(xì)致的屬性。

比如輸入一段涉及大量細(xì)節(jié)描述的文字,混元文生圖能夠精細(xì)理解文字要求,生成符合各種細(xì)節(jié)的圖像。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

3、升級(jí)點(diǎn)3:多輪繪圖和對(duì)話(huà)能力增強(qiáng)

混元文生圖在算法層面創(chuàng)新實(shí)現(xiàn)了多輪生圖和對(duì)話(huà)能力,可在一張初始生成圖片的基礎(chǔ)上通過(guò)自然語(yǔ)言描述進(jìn)行調(diào)整,達(dá)到更滿(mǎn)意的效果。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

比如起初輸入指令“生成一朵長(zhǎng)在森林中的白色玫瑰”,再要求“改成百合花”、“改成粉色”、“改成動(dòng)漫風(fēng)格”;起初輸入指令“畫(huà)一只色彩斑斕的折紙小狐貍折紙”,再要求“把背景換成沙漠”、“把狐貍換成小狗”。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

模型交互難度進(jìn)一步降低,用戶(hù)無(wú)需進(jìn)行復(fù)雜生圖提示詞指令編寫(xiě)?;煸纳鷪D能實(shí)現(xiàn)多輪圖文指令理解,支持多輪交互式圖片編輯生成,支持十輪以上的對(duì)話(huà)。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

二、去年7月投入DiT研發(fā),從零開(kāi)始訓(xùn)練,全鏈路自研

騰訊混元團(tuán)隊(duì)認(rèn)為基于Transformer架構(gòu)的擴(kuò)散模型(如DiT)具有更大的可擴(kuò)展性,很可能成為文生圖、生視頻、生3D等多模態(tài)視覺(jué)生成的統(tǒng)一架構(gòu)。

2023年7月起,業(yè)界研究DiT的團(tuán)隊(duì)還不多,當(dāng)時(shí)混元文生圖就明確了基于DiT架構(gòu)的模型方向,并啟動(dòng)了長(zhǎng)達(dá)半年的研發(fā)、優(yōu)化、打磨。今年年初,混元文生圖大模型已全面升級(jí)為DiT架構(gòu),并在多個(gè)評(píng)測(cè)維度超越了基于U-Net的文生圖模型。

數(shù)據(jù)顯示,在通用場(chǎng)景下,基于DiT視覺(jué)生成模型的文生圖效果,相比前代視覺(jué)生成整體效果提升20%,畫(huà)面真實(shí)感、質(zhì)感與細(xì)節(jié)、空間構(gòu)圖等全面提升,并在細(xì)粒度、多輪對(duì)話(huà)等場(chǎng)景下效果提升明顯。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

這里面存在極大難點(diǎn):首先,Transformer架構(gòu)本身并不具備用戶(hù)語(yǔ)言生圖能力;其次,DiT本身對(duì)算力和數(shù)據(jù)量要求極高,文生圖領(lǐng)域缺乏高質(zhì)量的圖片描述與圖像樣本訓(xùn)練數(shù)據(jù)。

騰訊混元團(tuán)隊(duì)在算法層面優(yōu)化了模型的長(zhǎng)文本理解能力,能夠支持最多256個(gè)字符的內(nèi)容輸入(業(yè)界主流是77個(gè)),從零開(kāi)始訓(xùn)練,做到全鏈路自研,在模型算法、訓(xùn)練數(shù)據(jù)集與工程加速多個(gè)層面進(jìn)行了系統(tǒng)化的創(chuàng)新研發(fā)。

針對(duì)文生圖訓(xùn)練數(shù)據(jù)缺乏、普遍質(zhì)量不高的問(wèn)題,騰訊混元團(tuán)隊(duì)通過(guò)優(yōu)化圖片描述能力、樣本評(píng)估機(jī)制等提升文生圖訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量,同時(shí)利用多模態(tài)大語(yǔ)言模型強(qiáng)化與豐富用戶(hù)指令文本,從而提升最終文生圖效果。

混元文生圖大模型基于騰訊自研的Angel機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行訓(xùn)練,大幅提升了訓(xùn)練效率。為了更好地提升模型訓(xùn)練與運(yùn)行效率,提升算力資源利用率,團(tuán)隊(duì)為該模型構(gòu)建專(zhuān)屬工程加速工具庫(kù)。

三、開(kāi)源領(lǐng)域自主可控,填補(bǔ)中文原生DiT文生圖架構(gòu)空白

為什么選擇在這個(gè)節(jié)點(diǎn)開(kāi)源?在媒體交流環(huán)節(jié),蘆清林談到這主要出于兩點(diǎn)考慮,一是在業(yè)界投入DiT研發(fā)的時(shí)間早,經(jīng)歷長(zhǎng)時(shí)間的打磨,成熟度達(dá)到開(kāi)源條件;二是看到業(yè)界需要開(kāi)源中文原生DiT文生圖模型。

過(guò)去業(yè)界文生圖大多基于Stable Diffusion,開(kāi)源社區(qū)有數(shù)量龐大的開(kāi)發(fā)者和創(chuàng)作者,基于Stable Diffusion精調(diào)出了豐富的垂直場(chǎng)景模型,同時(shí)衍生出大量國(guó)內(nèi)外模型分享與流通社區(qū)。

主要的文生圖開(kāi)源社區(qū)依然主要基于U-Net架構(gòu)模型進(jìn)行開(kāi)發(fā),仍未有比較先進(jìn)的DiT架構(gòu)充分開(kāi)源。而無(wú)論Stable Diffusion 3還是Sora都采用DiT架構(gòu)來(lái)構(gòu)建下一代圖像/視頻生成能力。開(kāi)源社區(qū)缺乏先進(jìn)/成熟的DiT架構(gòu)開(kāi)源利用,業(yè)界也難以快速吸收學(xué)術(shù)界大模型前沿技術(shù)。

中文原生的DiT文生圖架構(gòu)同樣是缺失的。在中文場(chǎng)景,很多團(tuán)隊(duì)基于翻譯+英文開(kāi)源Stable Diffusion模型,導(dǎo)致在中文特有的場(chǎng)景、人物、事物上表現(xiàn)比較差。

還有一些團(tuán)隊(duì)基于少量的中文數(shù)據(jù)在一些特殊的場(chǎng)景做了微調(diào),讓模型去適配某個(gè)特殊的領(lǐng)域或者風(fēng)格。但直接用英文預(yù)訓(xùn)練的模型+中文小數(shù)據(jù)微調(diào)也存在對(duì)中文理解不足和不通用的問(wèn)題。

即使國(guó)外有些論文公開(kāi),這些架構(gòu)更多偏英文,對(duì)中文理解差,而且沒(méi)在大眾中做驗(yàn)證,在中文應(yīng)用場(chǎng)景受限。由中文翻譯成英文可能會(huì)導(dǎo)致出圖有歧義,比如中文“一只很熱的狗在餐廳”翻譯成英文“A very hot dog in the restaurant”就變味了,會(huì)生成“一盤(pán)熱狗(hot dog)”圖。

騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,可免費(fèi)商用

而開(kāi)源DiT研發(fā)成果,意味著全球個(gè)人和企業(yè)開(kāi)發(fā)者都能直接都能直接用上了最先進(jìn)的架構(gòu),不用自己重新研發(fā)和訓(xùn)練,大大降低了AI使用門(mén)檻,也節(jié)省了人力物力。

基于騰訊此次開(kāi)源的文生圖模型,開(kāi)發(fā)者及企業(yè)無(wú)需重頭訓(xùn)練,即可直接用于推理,并可基于混元文生圖打造專(zhuān)屬的AI繪畫(huà)應(yīng)用及服務(wù),能夠節(jié)約大量人力及算力。透明公開(kāi)的算法也讓模型的安全性和可靠性得到保障。

基于開(kāi)放的混元文生圖基礎(chǔ)模型,還有利于在以Stable Diffusion等為主的英文開(kāi)源社區(qū)之外豐富以中文為主的文生圖開(kāi)源生態(tài),形成更多樣的原生插件,推動(dòng)中文文生圖技術(shù)研發(fā)和應(yīng)用。

騰訊已開(kāi)源超170個(gè)優(yōu)質(zhì)項(xiàng)目,均來(lái)源于騰訊真實(shí)業(yè)務(wù)場(chǎng)景,覆蓋微信、騰訊云、騰訊游戲、騰訊AI、騰訊安全等核心業(yè)務(wù)板塊,目前在Github上已累計(jì)獲得超47萬(wàn)開(kāi)發(fā)者關(guān)注及點(diǎn)贊。

結(jié)語(yǔ):全面開(kāi)源,惠及行業(yè),已在探索更大參數(shù)量的模型

此前的開(kāi)源生態(tài)、數(shù)據(jù)集均以英文為主,建設(shè)中文原生的文生圖開(kāi)源模型、中文的文生圖開(kāi)源生態(tài),是十分必要的。

此次把最新一代模型完整開(kāi)源出來(lái),騰訊混元團(tuán)隊(duì)希望與行業(yè)共享在文生圖領(lǐng)域的實(shí)踐經(jīng)驗(yàn)和研究成果,豐富中文文生圖開(kāi)源生態(tài),共建下一代視覺(jué)生成開(kāi)源生態(tài),推動(dòng)大模型行業(yè)加速發(fā)展。

蘆清林分享說(shuō),混元文生圖的后續(xù)優(yōu)化方向包括提升技術(shù)能力和在更廣泛的場(chǎng)景中應(yīng)用。

騰訊混元文生圖能力已廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項(xiàng)業(yè)務(wù)及場(chǎng)景中。今年初,騰訊廣告基于騰訊混元大模型發(fā)布了一站式AI廣告創(chuàng)意平臺(tái)騰訊廣告妙思?!堆胍曅侣劇贰缎氯A日?qǐng)?bào)》等20余家媒體也已經(jīng)將騰訊混元文生圖用于新聞內(nèi)容生產(chǎn)。

據(jù)蘆清林透露,目前混元文生圖大模型的參數(shù)規(guī)模是15億,同時(shí)團(tuán)隊(duì)已經(jīng)在探索參數(shù)量更大的模型。他坦言模型在寫(xiě)中文文字的效果上還沒(méi)做到非常成熟,等做好后也會(huì)拿出來(lái)分享。