另类专区欧美专区一区,av影片一区二区在线观看,欧美性色欧美性A免费观看

智東西（公眾號(hào)：zhidxcom）
作者 | ZeR0
編輯 | 漠影

智東西5月15日?qǐng)?bào)道，騰訊文生圖負(fù)責(zé)人蘆清林周二宣布騰訊混元文生圖大模型全面開(kāi)源。

該模型已在Hugging Face平臺(tái)及Github上發(fā)布，包含模型權(quán)重、推理代碼、模型算法等完整模型，與騰訊混元文生圖產(chǎn)品最新版本完全一致，基于騰訊海量應(yīng)用場(chǎng)景訓(xùn)練，可供企業(yè)與個(gè)人開(kāi)發(fā)者免費(fèi)商用。

這是業(yè)內(nèi)首個(gè)中文原生的DiT架構(gòu)文生圖開(kāi)源模型，支持中英文雙語(yǔ)輸入及理解，參數(shù)量15億。

跟其他業(yè)界開(kāi)源模型對(duì)比，混元DiT在多個(gè)維度上無(wú)短板，并在美學(xué)和清晰度維度上具有一定優(yōu)勢(shì)。其綜合指標(biāo)在所有開(kāi)源和閉源算法中排名第三，實(shí)現(xiàn)開(kāi)源版本中的SOTA。

評(píng)測(cè)數(shù)據(jù)顯示，騰訊混元文生圖模型效果遠(yuǎn)超開(kāi)源的Stable Diffusion模型及其他開(kāi)源文生圖模型，是目前效果最好的開(kāi)源文生圖模型；整體能力屬于國(guó)際領(lǐng)先水平。

升級(jí)后的混元文生圖大模型采用了與Sora、Stable Diffusion 3一致的DiT架構(gòu)，可支持文生圖，也可作為視頻等多模態(tài)視覺(jué)生成的基礎(chǔ)。

混元文生圖整體模型主要由3個(gè)部分組成：a）多模態(tài)大語(yǔ)言模型，支持用戶(hù)文本改寫(xiě)以及多輪繪畫(huà)；b）雙語(yǔ)文本編碼器，構(gòu)建中英文雙語(yǔ)CLIP理解文本，同時(shí)具備雙語(yǔ)生成能力；c）生成模型，從U-Net升級(jí)為DiT，采用隱空間模型，生成多分辨率的圖像，確保圖像整體的穩(wěn)定結(jié)構(gòu)。

GitHub項(xiàng)目頁(yè)面建議使用具有32GB內(nèi)存的GPU運(yùn)行模型，以獲得更好的生成質(zhì)量。

在蘆清林看來(lái)，此前開(kāi)源與閉源文生圖模型的差距逐漸拉大，他希望騰訊混元文生圖大模型的開(kāi)源后能夠?qū)⒉罹嗫s小。

騰訊混元已面向社會(huì)全面開(kāi)放，企業(yè)級(jí)用戶(hù)或開(kāi)發(fā)者可通過(guò)騰訊云使用騰訊混元大模型，個(gè)人用戶(hù)可通過(guò)網(wǎng)頁(yè)端與小程序體現(xiàn)騰訊混元的能力。

官網(wǎng)：http://dit.hunyuan.tencent.com/

代碼：https://github.com/Tencent/HunyuanDiT

模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDi

論文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

一、更懂中文的開(kāi)源文生圖大模型：基于DiT架構(gòu)，多輪對(duì)話(huà)能力增強(qiáng)

過(guò)去，視覺(jué)生成擴(kuò)散模型主要基于U-Net架構(gòu)，但隨著參數(shù)量提升，基于Transformer架構(gòu)的擴(kuò)散模型（DiT）展現(xiàn)出了更好的擴(kuò)展性。

U-Net只懂圖片，遇到難題易卡殼，而Transfomer能懂不同模態(tài)信息，參數(shù)/數(shù)據(jù)量越多越厲害。DiT是結(jié)合擴(kuò)散模型和Transformer架構(gòu)的創(chuàng)新技術(shù)，有高擴(kuò)展和低損失的優(yōu)勢(shì)，更易擴(kuò)展，有助于提升模型的生成質(zhì)量及效率。

該架構(gòu)通過(guò)Transformer block堆疊，可極大提升模型性能，并最大程度緩解U-Net下采樣引入的信息壓縮，提升圖像生成精度和創(chuàng)造力。

據(jù)騰訊文生圖負(fù)責(zé)人蘆清林分享，在原始DiT架構(gòu)之上，混元DiT有三大升級(jí)：

一是強(qiáng)大建模能力，將文生圖架構(gòu)從自研U-Net架構(gòu)升級(jí)為更大參數(shù)的DiT模型，提升圖像質(zhì)量和擴(kuò)展能力，讓DiT架構(gòu)具備了長(zhǎng)文本理解能力，支持最長(zhǎng)256個(gè)字符的圖片生成指令；同時(shí)利用多模態(tài)大語(yǔ)言模型，對(duì)簡(jiǎn)單/抽象的用戶(hù)指令文本進(jìn)行強(qiáng)化，轉(zhuǎn)寫(xiě)成更豐富/具象的畫(huà)面文本描述，最終提升文生圖的生成效果。

二是增加中文原生的理解能力，自主訓(xùn)練中文原生文本編碼器，讓中文語(yǔ)義理解能力更強(qiáng)，對(duì)中文新概念學(xué)習(xí)速度更快，對(duì)中文認(rèn)知更深刻，同時(shí)讓模型更細(xì)致地分辨不同粒度文本信息。

三是增強(qiáng)多輪對(duì)話(huà)能力，與自研大語(yǔ)言模型結(jié)合，讓模型具備上下文連貫的理解能力，同時(shí)通過(guò)技術(shù)手段控制同一話(huà)題與主體下圖片主體的一致性。

1、升級(jí)一：核心算子升級(jí)，從UNet升級(jí)到DiT

學(xué)術(shù)界去年提出基礎(chǔ)DiT架構(gòu)，混元DiT在此之上進(jìn)一步升級(jí)，有更強(qiáng)語(yǔ)義編碼，針對(duì)更長(zhǎng)、更復(fù)雜的文本能理解得更準(zhǔn)確，原生中英雙語(yǔ)支持，尺寸更易擴(kuò)展。

混元DiT架構(gòu)具備更穩(wěn)定的訓(xùn)練過(guò)程，通過(guò)優(yōu)化模型結(jié)構(gòu)，支持?jǐn)?shù)十億參數(shù)和1024分辨率的模型穩(wěn)定訓(xùn)練。它還擁有更好的生態(tài)兼容性，可靈活支持ControlNet、LoRA、IP-Adapter、Photomaker等Stable Diffusion社區(qū)的插件。

同時(shí)，該架構(gòu)支持輸出多分辨率圖像，提升不同分辨率生成圖像的質(zhì)量，包括1:1、4:3、2:4、16:9、9:16等多種分辨率，支持768~1280分辨率圖像生成。

2、升級(jí)二：語(yǔ)言編碼器升級(jí)-支持原生中文理解能力

混元文生圖是首個(gè)中文原生的DiT模型，具備中英文雙語(yǔ)理解及生成能力，在古詩(shī)詞、俚語(yǔ)、傳統(tǒng)建筑、中華美食等中國(guó)元素生成上表現(xiàn)出色。

通過(guò)語(yǔ)言編碼器升級(jí)，混元DiT架構(gòu)對(duì)中文的認(rèn)知更加深刻，相比核心數(shù)據(jù)集以英文為主的Stable Diffusion等主流開(kāi)源模型，能更好理解中國(guó)的語(yǔ)言、美食、文化、習(xí)俗、地標(biāo)等。

比如在生成昆曲藝術(shù)家表演的圖像時(shí)，混元文生圖在理解昆曲藝術(shù)方面明顯比其他國(guó)外主流文生圖模型更準(zhǔn)確。

升級(jí)的混元文生圖能更細(xì)致地分辨不同信息。其訓(xùn)練方式是把數(shù)據(jù)做成正負(fù)樣本，對(duì)比學(xué)習(xí)損失，讓模型學(xué)會(huì)什么是對(duì)、什么是錯(cuò)，做到理解和表達(dá)更細(xì)致的屬性。

比如輸入一段涉及大量細(xì)節(jié)描述的文字，混元文生圖能夠精細(xì)理解文字要求，生成符合各種細(xì)節(jié)的圖像。

3、升級(jí)點(diǎn)3：多輪繪圖和對(duì)話(huà)能力增強(qiáng)

混元文生圖在算法層面創(chuàng)新實(shí)現(xiàn)了多輪生圖和對(duì)話(huà)能力，可在一張初始生成圖片的基礎(chǔ)上通過(guò)自然語(yǔ)言描述進(jìn)行調(diào)整，達(dá)到更滿(mǎn)意的效果。

比如起初輸入指令“生成一朵長(zhǎng)在森林中的白色玫瑰”，再要求“改成百合花”、“改成粉色”、“改成動(dòng)漫風(fēng)格”；起初輸入指令“畫(huà)一只色彩斑斕的折紙小狐貍折紙”，再要求“把背景換成沙漠”、“把狐貍換成小狗”。

模型交互難度進(jìn)一步降低，用戶(hù)無(wú)需進(jìn)行復(fù)雜生圖提示詞指令編寫(xiě)?；煸纳鷪D能實(shí)現(xiàn)多輪圖文指令理解，支持多輪交互式圖片編輯生成，支持十輪以上的對(duì)話(huà)。

二、去年7月投入DiT研發(fā)，從零開(kāi)始訓(xùn)練，全鏈路自研

騰訊混元團(tuán)隊(duì)認(rèn)為基于Transformer架構(gòu)的擴(kuò)散模型（如DiT）具有更大的可擴(kuò)展性，很可能成為文生圖、生視頻、生3D等多模態(tài)視覺(jué)生成的統(tǒng)一架構(gòu)。

2023年7月起，業(yè)界研究DiT的團(tuán)隊(duì)還不多，當(dāng)時(shí)混元文生圖就明確了基于DiT架構(gòu)的模型方向，并啟動(dòng)了長(zhǎng)達(dá)半年的研發(fā)、優(yōu)化、打磨。今年年初，混元文生圖大模型已全面升級(jí)為DiT架構(gòu)，并在多個(gè)評(píng)測(cè)維度超越了基于U-Net的文生圖模型。

數(shù)據(jù)顯示，在通用場(chǎng)景下，基于DiT視覺(jué)生成模型的文生圖效果，相比前代視覺(jué)生成整體效果提升20%，畫(huà)面真實(shí)感、質(zhì)感與細(xì)節(jié)、空間構(gòu)圖等全面提升，并在細(xì)粒度、多輪對(duì)話(huà)等場(chǎng)景下效果提升明顯。

這里面存在極大難點(diǎn)：首先，Transformer架構(gòu)本身并不具備用戶(hù)語(yǔ)言生圖能力；其次，DiT本身對(duì)算力和數(shù)據(jù)量要求極高，文生圖領(lǐng)域缺乏高質(zhì)量的圖片描述與圖像樣本訓(xùn)練數(shù)據(jù)。

騰訊混元團(tuán)隊(duì)在算法層面優(yōu)化了模型的長(zhǎng)文本理解能力，能夠支持最多256個(gè)字符的內(nèi)容輸入（業(yè)界主流是77個(gè)），從零開(kāi)始訓(xùn)練，做到全鏈路自研，在模型算法、訓(xùn)練數(shù)據(jù)集與工程加速多個(gè)層面進(jìn)行了系統(tǒng)化的創(chuàng)新研發(fā)。

針對(duì)文生圖訓(xùn)練數(shù)據(jù)缺乏、普遍質(zhì)量不高的問(wèn)題，騰訊混元團(tuán)隊(duì)通過(guò)優(yōu)化圖片描述能力、樣本評(píng)估機(jī)制等提升文生圖訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量，同時(shí)利用多模態(tài)大語(yǔ)言模型強(qiáng)化與豐富用戶(hù)指令文本，從而提升最終文生圖效果。

混元文生圖大模型基于騰訊自研的Angel機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行訓(xùn)練，大幅提升了訓(xùn)練效率。為了更好地提升模型訓(xùn)練與運(yùn)行效率，提升算力資源利用率，團(tuán)隊(duì)為該模型構(gòu)建專(zhuān)屬工程加速工具庫(kù)。

三、開(kāi)源領(lǐng)域自主可控，填補(bǔ)中文原生DiT文生圖架構(gòu)空白

為什么選擇在這個(gè)節(jié)點(diǎn)開(kāi)源？在媒體交流環(huán)節(jié)，蘆清林談到這主要出于兩點(diǎn)考慮，一是在業(yè)界投入DiT研發(fā)的時(shí)間早，經(jīng)歷長(zhǎng)時(shí)間的打磨，成熟度達(dá)到開(kāi)源條件；二是看到業(yè)界需要開(kāi)源中文原生DiT文生圖模型。

過(guò)去業(yè)界文生圖大多基于Stable Diffusion，開(kāi)源社區(qū)有數(shù)量龐大的開(kāi)發(fā)者和創(chuàng)作者，基于Stable Diffusion精調(diào)出了豐富的垂直場(chǎng)景模型，同時(shí)衍生出大量國(guó)內(nèi)外模型分享與流通社區(qū)。

主要的文生圖開(kāi)源社區(qū)依然主要基于U-Net架構(gòu)模型進(jìn)行開(kāi)發(fā)，仍未有比較先進(jìn)的DiT架構(gòu)充分開(kāi)源。而無(wú)論Stable Diffusion 3還是Sora都采用DiT架構(gòu)來(lái)構(gòu)建下一代圖像/視頻生成能力。開(kāi)源社區(qū)缺乏先進(jìn)/成熟的DiT架構(gòu)開(kāi)源利用，業(yè)界也難以快速吸收學(xué)術(shù)界大模型前沿技術(shù)。

中文原生的DiT文生圖架構(gòu)同樣是缺失的。在中文場(chǎng)景，很多團(tuán)隊(duì)基于翻譯+英文開(kāi)源Stable Diffusion模型，導(dǎo)致在中文特有的場(chǎng)景、人物、事物上表現(xiàn)比較差。

還有一些團(tuán)隊(duì)基于少量的中文數(shù)據(jù)在一些特殊的場(chǎng)景做了微調(diào)，讓模型去適配某個(gè)特殊的領(lǐng)域或者風(fēng)格。但直接用英文預(yù)訓(xùn)練的模型+中文小數(shù)據(jù)微調(diào)也存在對(duì)中文理解不足和不通用的問(wèn)題。

即使國(guó)外有些論文公開(kāi)，這些架構(gòu)更多偏英文，對(duì)中文理解差，而且沒(méi)在大眾中做驗(yàn)證，在中文應(yīng)用場(chǎng)景受限。由中文翻譯成英文可能會(huì)導(dǎo)致出圖有歧義，比如中文“一只很熱的狗在餐廳”翻譯成英文“A very hot dog in the restaurant”就變味了，會(huì)生成“一盤(pán)熱狗（hot dog）”圖。

而開(kāi)源DiT研發(fā)成果，意味著全球個(gè)人和企業(yè)開(kāi)發(fā)者都能直接都能直接用上了最先進(jìn)的架構(gòu)，不用自己重新研發(fā)和訓(xùn)練，大大降低了AI使用門(mén)檻，也節(jié)省了人力物力。

基于騰訊此次開(kāi)源的文生圖模型，開(kāi)發(fā)者及企業(yè)無(wú)需重頭訓(xùn)練，即可直接用于推理，并可基于混元文生圖打造專(zhuān)屬的AI繪畫(huà)應(yīng)用及服務(wù)，能夠節(jié)約大量人力及算力。透明公開(kāi)的算法也讓模型的安全性和可靠性得到保障。

基于開(kāi)放的混元文生圖基礎(chǔ)模型，還有利于在以Stable Diffusion等為主的英文開(kāi)源社區(qū)之外豐富以中文為主的文生圖開(kāi)源生態(tài)，形成更多樣的原生插件，推動(dòng)中文文生圖技術(shù)研發(fā)和應(yīng)用。

騰訊已開(kāi)源超170個(gè)優(yōu)質(zhì)項(xiàng)目，均來(lái)源于騰訊真實(shí)業(yè)務(wù)場(chǎng)景，覆蓋微信、騰訊云、騰訊游戲、騰訊AI、騰訊安全等核心業(yè)務(wù)板塊，目前在Github上已累計(jì)獲得超47萬(wàn)開(kāi)發(fā)者關(guān)注及點(diǎn)贊。

結(jié)語(yǔ)：全面開(kāi)源，惠及行業(yè)，已在探索更大參數(shù)量的模型

此前的開(kāi)源生態(tài)、數(shù)據(jù)集均以英文為主，建設(shè)中文原生的文生圖開(kāi)源模型、中文的文生圖開(kāi)源生態(tài)，是十分必要的。

此次把最新一代模型完整開(kāi)源出來(lái)，騰訊混元團(tuán)隊(duì)希望與行業(yè)共享在文生圖領(lǐng)域的實(shí)踐經(jīng)驗(yàn)和研究成果，豐富中文文生圖開(kāi)源生態(tài)，共建下一代視覺(jué)生成開(kāi)源生態(tài)，推動(dòng)大模型行業(yè)加速發(fā)展。

蘆清林分享說(shuō)，混元文生圖的后續(xù)優(yōu)化方向包括提升技術(shù)能力和在更廣泛的場(chǎng)景中應(yīng)用。

騰訊混元文生圖能力已廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項(xiàng)業(yè)務(wù)及場(chǎng)景中。今年初，騰訊廣告基于騰訊混元大模型發(fā)布了一站式AI廣告創(chuàng)意平臺(tái)騰訊廣告妙思?！堆胍曅侣劇贰缎氯A日?qǐng)?bào)》等20余家媒體也已經(jīng)將騰訊混元文生圖用于新聞內(nèi)容生產(chǎn)。

據(jù)蘆清林透露，目前混元文生圖大模型的參數(shù)規(guī)模是15億，同時(shí)團(tuán)隊(duì)已經(jīng)在探索參數(shù)量更大的模型。他坦言模型在寫(xiě)中文文字的效果上還沒(méi)做到非常成熟，等做好后也會(huì)拿出來(lái)分享。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、更懂中文的開(kāi)源文生圖大模型：基于DiT架構(gòu)，多輪對(duì)話(huà)能力增強(qiáng)

二、去年7月投入DiT研發(fā)，從零開(kāi)始訓(xùn)練，全鏈路自研

三、開(kāi)源領(lǐng)域自主可控，填補(bǔ)中文原生DiT文生圖架構(gòu)空白

結(jié)語(yǔ)：全面開(kāi)源，惠及行業(yè)，已在探索更大參數(shù)量的模型

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、更懂中文的開(kāi)源文生圖大模型：基于DiT架構(gòu)，多輪對(duì)話(huà)能力增強(qiáng)

二、去年7月投入DiT研發(fā)，從零開(kāi)始訓(xùn)練，全鏈路自研

三、開(kāi)源領(lǐng)域自主可控，填補(bǔ)中文原生DiT文生圖架構(gòu)空白

結(jié)語(yǔ)：全面開(kāi)源，惠及行業(yè)，已在探索更大參數(shù)量的模型

相關(guān)推薦

一、更懂中文的開(kāi)源文生圖大模型：基于DiT架構(gòu)，多輪對(duì)話(huà)能力增強(qiáng)

二、去年7月投入DiT研發(fā)，從零開(kāi)始訓(xùn)練，全鏈路自研

三、開(kāi)源領(lǐng)域自主可控，填補(bǔ)中文原生DiT文生圖架構(gòu)空白

結(jié)語(yǔ)：全面開(kāi)源，惠及行業(yè)，已在探索更大參數(shù)量的模型