智東西(公眾號:zhidxcom)
作者 | 汪越
編輯 | 漠影

智東西12月3日報道,今天,騰訊混元大模型正式上線視頻生成能力,這是在騰訊文生文、文生圖、3D生成之后的最新技術進展。

據(jù)騰訊混元多模態(tài)生成技術負責人凱撒現(xiàn)場介紹,此次更新中,HunYuan-Video模型經(jīng)歷了四項核心改進:

1、引入超大規(guī)模數(shù)據(jù)處理系統(tǒng),提升視頻畫質;

2、采用多模態(tài)大語言模型(MLLM),優(yōu)化文本與圖像的對齊;

3、使用130億參數(shù)的全注意力機制(DIT)和雙模態(tài)ScalingLaw,增強時空建模與動態(tài)表現(xiàn);

4、采用自研3D VAE架構,提升圖像和視頻的重建能力。

與此同時,騰訊宣布將這款擁有130億參數(shù)規(guī)模的視頻生成模型開源。目前,該模型已在APP與Web端發(fā)布,其標準模式下的視頻生成大約需要120秒完成。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

一、騰訊HunYuan-Video模型技術升級與應用拓展

騰訊對HunYuan-Video模型進行了四項技術升級,涵蓋了數(shù)據(jù)處理系統(tǒng)、文本編碼、算力優(yōu)化等多個方面,提升了視頻生成的質量與可控性。此外,騰訊還通過微調、應用拓展及開源等措施進一步強化了模型的實際應用能力。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

1、四項關鍵技術升級

首先,模型采用了一個超大規(guī)模的數(shù)據(jù)處理系統(tǒng),能夠混合處理圖像與視頻數(shù)據(jù)。該系統(tǒng)包括文字檢測、轉景檢測、美學打分、動作檢測、準確度檢測等多個維度的功能,進一步提升視頻畫質。

其次,模型引入了多模態(tài)大語言模型(Decoder-only MLLM)作為文本編碼器,提升了復雜文本的理解能力,同時支持多語言理解。這一升級使得文本與圖像之間的對齊性得到了加強,能夠根據(jù)用戶提供的提示詞精確生成符合要求的視頻內容。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

另外,模型架構使用了130億參數(shù)的全注意力機制(DIT)和雙模態(tài)ScalingLaw,能夠在視頻生成中有效利用算力和數(shù)據(jù)資源,增強時空建模能力,并優(yōu)化視頻生成過程中的動態(tài)表現(xiàn)。此架構支持原生轉場,可實現(xiàn)了多個鏡頭間的自然切換,并保持主體一致性。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

最后,HunYuan-Video采用了自研的3D VAE架構,以提升圖像和視頻重建的能力,特別在小人臉和大幅運動場景下表現(xiàn)更加流暢。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

2、六大微調領域強化定向能力

在預訓練之后,騰訊混元大模型目前正在進行微調(SFT)工作,進一步增強其視頻生成的定向能力。HunYuan-Video在六個關鍵方面進行了專項微調,包括畫質優(yōu)化、高動態(tài)效果、藝術鏡頭、手寫文本、轉場效果以及連續(xù)動作的生成,其中一些調整仍在進行中。

3、Recaption模型與兩種生成模式

此外,HunYuan-Video還推出了Recaption模型,提供了兩種生成模式:常規(guī)模式和導演模式。

常規(guī)模式側重于簡化用戶輸入的文本,強化自我修正功能,適合專業(yè)用戶進行精細操作;而導演模式則側重于提升畫面質感,強化鏡頭運用、光影設計和構圖美學等方面的描述,適合非專業(yè)用戶使用。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

4、性能評估與同行對比

據(jù)了解,混元大模型經(jīng)過了千題盲測的定量分析,在總體排序中以41.3%的表現(xiàn)領先,優(yōu)于其他模型如CNTOpA(37.7%)、CNTopB(37.5%)和GEN-3(27.4%)。

在特定場景類別中,混元表現(xiàn)尤為突出,特別是在處理人文場景、人工場所以及多主體組合場景時,其生成效果優(yōu)于其他模型。在物品和動物/微生物類目中,混元也具有一定的優(yōu)勢,而在虛擬場景和自然場景的生成效果相對較弱。

從維度來看,混元運動質量的合格率排名第一,文本與視頻的對齊合格率位居第二。但從數(shù)據(jù)中可以看出,行業(yè)里的這些模型總體成功率都仍然較低,視頻生成的內容仍存在一定的優(yōu)化空間。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

5、視頻配音、配樂與數(shù)字人技術

除了基礎的視頻生成能力外,騰訊還拓展了HunYuan-Video的應用功能,推出了視頻配音與配樂功能,能夠為生成的視頻提供音效與背景音樂,進一步提升視頻的完整性和表現(xiàn)。

此外,騰訊還推出了驅動2D照片數(shù)字人的技術,支持通過語音、姿態(tài)和表情等多種驅動方式控制照片數(shù)字人的動態(tài)表現(xiàn),增強了生成內容的自然度、一致性和可控性。

騰訊混元上線文生視頻并開源,120秒內成片!還有提示詞建議

6、開源發(fā)布與生態(tài)支持

目前,騰訊宣布開源該視頻生成大模型已在Hugging Face平臺及Github上發(fā)布,包含模型權重、推理代碼、模型算法等完整模型,可供企業(yè)與個人開發(fā)者免費使用和開發(fā)生態(tài)插件。

騰訊混元視頻生成開源項目相關鏈接如下:

官網(wǎng):https://aivideo.hunyuan.tencent.com

代碼:https://github.com/Tencent/HunyuanVideo

模型:https://huggingface.co/tencent/HunyuanVideo

技術報告:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

二、騰訊混元的下一步:提高視頻分辨率和生成速度

騰訊混元多模態(tài)生成技術負責人凱撒談道,文生視頻與圖像生成在技術上有著密切聯(lián)系。雖然視頻生成建立在圖像生成的基礎上,但它對動態(tài)時序信息和場景變化處理能力提出了更高的要求。

視頻生成的一個核心挑戰(zhàn)是在快速變化的場景中維持圖像的連貫性和一致性。雖然圖像生成技術已經(jīng)取得了顯著的進步,但將其擴展至動態(tài)視頻生成仍面臨許多技術障礙。未來,圖像與視頻生成可能會趨向一體化發(fā)展,但這需要在多個技術領域取得突破。

此外,視頻主體的一致性問題也是關鍵所在。當前的技術能夠在較短時間(約5秒)內較好地保持一致性,但隨著視頻長度增加,尤其是在鏡頭切換時,保持主體一致性就會變得困難,這在行業(yè)內是一個普遍存在的難題。

關于視頻分辨率,目前大多數(shù)視頻生成技術能夠達到720P。騰訊混元計劃逐步提升這一標準,首先達到1080P,最終目標是4K乃至8K,以增強視覺體驗中的清晰度與細節(jié)表現(xiàn)力。

算力的提升對于提高視頻分辨率及加快生成速度至關重要。騰訊混元正在探索兩條主要路徑:一是通過改進算法來直接提升分辨率;二是利用放大算法來提高視頻質量。這兩方面的工作都在積極進行中。

目前,騰訊混元已經(jīng)開始內部測試其視頻生成功能,并計劃逐步推向市場應用。然而,要實現(xiàn)大規(guī)模商業(yè)化還需經(jīng)過一定的時間以及市場的驗證。

結語:AI視頻生成領域競爭加劇

隨著騰訊混元大模型視頻生成能力的發(fā)布,AI視頻生成領域的競爭格局進一步加劇。除了騰訊,國外AI視頻生成平臺如Runway、Luma、Pika,以及國內的快手可靈、字節(jié)即夢、智譜清影等也在爭奪市場份額,形成了多方競爭的態(tài)勢。

開源已成為騰訊混元大模型的一個戰(zhàn)略選擇。從年初以來,騰訊混元系列模型的開源速度不斷加快。此前,騰訊混元已經(jīng)開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現(xiàn)全面開源。