五十路熟女亚洲一区,337p日本亚洲大胆精品69,两性午夜在线观看不卡

智東西（公眾號：zhidxcom）
作者 | 汪越
編輯 | 漠影

智東西12月3日報道，今天，騰訊混元大模型正式上線視頻生成能力，這是在騰訊文生文、文生圖、3D生成之后的最新技術進展。

據(jù)騰訊混元多模態(tài)生成技術負責人凱撒現(xiàn)場介紹，此次更新中，HunYuan-Video模型經(jīng)歷了四項核心改進：

1、引入超大規(guī)模數(shù)據(jù)處理系統(tǒng)，提升視頻畫質；

2、采用多模態(tài)大語言模型（MLLM），優(yōu)化文本與圖像的對齊；

3、使用130億參數(shù)的全注意力機制（DIT）和雙模態(tài)ScalingLaw，增強時空建模與動態(tài)表現(xiàn)；

4、采用自研3D VAE架構，提升圖像和視頻的重建能力。

與此同時，騰訊宣布將這款擁有130億參數(shù)規(guī)模的視頻生成模型開源。目前，該模型已在APP與Web端發(fā)布，其標準模式下的視頻生成大約需要120秒完成。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

一、騰訊HunYuan-Video模型技術升級與應用拓展

騰訊對HunYuan-Video模型進行了四項技術升級，涵蓋了數(shù)據(jù)處理系統(tǒng)、文本編碼、算力優(yōu)化等多個方面，提升了視頻生成的質量與可控性。此外，騰訊還通過微調、應用拓展及開源等措施進一步強化了模型的實際應用能力。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

1、四項關鍵技術升級

首先，模型采用了一個超大規(guī)模的數(shù)據(jù)處理系統(tǒng)，能夠混合處理圖像與視頻數(shù)據(jù)。該系統(tǒng)包括文字檢測、轉景檢測、美學打分、動作檢測、準確度檢測等多個維度的功能，進一步提升視頻畫質。

其次，模型引入了多模態(tài)大語言模型（Decoder-only MLLM）作為文本編碼器，提升了復雜文本的理解能力，同時支持多語言理解。這一升級使得文本與圖像之間的對齊性得到了加強，能夠根據(jù)用戶提供的提示詞精確生成符合要求的視頻內容。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

另外，模型架構使用了130億參數(shù)的全注意力機制（DIT）和雙模態(tài)ScalingLaw，能夠在視頻生成中有效利用算力和數(shù)據(jù)資源，增強時空建模能力，并優(yōu)化視頻生成過程中的動態(tài)表現(xiàn)。此架構支持原生轉場，可實現(xiàn)了多個鏡頭間的自然切換，并保持主體一致性。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

最后，HunYuan-Video采用了自研的3D VAE架構，以提升圖像和視頻重建的能力，特別在小人臉和大幅運動場景下表現(xiàn)更加流暢。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

2、六大微調領域強化定向能力

在預訓練之后，騰訊混元大模型目前正在進行微調（SFT）工作，進一步增強其視頻生成的定向能力。HunYuan-Video在六個關鍵方面進行了專項微調，包括畫質優(yōu)化、高動態(tài)效果、藝術鏡頭、手寫文本、轉場效果以及連續(xù)動作的生成，其中一些調整仍在進行中。

3、Recaption模型與兩種生成模式

此外，HunYuan-Video還推出了Recaption模型，提供了兩種生成模式：常規(guī)模式和導演模式。

常規(guī)模式側重于簡化用戶輸入的文本，強化自我修正功能，適合專業(yè)用戶進行精細操作；而導演模式則側重于提升畫面質感，強化鏡頭運用、光影設計和構圖美學等方面的描述，適合非專業(yè)用戶使用。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

4、性能評估與同行對比

據(jù)了解，混元大模型經(jīng)過了千題盲測的定量分析，在總體排序中以41.3%的表現(xiàn)領先，優(yōu)于其他模型如CNTOpA（37.7%）、CNTopB（37.5%）和GEN-3（27.4%）。

在特定場景類別中，混元表現(xiàn)尤為突出，特別是在處理人文場景、人工場所以及多主體組合場景時，其生成效果優(yōu)于其他模型。在物品和動物/微生物類目中，混元也具有一定的優(yōu)勢，而在虛擬場景和自然場景的生成效果相對較弱。

從維度來看，混元運動質量的合格率排名第一，文本與視頻的對齊合格率位居第二。但從數(shù)據(jù)中可以看出，行業(yè)里的這些模型總體成功率都仍然較低，視頻生成的內容仍存在一定的優(yōu)化空間。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

5、視頻配音、配樂與數(shù)字人技術

除了基礎的視頻生成能力外，騰訊還拓展了HunYuan-Video的應用功能，推出了視頻配音與配樂功能，能夠為生成的視頻提供音效與背景音樂，進一步提升視頻的完整性和表現(xiàn)。

此外，騰訊還推出了驅動2D照片數(shù)字人的技術，支持通過語音、姿態(tài)和表情等多種驅動方式控制照片數(shù)字人的動態(tài)表現(xiàn)，增強了生成內容的自然度、一致性和可控性。

騰訊混元上線文生視頻并開源，120秒內成片！還有提示詞建議

6、開源發(fā)布與生態(tài)支持

目前，騰訊宣布開源該視頻生成大模型已在Hugging Face平臺及Github上發(fā)布，包含模型權重、推理代碼、模型算法等完整模型，可供企業(yè)與個人開發(fā)者免費使用和開發(fā)生態(tài)插件。

騰訊混元視頻生成開源項目相關鏈接如下：

官網(wǎng)：https://aivideo.hunyuan.tencent.com

代碼：https://github.com/Tencent/HunyuanVideo

模型：https://huggingface.co/tencent/HunyuanVideo

技術報告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

二、騰訊混元的下一步：提高視頻分辨率和生成速度

騰訊混元多模態(tài)生成技術負責人凱撒談道，文生視頻與圖像生成在技術上有著密切聯(lián)系。雖然視頻生成建立在圖像生成的基礎上，但它對動態(tài)時序信息和場景變化處理能力提出了更高的要求。

視頻生成的一個核心挑戰(zhàn)是在快速變化的場景中維持圖像的連貫性和一致性。雖然圖像生成技術已經(jīng)取得了顯著的進步，但將其擴展至動態(tài)視頻生成仍面臨許多技術障礙。未來，圖像與視頻生成可能會趨向一體化發(fā)展，但這需要在多個技術領域取得突破。

此外，視頻主體的一致性問題也是關鍵所在。當前的技術能夠在較短時間（約5秒）內較好地保持一致性，但隨著視頻長度增加，尤其是在鏡頭切換時，保持主體一致性就會變得困難，這在行業(yè)內是一個普遍存在的難題。

關于視頻分辨率，目前大多數(shù)視頻生成技術能夠達到720P。騰訊混元計劃逐步提升這一標準，首先達到1080P，最終目標是4K乃至8K，以增強視覺體驗中的清晰度與細節(jié)表現(xiàn)力。

算力的提升對于提高視頻分辨率及加快生成速度至關重要。騰訊混元正在探索兩條主要路徑：一是通過改進算法來直接提升分辨率；二是利用放大算法來提高視頻質量。這兩方面的工作都在積極進行中。

目前，騰訊混元已經(jīng)開始內部測試其視頻生成功能，并計劃逐步推向市場應用。然而，要實現(xiàn)大規(guī)模商業(yè)化還需經(jīng)過一定的時間以及市場的驗證。

結語：AI視頻生成領域競爭加劇

隨著騰訊混元大模型視頻生成能力的發(fā)布，AI視頻生成領域的競爭格局進一步加劇。除了騰訊，國外AI視頻生成平臺如Runway、Luma、Pika，以及國內的快手可靈、字節(jié)即夢、智譜清影等也在爭奪市場份額，形成了多方競爭的態(tài)勢。

開源已成為騰訊混元大模型的一個戰(zhàn)略選擇。從年初以來，騰訊混元系列模型的開源速度不斷加快。此前，騰訊混元已經(jīng)開源了旗下文生文、文生圖和3D生成大模型。至此，騰訊混元系列大模型已實現(xiàn)全面開源。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、騰訊HunYuan-Video模型技術升級與應用拓展

二、騰訊混元的下一步：提高視頻分辨率和生成速度

結語：AI視頻生成領域競爭加劇

相關推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、騰訊HunYuan-Video模型技術升級與應用拓展

二、騰訊混元的下一步：提高視頻分辨率和生成速度

結語：AI視頻生成領域競爭加劇

相關推薦

一、騰訊HunYuan-Video模型技術升級與應用拓展

二、騰訊混元的下一步：提高視頻分辨率和生成速度