智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 心緣

智東西10月27日報道,10月25日,美團開源了其首款視頻生成大模型——LongCat-Video。該模型面向多任務視頻生成場景,旨在以統一架構支持文生視頻、圖生視頻以及視頻續(xù)寫三種能力。

不同于以往針對單一任務訓練的模型,LongCat-Video通過多任務聯合訓練機制,在同一框架內即可處理零幀、單幀及多幀條件輸入。

此外,LongCat-Video重點突破了長視頻生成難題。相比常見模型在長時序生成中易出現的畫面漂移、色彩偏移等問題,該模型通過在視頻續(xù)寫任務上的原生預訓練,能夠持續(xù)生成數分鐘視頻內容,同時保持較高的時間一致性與視覺穩(wěn)定性。

美團首個視頻大模型開源!速度暴漲900%

在推理效率方面,LongCat-Video借鑒了近年來的高效生成方法,采用“粗到細”兩階段生成策略:先生成480p、15fps的視頻,再細化至720p、30fps,并結合塊稀疏注意力機制和模型蒸餾,顯著降低了高分辨率生成的計算開銷,視頻生成的推理速度提升到原來的10.1倍,提速幅度超900%。

在后訓練階段,團隊引入多獎勵強化學習(RLHF)優(yōu)化方案,利用組相對策略優(yōu)化(GRPO)方法綜合多維度獎勵信號,進一步提升模型在多樣化任務下的表現。

美團已在多項公開與內部測評中將LongCat-Video與其他視頻生成大模型進行了比較。在VBench公開基準測試中,LongCat-Video總得分僅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,也超過了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等閉源模型。

美團首個視頻大模型開源!速度暴漲900%

目前,美團LongCat-Video已同步開放代碼、模型權重及關鍵模塊,模型技術報告也已經發(fā)布。

項目主頁:

https://meituan-longcat.github.io/LongCat-Video/

模型地址:

https://huggingface.co/meituan-longcat/LongCat-Video

技術報告:

https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf

一、三步走打造高質量訓練數據,整體壓縮率高達4×16×16倍

美團認為,“世界模型”(World Model)已成為通往下一代智能的核心引擎。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力。

而視頻生成模型有望成為構建世界模型的關鍵路徑——通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。

為打造LongCat-Video,美團LongCat團隊首先在數據層面構建了一套數據處理與標注體系。

首先在數據預處理階段,通過多源視頻采集、去重、鏡頭切分及黑邊裁剪,確保視頻片段質量與多樣性。

隨后在數據標注階段,為視頻添加時長、分辨率、美學分數、動態(tài)信息等多維度屬性,并建立元數據數據庫以支持靈活數據篩選。團隊還基于LLaVA-Video與Qwen2.5VL等模型進行視頻內容、鏡頭語言及視覺風格標注,并通過中英雙語翻譯與摘要生成實現文本增強。

最終,通過文本嵌入聚類對視頻內容進行無監(jiān)督分類與均衡優(yōu)化,為模型訓練提供高質量、多樣化的視頻數據基礎。

美團首個視頻大模型開源!速度暴漲900%

在模型架構層面,LongCat-Video采用了基于Diffusion Transformer(擴散Transformer)的單流三維結構,這一設計融合了擴散模型的生成能力與Transformer的長時序建模優(yōu)勢。

每個Transformer模塊都包含三維自注意力層、跨模態(tài)注意力層以及帶SwiGLU激活的前饋網絡,并通過RMSNorm與QKNorm保證訓練穩(wěn)定性。

模型使用了3D RoPE位置編碼來捕捉時間與空間的信息關系,同時引入AdaLN-Zero機制以提升任務間的調制能力。

在輸入數據層面,美團團隊借助WAN2.1模型的VAE將視頻像素壓縮成潛空間token,使視頻數據能以更緊湊的形式參與建模,整體壓縮率高達4×16×16倍;文本輸入則由umT5多語言編碼器處理,支持中英文雙語,進一步提升了模型的通用性。

美團首個視頻大模型開源!速度暴漲900%

二、靠“統一任務框架”一次訓出三種能力,稀疏注意力讓推理效率猛增超900%

LongCat-Video采用了三階段的訓練流程。模型以Flow Matching框架取代傳統擴散過程,通過預測噪聲到真實視頻潛變量的速度場提升訓練穩(wěn)定性與效率。

訓練采用漸進式預訓練策略,從低分辨率圖像到高分辨率多任務視頻逐步學習,實現“從靜態(tài)到動態(tài)”的能力積累,并結合尺寸桶機制優(yōu)化算力利用。

隨后在監(jiān)督微調階段,模型利用高質量、多樣化數據集進行精調,強化視覺美學、運動流暢度與指令理解。

最后通過基于組相對策略優(yōu)化的強化學習引入人類偏好優(yōu)化,進一步提升語義一致性與視頻質量。

在訓練LongCat-Video的過程中,美團LongCat團隊在任務設計上進行了創(chuàng)新,這也是LongCat-Video能在單一模型內統一文生視頻、圖生視頻和續(xù)寫視頻三類任務的原因。

美團LongCat團隊沒有為不同的視頻生成任務單獨設計模型,而是通過“統一任務框架”讓三種任務共用同一套網絡。模型通過識別輸入中“條件幀”的數量自動判斷任務類型:當輸入為零幀時執(zhí)行文本生成視頻,一幀時執(zhí)行圖像生成視頻,多幀時則執(zhí)行視頻續(xù)寫。

這種機制不僅大幅降低了模型復雜度,也讓不同任務之間共享特征空間與訓練經驗,從而提升整體表現。

為進一步提高長視頻生成的效率,模型在注意力機制上設計了可緩存的鍵值特征,使條件幀的表示可以在采樣過程中重復使用,減少了冗余計算。這種機制尤其適合長視頻生成,因為它能在保持一致性的同時顯著降低計算開銷。

強化學習部分是LongCat-Video提升生成質量的關鍵環(huán)節(jié)。美團團隊基于組相對策略優(yōu)化方法進行了多重改進,使其適配視頻擴散任務。傳統的GRPO在視頻生成中容易出現獎勵信號不穩(wěn)定和時間歸因模糊的問題,團隊通過固定隨機時間步、引入再加權損失函數以及最大標準差歸一化機制,有效解決了這些訓練瓶頸。

美團首個視頻大模型開源!速度暴漲900%

▲LongCat-Video采用的GRPO方法與基線的生成效果對比

在獎勵模型設計上,LongCat-Video采用了三重獎勵體系,分別評估視頻的視覺質量、運動質量和文本一致性。視覺質量由HPSv3模型打分,衡量畫面美感與細節(jié);運動質量通過VideoAlign模型評估,確保動作自然流暢;文本一致性則檢驗生成視頻與輸入提示語的語義契合度。

這種多維度的獎勵設計讓模型在強化學習階段能夠平衡地提升表現,避免過度優(yōu)化單一指標而導致畫面僵化或運動失真。

在高效推理方面,LongCat-Video通過一系列工程創(chuàng)新顯著提升了生成速度與分辨率。團隊采用“粗到細”的生成策略,先快速生成低分辨率、低幀率的視頻,再由LoRA微調的精化模塊進行高清復原,最終可輸出720p、30幀的成片。

與此同時,LongCat-Video引入塊稀疏注意力(Block Sparse Attention)機制,僅計算最相關的10%注意力塊,將計算成本降至傳統方法的十分之一,幾乎不損失生成質量。

這些優(yōu)化使得LongCat-Video在單卡H800 GPU上幾分鐘內即可生成一分鐘長的視頻。再結合一致性模型蒸餾與分類器自由引導(CFG)蒸餾技術,采樣步數從傳統的50步縮減至16步,推理效率提升至原來的10倍。

美團首個視頻大模型開源!速度暴漲900%

▲LongCat-Video在不同設置上的推理速度對比

三、多領域測評比肩Veo3,常識理解能力突出

美團LongCat團隊分享了LongCat-Video的多個生成案例。

文生視頻任務中,LongCat-Video可以根據提示詞準確還原不少腦洞大開的畫面,下方案例還顯示出其可能具備風格轉繪的能力。

美團首個視頻大模型開源!速度暴漲900%

前段時間最火的AI視頻類型——切水果,LongCat-Video也能制作,不過并沒有音效,缺少了一些靈魂。

LongCat-Video原生支持輸出5分鐘級別的長視頻,不過在長時序的任務上,還是能看到一些“穿幫鏡頭”。例如,下圖人物跳芭蕾的過程中,其肢體在某些大幅度動作的場景中顯得并不自然。

有趣的是,美團分享了LongCat-Video生成行車記錄儀畫面和機器人靈巧手操作畫面的兩個案例。此類畫面或許可以作為合成數據,用于自動駕駛汽車與機器人的訓練。

美團首個視頻大模型開源!速度暴漲900%

在內部評測體系中,美團構建了一套覆蓋文本生成視頻與圖像生成視頻兩大核心任務的基準,評估維度包括文本對齊、視覺質量、運動質量與總體表現,并在圖生視頻任務中額外增加了圖像一致性指標。

為確保評測的科學性,團隊采用人工與自動雙軌評估機制,其中人工評價分為絕對打分與相對偏好兩種方式,所有樣本均由多名標注員獨立評分,最終通過加權平均得出結果。

自動評測部分則由內部訓練的多模態(tài)“判官模型”完成,與人工結果的相關性高達0.92,保證了客觀性。

評測結果顯示,LongCat-Video在文生視頻任務的四個核心指標中,視覺質量得分幾乎與谷歌的Veo3持平,整體質量超越了PixVerse-V5和國內領先的開源模型Wan2.2。

美團首個視頻大模型開源!速度暴漲900%

在運動質量方面,LongCat-Video生成的視頻動作流暢、鏡頭移動自然,展現出較強的物理合理性。在文本對齊度上,LongCat-Video表現略差于Veo3。

在圖生視頻任務中,LongCat-Video畫面細節(jié)豐富、風格真實,但在圖像一致性和動作連貫性上仍有改進空間。技術報告認為,模型在處理高精度參考幀時對細節(jié)的保持較為謹慎,這在視覺質量上帶來加分,卻略微影響了動態(tài)平滑度。

美團首個視頻大模型開源!速度暴漲900%

在公開評測平臺VBench 2.0上,LongCat-Video在“常識理解”一項中以70.94%的得分位居所有開源模型第一,總分達到62.11%,僅次于谷歌Veo 3與生數Vidu Q1等商用閉源模型。

美團首個視頻大模型開源!速度暴漲900%

結語:美團探索世界模型,或與機器人、無人車業(yè)務產生協同效應

美團稱,LongCat-Video是其開發(fā)世界模型的第一步。高效的長視頻生成能解決世界模型中的渲染問題,使模型能夠通過生成的視頻內容表達其對世界的認知。

未來,美團計劃在視頻生成中更好地建模物理知識,集成多模態(tài)記憶,融入大語言模型(LLM)和多模態(tài)大模型(MLLM)的知識。在美團分享的演示視頻中,LongCat-Video能較為準確地輸出機器人操作、汽車駕駛等畫面,這或許預示著這款模型,有望與美團在機器人、自動駕駛(無人車)領域的業(yè)務布局產生一定的協同效應。