国产日韩每日更新在线,国产98国产激情视频,久久99久久大胆精品

智東西（公眾號：zhidxcom）
作者 |? 陳駿達
編輯 |? 李水青

智東西3月6日報道，今天，商湯科技發(fā)布最新技術(shù)博客——《NEO-unify：原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型》。NEO-unify是一個從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構(gòu)，在保留抽象語義與細粒度表征的同時，展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率。

當(dāng)前，多模態(tài)模型普遍采用“視覺編碼器（VE）用于理解，變分自編碼器（VAE）用于生成”的組合式設(shè)計。這套范式雖行之有效，卻也內(nèi)在割裂了感知與創(chuàng)造，常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。

能否更進一步，讓AI像人一樣，直接從最原始的像素和文字中，統(tǒng)一地進行學(xué)習(xí)、理解與生成？這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統(tǒng)的VE與VAE，首次構(gòu)建了一個真正的端到端原生統(tǒng)一模型，在同一個架構(gòu)內(nèi)直接處理像素與文本，并在此基礎(chǔ)上協(xié)同完成理解與生成任務(wù)。

初步研究成果顯示，該設(shè)計在保持強大語義理解與細節(jié)恢復(fù)能力的同時，顯著提升了訓(xùn)練與計算效率。

博客地址（英文）：

https://huggingface.co/blog/sensenova/neo-unify

博客地址（中文）：

https://www.sensetime.com/cn/news-detail/51170543?categoryId=72

一、不需要VE也不需要VAE，模型表現(xiàn)打平Qwen3-VL

長期以來，多模態(tài)研究已形成一種默認范式：視覺編碼器（Vision Encoder, VE）負責(zé)感知與理解，而變分自編碼器（Variational Autoencoder, VAE）則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器，但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計權(quán)衡。

由此回到第一性原理：構(gòu)建一體化模型直接處理原生輸入，即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué)，提出一種全新的架構(gòu)范式：NEO-unify（preview），一個原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當(dāng)前視覺表征的爭論，也擺脫了預(yù)訓(xùn)練先驗和規(guī)模定律瓶頸的限制。最關(guān)鍵的是：不需要VE，也不需要VAE。

NEO-unify則是一個端到端統(tǒng)一框架，能夠直接從近乎無損的信息輸入中學(xué)習(xí)，并由模型自身塑造內(nèi)部表征空間。

它首先引入近似無損的視覺接口，用于統(tǒng)一圖像的輸入與輸出表示；其次，采用原生混合Transformer（Mixture-of-Transformer，MoT）架構(gòu)，使理解與生成能夠在同一體系中協(xié)同進行。

最終，通過統(tǒng)一學(xué)習(xí)框架實現(xiàn)跨模態(tài)訓(xùn)練：文本采用自回歸交叉熵目標(biāo)，視覺通過像素流匹配進行優(yōu)化。

劍指世界模型！商湯發(fā)多模態(tài)理解生成一體化架構(gòu)，無需編碼器“玩轉(zhuǎn)”圖像

實驗結(jié)果顯示，采用NEO-unify架構(gòu)的模型在多項基準(zhǔn)測試上的表現(xiàn)超過同尺寸的前沿視覺語言模型，排進了同尺寸模型的第一梯隊，基本與Qwen3-VL模型打了平手。

劍指世界模型！商湯發(fā)多模態(tài)理解生成一體化架構(gòu)，無需編碼器“玩轉(zhuǎn)”圖像

二、無編碼器同時保留抽象語義與細粒度表征，展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

那么，這一模型背后究竟有哪些關(guān)鍵技術(shù)發(fā)現(xiàn)呢？

商湯此前的工作NEO（Diao et al., ICLR 2026）表明，原生端到端模型同樣能夠?qū)W習(xí)到豐富的語義表征。在此基礎(chǔ)上，商湯進一步觀察到一個有趣的現(xiàn)象：即使在凍結(jié)理解分支的情況下，獨立的生成分支仍然能夠從表示中抽取并恢復(fù)細粒度的視覺細節(jié)。

基于這一發(fā)現(xiàn)，商湯訓(xùn)練了NEO-unify（2B）。在初步9萬步預(yù)訓(xùn)練后，模型在MS COCO 2017上取得31.56 PSNR和0.85 SSIM，而Flux VAE的對應(yīng)指標(biāo)為32.65和0.91。這一結(jié)果表明，即使不依賴預(yù)訓(xùn)練VE或VAE，近似無損的原生輸入仍能夠同時支持高質(zhì)量的語義理解與像素級細節(jié)保真。

據(jù)此，商湯進一步開展探索：NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支，而生成分支僅負責(zé)生成新的圖像。

在凍結(jié)理解分支的情況下，NEO-unify（2B）仍展現(xiàn)出較強的圖像編輯能力，同時顯著減少了輸入圖像token的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進行初步6萬步混合訓(xùn)練后，模型在ImgEdit基準(zhǔn)上取得3.32的成績，且理解分支在整個訓(xùn)練過程中保持凍結(jié)。

借助預(yù)訓(xùn)練的理解分支與生成分支，NEO-unify使用相同的中期訓(xùn)練（MT）與監(jiān)督微調(diào)（SFT）數(shù)據(jù)進行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下，理解能力依然保持穩(wěn)定，而生成能力則收斂很快。二者在MoT主干中協(xié)同提升，整體沖突極小。

劍指世界模型！商湯發(fā)多模態(tài)理解生成一體化架構(gòu)，無需編碼器“玩轉(zhuǎn)”圖像

此外，商湯首先進行web-scale預(yù)訓(xùn)練，隨后在多樣且高質(zhì)量的數(shù)據(jù)語料上依次進行中期訓(xùn)練（MT）和監(jiān)督微調(diào)（SFT）。與7BBagel模型相比，NEO-unify展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率，在使用更少訓(xùn)練token的情況下取得了更優(yōu)的性能。

劍指世界模型！商湯發(fā)多模態(tài)理解生成一體化架構(gòu)，無需編碼器“玩轉(zhuǎn)”圖像

結(jié)語：多模態(tài)理解與生成一體化或成世界模型基礎(chǔ)

NEO-unify團隊認為，隨著多模態(tài)理解生成一體化的模型出現(xiàn)，模型不再在模態(tài)之間進行轉(zhuǎn)換，而是能夠原生地跨模態(tài)思考。多模態(tài)AI不再只是連接不同系統(tǒng)，而是構(gòu)建一個從未割裂的統(tǒng)一智能體，并讓所需能力從其內(nèi)部自然涌現(xiàn)。

理解生成一體化是AI大模型領(lǐng)域的前沿方向之一，被認為是更接近人類智能的一種模型形式。目前，業(yè)界已經(jīng)基本完成文字理解生成一體化模型的探索，而多模態(tài)理解生成一體化模型，則有望成為全模態(tài)推理、視覺推理、空間智能乃至世界模型的重要基礎(chǔ)。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、不需要VE也不需要VAE，模型表現(xiàn)打平Qwen3-VL

二、無編碼器同時保留抽象語義與細粒度表征，展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

結(jié)語：多模態(tài)理解與生成一體化或成世界模型基礎(chǔ)

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、不需要VE也不需要VAE，模型表現(xiàn)打平Qwen3-VL

二、無編碼器同時保留抽象語義與細粒度表征，展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率

結(jié)語：多模態(tài)理解與生成一體化或成世界模型基礎(chǔ)

相關(guān)推薦

一、不需要VE也不需要VAE，模型表現(xiàn)打平Qwen3-VL

二、無編碼器同時保留抽象語義與細粒度表征，展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率