智東西(公眾號:zhidxcom)
作者 |? 陳駿達(dá)
編輯 |? 漠影

當(dāng)大模型在推理、編程等能力上不斷刷新紀(jì)錄時,一個新的問題也愈發(fā)突出:如何在持續(xù)提升模型能力的同時,控制算力與資源消耗?

就在本月,螞蟻集團(tuán)inclusionAI團(tuán)隊交出了一份頗具分量的答卷——百靈大模型家族新一代開源萬億參數(shù)模型Ling-2.5-1T(即時模型)與Ring-2.5-1T(思考模型)。

這兩款模型并非僅靠“堆參數(shù)”取勝,它們共享的技術(shù)底座——混合線性注意力架構(gòu)“Ling 2.5”,才是此次發(fā)布的關(guān)鍵。在當(dāng)前主流大模型仍以改進(jìn)型傳統(tǒng)注意力機(jī)制為核心架構(gòu)的背景下,Ling-2.5-1T是業(yè)內(nèi)少見的超大型混合線性注意力架構(gòu)模型,而Ring-2.5-1T成為了全球首個混合線性注意力架構(gòu)的萬億參數(shù)思考模型

得益于Ling 2.5這一新架構(gòu),模型在長文本生成與長程推理場景中,將訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)的1/10,生成吞吐量達(dá)原來的3倍。換言之,它讓模型在“變聰明”的同時,也學(xué)會了“省著花”。

同時,效率的提升并未以性能為代價。在涉及推理、智能體、指令遵循、長上下文等場景的多項基準(zhǔn)測試中,Ling-2.5-1T超越了DeepSeek-V3.2-nothink、Kimi-K2.5-Instant和GPT-5.2-chat等同類型的即時模型。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

Ring-2.5-1T則在國際數(shù)學(xué)奧林匹克競賽(IMO 2025)和中國數(shù)學(xué)奧林匹克(CMO 2025)達(dá)到金牌水平(自測分?jǐn)?shù)為IMO 35分、CMO 105分),開啟重度思考(Heavy Thinking)模式后,它在IMOAnswerBench、HMMT-25等數(shù)學(xué)競賽推理基準(zhǔn)和LiveCodeBench-v6代碼生成基準(zhǔn)中,超越所有對比模型,無論開源閉源。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

那么,螞蟻百靈的混合線性架構(gòu)的技術(shù)路線究竟是如何實現(xiàn)的?又是如何在不犧牲性能的前提下,撬動如此顯著的效率提升?

一、萬億參數(shù)時代,傳統(tǒng)架構(gòu)還能走多遠(yuǎn)?

在大模型持續(xù)躍遷的進(jìn)程中,注意力機(jī)制始終處于舞臺中央,影響著模型理解長文本、捕捉復(fù)雜語義以及生成高質(zhì)量內(nèi)容的能力。而Softmax一直是主流架構(gòu)的核心注意力計算機(jī)制,幾乎所有Transformer模型都以此為基礎(chǔ)。

這種機(jī)制每次計算都“翻閱”完整上下文,精準(zhǔn)捕捉詞與詞的關(guān)聯(lián),賦予模型強大表達(dá)力和細(xì)粒度對齊能力。但其代價明顯:隨著文本長度增加,其計算量呈平方級增長,算力和顯存消耗迅速攀升。

隨著應(yīng)用場景向超長上下文延展,這種“精細(xì)化”的成本被重新審視。線性注意力(Linear Attention)由此進(jìn)入主流視野。

線性注意力通過數(shù)學(xué)重構(gòu),降低計算復(fù)雜度,不再為每一個token反復(fù)回溯全部序列,而是依托狀態(tài)記憶持續(xù)傳遞核心信息——更像是一場接力賽,每一步都承接前一步的成果,無需重走來路。效率的躍升是顯而易見的:更低的FLOPs、更小的顯存占用、更快的生成速度。

然而,線性機(jī)制也并非萬能。在需要精準(zhǔn)定位關(guān)鍵信息、進(jìn)行細(xì)粒度語義對齊或復(fù)雜長程依賴建模的任務(wù)中,其表現(xiàn)有時難以匹敵傳統(tǒng)注意力。于是,一條兼顧性能與效率的技術(shù)路徑逐漸成型——混合線性注意力架構(gòu)(Hybrid Linear Attention)。

這一思路其實很直觀。同一模型中進(jìn)行“分層分工”。部分層保留傳統(tǒng)注意力處理復(fù)雜語義與全局依賴,部分層采用線性機(jī)制以降低計算負(fù)擔(dān),從而讓模型在表達(dá)能力與計算效率之間實現(xiàn)動態(tài)平衡。

然而,理念清晰并不意味著實現(xiàn)簡單。真正將混合架構(gòu)推向超大規(guī)模參數(shù)訓(xùn)練,仍面臨多重挑戰(zhàn)。

首先是訓(xùn)練穩(wěn)定性問題,兩種機(jī)制在同一網(wǎng)絡(luò)中協(xié)同運行,在超大規(guī)模預(yù)訓(xùn)練下容易引發(fā)數(shù)值震蕩,影響收斂與梯度穩(wěn)定。

其次是比例調(diào)優(yōu)難題,多少層采用傳統(tǒng)注意力、多少層采用線性機(jī)制,并無通用公式,研究者需在工程與實驗中反復(fù)權(quán)衡。

再者,在上下文不斷擴(kuò)展的背景下,如何確保線性部分高效傳遞狀態(tài)而不丟失關(guān)鍵語義信息,也成為架構(gòu)設(shè)計的核心瓶頸之一。

二、告別暴力堆算力、堆參數(shù),如何實現(xiàn)混合架構(gòu)的萬億級工程化躍遷

當(dāng)前,包括Minimax、月之暗面、阿里以及OpenAI等機(jī)構(gòu)均已探索了混合線性注意力架構(gòu)的應(yīng)用潛力,行業(yè)逐漸形成共識:混合結(jié)構(gòu)是突破大模型效率瓶頸的重要路徑之一。

在這一趨勢之中,螞蟻百靈的研究同樣圍繞上述核心問題展開。如果將其在混合線性注意力上的探索濃縮為一條清晰主線,可以分成兩個階段:技術(shù)可行性驗證階段萬億規(guī)模工程化落地階段。

早在去年9月,螞蟻百靈團(tuán)隊便開源了Ring-mini-linear-2.0與Ring-flash-linear-2.0,并發(fā)布技術(shù)報告,驗證了線性注意力在真實工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性。

報告中給出的核心架構(gòu)思想是將線性注意力與Softmax注意力進(jìn)行分組混合,每個layer group中包含M層線性attention加1層Softmax注意力,從而在保持表達(dá)能力的前提下,把復(fù)雜度從O(n2)拉向近似O(n)。

通過Scaling Law實驗,他們驗證了當(dāng)M=7(即1:7的混合比例)時,在高FLOP預(yù)算下表現(xiàn)優(yōu)于純softmax結(jié)構(gòu)。這個結(jié)論至關(guān)重要,因為它證明:在大模型規(guī)模下,“線性為主、softmax為輔”的結(jié)構(gòu)不是性能退化,而是效率與效果的更優(yōu)平衡。

在這項研究中,螞蟻還發(fā)布了兩大自研高性能融合算子。一方面,通過精細(xì)化的算子融合和自適應(yīng)重計算量化技術(shù),更高效的FP8融合算子將FP8混合精度訓(xùn)練的計算效率提升至原來的1.5-1.7倍左右。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

在推理端,他們開發(fā)了更高效的線性注意力融合算子,支持更多的推理模式,進(jìn)一步提升推理引擎的吞吐。

架構(gòu)優(yōu)化與高性能算子協(xié)同之下,兩款Ring-linear模型在深度推理場景下的推理成本僅為同尺寸Dense模型的約1/10,相較原有Ring系列成本也下降超過50%。

完成初步探索后,螞蟻百靈團(tuán)隊在其基礎(chǔ)上提出了Ling 2.5 架構(gòu):在Ling 2.0的基礎(chǔ)之上,通過“增量訓(xùn)練”的方式,將原有GQA(改進(jìn)版的注意力機(jī)制,仍然基于Softmax)升級為1:7的MLA + Lightning Linear混合結(jié)構(gòu),把混合線性注意力架構(gòu)真正推向萬億規(guī)模。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

在Ling 2.5架構(gòu)中,大部分GQA層都被改造為了Lightning Linear Attention,以提升長程推理的吞吐能力;剩余GQA層近似轉(zhuǎn)為MLA,以壓縮KV Cache并保留表達(dá)能力。

整個改造過程中保留QK Norm、Partial RoPE等關(guān)鍵機(jī)制,并進(jìn)行了針對性適配,從而保證模型架構(gòu)遷移過程中表達(dá)能力不塌陷。

改造完成后,Ling-2.5-1T和Ring-2.5-1T的激活參數(shù)從51B提升至63B,但在混合線性架構(gòu)支持下,推理吞吐仍然顯著提升,這說明架構(gòu)優(yōu)化帶來的收益,已經(jīng)超過參數(shù)規(guī)模增加帶來的負(fù)擔(dān)。

在架構(gòu)改造之后,螞蟻還進(jìn)一步對Ling-2.5-1T-base進(jìn)行了基于9T優(yōu)質(zhì)語料的持續(xù)預(yù)訓(xùn)練,重點強化了預(yù)訓(xùn)練基座的世界知識覆蓋與智能體交互的基礎(chǔ)能力。

同時,憑借混合線性注意力架構(gòu)在長文本處理上的高計算效率與可擴(kuò)展性,他們將Ling-2.5-1T的上下文窗口擴(kuò)展訓(xùn)練至256K tokens,并通過YaRN外推支持最高1M tokens的超長上下文處理能力。

三、從實驗室到真實場景:架構(gòu)優(yōu)化帶來了什么?

在螞蟻對外發(fā)布的基準(zhǔn)測試中,我們能直觀感受到混合線性注意力帶來的性能提升。

以AIME 2026評測為例,當(dāng)平均輸出長度約為5890個token時,新一代Ling-2.5-1T模型的表現(xiàn)顯著超越前代Ling-1T,并已逼近前沿思考模型的水平。值得注意的是,后者通常需要生成15000到23000個token才能完成同樣復(fù)雜的任務(wù)。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

在衡量長文本處理能力的RULER與MRCR基準(zhǔn)測試(覆蓋16K至256K token范圍)中,Ling-2.5-1T取得了優(yōu)于采用MLA/DSA架構(gòu)的主流大型即時模型(如Kimi K2.5、DeepSeek V3.2)的分?jǐn)?shù)。

Ring-2.5-1T則在數(shù)學(xué)、代碼、邏輯等高難推理任務(wù)和智能體搜索、軟件工程、工具調(diào)用等長程任務(wù)執(zhí)行上均達(dá)到了開源領(lǐng)先水平。這些任務(wù)的性能提升,與混合線性注意力架構(gòu)在處理長程依賴和狀態(tài)壓縮方面的優(yōu)勢密切相關(guān)。線性機(jī)制實現(xiàn)了高效的上下文信息傳遞,有效支撐了復(fù)雜推理任務(wù)對長序列建模的需求。

這種架構(gòu)上的優(yōu)勢也直接轉(zhuǎn)化為工程實踐上的紅利。即便在激活參數(shù)量增加至63B的情況下,基于混合線性注意力的Ling-2.5在單機(jī)8卡H200的配置下,其長文本生成的解碼吞吐量(decode throughput)仍顯著優(yōu)于前代1T規(guī)模模型以及同等參數(shù)量的Kimi K2。

并且,隨著生成文本長度的增加,這種吞吐量優(yōu)勢變得越發(fā)明顯,充分展現(xiàn)了混合線性注意力在長程推理場景下的效率優(yōu)越性。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

模型能力的提升在實際應(yīng)用案例中同樣得到了體現(xiàn)。在下方這個關(guān)于《知識產(chǎn)權(quán)質(zhì)押糾紛》的復(fù)雜法律指令遵循任務(wù)中,Ling-2.5-1T能夠嚴(yán)格遵循超過10項涵蓋內(nèi)容框架、細(xì)節(jié)、格式和字?jǐn)?shù)等多維度的指令約束,生成條理清晰、邏輯連貫的答復(fù)。

這得益于優(yōu)化后的長上下文能力,確保了模型能在跨越多個細(xì)分指令的過程中始終保持一致性,避免信息斷裂。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

而在這個財報解讀案例中,模型可以對數(shù)十頁的財報進(jìn)行信息的抽取匯總,并對重點財務(wù)衍生指標(biāo)進(jìn)行計算,得到財報的深度分析結(jié)論。

3倍吞吐量、訪存減至1/10!螞蟻甩出兩大萬億參數(shù)開源模型,背后架構(gòu)成關(guān)鍵

龐大的長上下文窗口與高效的token利用率,使得這類復(fù)雜任務(wù)無需分解,即可一次性流暢完成。

這些技術(shù)特性在實際應(yīng)用中具有明確的商業(yè)價值。長期以來,大模型在規(guī)?;渴鹬兄饕芟抻谕评沓杀荆舜渭軜?gòu)層面的優(yōu)化直接降低了單位請求的算力開銷,使企業(yè)能夠在同等硬件條件下支持更高并發(fā),進(jìn)而降低AI功能集成的門檻。

百萬token級別的長上下文支持,拓展了模型在復(fù)雜文檔處理場景中的可用性,例如長篇幅法律文書的語義解析、科研文獻(xiàn)的批量梳理等。同時,模型在多步推理與跨段落信息整合方面的表現(xiàn),也為構(gòu)建企業(yè)級智能體及知識處理自動化系統(tǒng)提供了更穩(wěn)定的技術(shù)基礎(chǔ)。

結(jié)語:跳出“參數(shù)競賽”,回歸架構(gòu)進(jìn)化的本質(zhì)

就在2月,螞蟻百靈大模型家族迎來了一系列重要開源與發(fā)布:原生全模態(tài)模型Ming-flash-2.0、擴(kuò)散語言模型LLaDA2.1、思考模型Ring-2.5-1T,以及旗艦基座即時模型Ling-2.5-1T。這一系列模型在多個關(guān)鍵基準(zhǔn)上具備競爭力,讓螞蟻穩(wěn)居國內(nèi)大模型行業(yè)第一梯隊,而全系列開源的策略,也讓其成為當(dāng)下AI開源生態(tài)中不可忽視的新力量。

回溯百靈家族的整體布局,其演進(jìn)邏輯清晰可見:并非單一追求參數(shù)規(guī)模攀升,而是在多模態(tài)感知、語言生成機(jī)制、深度推理能力與即時響應(yīng)效率等核心維度上全面布局,構(gòu)建互為補充、協(xié)同進(jìn)化的模型矩陣。

而站在更宏觀的行業(yè)視角,Ling 2.5架構(gòu)的成功,傳遞出一個重要信號:架構(gòu)創(chuàng)新仍是大模型演進(jìn)的關(guān)鍵變量。更高的推理效率、更長的上下文處理、更低的部署成本——這些由架構(gòu)革新帶來的系統(tǒng)性優(yōu)勢,正在重新定義大模型的能力邊界。

當(dāng)技術(shù)路線趨于多元,當(dāng)開源生態(tài)持續(xù)繁榮,開發(fā)者也就擁有了更靈活的工具組合來應(yīng)對不同場景的挑戰(zhàn)。