智東西(公眾號:zhidxcom)
作者|江宇
編輯|云鵬

智東西3月18日報道,今日凌晨,在英偉達GTC大會上,月之暗面創(chuàng)始人楊植麟作為本屆唯一受邀現(xiàn)場演講的中國獨立大模型公司創(chuàng)始人,發(fā)表題為《How We Scaled Kimi K2.5》的演講,首次完整披露Kimi K2.5背后的技術(shù)路線圖。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

就在3月16日,月之暗面剛剛發(fā)布最新論文,提前預覽了下一代模型的關(guān)鍵模塊——注意力殘差(Attention Residuals,簡稱AttnRes)。這篇論文的核心,是對大模型中最基礎(chǔ)、卻長期被默認接受的結(jié)構(gòu)之一殘差連接(Residual Connection)的重新設(shè)計。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

這項進展很快引發(fā)海外AI圈關(guān)注。埃隆·馬斯克(Elon Musk)稱其“令人印象深刻”;前OpenAI研究副總裁、聯(lián)合創(chuàng)始人安德烈·卡帕西(Andrej Karpathy)則直言,人們對《Attention is All You Need》這篇Transformer開山之作的理解,可能還不夠充分。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

而在這次GTC演講中,楊植麟將這項研究放回Kimi更完整的技術(shù)框架中,給出了一張更系統(tǒng)的“路線圖”。他將Kimi K2.5的進化邏輯概括為三個維度的共振:Token效率長上下文智能體集群(Agent Swarms)。

在楊植麟看來,當前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應。如果能將這三個維度的技術(shù)增益相乘,模型將表現(xiàn)出遠超現(xiàn)狀的智能水平。

這也是自1月底Kimi發(fā)布K2.5以來,月之暗面首次把這套技術(shù)路線圖系統(tǒng)披露。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標準,本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為Scaling(拓展)的瓶頸。圍繞這一問題,Kimi團隊選擇從優(yōu)化器、注意力機制和殘差連接三個基礎(chǔ)模塊入手,逐一重構(gòu),并持續(xù)開源。

一、重寫訓練底座:MuonClip把Token效率推高到AdamW的2倍

Kimi團隊把第一項重點放在Token效率上,楊植麟在演講中重點討論了優(yōu)化器問題。

他提到,自2014年以來,Adam優(yōu)化器一直是行業(yè)默認選擇,但在超大規(guī)模訓練中,更高Token效率的替代方案已經(jīng)成為重要方向。Kimi團隊在實驗中驗證,Muon優(yōu)化器在Token效率上具備顯著優(yōu)勢,在相近計算預算下,可以將訓練Token以兩倍的效率轉(zhuǎn)化為模型能力。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

▲Muon優(yōu)化器在相同算力下實現(xiàn)約2倍Token效率

不過,楊植麟也指出,在將Muon擴展至萬億參數(shù)規(guī)模的K2模型訓練過程中,Kimi團隊遇到了穩(wěn)定性問題:訓練中出現(xiàn)Logits爆炸,最大值迅速超過1000,導致模型發(fā)散。

針對這一問題,Kimi團隊提出MuonClip優(yōu)化器。楊植麟稱,該方法通過Newton-Schulz迭代結(jié)合QK-Clip機制,對訓練過程中的數(shù)值進行約束。在實際訓練中,Kimi K2的max logits被控制在100以內(nèi)并逐步回落,同時模型loss沒有受到負面影響,實現(xiàn)了穩(wěn)定訓練。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

▲MuonClip將max logits控制在100以內(nèi),實現(xiàn)穩(wěn)定訓練

他同時提到,為了讓Muon在大規(guī)模GPU集群中具備可擴展性,Kimi團隊還設(shè)計了“Distributed Muon(分布式Muon)”,將優(yōu)化器狀態(tài)分布在數(shù)據(jù)并行組中,在需要時再聚合梯度完成計算,以提升內(nèi)存效率和整體訓練效率。

二、第二個重點是長上下文:Kimi Linear把128K到1M解碼速度拉高5到6倍

長上下文是Kimi這次路線圖的第二條主線。

在這部分,楊植麟重點介紹了Kimi Linear。這是一套基于KDA(Kimi Delta Attention,Kimi增量注意力)的混合線性注意力架構(gòu)。

它的核心思路,是重新安排注意力層的組成方式,而不是默認所有層都使用全注意力(Full Attention)。

具體來看,Kimi Linear采用約3:1的KDA與全局注意力混合比例,在降低內(nèi)存開銷的同時,保持模型表達能力。

楊植麟在演講中提到,Kimi Linear已經(jīng)完成1.4T token規(guī)模訓練,在長上下文、短上下文以及強化學習任務中均優(yōu)于全注意力及其他基線方案。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

更直接的變化體現(xiàn)在推理效率上。在128K到1M上下文范圍內(nèi),解碼速度可提升約5到6倍,同時在不同長度場景下保持穩(wěn)定表現(xiàn)。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

這一改動解決的是一個長期存在的問題:上下文窗口不斷擴大,但推理成本和延遲同步上升,導致長任務能力難以真正落地。Kimi Linear則將長上下文從“可支持能力”轉(zhuǎn)變?yōu)椤翱筛咝褂媚芰Α薄?/p>

三、改寫殘差連接:讓每一層更主動地取信息

相比優(yōu)化器和線性注意力,Attention Residuals(注意力殘差)也是Kimi這次技術(shù)路線圖里尤為關(guān)鍵的一項嘗試。

殘差連接是深度網(wǎng)絡(luò)里極其基礎(chǔ)的一層設(shè)計,已經(jīng)用了十年左右。

楊植麟提到,傳統(tǒng)殘差連接采用固定加法累加方式,隨著網(wǎng)絡(luò)加深,隱藏狀態(tài)會持續(xù)增長,深層信息容易被稀釋。Kimi團隊的做法,是將殘差路徑替換為基于Softmax注意力的動態(tài)聚合,使模型可以根據(jù)輸入內(nèi)容,有選擇地從前序?qū)荧@取信息。

這一變化讓信息流從“逐層疊加”轉(zhuǎn)向“按需讀取”,在深層網(wǎng)絡(luò)中保持更穩(wěn)定的信息表達。

在這一部分,楊植麟延伸了前OpenAI首席科學家(Ilya Sutskever)在NeurIPS 2024的相關(guān)思路:如果將殘差連接視為沿深度展開的簡化LSTM,那么Attention可以理解為對這條信息通道的進一步擴展。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

▲Ilya提出“將LSTM旋轉(zhuǎn)90度得到殘差連接”,Attention可視為其擴展

基于這一理解,Kimi提出Attention Residuals,并已將相關(guān)代碼與技術(shù)報告開源。

四、視覺強化學習反哺文本能力,跨模態(tài)帶來認知增益

除了模型底層架構(gòu),楊植麟在演講中還分享了一項跨模態(tài)研究方向的重要觀察。

他提到,在原生視覺-文本聯(lián)合預訓練過程中,引入視覺強化學習(Vision RL)后,模型不僅在視覺任務上表現(xiàn)提升,也會反向提升純文本能力。消融實驗結(jié)果顯示,在經(jīng)過視覺RL訓練后,模型在MMLU-Pro和GPQA-Diamond等文本基準上的表現(xiàn)提升約1.7%-2.2%。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

楊植麟認為,這表明空間推理與視覺邏輯能力,可以轉(zhuǎn)化為更深層的通用認知能力。相關(guān)工作也指向一個方向:多模態(tài)訓練的價值,已經(jīng)從“擴展輸入形式”,轉(zhuǎn)向“提升底層推理能力”。

他同時提到,Kimi團隊正在推進“首個原生聯(lián)合視覺-文本能力的開放模型(First open model with native, joint vision-text capabilities)”。

五、從單Agent到集群協(xié)作:Kimi押注Agent Swarms

演講最后一部分,楊植麟把重點落在智能體集群(Agent Swarms)上。

他在演講中提到,未來的智能體形態(tài)將從單智能體,轉(zhuǎn)向可以動態(tài)生成的集群系統(tǒng)。Kimi K2.5引入Orchestrator(編排器),能夠根據(jù)任務需求創(chuàng)建多個子Agent,并將復雜任務拆解為并行子任務執(zhí)行。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

▲Orchestrator動態(tài)生成子Agent并并行執(zhí)行任務

這些子Agent可以承擔不同角色,例如AI Researcher(AI研究員)、Physics Researcher(物理研究員)、Fact Checker(事實核查員)等,通過分工協(xié)作完成整體任務。

楊植麟進一步補充,這類系統(tǒng)可以覆蓋從輸入到輸出的完整流程,包括大規(guī)模信息獲?。↖nput at Scale)、并行操作(Actions at Scale)、任務編排(Orchestration at Scale)以及長結(jié)果生成(Output at Scale)。

隨著任務復雜度提升,智能體集群相比單Agent的效率優(yōu)勢會持續(xù)擴大。在實驗中,執(zhí)行時間可獲得數(shù)倍縮短。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

他同時指出,多Agent系統(tǒng)容易出現(xiàn)“串行塌縮”,即表面多Agent,實際退回單Agent執(zhí)行。為此,Kimi設(shè)計了并行強化學習獎勵機制,包括Instantiation reward(實例化獎勵)、Finish reward(完成獎勵)和Outcome reward(結(jié)果獎勵),用于引導模型真正進行任務拆解和并行執(zhí)行。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

▲三類獎勵機制用于防止“偽并行”和串行塌縮

結(jié)語:Kimi給出一張新的Scaling施工圖

在總結(jié)中,楊植麟談到了AI研究范式的變化。

他提到,過去受限于算力資源,研究往往難以在不同規(guī)模上驗證同一方法。而隨著“Scaling Ladder(縮放階梯)”的建立,研究者可以進行更系統(tǒng)的規(guī)?;瘜嶒?,從而得到更可靠的結(jié)論。

這也成為Kimi當前路徑的基礎(chǔ):Adam誕生已超過11年,Kimi將其推進為MuonClip并開源;Attention提出已超過8年,Kimi發(fā)展出Kimi Linear并開源;Residual connections已有約10年歷史,Kimi進一步提出Attention Residuals并開源。

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

整體來看,Kimi此次披露的路線圖,將下一階段大模型競爭的焦點明確到了三條主線:訓練效率、長上下文能力以及智能體協(xié)作結(jié)構(gòu)。這三條路徑正在同時推進,并開始相互疊加。