智東西(公眾號(hào):zhidxcom)
作者 | 程茜
編輯 | 漠影

智東西9月29日?qǐng)?bào)道,在9月26日的2025人工智能計(jì)算大會(huì)上,浪潮信息連破兩項(xiàng)紀(jì)錄,讓智能體產(chǎn)業(yè)化門檻一降再降!

一個(gè)是國內(nèi)大模型最快Token生成速度:基于元腦SD200超節(jié)點(diǎn)AI服務(wù)器,DeepSeek R1大模型Token生成速度僅需8.9毫秒;另一個(gè)是百萬Token成本首次擊破1元,基于其最新發(fā)布的元腦HC1000超擴(kuò)展AI服務(wù)器

而這兩大突破的價(jià)值,正契合智能體商業(yè)化產(chǎn)業(yè)化落地的本質(zhì)邏輯——

如今,具備自主學(xué)習(xí)、決策與執(zhí)行能力、能獨(dú)立完成復(fù)雜任務(wù)的智能體,已成為大模型規(guī)?;涞氐暮诵妮d體,其產(chǎn)業(yè)化比拼的正是三大核心能力:場景適配能力、交互速度、成本控制

模型能力能否精準(zhǔn)匹配行業(yè)真實(shí)需求、交互速度是否滿足實(shí)時(shí)場景要求、Token成本能否支撐盈利閉環(huán),最終實(shí)現(xiàn)從技術(shù)可用到商業(yè)可持續(xù)的跨越,成為智能體產(chǎn)業(yè)化的關(guān)鍵桎梏。

在這背后,算力體系的革新至關(guān)重要。當(dāng)前GPU主導(dǎo)的計(jì)算模式與通用架構(gòu)面臨挑戰(zhàn),正逐漸在能效比和成本效益上觸及瓶頸,因此業(yè)界亟需重新審視并設(shè)計(jì)AI計(jì)算系統(tǒng),發(fā)展AI專用架構(gòu)以突破瓶頸。

浪潮信息通過軟硬件協(xié)同設(shè)計(jì)與深度優(yōu)化,已經(jīng)在持續(xù)推動(dòng)AI計(jì)算架構(gòu)的創(chuàng)新與突破上拿出了階段性重磅成果。

一、直面智能體產(chǎn)業(yè)化落地挑戰(zhàn)!浪潮信息發(fā)力底層架構(gòu)革新之路

最近爆火的智能體將生成式AI的應(yīng)用潛力推至新的高度,從為用戶提供AI工具和助手,到多智能體協(xié)同創(chuàng)造價(jià)值的未來圖景正在緩慢展開。

一方面,從語言到圖像、音視頻、3D各類模型連番刷新性能天花板,模型參數(shù)從百億、千億向萬億飆升,海量數(shù)據(jù)、后訓(xùn)練階段算力投入的綜合作用下,AI展現(xiàn)出通過學(xué)習(xí)人類知識(shí)具備泛化智能的“涌現(xiàn)”能力。

這正是智能體誕生的基礎(chǔ),其可以根據(jù)需求、用戶預(yù)設(shè)的目標(biāo)學(xué)習(xí)人類知識(shí)主動(dòng)決策、規(guī)劃、執(zhí)行,甚至實(shí)現(xiàn)自主迭代進(jìn)化。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

另一方面DeepSeek通過算法創(chuàng)新降低大模型門檻,開源生態(tài)繁榮,為智能體生態(tài)繁榮奠定了基礎(chǔ)。

這一趨勢(shì)下,智能體產(chǎn)業(yè)化的三大核心要素被清晰推至臺(tái)前:模型能力決定智能體應(yīng)用上限、交互速度決定智能體產(chǎn)業(yè)化價(jià)值、Token成本決定智能體盈利能力。

具體來看,模型能力決定了智能體在具體場景中能解決什么問題、解決到什么程度:首先綜合性能可以對(duì)標(biāo)甚至超過閉源模型的開源模型是重要支撐;其次具體到不同場景,每個(gè)模型推理、交互、垂直領(lǐng)域知識(shí)精準(zhǔn)度,決定其能否做到在不同場景可用。

交互速度決定智能體解決問題的速度:不同于此前用戶與聊天機(jī)器人的交互場景,用戶對(duì)時(shí)延的感知并不敏感,最初GPT-3.5每秒生成速度僅為40個(gè)token,彼時(shí)已經(jīng)可以滿足用戶的閱讀體驗(yàn),但這放到智能體交互層面遠(yuǎn)遠(yuǎn)不夠。

智能體在金融等對(duì)時(shí)延要求較高的領(lǐng)域,往往需要其響應(yīng)速度降至毫秒級(jí)別,也就是說,即使模型能力再強(qiáng),慢響應(yīng)也會(huì)讓其失去實(shí)用價(jià)值。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

最后是成本,Token成本決定智能體盈利能力,Token成本直接對(duì)應(yīng)企業(yè)的算力消耗成本,成本與定價(jià)差額決定智能體毛利率,若Token成本過高,企業(yè)也會(huì)陷入賣得越多、虧得越多的困境。

然而當(dāng)下推理模型的思考過程會(huì)產(chǎn)生成千上萬個(gè)Token,智能體在執(zhí)行復(fù)雜任務(wù)的中間環(huán)節(jié)也會(huì)產(chǎn)生大量中間文本Token。根據(jù)Reddit的數(shù)據(jù),當(dāng)前使用AI輔助編程的開發(fā)者平均每月會(huì)消耗1千萬到5億Token,相比一年前暴漲50倍,目前企業(yè)部署一個(gè)智能體平均每月的Token成本大概是1000到5000美元。主流模型的Token成本居高不下,這對(duì)于其產(chǎn)業(yè)化是不小的瓶頸。

因此,隨著大模型參數(shù)規(guī)模擴(kuò)大、應(yīng)用場景復(fù)雜化,單純依靠堆算力、堆成本的粗放模式,已難以平衡智能體的性能、速度與盈利需求,從計(jì)算架構(gòu)層面實(shí)現(xiàn)技術(shù)突破成為適配三大要素、推動(dòng)智能體產(chǎn)業(yè)化落地的最優(yōu)路徑,這也是浪潮信息在布局的方向。

二、從速度到成本雙重突破,樹AI服務(wù)器性能與成本新標(biāo)桿

在這樣的產(chǎn)業(yè)背景下,浪潮信息作為全球算力基建核心供應(yīng)商,其此次連破兩個(gè)國內(nèi)紀(jì)錄的硬件產(chǎn)品,就是最好的例證。

首先是浪潮信息元腦SD200超節(jié)點(diǎn)AI服務(wù)器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既實(shí)現(xiàn)國內(nèi)大模型最快Token生成速度,也標(biāo)志國產(chǎn)AI服務(wù)器Token生成速度邁入10毫秒時(shí)代

基于其獨(dú)創(chuàng)的多主機(jī)3D Mesh系統(tǒng)架構(gòu),該服務(wù)器單機(jī)實(shí)現(xiàn)了64路本土AI芯片的高速統(tǒng)一互連,單機(jī)可承載4萬億參數(shù)單體模型,或部署多個(gè)萬億參數(shù)模型組成的智能體應(yīng)用。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

生成速度極致壓縮的背后,SD200還實(shí)現(xiàn)了極低通信延遲、整機(jī)高可靠性設(shè)計(jì)、超線性擴(kuò)展的推理性能。

SD200達(dá)到業(yè)界最低通信延遲為0.69微秒,其采用極致精簡的協(xié)議棧,包括物理層、數(shù)據(jù)鏈路層、事務(wù)層3層,原生支持Load/Store等“內(nèi)存語義”,基礎(chǔ)通信延遲達(dá)到百納秒級(jí),同時(shí)Open Fabric原生支持由硬件邏輯實(shí)現(xiàn)的鏈路層重傳,采用分布式、預(yù)防式的流控機(jī)制,從而實(shí)現(xiàn)穩(wěn)定可靠通信。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

為了保證整機(jī)高可靠適應(yīng)超節(jié)點(diǎn)的大規(guī)模商業(yè)化應(yīng)用,其系統(tǒng)硬件層面通過全銅纜電互連、短距緊耦合傳輸,實(shí)現(xiàn)每十億小時(shí)故障率是傳統(tǒng)光模塊互連方案的1/100,基礎(chǔ)軟件層通過創(chuàng)新GPU故障信息轉(zhuǎn)儲(chǔ)、跨域故障關(guān)聯(lián)定位等關(guān)鍵技術(shù),實(shí)現(xiàn)全方位故障可觀測(cè)、全自動(dòng)故障隔離、極速故障恢復(fù),業(yè)務(wù)軟件層通過構(gòu)建業(yè)務(wù)故障預(yù)測(cè)模型實(shí)現(xiàn)推理響應(yīng)不中斷。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

SD200還通過面向超節(jié)點(diǎn)創(chuàng)新優(yōu)化的通信庫、PD分離策略、動(dòng)態(tài)負(fù)載均衡等技術(shù),將通信耗時(shí)控制在10%以內(nèi),實(shí)現(xiàn)了Deepseek R1 671B最高16.3倍的超線性擴(kuò)展率。

與此同時(shí),為了進(jìn)一步提升SD200的易用性,浪潮信息使其兼容CUDA生態(tài),對(duì)PyTorch算子全覆蓋,一鍵遷移典型應(yīng)用等。

此外,基于多元開放的超節(jié)點(diǎn)計(jì)算平臺(tái)、異構(gòu)融合的軟件棧,浪潮信息還將與生態(tài)合作伙伴共同構(gòu)建全場景智能體應(yīng)用,共同塑造超節(jié)點(diǎn)智算應(yīng)用“北京方案”

其次是元腦HC1000超擴(kuò)展AI服務(wù)器,推理成本首次擊破1元/每百萬Token。

浪潮信息首席AI戰(zhàn)略官劉軍透露,全面優(yōu)化降本和軟硬協(xié)同增效是HC1000實(shí)現(xiàn)百萬Token 1元成本高效生產(chǎn)力的關(guān)鍵路徑。其核心是浪潮信息創(chuàng)新設(shè)計(jì)的DirectCom極速架構(gòu)以及全對(duì)稱系統(tǒng)拓?fù)湓O(shè)計(jì)。

浪潮信息刷新AI推理天花板!智能體產(chǎn)業(yè)化競賽給出高分答卷,8.9毫秒Token生成速度、1元/百萬Token

DirectCom架構(gòu)每計(jì)算模組配置16顆AIPU,實(shí)現(xiàn)單卡成本降低60%以上,每卡分?jǐn)傁到y(tǒng)成本降低50%,其采用直達(dá)通信設(shè)計(jì)、計(jì)算通信1:1均衡配比,實(shí)現(xiàn)全局無阻塞通信;全對(duì)稱系統(tǒng)拓?fù)湓O(shè)計(jì)支持靈活的PD分離、AF分離方案,最大化資源利用率。

HC1000還支持超大規(guī)模無損擴(kuò)展,實(shí)現(xiàn)從1024卡到52萬卡的不同規(guī)模系統(tǒng)構(gòu)建,計(jì)算側(cè)通過DirectCom和智能保序機(jī)制,網(wǎng)絡(luò)側(cè)支持包噴灑動(dòng)態(tài)路由,深度算網(wǎng)協(xié)同實(shí)現(xiàn)推理性能相比傳統(tǒng)RoCE提升1.75倍。

這兩大硬件一方面拉高交互速度保障實(shí)時(shí)場景響應(yīng)效率;另一方面推動(dòng)Token成本持續(xù)觸底,為智能體規(guī)?;涞靥峁╆P(guān)鍵硬件支撐。

三、浪潮信息的算力前瞻邏輯:跟隨應(yīng)用、算法發(fā)展布局

當(dāng)我們剖析浪潮信息兩大硬件背后的黑科技會(huì)發(fā)現(xiàn),其核心底座是底層基礎(chǔ)設(shè)施在系統(tǒng)架構(gòu)、互聯(lián)協(xié)議、軟件框架等關(guān)鍵點(diǎn)上進(jìn)行的協(xié)同創(chuàng)新。

智能體產(chǎn)業(yè)化已成為行業(yè)共識(shí),全球知名市研機(jī)構(gòu)IDC的報(bào)告預(yù)測(cè),中國企業(yè)級(jí)智能體應(yīng)用市場規(guī)模在2028年保守估計(jì)將超過270億美元。

然而當(dāng)前以GPU為核心的計(jì)算模式與通用計(jì)算架構(gòu)正面臨嚴(yán)峻挑戰(zhàn)。

一方面,通用計(jì)算架構(gòu)的優(yōu)勢(shì)在于其廣泛的場景兼容性,但其痛點(diǎn)是為適配多元需求而預(yù)留的冗余設(shè)計(jì),往往導(dǎo)致特定場景下算力效率難以突破;另一方面,專用架構(gòu)聚焦單一領(lǐng)域的性能極致優(yōu)化,像為AI訓(xùn)練量身打造的等,受限于應(yīng)用場景的狹窄性,難以形成跨領(lǐng)域的生態(tài)規(guī)模。

綜合來看,計(jì)算產(chǎn)業(yè)的每一次跨越式發(fā)展,本質(zhì)上都是在通用架構(gòu)的普適性與專用架構(gòu)的高效性之間尋找動(dòng)態(tài)平衡使其在場景需求、技術(shù)迭代等方面實(shí)現(xiàn)互補(bǔ),契合當(dāng)下的產(chǎn)業(yè)發(fā)展需求。

因此,這一時(shí)間節(jié)點(diǎn),隨著AI計(jì)算需求呈指數(shù)級(jí)增長,行業(yè)亟需全面轉(zhuǎn)向效率導(dǎo)向,重新審視并重構(gòu)AI計(jì)算系統(tǒng)。

我們可以從浪潮信息的布局中,觀察到其對(duì)計(jì)算架構(gòu)底層創(chuàng)新的諸多思考。

劉軍透露,他們追求計(jì)算架構(gòu)創(chuàng)新的原則是跟隨應(yīng)用和算法發(fā)展的方向,以應(yīng)用為導(dǎo)向、以系統(tǒng)為核心,才是進(jìn)行計(jì)算架構(gòu)創(chuàng)新的有效路徑。

具體來看,此次浪潮信息的SD200和HC1000針對(duì)的是兩個(gè)典型場景。

SD200面向?qū)ρ舆t要求敏感的商業(yè)場景,HC1000面向的是云計(jì)算、互聯(lián)網(wǎng)、大規(guī)模AI服務(wù)提供商,這些企業(yè)需要為客戶的智能體應(yīng)用提供成本更優(yōu)的計(jì)算基礎(chǔ)設(shè)施。

今年智能體剛剛起步,面向未來,其產(chǎn)業(yè)化落地必然會(huì)助推AI算力持續(xù)高速增長,仍有三大挑戰(zhàn)并存。

首先是系統(tǒng)規(guī)模擴(kuò)展接近工程極限,智能體對(duì)多模態(tài)交互、實(shí)時(shí)推理的需求,推動(dòng)算力集群向更大規(guī)模、更高互聯(lián)效率演進(jìn),但硬件與網(wǎng)絡(luò)的物理限制日益凸顯;

其次是算力大規(guī)模增長對(duì)電力基礎(chǔ)設(shè)施帶來挑戰(zhàn),智能體的高并發(fā)交互帶來算力功耗的指數(shù)級(jí)增長,單個(gè)智算中心的電力需求已達(dá)數(shù)吉瓦級(jí)別;

最后是算力投入和產(chǎn)出失衡,商業(yè)兌現(xiàn)進(jìn)程緩慢,智能體產(chǎn)業(yè)化仍處于高投入、低回報(bào)階段,其面臨GPU利用率低、尚未形成成熟盈利模式等困境。

這也進(jìn)一步印證了,效率導(dǎo)向的重要性。劉軍補(bǔ)充說,智能體時(shí)代加速發(fā)展,從人機(jī)交互到機(jī)機(jī)交互,都意味著思考問題的角度要隨之變化。當(dāng)下應(yīng)從規(guī)模導(dǎo)向轉(zhuǎn)向效率導(dǎo)向,采用算法硬件化的專用計(jì)算架構(gòu),探索開發(fā)大模型芯片,實(shí)現(xiàn)軟硬件深度優(yōu)化,是未來的發(fā)展方向。

結(jié)語:大模型重塑AI生態(tài),算力革命緊隨其后

大模型發(fā)展日新月異,從唯參數(shù)論到應(yīng)用落地,推理需求增長、智能體出現(xiàn)等,其對(duì)底層算力玩家提出的需求也在發(fā)生變化。

因此企業(yè)在應(yīng)對(duì)AI算力挑戰(zhàn)時(shí),不能僅停留在解決當(dāng)下的性能瓶頸與資源緊張等表層痛點(diǎn),更需穿透問題表象,深挖制約算力效率提升與規(guī)模化應(yīng)用的核心桎梏,在此基礎(chǔ)上,浪潮信息通過前瞻性視角布局技術(shù)與架構(gòu)創(chuàng)新,為未來AI規(guī)模化落地筑牢技術(shù)根基。