智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西4月4日?qǐng)?bào)道,近日,2026中關(guān)村論壇期間,在趨境科技與九源智能計(jì)算系統(tǒng)生態(tài)聯(lián)合體共同主辦的專題研討會(huì)上,商湯大裝置首席架構(gòu)師項(xiàng)鐵堯發(fā)表《商湯大裝置AI原生云基礎(chǔ)設(shè)施探索與實(shí)踐》主題演講,系統(tǒng)闡述了商湯大裝置對(duì)AI原生時(shí)代算力集群建設(shè)的前沿判斷與實(shí)踐路徑,即如何將軟硬件能力真正轉(zhuǎn)化為客戶可用、易用、高效的算力服務(wù)。

在他看來(lái),當(dāng)算力集群的發(fā)展進(jìn)入AI原生時(shí)代,新的架構(gòu)范式應(yīng)具備統(tǒng)一的規(guī)范、極致彈性的擴(kuò)縮容機(jī)制以及為大模型訓(xùn)練和推理深度優(yōu)化的AI集群runtime。

一、AI算力池:面向角色、水平分層、資源自由流轉(zhuǎn)

項(xiàng)鐵堯從底層技術(shù)視角切入,指出Kubernetes(全球最流行的容器編排平臺(tái))正朝著AI方向發(fā)展。

隨著動(dòng)態(tài)資源分配(DRA)、Workload API與Gateway API三項(xiàng)核心新特性的引入,K8s逐漸從簡(jiǎn)單的容器編排工具,進(jìn)化為AI時(shí)代的操作系統(tǒng)。這背后,其實(shí)是整個(gè)行業(yè)在加速?gòu)脑圃簳r(shí)代向AI原生時(shí)代躍遷。

圍繞上述轉(zhuǎn)變過程,項(xiàng)鐵堯重點(diǎn)介紹了商湯大裝置前瞻打造的核心產(chǎn)品——AI算力池。

AI算力池面向AI原生時(shí)代全新算力服務(wù)需求,采用“三明治”水平分層架構(gòu),從底層高度優(yōu)化的計(jì)算網(wǎng)絡(luò)存儲(chǔ)基礎(chǔ)設(shè)施,到中間層全新的虛擬集群技術(shù),再到上層涵蓋開發(fā)機(jī)、訓(xùn)練平臺(tái)、部署平臺(tái)及Agentic Engine的完整PaaS產(chǎn)品體系,杜絕不同產(chǎn)品之間的資源孤島問題。

商湯大裝置分享AI原生云實(shí)踐:如何提供可用、易用、高效的算力服務(wù)?

其中,大裝置AI算力池具備三大優(yōu)勢(shì):

1)面向角色。面對(duì)客戶內(nèi)部角色多元、需求復(fù)雜的現(xiàn)實(shí),分別設(shè)計(jì)服務(wù)形態(tài)、提供差異化的解決方案。比如針對(duì)集群管理員與平臺(tái)工程師提供高彈性虛擬集群資源;針對(duì)AI研究員,可提供豐富的腳本工具與高效研發(fā)環(huán)境等等。

2)水平分層。AI算力池采用“三明治”結(jié)構(gòu),杜絕產(chǎn)品間信息、資源孤島的可能。

3)資源自由流轉(zhuǎn)。用戶只需購(gòu)買一種通用算力形態(tài),即可在虛擬機(jī)、虛擬集群、AI Code Space開發(fā)機(jī)等不同產(chǎn)品形態(tài)之間秒級(jí)自由切換,充分應(yīng)對(duì)國(guó)內(nèi)普遍存在的算力潮汐效應(yīng),大幅提升集群整體資源利用率。

二、虛擬集群實(shí)現(xiàn)秒級(jí)彈性擴(kuò)縮容,三大自研套件護(hù)航超大規(guī)模AI訓(xùn)練與推理

值得一提的是,在底層Infra層,商湯大裝置創(chuàng)新應(yīng)用虛擬集群技術(shù),解決了傳統(tǒng)云托管服務(wù)中“數(shù)據(jù)面管理重、擴(kuò)容慢”的痛點(diǎn)。

有別于主流云廠商僅托管控制面,數(shù)據(jù)面仍需用戶自行管理的傳統(tǒng)模式,全新的虛擬集群技術(shù),實(shí)現(xiàn)了控制面與數(shù)據(jù)面的全量托管,擴(kuò)縮容效率從傳統(tǒng)方案的數(shù)分鐘乃至數(shù)十分鐘壓縮至秒級(jí),同時(shí)提供完全標(biāo)準(zhǔn)的K8s API,用戶無(wú)需對(duì)現(xiàn)有代碼做任何修改即可無(wú)縫接入。

在虛擬集群基礎(chǔ)上,項(xiàng)鐵堯進(jìn)一步提出AI集群Runtime產(chǎn)品概念。

“要快速搭建一個(gè)離線混部、訓(xùn)練推理混合使用的集群非常復(fù)雜,因?yàn)楝F(xiàn)在AI新的技術(shù)層出不窮,各種組件之間協(xié)同優(yōu)化同樣復(fù)雜。”項(xiàng)鐵堯指出,“為了解決這種難題,我們通過智能推薦、深度調(diào)優(yōu)與版本鎖定機(jī)制,幫助用戶快速搭建復(fù)雜的在離線混部、訓(xùn)練推理混合使用集群,降低AI基礎(chǔ)設(shè)施的使用門檻與運(yùn)維復(fù)雜度?!?/p>

為了進(jìn)一步滿足超大規(guī)模AI生產(chǎn)場(chǎng)景的極致性能需求,商湯大裝置還自研了三大套件:

1)SenseCore Scheduler:高性能調(diào)度器,支持復(fù)雜異構(gòu)硬件的在離線混合調(diào)度。

2)容錯(cuò)引擎:解決超大規(guī)模訓(xùn)練中的不穩(wěn)定性,實(shí)現(xiàn)故障自動(dòng)檢測(cè)與隔離。

3)Agentic Engine:針對(duì)不斷涌現(xiàn)的Agent使用需求,進(jìn)行深入優(yōu)化,包括沙箱預(yù)熱、快速啟動(dòng)、規(guī)劃保持、狀態(tài)快照等。

為了以更靈活的規(guī)格為客戶提供算力資源,商湯大裝置同步自研虛擬節(jié)點(diǎn)技術(shù),它具備三大優(yōu)勢(shì):

1)虛擬集群體系無(wú)縫集成;
2)提供相比于虛擬機(jī)更輕量級(jí)的使用體驗(yàn)以及更高效的性能;
3)提供相比于runc更好的安全性和隔離度。

結(jié)語(yǔ):助推國(guó)產(chǎn)推理基礎(chǔ)設(shè)施迭代

目前,商湯大裝置已與趨境科技展開深度合作,為趨境科技自研的ATaaS高效能AI Token生產(chǎn)服務(wù)平臺(tái)提供高性能、高可靠的算力支撐。

據(jù)了解,趨境ATaaS高效能AI Token生產(chǎn)服務(wù)平臺(tái)可支撐萬(wàn)級(jí)別AI推理需求,并達(dá)到日均萬(wàn)億級(jí)別Token整體產(chǎn)能。

在生態(tài)聯(lián)盟層面,商湯大裝置作為九源智能計(jì)算系統(tǒng)生態(tài)聯(lián)合體理事單位,積極參與這一以”產(chǎn)學(xué)研用服”協(xié)同合作為核心模式的開放生態(tài)。該聯(lián)合體聚焦國(guó)產(chǎn)智能計(jì)算系統(tǒng)建設(shè)、軟件生態(tài)統(tǒng)一與技術(shù)成果轉(zhuǎn)化,致力于構(gòu)建自主可控的智能計(jì)算產(chǎn)業(yè)生態(tài)。

商湯大裝置計(jì)劃進(jìn)一步聯(lián)合生態(tài)伙伴,共同推動(dòng)國(guó)產(chǎn)推理基礎(chǔ)設(shè)施迭代升級(jí),為我國(guó)人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展、新質(zhì)生產(chǎn)力落地提供支撐。