智東西(公眾號(hào):zhidxcom)
作者 |? 陳駿達(dá)
編輯 |? 心緣

智東西1月15日?qǐng)?bào)道,今天,國(guó)內(nèi)軟件定義存儲(chǔ)廠(chǎng)商XSKY(星辰天合)推出了專(zhuān)為AI場(chǎng)景打造的全棧AI數(shù)據(jù)方案AIMesh,其中包含MeshFS、MeshSpace、MeshFusion三大產(chǎn)品,分別針對(duì)制約AI效率的IO墻、數(shù)據(jù)重力墻和內(nèi)存墻。

XSKY CEO兼聯(lián)合創(chuàng)始人胥昕認(rèn)為,大模型時(shí)代,算法同質(zhì)化趨勢(shì)愈發(fā)明顯,真正的差異化競(jìng)爭(zhēng)優(yōu)勢(shì)是企業(yè)自身的專(zhuān)有數(shù)據(jù)。

XSKY發(fā)布AIMesh,想幫AI工廠(chǎng)打通數(shù)據(jù)“任督二脈”

企業(yè)不僅需要高速的存儲(chǔ),也需要一個(gè)私有化、安全、可控的AI數(shù)據(jù)底座。XSKY想做的就是讓私有數(shù)據(jù)在企業(yè)內(nèi)部安全地轉(zhuǎn)化為智能。

XSKY還宣布其戰(zhàn)略重心從“信息技術(shù)(IT)”全面轉(zhuǎn)變?yōu)椤皵?shù)據(jù)智能(Data Intelligence)”,希望打造中立、解耦的“數(shù)據(jù)常青”底座,幫助企業(yè)構(gòu)建高效、可控的AI工廠(chǎng)。

一、AI效率撞上三堵墻,AIMesh可實(shí)現(xiàn)帶寬、讀寫(xiě)性能大幅提升

胥昕稱(chēng),過(guò)去?年,我們處于信息技術(shù)時(shí)代,數(shù)據(jù)中?是?座嚴(yán)謹(jǐn)?shù)膱D書(shū)館,價(jià)值在于“存得進(jìn)、找得到”。但現(xiàn)在,我們進(jìn)?了數(shù)據(jù)智能時(shí)代,數(shù)據(jù)的價(jià)值,正在從“被檢索”進(jìn)化為“被計(jì)算”。

然而,傳統(tǒng)的存儲(chǔ)架構(gòu)已經(jīng)無(wú)法支撐AI時(shí)代的需求。AI效率撞上了“三堵墻”,在?量訓(xùn)練與數(shù)據(jù)?程場(chǎng)景中,GPU利?率被I/O等待拉低到30?50%,極端情況下更低。

“IO墻”的出現(xiàn),是由于算力吞吐速度遠(yuǎn)大于存儲(chǔ)讀寫(xiě)速度,導(dǎo)致計(jì)算單元空轉(zhuǎn)。

“內(nèi)存墻”指的是模型參數(shù)量的爆發(fā)式增長(zhǎng),受限于顯存容量的物理限制?!爸亓Α敝傅氖菙?shù)據(jù)體量幾何級(jí)數(shù)增長(zhǎng),造成跨域流動(dòng)成本高企,形成新的數(shù)據(jù)孤島。

AIMesh是XSKY為AI場(chǎng)景打造的全棧AI數(shù)據(jù)方案,旨在幫助企業(yè)突破上述“三堵墻”。其定位為面向“AI工廠(chǎng)”的數(shù)據(jù)與內(nèi)存網(wǎng),由三大組件構(gòu)成:訓(xùn)練數(shù)據(jù)網(wǎng)MeshFS、全局對(duì)象網(wǎng)MeshSpace、推理內(nèi)存網(wǎng)MeshFusion。

XSKY發(fā)布AIMesh,想幫AI工廠(chǎng)打通數(shù)據(jù)“任督二脈”

1、訓(xùn)練數(shù)據(jù)網(wǎng)MeshFS

MeshFS是面向AI訓(xùn)練場(chǎng)景的并行文件系統(tǒng),擁有全協(xié)議兼容、線(xiàn)性性能與企業(yè)級(jí)智能分層能力,能把訓(xùn)練數(shù)據(jù)快速供給GPU,緩解I/O等待導(dǎo)致的算力浪費(fèi)問(wèn)題。

實(shí)測(cè)數(shù)據(jù)顯示,MeshFS在順序讀帶寬上比行業(yè)通用方案提升30%,順序?qū)憥挸?0%。

XSKY發(fā)布AIMesh,想幫AI工廠(chǎng)打通數(shù)據(jù)“任督二脈”

2、全局對(duì)象網(wǎng)MeshSpace

MeshSpace是面向EB級(jí)數(shù)據(jù)的全局非結(jié)構(gòu)化數(shù)據(jù)平臺(tái)。通過(guò)統(tǒng)一的全局命名空間,MeshSpace實(shí)現(xiàn)了跨地域、跨異構(gòu)存儲(chǔ)的數(shù)據(jù)流動(dòng)與統(tǒng)一納管。

升級(jí)后的XScale引擎實(shí)現(xiàn)了單桶百萬(wàn)OPS的效果,單個(gè)對(duì)象存儲(chǔ)桶每秒支持高達(dá)一百萬(wàn)對(duì)象寫(xiě)入,大塊寫(xiě)性能提升近50%,延遲降低30%。

XSKY發(fā)布AIMesh,想幫AI工廠(chǎng)打通數(shù)據(jù)“任督二脈”

3、推理內(nèi)存網(wǎng)MeshFusion

MeshFusion是面向KVCache的“持久化內(nèi)存”方案。它將服務(wù)器本地NVMeSSD轉(zhuǎn)化為L(zhǎng)3級(jí)外部?jī)?nèi)存,硬件成本僅為傳統(tǒng)方案的1%,可實(shí)現(xiàn)近乎無(wú)限的上下文窗口。

實(shí)測(cè)顯示,其與純DRAM的性能差距控制在10%以?xún)?nèi),高并發(fā)場(chǎng)景下吞吐量線(xiàn)性增長(zhǎng),資源受限狀態(tài)下能實(shí)現(xiàn)20%的性能反超,大幅降低AI推理硬件投入成本。

二、堅(jiān)持不綁定任何算力和云環(huán)境,與MiniMax、英特爾、ZStack均有合作

胥昕透露,近3年,星辰天合實(shí)現(xiàn)了超過(guò)50%的增長(zhǎng),全閃存占比達(dá)到了35%,擁有280個(gè)10PB級(jí)以上的超級(jí)集群,并突破了單機(jī)群百PB的技術(shù)?檻。

由于架構(gòu)、算法的不斷變遷,今天的頂流大模型明天可能就被顛覆。XSKY給出的解決方案是“堅(jiān)持開(kāi)放解耦,做絕對(duì)中?的數(shù)據(jù)底座”。

AIMesh的設(shè)計(jì)采取了中立原則。胥昕稱(chēng),XSKY不綁定任何算力和云環(huán)境,?論選擇英偉達(dá)、昇騰、寒武紀(jì)、摩爾線(xiàn)程、沐曦等算力,?論是在私有云還是混合云,AIMesh都能提供統(tǒng)?、標(biāo)準(zhǔn)的數(shù)據(jù)服務(wù)。

胥昕認(rèn)為算力的摩爾定律正在失效,而數(shù)據(jù)的價(jià)值定律正在生效。每一代新硬件的生命周期可能只有3到5年,但數(shù)據(jù)資產(chǎn)要存續(xù)10年甚至20年。他們希望?確定性的數(shù)據(jù)能?,去對(duì)抗不確定性的技術(shù)變?,這就是XSKY定義的主題?數(shù)據(jù)常?。

XSKY的產(chǎn)品在多家頭部客戶(hù)與行業(yè)巨頭的業(yè)務(wù)中獲得驗(yàn)證。

上海大模型廠(chǎng)商MiniMax的PB級(jí)核心訓(xùn)練數(shù)據(jù)與推理模型數(shù)據(jù),一直穩(wěn)定運(yùn)行在XSKY平臺(tái)上。MiniMax認(rèn)為MeshSpace的全局命名空間,可為混合云“數(shù)據(jù)孤島”問(wèn)題提供解決方案,MeshFS的高吞吐低延遲也將進(jìn)一步保障訓(xùn)練效率。

英特爾與XSKY的合作已經(jīng)超過(guò)10年。XSKY曾與英特爾進(jìn)行技術(shù)共創(chuàng),入選英特爾精選解決方案,并成為英特爾CPU新品首發(fā)伙伴。

XSKY的MeshFS針對(duì)英特爾至強(qiáng)處理器指令集深度優(yōu)化,MeshFusion則利用了NVMe SSD。這些方案實(shí)現(xiàn)了“軟硬協(xié)同”的效果,雙方還在聯(lián)合預(yù)研基于CXL技術(shù)的內(nèi)存池化方案。

云基礎(chǔ)軟件提供商ZStack(云軸科技)在云計(jì)算時(shí)代就開(kāi)始與XSKY合作。ZStack正在構(gòu)建新一代智算平臺(tái),其AIOS產(chǎn)品與XSKY的AIMesh設(shè)計(jì)高度契合。

結(jié)語(yǔ):AI驅(qū)動(dòng)的存儲(chǔ)市場(chǎng)愈發(fā)龐大

隨著大模型不斷演進(jìn),其背后的數(shù)據(jù)規(guī)模與處理復(fù)雜度迅速攀升,存儲(chǔ)系統(tǒng)已成為AI計(jì)算的關(guān)鍵參與者。黃仁勛預(yù)測(cè),由AI驅(qū)動(dòng)的存儲(chǔ)市場(chǎng)“未來(lái)很可能成為全球最大的存儲(chǔ)市場(chǎng)”。

目前,XSKY的產(chǎn)品已經(jīng)應(yīng)用于3000多家客戶(hù),并在金融生產(chǎn)系統(tǒng)、運(yùn)營(yíng)商海量并發(fā)場(chǎng)景、自動(dòng)駕駛算力中心等對(duì)性能和可靠性要求較高的領(lǐng)域?qū)崿F(xiàn)規(guī)模化落地。