芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西1月27日報道,今日,微軟宣布推出自研AI推理芯片Maia 200,并稱該芯片是“目前所有超大規(guī)模數(shù)據(jù)中心中性能最高的自研芯片”,旨在顯著提升AI token生成的經(jīng)濟效益。

Maia 200采用臺積電3nm工藝制造,擁有超過1400億顆晶體管,配備原生FP8/FP4張量核心,重新設計的內存子系統(tǒng)包含216GB HBM3e(讀寫速度高達7TB/s)和272MB片上SRAM,以及能確保海量模型快速高效運行的數(shù)據(jù)傳輸引擎。

Maia 200專為使用低精度計算的最新模型而設計,每塊芯片在FP4精度下可提供超過10PFLOPS的性能,在FP8精度下可提供超過5PFLOPS的性能,所有這些都控制在750W的SoC TDP范圍內。

其FP4性能是亞馬遜自研AI芯片AWS Trainium3的3倍多,F(xiàn)P8性能超過了谷歌TPU v7。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Azure Maia 200、AWS Trainium3、谷歌TPU v7的峰值規(guī)格對比

Maia 200重新設計的內存子系統(tǒng)以窄精度數(shù)據(jù)類型、專用DMA引擎、片上SRAM和用于高帶寬數(shù)據(jù)傳輸?shù)膶S闷暇W(wǎng)絡(NoC)架構為核心,從而提高token吞吐量。

互連方面,Maia 200提供2.8TB/s雙向專用擴展帶寬,高于AWS Trainium3的2.56TB/s和谷歌TPU v7的1.2TB/s。

Maia 200也是微軟迄今為止部署的最高效推理系統(tǒng),每美元性能比微軟目前部署的最新一代硬件提升了30%。

一、能運行當前最大模型,將支持GPT-5.2

根據(jù)微軟博客文章,Maia 200可輕松運行當今最大的模型,并為未來更大的模型預留了充足的性能空間。

作為微軟異構AI基礎設施的一部分,Maia 200將支持多種模型,包括OpenAI最新的GPT-5.2模型,從而為Microsoft Foundry和Microsoft 365 Copilot帶來更高的性價比。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Maia 200芯片

Maia 200與微軟Azure無縫集成。微軟正在預覽Maia軟件開發(fā)工具包(SDK),其中包含一套完整的工具,用于構建和優(yōu)化Maia 200模型。

它包含全套功能,包括PyTorch集成、Triton編譯器和優(yōu)化的內核庫,以及對Maia底層編程語言的訪問。這使開發(fā)者能夠在需要時進行細粒度控制,同時實現(xiàn)跨異構硬件加速器的輕松模型移植。

微軟超級智能團隊將利用Maia 200進行合成數(shù)據(jù)生成強化學習,以改進下一代內部模型。

在合成數(shù)據(jù)管道用例方面,Maia 200的獨特設計有助于加快高質量、特定領域數(shù)據(jù)的生成和篩選速度,為下游訓練提供更新、更具針對性的信號。

Maia 200已部署在微軟位于愛荷華州得梅因附近的美國中部數(shù)據(jù)中心區(qū)域,接下來將部署位于亞利桑那州鳳凰城附近的美國西部3數(shù)據(jù)中心區(qū)域,未來還將部署更多區(qū)域。

二、支持2.8TB/s雙向帶寬、6144塊芯片互連

在系統(tǒng)層面,Maia 200引入了一種基于標準以太網(wǎng)的新型雙層可擴展網(wǎng)絡設計。定制的傳輸層和緊密集成的網(wǎng)卡無需依賴專有架構,即可實現(xiàn)卓越的性能、強大的可靠性和顯著的成本優(yōu)勢。

每塊芯片提供2.8TB/s雙向專用擴展帶寬,以及在多達6144塊芯片的集群上公開可預測的高性能集體操作。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Maia 200刀片服務器的俯視圖

每個托架內,4塊Maia芯片通過直接的非交換鏈路完全連接,實現(xiàn)高帶寬的本地通信,以獲得最佳推理效率。

機架內和機架間聯(lián)網(wǎng)均采用相同的通信協(xié)議,即Maia AI傳輸協(xié)議,能夠以最小的網(wǎng)絡跳數(shù)實現(xiàn)跨節(jié)點、機架和加速器集群的無縫擴展。

這種統(tǒng)一的架構簡化了編程,提高了工作負載的靈活性,并減少了閑置容量,同時在云規(guī)模下保持了一致的性能和成本效益。

該架構可為密集推理集群提供可擴展的性能,同時降低Azure全球集群的功耗和總擁有成本。

三、將芯片部署時間縮短一半,提升每美元和每瓦性能

Maia 200芯片首批封裝件到貨后數(shù)日內,AI模型就能在其上運行,從首批芯片到首個數(shù)據(jù)中心機架部署的時間可縮短至同類AI基礎設施項目的一半以上。

這種從芯片到軟件再到數(shù)據(jù)中心的端到端解決方案,直接轉化為更高的資源利用率、更快的生產交付速度,以及在云規(guī)模下持續(xù)提升的每美元和每瓦性能。

微軟甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

▲Maia 200機架和HXU冷卻單元的視圖

這歸因于,微軟芯片開發(fā)計劃的核心原則是在最終芯片上市之前,盡可能多地驗證端到端系統(tǒng)。

從架構的早期階段開始,一套精密的芯片前開發(fā)環(huán)境就指導著Maia 200的開發(fā),它能夠高保真地模擬大語言模型的計算和通信模式。

這種早期協(xié)同開發(fā)環(huán)境使微軟能夠在首塊芯片問世之前,將芯片、網(wǎng)絡和系統(tǒng)軟件作為一個整體進行優(yōu)化。

微軟從設計之初就將Maia 200定位為數(shù)據(jù)中心內快速、無縫的可用性解決方案,并對包括后端網(wǎng)絡和第二代閉環(huán)液冷熱交換器單元在內的一些最復雜的系統(tǒng)組件進行了早期驗證。

與Azure控制平面的原生集成,可在芯片和機架級別提供安全、遙測、診斷和管理功能,從而最大限度地提高生產關鍵型AI工作負載的可靠性和正常運行時間。

結語:在全球基礎設施部署,為未來幾代AI系統(tǒng)托舉

大規(guī)模AI時代才剛剛開始,基礎設施將決定其發(fā)展的可能性。

隨著微軟在全球基礎設施中部署Maia 200,微軟已在為未來幾代AI系統(tǒng)進行設計,并期望每一代系統(tǒng)都能不斷樹立新的標桿,為重要的AI工作負載帶來更出色的性能和效率。

微軟誠邀開發(fā)者、AI創(chuàng)企和學術界人士使用全新Maia 200 SDK開始探索早期模型和工作負載優(yōu)化。

該SDK包含Triton編譯器、PyTorch支持、NPL底層編程以及Maia模擬器和成本計算器,可在代碼生命周期的早期階段優(yōu)化效率。