芯東西(公眾號(hào):aichip001)
編譯 | ?ZeR0
編輯 | ?漠影

芯東西3月12日消息,3月11日,Meta發(fā)文宣布面向數(shù)十億用戶在2026年-2027年兩年推出4款A(yù)I芯片MTIA 300、400、450、500,并對(duì)每款芯片設(shè)計(jì)的核心亮點(diǎn)悉數(shù)道來(lái)。

Meta致力于構(gòu)建多元化的芯片產(chǎn)品組合,并充分利用內(nèi)部和外部的最佳解決方案。

同時(shí),Meta與博通緊密合作開發(fā)的自研AI芯片系列Meta訓(xùn)練與推理加速器(MTIA),一直是并將繼續(xù)是Meta AI基礎(chǔ)設(shè)施戰(zhàn)略的重要組成部分。

MTIA系列包括:

  • MTIA 300:最初針對(duì)R&R模型進(jìn)行了優(yōu)化,其構(gòu)建模塊為后續(xù)針對(duì)GenAI模型優(yōu)化的芯片奠定了基礎(chǔ)。它已投入生產(chǎn)用于R&R(排名&推薦)訓(xùn)練。
  • MTIA 400:隨著GenAI的蓬勃發(fā)展,MTIA 300升級(jí)為MTIA 400,旨在更好地支持GenAI模型,同時(shí)保持對(duì)R&R工作負(fù)載的支持能力。MTIA 400擁有72個(gè)加速器的擴(kuò)展域,可提供與領(lǐng)先的商業(yè)產(chǎn)品相媲美的高性能。MTIA 400已在實(shí)驗(yàn)室完成測(cè)試,正在數(shù)據(jù)中心進(jìn)行部署。
  • MTIA 450:為了應(yīng)對(duì)GenAI推理需求的增長(zhǎng),MTIA 400升級(jí)為MTIA 450,并針對(duì)GenAI推理進(jìn)行了專門優(yōu)化,HBM帶寬從MTIA 400提升了1倍,使其遠(yuǎn)高于現(xiàn)有領(lǐng)先的商用產(chǎn)品。Meta還引入了專為推理工作負(fù)載設(shè)計(jì)的低精度數(shù)據(jù)類型。MTIA 450計(jì)劃于2027年初大規(guī)模部署。
  • MTIA 500:MTIA 500繼續(xù)專注于GenAI推理,與MTIA 450相比,HBM帶寬提高了50%,并在低精度數(shù)據(jù)類型方面引入了更多創(chuàng)新。MTIA 500計(jì)劃于2027年大規(guī)模部署。

從MTIA 300到MTIA 500,HBM帶寬提升至4.5倍,計(jì)算FLOPS提升至25倍(從MTIA 300的MX8提升到MTIA 500的MX4),如下方芯片規(guī)格所示。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

一、兩年4款A(yù)I芯片,MTIA如何進(jìn)化?

Meta在ISCA’23和ISCA’25會(huì)議上發(fā)表了研究論文,詳細(xì)介紹了前兩代MTIA芯片:MTIA 100MTIA 200(以前稱為MTIA 1和MTIA 2i)。

該公司已在生產(chǎn)環(huán)境中部署了數(shù)十萬(wàn)顆MTIA芯片,并集成了眾多內(nèi)部生產(chǎn)模型,還使用Llama等大語(yǔ)言模型對(duì)MTIA進(jìn)行了測(cè)試。

之后,Meta加速開發(fā)MTIA 300、400、450和500,這些新芯片要么已經(jīng)部署,要么計(jì)劃在2026年或2027年部署,將工作負(fù)載覆蓋范圍從排名和推薦(R&R)推理擴(kuò)展到R&R訓(xùn)練、通用GenAI工作負(fù)載以及具有針對(duì)性優(yōu)化的GenAI推理。

Meta采取迭代式方法:每一代MTIA都基于上一代產(chǎn)品,采用模塊化芯片組,融合最新的AI工作負(fù)載洞察和硬件技術(shù),并以更短的周期進(jìn)行部署。

這種更緊密的迭代周期,使其硬件能夠更好地適應(yīng)不斷發(fā)展的模型,同時(shí)也能更快地采用新技術(shù)。

MTIA 300最初是針對(duì)R&R訓(xùn)練進(jìn)行優(yōu)化的。與前幾代產(chǎn)品相比,其顯著特點(diǎn)包括內(nèi)置網(wǎng)卡芯片、用于卸載通信任務(wù)的專用消息引擎、用于歸約任務(wù)的近內(nèi)存計(jì)算。這些低延遲、高帶寬的通信組件為后續(xù)MTIA芯片中高效的GenAI推理和訓(xùn)練奠定了基礎(chǔ)。

MTIA 300由1個(gè)計(jì)算芯片、2個(gè)網(wǎng)絡(luò)芯片和多個(gè)HBM內(nèi)存堆棧組成。每個(gè)計(jì)算芯片包含一個(gè)處理單元(PE)網(wǎng)格,其中一些PE具有冗余以提高良率。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

每個(gè)PE包含:

  • 兩個(gè)RISC-V向量核心。
  • 用于矩陣乘法的點(diǎn)積引擎。
  • 用于激活和元素級(jí)操作的特殊功能單元。
  • 用于累積和PE間通信的縮減引擎。
  • DMA引擎用于本地暫存內(nèi)存的數(shù)據(jù)進(jìn)出。

MTIA 300主打經(jīng)濟(jì)高效,MTIA 400則是首款旨在不僅降低成本,而且提供與領(lǐng)先商用產(chǎn)品相媲美的原始性能的MTIA芯片。

MTIA 400的設(shè)計(jì)是為了更好地支持GenAI工作負(fù)載及R&R工作負(fù)載,相較于MTIA 300提升顯著,其FP8 FLOPS性能提升了400%,HBM帶寬提升了51%。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

MTIA 400集成了兩個(gè)計(jì)算芯片組,使計(jì)算密度翻倍,還支持對(duì)高效GenAI推理至關(guān)重要的增強(qiáng)版MX8和MX4兩種低精度格式。

一個(gè)機(jī)架包含72個(gè)MTIA 400設(shè)備,通過(guò)交換式背板連接,即可構(gòu)成一個(gè)單一的擴(kuò)展域。這套機(jī)架級(jí)系統(tǒng)包含72顆MTIA 400芯片,部署在一個(gè)獨(dú)立的擴(kuò)展域內(nèi),并配備相關(guān)的網(wǎng)絡(luò)設(shè)備和空氣輔助液冷(AALC)機(jī)架。MTIA 400芯片本身也支持機(jī)房液冷,AALC技術(shù)則能夠?qū)崿F(xiàn)傳統(tǒng)數(shù)據(jù)中心的快速部署。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

MTIA 450通過(guò)在以下4個(gè)方面進(jìn)行改進(jìn),更適合GenAI推理:

  • 將HBM??帶寬比上一版本提高1倍,以加快解碼速度。
  • 將MX4 FLOPS提高75%,以加快混合專家(MoE)前饋網(wǎng)絡(luò)(FFN)的計(jì)算速度。
  • 引入硬件加速,使注意力機(jī)制和FFN計(jì)算更加高效(例如,通過(guò)緩解Softmax和FlashAttention的瓶頸)。
  • 低精度數(shù)據(jù)類型的創(chuàng)新。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

MTIA 450超越了FP8/MX8,其MX4 FLOPS是FP16/BF16的6倍,并支持混合低精度計(jì)算,而無(wú)需承擔(dān)數(shù)據(jù)類型轉(zhuǎn)換帶來(lái)的軟件開銷。它還引入了Meta自研的數(shù)據(jù)類型創(chuàng)新,在保證模型質(zhì)量的同時(shí)提升FLOPS,且對(duì)芯片面積的影響極小。

MTIA 500以更具成本效益的方式支持GenAI推理。其HBM帶寬提升了50%,HBM容量提升了高達(dá)80%,MX4 FLOPS提升了43%。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

該芯片進(jìn)一步強(qiáng)化了模塊化理念,采用2×2的小型計(jì)算芯片組配置,周圍環(huán)繞著多個(gè)HBM堆棧和兩個(gè)網(wǎng)絡(luò)芯片組,以及一個(gè)提供PCIe連接以連接主機(jī)CPU和橫向擴(kuò)展網(wǎng)卡的SoC芯片組。

與MTIA 450一樣,MTIA 500也引入了額外的硬件加速和數(shù)據(jù)類型創(chuàng)新,以解決GenAI推理中遇到的瓶頸問(wèn)題。

二、Meta的策略:高速、推理優(yōu)先、原生PyTorch

在AI芯片領(lǐng)域,Meta的MTIA策略基于三大支柱:1)高速迭代芯片開發(fā);2)以推理為先導(dǎo);3)通過(guò)基于PyTorch等行業(yè)標(biāo)準(zhǔn)進(jìn)行原生構(gòu)建,實(shí)現(xiàn)無(wú)縫采用。

1、高速

Meta已具備大約每6個(gè)月推出一款新芯片的能力,快速研發(fā)速度帶來(lái)了兩個(gè)優(yōu)勢(shì):

  • 快速適應(yīng)不斷發(fā)展的AI技術(shù):隨著新的模型架構(gòu)、低精度數(shù)據(jù)類型和服務(wù)技術(shù)的出現(xiàn),Meta可針對(duì)這些進(jìn)步優(yōu)化最新芯片,為重要操作引入硬件加速,并解決計(jì)算、內(nèi)存和I/O之間的瓶頸轉(zhuǎn)移。
  • 快速采用最新硬件技術(shù):例如最新的工藝節(jié)點(diǎn)、HBM和封裝技術(shù)。

Meta通過(guò)貫穿所有層面的可重用模塊化設(shè)計(jì)實(shí)現(xiàn)高速發(fā)展:從芯片組、機(jī)箱、機(jī)架到網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

該公司將加速器架構(gòu)為芯片組系統(tǒng)——獨(dú)立的、可重用的計(jì)算、I/O和網(wǎng)絡(luò)構(gòu)建模塊。由于每個(gè)芯片組都可以單獨(dú)升級(jí),Meta能在數(shù)月內(nèi)而非數(shù)年內(nèi)完成改進(jìn)。

此外,不同的芯片組可以在不同的工藝節(jié)點(diǎn)上制造,從而在滿足性能和功耗要求的同時(shí),最大限度地降低成本。

在系統(tǒng)層面,MTIA 400、450、500均采用相同的機(jī)箱、機(jī)架和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。每一代新芯片都可以安裝在相同的物理空間內(nèi),從而加快從芯片設(shè)計(jì)到生產(chǎn)部署的過(guò)渡。

Meta模塊化、可復(fù)用的設(shè)計(jì)也最大限度地減少了開發(fā)和部署多代芯片所需的資源,而這些高度優(yōu)化的芯片所帶來(lái)的優(yōu)勢(shì)足以抵消開發(fā)和部署所消耗的資源。

2、推理優(yōu)先

主流GPU通常是為最苛刻的工作負(fù)載大規(guī)模GenAI預(yù)訓(xùn)練而設(shè)計(jì)的,然后才被應(yīng)用于其他工作負(fù)載,例如GenAI推理,而后者往往成本效益較低。

Meta采用不同的方法:MTIA 450和500首先針對(duì)GenAI推理進(jìn)行優(yōu)化,然后可根據(jù)需要用于支持其他工作負(fù)載,包括R&R訓(xùn)練和推理,以及GenAI訓(xùn)練。這使得MTIA能夠很好地適應(yīng)預(yù)期中GenAI推理需求的增長(zhǎng)。

3、無(wú)摩擦采用

MTIA從一開始就基于行業(yè)標(biāo)準(zhǔn)的軟硬件生態(tài)系統(tǒng),如PyTorch、vLLM、Triton和開放計(jì)算項(xiàng)目(OCP),原生構(gòu)建,而非將兼容性和可移植性視為事后考慮。

由于PyTorch起源于Meta,并已成為應(yīng)用最廣泛的機(jī)器學(xué)習(xí)框架,MTIA自然而然地采用了PyTorch原生架構(gòu)。

PyTorch、vLLM和Triton共同為開發(fā)者提供了一套熟悉的軟件棧,支持開源社區(qū)資源的復(fù)用,并簡(jiǎn)化了模型遷移。

除了行業(yè)標(biāo)準(zhǔn)的軟件之外,MTIA的系統(tǒng)和機(jī)架解決方案也符合OCP標(biāo)準(zhǔn),從而能夠無(wú)縫部署到數(shù)據(jù)中心。

三、MTIA軟件棧:一種基于PyTorch的原生方法

MTIA軟件棧在所有芯片代際中都能提供一致的編程體驗(yàn)。它采用PyTorch原生架構(gòu),為開發(fā)者提供了一個(gè)熟悉且完整的生態(tài)系統(tǒng)。

Meta一口氣甩出4款A(yù)I芯片,算力狂飆25倍,HBM帶寬暴漲

該軟件棧的關(guān)鍵屬性包括:無(wú)縫模型部署、編譯器、內(nèi)核編寫、通信與傳輸、運(yùn)行時(shí)和固件、vLLM支持、生產(chǎn)工具。

Meta還構(gòu)建了智能體AI系統(tǒng)來(lái)實(shí)現(xiàn)內(nèi)核生成的自動(dòng)化。

MTIA的通信庫(kù)Hoot Collective Communications Library(HCCL)利用MTIA芯片內(nèi)置的網(wǎng)絡(luò)芯片實(shí)現(xiàn)高效通信,將集體操作卸載到專用消息引擎,并使用近內(nèi)存計(jì)算來(lái)加速需要大量歸約的集體操作。

為了確保數(shù)十萬(wàn)顆MTIA芯片在生產(chǎn)環(huán)境中可靠運(yùn)行,MTIA提供與主流GPU同類產(chǎn)品相媲美的生產(chǎn)級(jí)監(jiān)控、性能分析和調(diào)試工具,同時(shí)還提供跨主機(jī)和設(shè)備的全棧式、大規(guī)??捎^測(cè)性,涵蓋軟件、固件和硬件層面等獨(dú)特功能。

更多軟件棧優(yōu)化詳情,可參見Meta博客原文。

指路:https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/

結(jié)語(yǔ):與時(shí)俱進(jìn),拓展AI推理邊界

Meta預(yù)計(jì)最新的四代產(chǎn)品,包括近期發(fā)布或計(jì)劃于2026年或2027年發(fā)布的產(chǎn)品,將進(jìn)一步拓展GenAI推理的邊界,實(shí)現(xiàn)R&R訓(xùn)練,并為未來(lái)的GenAI訓(xùn)練奠定基礎(chǔ)。

每一代MTIA芯片都汲取了前代產(chǎn)品的經(jīng)驗(yàn),與Meta的軟件棧協(xié)同設(shè)計(jì),并以未來(lái)AI模型的發(fā)展軌跡為指導(dǎo)。

其模塊化、多芯片設(shè)計(jì)和垂直整合的協(xié)同設(shè)計(jì)方法,能夠在保持系統(tǒng)級(jí)兼容性的同時(shí),實(shí)現(xiàn)快速且持續(xù)的性能提升。

來(lái)源:Meta