99精品电影在线免费观看,偷拍自拍国产自拍,抽插美国美女穴爱爱

芯東西（公眾號(hào)：aichip001）
編譯 | ?ZeR0
編輯 | ?漠影

芯東西3月12日消息，3月11日，Meta發(fā)文宣布面向數(shù)十億用戶在2026年-2027年兩年推出4款A(yù)I芯片MTIA 300、400、450、500，并對(duì)每款芯片設(shè)計(jì)的核心亮點(diǎn)悉數(shù)道來(lái)。

Meta致力于構(gòu)建多元化的芯片產(chǎn)品組合，并充分利用內(nèi)部和外部的最佳解決方案。

同時(shí)，Meta與博通緊密合作開發(fā)的自研AI芯片系列Meta訓(xùn)練與推理加速器（MTIA），一直是并將繼續(xù)是Meta AI基礎(chǔ)設(shè)施戰(zhàn)略的重要組成部分。

MTIA系列包括：

MTIA 300：最初針對(duì)R&R模型進(jìn)行了優(yōu)化，其構(gòu)建模塊為后續(xù)針對(duì)GenAI模型優(yōu)化的芯片奠定了基礎(chǔ)。它已投入生產(chǎn)用于R&R（排名&推薦）訓(xùn)練。
MTIA 400：隨著GenAI的蓬勃發(fā)展，MTIA 300升級(jí)為MTIA 400，旨在更好地支持GenAI模型，同時(shí)保持對(duì)R&R工作負(fù)載的支持能力。MTIA 400擁有72個(gè)加速器的擴(kuò)展域，可提供與領(lǐng)先的商業(yè)產(chǎn)品相媲美的高性能。MTIA 400已在實(shí)驗(yàn)室完成測(cè)試，正在數(shù)據(jù)中心進(jìn)行部署。
MTIA 450：為了應(yīng)對(duì)GenAI推理需求的增長(zhǎng)，MTIA 400升級(jí)為MTIA 450，并針對(duì)GenAI推理進(jìn)行了專門優(yōu)化，HBM帶寬從MTIA 400提升了1倍，使其遠(yuǎn)高于現(xiàn)有領(lǐng)先的商用產(chǎn)品。Meta還引入了專為推理工作負(fù)載設(shè)計(jì)的低精度數(shù)據(jù)類型。MTIA 450計(jì)劃于2027年初大規(guī)模部署。
MTIA 500：MTIA 500繼續(xù)專注于GenAI推理，與MTIA 450相比，HBM帶寬提高了50%，并在低精度數(shù)據(jù)類型方面引入了更多創(chuàng)新。MTIA 500計(jì)劃于2027年大規(guī)模部署。

從MTIA 300到MTIA 500，HBM帶寬提升至4.5倍，計(jì)算FLOPS提升至25倍（從MTIA 300的MX8提升到MTIA 500的MX4），如下方芯片規(guī)格所示。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

一、兩年4款A(yù)I芯片，MTIA如何進(jìn)化？

Meta在ISCA’23和ISCA’25會(huì)議上發(fā)表了研究論文，詳細(xì)介紹了前兩代MTIA芯片：MTIA 100和MTIA 200（以前稱為MTIA 1和MTIA 2i）。

該公司已在生產(chǎn)環(huán)境中部署了數(shù)十萬(wàn)顆MTIA芯片，并集成了眾多內(nèi)部生產(chǎn)模型，還使用Llama等大語(yǔ)言模型對(duì)MTIA進(jìn)行了測(cè)試。

之后，Meta加速開發(fā)MTIA 300、400、450和500，這些新芯片要么已經(jīng)部署，要么計(jì)劃在2026年或2027年部署，將工作負(fù)載覆蓋范圍從排名和推薦（R&R）推理擴(kuò)展到R&R訓(xùn)練、通用GenAI工作負(fù)載以及具有針對(duì)性優(yōu)化的GenAI推理。

Meta采取迭代式方法：每一代MTIA都基于上一代產(chǎn)品，采用模塊化芯片組，融合最新的AI工作負(fù)載洞察和硬件技術(shù)，并以更短的周期進(jìn)行部署。

這種更緊密的迭代周期，使其硬件能夠更好地適應(yīng)不斷發(fā)展的模型，同時(shí)也能更快地采用新技術(shù)。

MTIA 300最初是針對(duì)R&R訓(xùn)練進(jìn)行優(yōu)化的。與前幾代產(chǎn)品相比，其顯著特點(diǎn)包括內(nèi)置網(wǎng)卡芯片、用于卸載通信任務(wù)的專用消息引擎、用于歸約任務(wù)的近內(nèi)存計(jì)算。這些低延遲、高帶寬的通信組件為后續(xù)MTIA芯片中高效的GenAI推理和訓(xùn)練奠定了基礎(chǔ)。

MTIA 300由1個(gè)計(jì)算芯片、2個(gè)網(wǎng)絡(luò)芯片和多個(gè)HBM內(nèi)存堆棧組成。每個(gè)計(jì)算芯片包含一個(gè)處理單元（PE）網(wǎng)格，其中一些PE具有冗余以提高良率。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

每個(gè)PE包含：

兩個(gè)RISC-V向量核心。
用于矩陣乘法的點(diǎn)積引擎。
用于激活和元素級(jí)操作的特殊功能單元。
用于累積和PE間通信的縮減引擎。
DMA引擎用于本地暫存內(nèi)存的數(shù)據(jù)進(jìn)出。

MTIA 300主打經(jīng)濟(jì)高效，MTIA 400則是首款旨在不僅降低成本，而且提供與領(lǐng)先商用產(chǎn)品相媲美的原始性能的MTIA芯片。

MTIA 400的設(shè)計(jì)是為了更好地支持GenAI工作負(fù)載及R&R工作負(fù)載，相較于MTIA 300提升顯著，其FP8 FLOPS性能提升了400%，HBM帶寬提升了51%。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

MTIA 400集成了兩個(gè)計(jì)算芯片組，使計(jì)算密度翻倍，還支持對(duì)高效GenAI推理至關(guān)重要的增強(qiáng)版MX8和MX4兩種低精度格式。

一個(gè)機(jī)架包含72個(gè)MTIA 400設(shè)備，通過(guò)交換式背板連接，即可構(gòu)成一個(gè)單一的擴(kuò)展域。這套機(jī)架級(jí)系統(tǒng)包含72顆MTIA 400芯片，部署在一個(gè)獨(dú)立的擴(kuò)展域內(nèi)，并配備相關(guān)的網(wǎng)絡(luò)設(shè)備和空氣輔助液冷（AALC）機(jī)架。MTIA 400芯片本身也支持機(jī)房液冷，AALC技術(shù)則能夠?qū)崿F(xiàn)傳統(tǒng)數(shù)據(jù)中心的快速部署。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

MTIA 450通過(guò)在以下4個(gè)方面進(jìn)行改進(jìn)，更適合GenAI推理：

將HBM??帶寬比上一版本提高1倍，以加快解碼速度。
將MX4 FLOPS提高75%，以加快混合專家（MoE）前饋網(wǎng)絡(luò)（FFN）的計(jì)算速度。
引入硬件加速，使注意力機(jī)制和FFN計(jì)算更加高效（例如，通過(guò)緩解Softmax和FlashAttention的瓶頸）。
低精度數(shù)據(jù)類型的創(chuàng)新。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

MTIA 450超越了FP8/MX8，其MX4 FLOPS是FP16/BF16的6倍，并支持混合低精度計(jì)算，而無(wú)需承擔(dān)數(shù)據(jù)類型轉(zhuǎn)換帶來(lái)的軟件開銷。它還引入了Meta自研的數(shù)據(jù)類型創(chuàng)新，在保證模型質(zhì)量的同時(shí)提升FLOPS，且對(duì)芯片面積的影響極小。

MTIA 500以更具成本效益的方式支持GenAI推理。其HBM帶寬提升了50%，HBM容量提升了高達(dá)80%，MX4 FLOPS提升了43%。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

該芯片進(jìn)一步強(qiáng)化了模塊化理念，采用2×2的小型計(jì)算芯片組配置，周圍環(huán)繞著多個(gè)HBM堆棧和兩個(gè)網(wǎng)絡(luò)芯片組，以及一個(gè)提供PCIe連接以連接主機(jī)CPU和橫向擴(kuò)展網(wǎng)卡的SoC芯片組。

與MTIA 450一樣，MTIA 500也引入了額外的硬件加速和數(shù)據(jù)類型創(chuàng)新，以解決GenAI推理中遇到的瓶頸問(wèn)題。

二、Meta的策略：高速、推理優(yōu)先、原生PyTorch

在AI芯片領(lǐng)域，Meta的MTIA策略基于三大支柱：1）高速迭代芯片開發(fā)；2）以推理為先導(dǎo)；3）通過(guò)基于PyTorch等行業(yè)標(biāo)準(zhǔn)進(jìn)行原生構(gòu)建，實(shí)現(xiàn)無(wú)縫采用。

1、高速

Meta已具備大約每6個(gè)月推出一款新芯片的能力，快速研發(fā)速度帶來(lái)了兩個(gè)優(yōu)勢(shì)：

快速適應(yīng)不斷發(fā)展的AI技術(shù)：隨著新的模型架構(gòu)、低精度數(shù)據(jù)類型和服務(wù)技術(shù)的出現(xiàn)，Meta可針對(duì)這些進(jìn)步優(yōu)化最新芯片，為重要操作引入硬件加速，并解決計(jì)算、內(nèi)存和I/O之間的瓶頸轉(zhuǎn)移。
快速采用最新硬件技術(shù)：例如最新的工藝節(jié)點(diǎn)、HBM和封裝技術(shù)。

Meta通過(guò)貫穿所有層面的可重用模塊化設(shè)計(jì)實(shí)現(xiàn)高速發(fā)展：從芯片組、機(jī)箱、機(jī)架到網(wǎng)絡(luò)基礎(chǔ)設(shè)施。

該公司將加速器架構(gòu)為芯片組系統(tǒng)——獨(dú)立的、可重用的計(jì)算、I/O和網(wǎng)絡(luò)構(gòu)建模塊。由于每個(gè)芯片組都可以單獨(dú)升級(jí)，Meta能在數(shù)月內(nèi)而非數(shù)年內(nèi)完成改進(jìn)。

此外，不同的芯片組可以在不同的工藝節(jié)點(diǎn)上制造，從而在滿足性能和功耗要求的同時(shí)，最大限度地降低成本。

在系統(tǒng)層面，MTIA 400、450、500均采用相同的機(jī)箱、機(jī)架和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。每一代新芯片都可以安裝在相同的物理空間內(nèi)，從而加快從芯片設(shè)計(jì)到生產(chǎn)部署的過(guò)渡。

Meta模塊化、可復(fù)用的設(shè)計(jì)也最大限度地減少了開發(fā)和部署多代芯片所需的資源，而這些高度優(yōu)化的芯片所帶來(lái)的優(yōu)勢(shì)足以抵消開發(fā)和部署所消耗的資源。

2、推理優(yōu)先

主流GPU通常是為最苛刻的工作負(fù)載大規(guī)模GenAI預(yù)訓(xùn)練而設(shè)計(jì)的，然后才被應(yīng)用于其他工作負(fù)載，例如GenAI推理，而后者往往成本效益較低。

Meta采用不同的方法：MTIA 450和500首先針對(duì)GenAI推理進(jìn)行優(yōu)化，然后可根據(jù)需要用于支持其他工作負(fù)載，包括R&R訓(xùn)練和推理，以及GenAI訓(xùn)練。這使得MTIA能夠很好地適應(yīng)預(yù)期中GenAI推理需求的增長(zhǎng)。

3、無(wú)摩擦采用

MTIA從一開始就基于行業(yè)標(biāo)準(zhǔn)的軟硬件生態(tài)系統(tǒng)，如PyTorch、vLLM、Triton和開放計(jì)算項(xiàng)目（OCP），原生構(gòu)建，而非將兼容性和可移植性視為事后考慮。

由于PyTorch起源于Meta，并已成為應(yīng)用最廣泛的機(jī)器學(xué)習(xí)框架，MTIA自然而然地采用了PyTorch原生架構(gòu)。

PyTorch、vLLM和Triton共同為開發(fā)者提供了一套熟悉的軟件棧，支持開源社區(qū)資源的復(fù)用，并簡(jiǎn)化了模型遷移。

除了行業(yè)標(biāo)準(zhǔn)的軟件之外，MTIA的系統(tǒng)和機(jī)架解決方案也符合OCP標(biāo)準(zhǔn)，從而能夠無(wú)縫部署到數(shù)據(jù)中心。

三、MTIA軟件棧：一種基于PyTorch的原生方法

MTIA軟件棧在所有芯片代際中都能提供一致的編程體驗(yàn)。它采用PyTorch原生架構(gòu)，為開發(fā)者提供了一個(gè)熟悉且完整的生態(tài)系統(tǒng)。

Meta一口氣甩出4款A(yù)I芯片，算力狂飆25倍，HBM帶寬暴漲

該軟件棧的關(guān)鍵屬性包括：無(wú)縫模型部署、編譯器、內(nèi)核編寫、通信與傳輸、運(yùn)行時(shí)和固件、vLLM支持、生產(chǎn)工具。

Meta還構(gòu)建了智能體AI系統(tǒng)來(lái)實(shí)現(xiàn)內(nèi)核生成的自動(dòng)化。

MTIA的通信庫(kù)Hoot Collective Communications Library（HCCL）利用MTIA芯片內(nèi)置的網(wǎng)絡(luò)芯片實(shí)現(xiàn)高效通信，將集體操作卸載到專用消息引擎，并使用近內(nèi)存計(jì)算來(lái)加速需要大量歸約的集體操作。

為了確保數(shù)十萬(wàn)顆MTIA芯片在生產(chǎn)環(huán)境中可靠運(yùn)行，MTIA提供與主流GPU同類產(chǎn)品相媲美的生產(chǎn)級(jí)監(jiān)控、性能分析和調(diào)試工具，同時(shí)還提供跨主機(jī)和設(shè)備的全棧式、大規(guī)?？捎^測(cè)性，涵蓋軟件、固件和硬件層面等獨(dú)特功能。

更多軟件棧優(yōu)化詳情，可參見Meta博客原文。

指路：https://ai.meta.com/blog/meta-mtia-scale-ai-chips-for-billions/

結(jié)語(yǔ)：與時(shí)俱進(jìn)，拓展AI推理邊界

Meta預(yù)計(jì)最新的四代產(chǎn)品，包括近期發(fā)布或計(jì)劃于2026年或2027年發(fā)布的產(chǎn)品，將進(jìn)一步拓展GenAI推理的邊界，實(shí)現(xiàn)R&R訓(xùn)練，并為未來(lái)的GenAI訓(xùn)練奠定基礎(chǔ)。

每一代MTIA芯片都汲取了前代產(chǎn)品的經(jīng)驗(yàn)，與Meta的軟件棧協(xié)同設(shè)計(jì)，并以未來(lái)AI模型的發(fā)展軌跡為指導(dǎo)。

其模塊化、多芯片設(shè)計(jì)和垂直整合的協(xié)同設(shè)計(jì)方法，能夠在保持系統(tǒng)級(jí)兼容性的同時(shí)，實(shí)現(xiàn)快速且持續(xù)的性能提升。

來(lái)源：Meta

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、兩年4款A(yù)I芯片，MTIA如何進(jìn)化？

二、Meta的策略：高速、推理優(yōu)先、原生PyTorch

三、MTIA軟件棧：一種基于PyTorch的原生方法

結(jié)語(yǔ)：與時(shí)俱進(jìn)，拓展AI推理邊界

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、兩年4款A(yù)I芯片，MTIA如何進(jìn)化？

二、Meta的策略：高速、推理優(yōu)先、原生PyTorch

三、MTIA軟件棧：一種基于PyTorch的原生方法

結(jié)語(yǔ)：與時(shí)俱進(jìn)，拓展AI推理邊界

相關(guān)推薦

一、兩年4款A(yù)I芯片，MTIA如何進(jìn)化？

二、Meta的策略：高速、推理優(yōu)先、原生PyTorch

三、MTIA軟件棧：一種基于PyTorch的原生方法

結(jié)語(yǔ)：與時(shí)俱進(jìn)，拓展AI推理邊界