智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

在今年的云計算產(chǎn)業(yè)盛會AWS re:Invent上,亞馬遜云科技(AWS)少見地公布了大量關(guān)于硬件基礎(chǔ)設(shè)施及芯片的細(xì)節(jié)信息,包括自研服務(wù)器CPU Graviton系列、自研AI芯片Trainium系列、AI超級服務(wù)器、最大AI服務(wù)器集群等。

這場開誠布公的分享,既讓我們窺得這家全球最大云計算巨頭深厚的硬件基建功底,也讓我們飽覽了從CPU研發(fā)策略、先進(jìn)封裝、背面供電、AI芯片脈動陣列到芯片互連、AI網(wǎng)絡(luò)的各種底層技術(shù)創(chuàng)新。尤其是對于云計算基礎(chǔ)設(shè)施、數(shù)據(jù)中心芯片設(shè)計從業(yè)者而言,其中有很多值得細(xì)品的經(jīng)驗和思路。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

大會期間,亞馬遜云科技計算與網(wǎng)絡(luò)副總裁Dave Brown還與智東西等少數(shù)媒體進(jìn)一步就基礎(chǔ)設(shè)施與芯片研發(fā)的策略和細(xì)節(jié)進(jìn)行交流。他告訴智東西,Trainium3基本上所有設(shè)計都會圍繞生成式AI,AWS已披露Trainium3是其首款采用3nm工藝的芯片,算力上一代的2倍、功耗降低40%,但目前透露技術(shù)細(xì)節(jié)可能為時尚早。他還劇透說亞馬遜云科技預(yù)計明年會逐步發(fā)布更多細(xì)節(jié)。

一、CPU設(shè)計理念:不為基準(zhǔn)測試而造芯

亞馬遜云科技的自研服務(wù)器CPU和AI芯片均已在其數(shù)據(jù)中心落地,被許多知名IT企業(yè)采用。連蘋果都是其座上賓,在構(gòu)建Apple Intelligence等AI服務(wù)的背后用到了Graviton3、Inferentia2、Trainium2等亞馬遜云科技自研芯片。

據(jù)Dave Brown分享,亞馬遜云科技數(shù)據(jù)中心里用到的服務(wù)器CPU中,過去兩年有超過50%的新增CPU容量是其自研服務(wù)器CPU芯片Gravtion。全球最大購物節(jié)之一亞馬遜Prime Day有超過25萬個Graviton CPU支持操作。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

在2018年,亞馬遜云科技看到Arm核心發(fā)展變快,萌生了結(jié)合這種技術(shù)曲線與亞馬遜云科技客戶需求開發(fā)一個定制通用處理器的念頭。Graviton由此誕生,其推出和落地也帶來了Arm芯片真正進(jìn)入數(shù)據(jù)中心的時刻。

今天,Graviton被幾乎每個亞馬遜云科技客戶廣泛使用。90%的前1000個Amazon EC2客戶都開始使用Graviton。

Graviton4是當(dāng)前最強(qiáng)大的亞馬遜云科技自研服務(wù)器CPU,每個核心提供30%更多的計算能力,vCPU數(shù)量和內(nèi)存是上一代的3倍,尤其適用于大型數(shù)據(jù)庫、復(fù)雜分析等要求最高的企業(yè)工作負(fù)載。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

Dave Brown強(qiáng)調(diào)說,在設(shè)計芯片時,亞馬遜云科技不是奔著贏得基準(zhǔn)測試,而是專注于實際工作負(fù)載性能。

在他看來,業(yè)界熱衷于優(yōu)化基準(zhǔn)測試,就像是“通過100米短跑來訓(xùn)練馬拉松”。實際工作負(fù)載的行為與整潔的基準(zhǔn)測試截然不符,它們是混亂的、不可預(yù)測的,真實工作負(fù)載遇到的問題可能與微基準(zhǔn)測試完全不同。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

比如,理論上,Graviton3的性能比Graviton2提高了30%,但測試Nginx時性能提升多達(dá)60%,因為亞馬遜云科技極大減少了分支錯誤預(yù)測。Graviton4也類似,微基準(zhǔn)測試分?jǐn)?shù)比上一代提高了25%,運行真實MySQL工作負(fù)載的表現(xiàn)則足足提高了40%。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

現(xiàn)代CPU就像一個復(fù)雜的匯編管道,前端獲取和解碼指令,后端執(zhí)行指令。

在評估性能時,亞馬遜云科技會查看不同工作負(fù)載對CPU微架構(gòu)的壓力,比如工作負(fù)載是否對前端停擺敏感,前端停擺受分支數(shù)量、分支目標(biāo)或指令等因素的影響,或者后端停頓受L1、L2和L3緩存中的數(shù)據(jù)以及指令窗口大小的影響。

對于每一代的Graviton,客戶都可以簡單地切換到最新的實例類型,并立即看到更好的性能。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

在安全性上,亞馬遜云科技還加密了Graviton4與Nitro之間的PCIe鏈路,做到更極致的全流程安全防護(hù)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

二、高性能芯片設(shè)計的關(guān)鍵黑科技:先進(jìn)封裝與背面供電

幾年前,封裝還很簡單,基本上是一種封裝單個芯片并將其連接到主板的方法。但現(xiàn)在這個方案變得先進(jìn)很多。你可以把先進(jìn)封裝想象成用一種叫做中介層(interposer)的特殊設(shè)備把幾個芯片連接在一個封裝里。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

中介層本身實際上是一個Chiplet,它作為一個微型主板,提供了連接芯片的能力,其帶寬是普通PCB主板的10倍。

Graviton3和Graviton4都采用了先進(jìn)封裝技術(shù)。Graviton4有7個Chiplet,中間大芯片是計算核心,外圍更小的芯片做一些事情,比如允許芯片訪問內(nèi)存和系統(tǒng)總線的其他部分。通過分離計算核心,亞馬遜云科技有效地將Graviton4的核心數(shù)量增加50%。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這種方法對Graviton非常有幫助,但引入AI芯片設(shè)計中會遇到一些挑戰(zhàn)。

2018年,看到加速器實例和深度學(xué)習(xí)趨勢后,亞馬遜云科技決定構(gòu)建AI芯片。其首款自研AI芯片是2019年的Inferentia,能夠切實降低小型推理工作負(fù)載的成本,比如亞馬遜Alexa通過遷移到Inferentia節(jié)省了大量資金。

2022年,亞馬遜云科技推出了其首款自研AI訓(xùn)練芯片Trainium1,并實現(xiàn)可將在Trainium1上運行的工作負(fù)載節(jié)省約50%。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

亞馬遜云科技高級副總裁Peter DeSantis在re:Invent大會現(xiàn)場展示了Trainium2的封裝,里面有兩顆計算芯片并排放在中間。其計算die的晶體管數(shù)量是Trainium1計算die的2.2倍。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

想在一個系統(tǒng)上獲得最多的計算和內(nèi)存,要用先進(jìn)的封裝或制造技術(shù)來制造大芯片。Trainium2上就是這樣做的。但這遇到了第一個工程極限——芯片制造有尺寸限制,在800平方毫米左右。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

每個計算芯片旁邊的兩顆芯片是HBM內(nèi)存堆棧,每個計算芯片Chiplet通過CoWoS-S/R封裝與兩個HBM堆棧通信。通過堆疊芯片,可將更多內(nèi)存裝入相同區(qū)域,從而減少消耗、釋放的能量。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

那為什么不能把封裝做得更大呢?這就是第二個限制所在。

今天的封裝實際上被限制在最大芯片尺寸的3倍左右。假如將計算芯片和HBM取出,可以看到中間層,下面有用來連接芯片和中介器的微凸點。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這是亞馬遜云科技旗下Annapurna芯片團(tuán)隊制作的一張圖片。他們沿著紫色的線仔細(xì)切出了芯片的橫截面,然后用顯微鏡從側(cè)面放大圖像。左上角是計算芯片,旁邊有HBM模塊,HBM模塊層都位于一個薄的連續(xù)晶圓上。芯片和中間層頂部之間的電連接非常小,每個大約是100μm,比細(xì)鹽粒還小。

而要讓芯片保持穩(wěn)定連接,就必須得限制封裝大小。

同時,Trainium2還引入了背面供電,把電源線挪到晶圓背面,以減少布線擁塞。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

半導(dǎo)體利用微小電荷的存在或不存在來存儲和處理信息,當(dāng)芯片遇到電壓下降時,它們通常得等待到供電系統(tǒng)調(diào)整。芯片在完成計算任務(wù)需要提供大量的能量,為了在低電壓下傳輸所有的能量,需要使用大電線,減少電路傳輸長度,從而來避免所謂的電壓下降。

三、打造最強(qiáng)AI硬件猛獸,背后的技術(shù)秘方

訓(xùn)練更大的模型,需要構(gòu)建更好的AI基礎(chǔ)設(shè)施、更強(qiáng)大的服務(wù)器集群。這要求有更好的AI芯片AI網(wǎng)絡(luò)。

在re:Invent大會上,亞馬遜云科技著重公布了幾個重磅AI硬件產(chǎn)品。

一是亞馬遜和Anthropic正在合作構(gòu)建的Project Rainier,一個擁有數(shù)十萬顆Trainium2芯片的超級服務(wù)器集群。這個集群將具備Anthropic目前用于訓(xùn)練其領(lǐng)先的Claude模型的集群5倍的計算能力。

二是能訓(xùn)練和部署世界上最大模型的Trainum2超級服務(wù)器。它連接了4個計算節(jié)點,集成了64個Trainium2芯片,將峰值算力擴(kuò)展至83.2PFLOPS,稀疏算力更是高至332.8PFLOPS,將單個實例的計算、內(nèi)存和網(wǎng)絡(luò)性能提高4倍

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

三是亞馬遜云科技迄今做機(jī)器學(xué)習(xí)訓(xùn)練最高能效的服務(wù)器——Trainium2服務(wù)器。一個Trainium2服務(wù)器容納有16個Trainium2芯片,可在單個計算節(jié)點提供20.8PFLOPS的計算能力。由Trainium2芯片提供支持的Amazon EC2 Trn2實例也正式可用,可提供比當(dāng)前GPU驅(qū)動的實例高出30%~40%的性價比。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這些Trainium2芯片通過超快的NeuronLink互連技術(shù)連接在一起。

在芯片設(shè)計上,Dave Brown講解了CPU、GPU、NPU三類芯片微架構(gòu)的不同。

CPU針對大量復(fù)雜邏輯的快速執(zhí)行,每個緩存對應(yīng)控制引擎和執(zhí)行引擎。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

GPU主要用于數(shù)據(jù)并行,控制單元較少,執(zhí)行單元多。其運算過程會涉及一些數(shù)據(jù)在緩存和HBM內(nèi)存之間的倒換。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

為了減少無效的內(nèi)存占用,亞馬遜云科技Trainium芯片采用的是脈動陣列(Systolic Arrays)架構(gòu),與谷歌TPU如出一轍,直接傳遞計算結(jié)果,能夠降低內(nèi)存帶寬需求。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

在生態(tài)建設(shè)上,亞馬遜云科技提供了一個其自研AI芯片的專用編譯語言新Neuron Kernel接口(NKI),用于方便開發(fā)者直接對其AI芯片進(jìn)行深度調(diào)試,從而更充分地挖掘芯片性能。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

單芯片的性能強(qiáng),在實際落地中未必管用。要支撐起業(yè)界最大的大模型訓(xùn)練和推理,必須能夠提高大量芯片互連時的系統(tǒng)級算力利用率。

亞馬遜云科技自研的NeuronLink芯片到芯片互連技術(shù)可將多個Trainium2服務(wù)器組合成一個邏輯服務(wù)器,帶寬為2TB/s,延遲為1μs

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

與傳統(tǒng)高速網(wǎng)絡(luò)協(xié)議網(wǎng)絡(luò)不同的是,NeuronLink服務(wù)器可以直接訪問彼此的內(nèi)存,從而創(chuàng)造出一臺“超級服務(wù)器”。

Peter DeSantis也花時間科普了一下為什么大模型推理越來越重要,以及它對AI基礎(chǔ)設(shè)施提出了怎樣的新要求。

大模型推理有兩種工作負(fù)載——預(yù)填充(prefill)token生成。預(yù)填充是輸入編碼,其中處理提示和其他模型輸入,為token生成做準(zhǔn)備。這個過程需要大量的計算資源來將輸入轉(zhuǎn)換成傳遞給下一個進(jìn)程的數(shù)據(jù)結(jié)構(gòu)。完成后,計算出的數(shù)據(jù)結(jié)構(gòu)將被傳遞給第二個推理工作負(fù)載,由它生成token。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

Token生成的有趣之處在于,模型按順序生成每個token,一次一個。這對AI基礎(chǔ)設(shè)施提出了非常不同的要求,每次生成token時,必須從內(nèi)存中讀取整個模型,因此會對內(nèi)存總線產(chǎn)生大量需求,但它只使用少量的計算,幾乎與預(yù)填充工作負(fù)載完全相反。

這些工作量差異對AI基礎(chǔ)設(shè)施意味著什么呢?一旦token開始生成,只需要以超過人類閱讀速度的速度生成它們。這不是很快,但當(dāng)模型越來越多地用于agentic工作流,在進(jìn)入工作流的下一步之前,需要生成整個響應(yīng)。所以現(xiàn)在客戶關(guān)心的是快速預(yù)填充快速token生成。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

對真正快速推理的渴望,意味著AI推理工作負(fù)載也尋求使用最強(qiáng)大的AI服務(wù)器。這兩種不同工作負(fù)荷是互補(bǔ)的。預(yù)填充需要更多的計算,token生成需要更多的內(nèi)存帶寬,所以在同一個強(qiáng)大的AI服務(wù)器上運行它們可以幫助實現(xiàn)出色的性能和效率

這就解釋了亞馬遜云科技力推自研AI服務(wù)器及集群的核心驅(qū)動力。

四、如何構(gòu)建AI網(wǎng)絡(luò)?10p10u架構(gòu)、定制光纖電纜及插頭、混合式路由協(xié)議

云網(wǎng)絡(luò)需要快速擴(kuò)展以適應(yīng)增長,亞馬遜云科技每天向全球數(shù)據(jù)中心添加數(shù)千臺服務(wù)器。但AI的擴(kuò)展速度更快。

據(jù)Peter DeSantis分享,亞馬遜云科技的云網(wǎng)絡(luò)在可靠性方面已經(jīng)做到99.999%。AI工作負(fù)載對規(guī)模、速度、可靠性的要求更甚。如果AI網(wǎng)絡(luò)經(jīng)歷了短暫的故障,整個集群的訓(xùn)練過程可能會延遲,導(dǎo)致資源閑置和訓(xùn)練時間延長。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

如何在云網(wǎng)絡(luò)的創(chuàng)新基礎(chǔ)上構(gòu)建一個AI網(wǎng)絡(luò)呢?亞馬遜云科技打造了10p10u網(wǎng)絡(luò)。

10p10u的物理架構(gòu)與傳統(tǒng)CLOS網(wǎng)絡(luò)架構(gòu)區(qū)別不大,亮點是實現(xiàn)了10Pbps傳輸帶寬、10μs網(wǎng)絡(luò)延遲,連起來后組成可用于訓(xùn)練的超級集群。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

下圖展示了亞馬遜云科技在不同網(wǎng)絡(luò)結(jié)構(gòu)中安裝的鏈接數(shù)量,其中10p10u在過去12個月已安裝超過300萬條。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

結(jié)構(gòu)如下圖所示,采用簡化的無電纜機(jī)箱設(shè)計,左側(cè)是8張Nitro卡,右側(cè)是兩顆Trainium2加速器。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

大量的光纜進(jìn)入機(jī)架,要構(gòu)建這樣的密集網(wǎng)絡(luò)結(jié)構(gòu),需要非常精確的互連交換機(jī),并要應(yīng)對復(fù)雜性大大增加的挑戰(zhàn)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

針對布線復(fù)雜問題,亞馬遜云科技研制了一些特殊的光纖電纜、光纖插頭,并針對超大規(guī)模集群打造了一種全新網(wǎng)絡(luò)路由協(xié)議。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

其中一個創(chuàng)新是開發(fā)了一個定制的光纖電纜Fiber optical trunk cable。可以把它當(dāng)成一根超級電纜,它將16根獨立的光纖電纜組合成一個堅固的連接器,能夠大大簡化組裝過程,消除連接錯誤的風(fēng)險。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

使用主干連接器將在AI機(jī)架上的安裝時間縮短了54%,而且做到看起來更整潔了。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

還有定制光纖插頭——Firefly Optic Plug

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這個巧妙的低成本設(shè)備就像一個微型信號反射器,支持在機(jī)架到達(dá)數(shù)據(jù)中心之前進(jìn)行全面測試和驗證網(wǎng)絡(luò)連接。這意味著服務(wù)器到達(dá)時,不會浪費任何時間調(diào)試、布線。

此外,即使是微小的灰塵顆粒,也會顯著降低完整性并造成網(wǎng)絡(luò)性能問題。而Firefly Optic Plug具有雙重保護(hù)密封功能,可防止灰塵顆粒進(jìn)入光纖連接。

最后一個挑戰(zhàn)是提供更高的網(wǎng)絡(luò)可靠性。

亞馬遜云科技對光鏈路的可靠性做了很多優(yōu)化,將失敗降低到0.002以下。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

AI網(wǎng)絡(luò)中最大的故障來源是光鏈路。光鏈路是微型激光模塊,在電纜上發(fā)送和接收光信號。這些失敗不可能被完全消除,因此需要考慮如何減少失敗的影響。

每個網(wǎng)絡(luò)交換機(jī)都需要數(shù)據(jù)來告訴它們?nèi)绾温酚蓴?shù)據(jù)包。在AI網(wǎng)絡(luò)中,這個地圖可能需要考慮數(shù)十萬條路徑。每次光鏈路出現(xiàn)故障,映射就需要更新。

如何快速而可靠地做到這一點?最簡單的方法是集中管理映射。

優(yōu)化網(wǎng)絡(luò)聽起來很吸引人,但當(dāng)網(wǎng)絡(luò)規(guī)模龐大時,中央控制就會成為瓶頸。檢測故障會很困難,交換機(jī)更新可能非常緩慢,而且中央控制器是單點故障。這就是為什么大型網(wǎng)絡(luò)通常使用BGP和OSPF等協(xié)議去中心化的原因。

然而去中心化的方案也不完美。在大型網(wǎng)絡(luò)中,當(dāng)鏈路出現(xiàn)故障時,網(wǎng)絡(luò)交換機(jī)需要花費大量時間進(jìn)行協(xié)作,并為網(wǎng)絡(luò)找到新的最優(yōu)映射。

也就是說,在面對超大規(guī)模集群組網(wǎng)時,集中式和分布式的傳統(tǒng)路由協(xié)議都面臨挑戰(zhàn)。

面臨次優(yōu)選擇時,則需要開辟一條新的道路。對此,亞馬遜云科技研發(fā)了一種全新的混合式網(wǎng)絡(luò)路由協(xié)議SIDR(Scalable Intent Driven Routing),通過將集中式和分布式控制的優(yōu)勢相結(jié)合,能在很短時間內(nèi)重新規(guī)劃網(wǎng)絡(luò)路徑,為超大規(guī)模集群提供更好的快速故障檢測、響應(yīng)和恢復(fù)能力。

SIDR可以簡單理解成讓中央計劃者將網(wǎng)絡(luò)分解成一個結(jié)構(gòu),這個結(jié)構(gòu)可以下推到網(wǎng)絡(luò)中的所有交換機(jī)。這樣它們看到故障時,就能做出快速、自主的決定。 結(jié)果,SIDR能在1秒內(nèi)響應(yīng)故障,而且在亞馬遜云科技網(wǎng)絡(luò)上做到比其他替代方法快10倍。其他網(wǎng)絡(luò)可能還在重新計算路線,10p10u網(wǎng)絡(luò)已經(jīng)恢復(fù)工作了。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

結(jié)語:云大廠自研芯片的風(fēng)向標(biāo)

作為在自研芯片落地上最成功的云計算大廠之一,亞馬遜云科技的芯片設(shè)計經(jīng)驗、自研芯片對云業(yè)務(wù)的實際影響、迭代與創(chuàng)新方向一直備受關(guān)注。在接受智東西等媒體采訪期間,Dave Brown也總結(jié)了亞馬遜云科技自研芯片的一些關(guān)鍵優(yōu)勢,包括成本低、規(guī)模大、落地快、穩(wěn)定可靠等。

成本上,如果選用Trainium2可將成本較H100降低50%,那么這對客戶或許是很有吸引力的點。

規(guī)模上,亞馬遜云科技的規(guī)模確保其芯片能夠正常運行,會在推出Trainium前做大量測試,確保芯片一旦推出就一定會成功,不會出現(xiàn)硬件需要撤回的情況。

規(guī)模大還意味著更容易獲得所需的產(chǎn)能。Dave Brown提到亞馬遜云科技與英特爾、臺積電等企業(yè)的合作順利,認(rèn)為臺積電到美國鳳凰城投資建廠是明智之選。亞馬遜云科技致力于實現(xiàn)供應(yīng)鏈多元化,是臺積電的最大客戶之一,也一直與英特爾緊密合作,互相幫助進(jìn)行設(shè)計創(chuàng)新,預(yù)計不會受領(lǐng)導(dǎo)層變動的影響。

落地上,亞馬遜云科技有專門團(tuán)隊,負(fù)責(zé)立即能將芯片放到服務(wù)器中,中間不存在一兩個月的耽擱延誤,因此能縮短落地時間,有足夠好的芯片來支持客戶進(jìn)行大語言模型的訓(xùn)練。

還有完整的產(chǎn)品組合和可靠服務(wù)。亞馬遜云科技提供不僅僅是芯片,還包括存儲、Kubernetes服務(wù)器、API、安全、網(wǎng)絡(luò)等,這樣豐富的組合拳是其他供應(yīng)商難以提供的。在穩(wěn)定性上,亞馬遜云科技同樣具備優(yōu)勢,在及時診斷和修補(bǔ)遇到的問題、確保服務(wù)不受影響方面已經(jīng)深得云服務(wù)客戶的信任。

生成式AI浪潮推動下游市場對更高性能、高性價比、靈活可定制的AI基礎(chǔ)設(shè)施提出了強(qiáng)需求。而亞馬遜云科技在AI基礎(chǔ)設(shè)施底層技術(shù)與工程上的探索與創(chuàng)新,正為業(yè)界提供一個既能適應(yīng)客戶業(yè)務(wù)需求、降低系統(tǒng)復(fù)雜性又能提高供應(yīng)鏈話語權(quán)的出色參考范本。