芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西拉斯維加斯12月4日報道,剛剛,在年度云計(jì)算盛會AWS re:Invent上,全球最大云計(jì)算巨頭亞馬遜云科技(AWS)發(fā)布第五代自研服務(wù)器CPU——Graviton5。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

Graviton5在單個封裝中集成192個核心,核心數(shù)較上一代翻倍,核心架構(gòu)升級為Neoverse V3,并優(yōu)化了內(nèi)存系統(tǒng),搭配大容量緩存,支持DDR5-8800內(nèi)存,IO系統(tǒng)支持DDR5內(nèi)存,且是亞馬遜云科技服務(wù)器集群中首款支持PCIe Gen 6的CPU。

該芯片配備2MB二級緩存(L2 Cache);三級緩存(L3 Cache)容量達(dá)到前代產(chǎn)品的5.3倍,達(dá)到192MB,這意味著每個核心能獲得高達(dá)2.6倍的三級緩存,帶來更優(yōu)的整體性能和穩(wěn)定性。

在AWS re:Invent大會期間,亞馬遜云科技副總裁、杰出工程師Ali Saidi與芯東西等少數(shù)媒體進(jìn)行了深入交流。Saidi告訴芯東西,Graviton5采用3nm制程,已掌握成熟的電壓控制技術(shù),主頻適中,同時通過系統(tǒng)層面的創(chuàng)新優(yōu)化散熱,例如采用裸片冷卻技術(shù),去除CPU頂蓋,減少頂蓋帶來的熱阻,直接在CPU上安裝散熱器,確保核心能夠有效散熱,無需擔(dān)心散熱問題。

據(jù)Saidi透露,亞馬遜云科技正與內(nèi)存供應(yīng)商合作,推動現(xiàn)有產(chǎn)品支持更高頻率,對不同工作負(fù)載的測試表明,這是一套平衡的系統(tǒng),能夠?yàn)楹诵奶峁┏渥愕膬?nèi)存帶寬,同時實(shí)現(xiàn)顯著的性能提升。

亞馬遜在2018年發(fā)布了首款Graviton處理器,2019年推出Graviton2,2021年推出Graviton3,2023年發(fā)布Graviton4。每一代產(chǎn)品都力求實(shí)現(xiàn)25%~30%的性能提升,Graviton5也不例外——每個核心性能比上一代提升約25%。

亞馬遜云科技針對多種工作負(fù)載進(jìn)行了測試:在CPU密集型機(jī)器學(xué)習(xí)場景中,Graviton5比Graviton4快32%;在Nginx等負(fù)載均衡場景中,速度提升27%;作業(yè)類應(yīng)用速度提升30%至40%;數(shù)據(jù)庫場景中,不同類型數(shù)據(jù)庫的性能普遍提升約30%。

亞馬遜云科技計(jì)算與機(jī)器學(xué)習(xí)服務(wù)副總裁Dave Brown在演講中分享了一些Graviton5早期客戶的測試數(shù)據(jù):Airbnb性能提升高達(dá)25%,Atlassian性能提升30%、延遲降低20%,Honeycomb.io延遲降低25%、每核心性能提升36%,SAP的SAP HANA分析查詢性能提升60%。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

蘋果云系統(tǒng)與平臺副總裁Payam Mirrashidi也來到現(xiàn)場為AWS Graviton CPU站臺。

他分享說,目前,蘋果每天通過運(yùn)行在亞馬遜云科技和Graviton上的Swift應(yīng)用處理數(shù)十億次請求。將核心服務(wù)用Swift重構(gòu)并遷移到Graviton后,蘋果實(shí)現(xiàn)了40%的性能提升和30%的成本降低。從x86到Graviton的遷移過程極為順暢,幾乎可以直接替代Java環(huán)境。蘋果早在十多年前就將移動設(shè)備遷移到Arm架構(gòu)。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

“如今,遷移到基于Arm的Graviton,我們再次收獲了基礎(chǔ)設(shè)施效率提升的巨大價值?!盡irrashidi說,“我們迫不及待地想看到大家用AWS Graviton和Swift創(chuàng)造出更多精彩成果?!?/p>

據(jù)Saidi分享,亞馬遜云科技與Arm在核心定義方面密切合作:Graviton2采用Neoverse N1核心,Graviton3采用Neoverse V1核心,Graviton4采用Neoverse V2核心,Graviton5采用Neoverse V3核心。每一代都通過與Arm合作,確保核心滿足需求,進(jìn)而為客戶帶來顯著性能收益。

“Graviton的成功證明,通過授權(quán)Arm IP,我們能夠打造出具有行業(yè)競爭力的系統(tǒng)。未來,我們將繼續(xù)專注于這一模式,持續(xù)為客戶創(chuàng)造價值?!盨aidi說。

基于Graviton5的M9g實(shí)例(預(yù)覽版)今日同步發(fā)布,相比M8g實(shí)例性能提升高達(dá)25%,是目前Amazon EC2中性價比最高的實(shí)例。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

Saidi在媒體溝通會期間分享說,該實(shí)例每核心配備4GB內(nèi)存,將于2026年正式全面可用,后續(xù)還將拓展更多實(shí)例類型。

以Graviton4為例,亞馬遜云科技提供的實(shí)例最高支持3TB內(nèi)存、190個核心、600Gbps網(wǎng)絡(luò)帶寬和100TB存儲容量,涵蓋多種實(shí)例類型,可滿足客戶各類工作負(fù)載需求。

目前Graviton5僅推出一款實(shí)例類型,未來將拓展更多選擇。

亞馬遜云科技公用計(jì)算高級副總裁Peter DeSantis在演講中談道,亞馬遜云科技云服務(wù)的核心屬性包括安全性、可用性、彈性、成本等,亞馬遜云科技正在大規(guī)模投資數(shù)據(jù)中心、電力和容量建設(shè),以支持AI轉(zhuǎn)型,同時大力投入降低模型構(gòu)建和工作負(fù)載運(yùn)行的成本。如今亞馬遜云科技的芯片系列包括Graviton專用服務(wù)器CPU和Trainium AI訓(xùn)練芯片等。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

亞馬遜云科技計(jì)算與機(jī)器學(xué)習(xí)服務(wù)副總裁Dave Brown回顧了亞馬遜云科技造芯歷程和設(shè)計(jì)思路的演變。據(jù)他分享,Nitro系統(tǒng)改變了人們對云計(jì)算可能性的認(rèn)知,證明只要能掌控芯片、硬件和系統(tǒng)架構(gòu),就能實(shí)現(xiàn)商用硬件無法企及的性能和效率提升。在深入研究Nitro系統(tǒng)的過程中,亞馬遜云科技自然產(chǎn)生了一個疑問:

“既然定制芯片能同樣改善網(wǎng)絡(luò)和存儲性能,為什么不能將其應(yīng)用于計(jì)算領(lǐng)域?”

于是,亞馬遜云科技重新思考:如果專門為云工作負(fù)載設(shè)計(jì)一款服務(wù)器處理器 —— 不是適配、不是改造,而是從零開始為云原生場景打造——會是什么樣子?

這就是Graviton處理器的由來。

這款全新設(shè)計(jì)的處理器,核心目標(biāo)是為客戶在云中日常運(yùn)行的工作負(fù)載提供最優(yōu)性價比。

如今,各行各業(yè)的企業(yè)都在通過Graviton獲得更高性能和更低成本:Adobe將碳排放減少37%,Epic Games借助它支撐全球大規(guī)模低延遲游戲工作負(fù)載,F(xiàn)1通過Graviton使模擬運(yùn)算速度提升40%,Pinterest降低了47%的成本,SAP的云原生SAP應(yīng)用性能提升35%。

這些正在運(yùn)行的生產(chǎn)系統(tǒng),通過Graviton實(shí)現(xiàn)了更快、更環(huán)保、更經(jīng)濟(jì)的運(yùn)行。

其軟件合作伙伴通過優(yōu)化編譯器、改進(jìn)運(yùn)行時、完善庫文件,并在平臺上全面支持Graviton。圍繞Graviton形成的長期架構(gòu)和行業(yè)協(xié)作生態(tài)還在持續(xù)成長和成熟。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

要在Amazon EC2中實(shí)現(xiàn)最優(yōu)性價比,需要關(guān)注每一個層級。除了提高芯片性能外,這還涉及系統(tǒng)的構(gòu)建和運(yùn)行方式。

由于亞馬遜云科技同時設(shè)計(jì)處理器和服務(wù)器,它能夠?qū)崿F(xiàn)全棧優(yōu)化,其中就包括客戶不常關(guān)注的散熱環(huán)節(jié)。

大多數(shù)處理器采用傳統(tǒng)散熱方案:芯片之上是熱界面材料,然后是保護(hù)頂蓋,再覆蓋一層熱界面材料,最后是散熱器。這種方案可靠且易于制造,幾十年來一直是行業(yè)標(biāo)準(zhǔn),但亞馬遜云科技深入分析后發(fā)現(xiàn),其物理原理存在優(yōu)化空間。

熱傳遞的物理邏輯很簡單:散熱路徑中的每一層都會減緩熱量傳導(dǎo),阻力越大,結(jié)溫越高;而高溫會增加漏電率,漏電率上升又會導(dǎo)致功耗增加,低效問題會迅速累積。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

傳統(tǒng)CPU采用這種設(shè)計(jì),是因?yàn)樾枰m配多種系統(tǒng)、形態(tài)和工具方案,頂蓋能提供穩(wěn)定的接口。

但由于亞馬遜云科技掌控著Graviton的整個系統(tǒng),有機(jī)會嘗試不同思路。

因此,它沒有遵循傳統(tǒng)模式,而是設(shè)計(jì)了 “直接貼合芯片” 的散熱方案:移除頂蓋和對應(yīng)的熱界面材料,減少熱阻,讓熱量傳導(dǎo)更高效。這需要精密制造和精心選材,但成果顯著——風(fēng)扇功耗降低了33%。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

提升系統(tǒng)效率只是實(shí)現(xiàn)卓越性能的一部分,芯片本身必須一代比一代更出色。Graviton的研發(fā)是長期且持續(xù)迭代的過程:每一代產(chǎn)品都會拓展支持的工作負(fù)載類型,而新工作負(fù)載的出現(xiàn)會讓亞馬遜云科技發(fā)現(xiàn)新的瓶頸,進(jìn)而指導(dǎo)下一代產(chǎn)品的研發(fā),形成持續(xù)優(yōu)化的循環(huán)。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

每一款Graviton處理器都基于前代成果,不斷推動架構(gòu)向前發(fā)展。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

亞馬遜云科技針對實(shí)際應(yīng)用性能優(yōu)化Graviton。在Graviton3時代,亞馬遜云科技發(fā)現(xiàn)二級緩存(L2 Cache)缺失對實(shí)際工作負(fù)載性能有明顯影響。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

緩存是CPU性能最重要的影響因素之一,因此成為其核心優(yōu)化方向。緩存的作用是存儲頻繁訪問的數(shù)據(jù),若數(shù)據(jù)不在緩存中,處理器就必須訪問主內(nèi)存,速度會慢得多。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

現(xiàn)代CPU采用三級緩存架構(gòu):一級緩存(L1)最快但容量最小,二級緩存(L2)容量更大但速度稍慢,三級緩存(L3)容量最大且為所有核心共享。

如果三級緩存都未命中,就必須訪問DRAM,耗時可達(dá)100ns。對CPU周期而言,這是很長的時間。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

因此,大容量緩存至關(guān)重要:能將更多數(shù)據(jù)留在核心附近,減少慢速內(nèi)存訪問。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

基于此,Graviton4將每個核心的二級緩存容量從1MB翻倍至2MB,這也是其相比Graviton3性能提升高達(dá)30%的原因之一。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

二級緩存擴(kuò)容顯著降低了二級緩存缺失率。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

但CPU設(shè)計(jì)始終需要權(quán)衡取舍:Graviton4的核心數(shù)增加了15%,三級緩存僅增加12%。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

這對于當(dāng)時要支持的縱向擴(kuò)展工作負(fù)載是合適的平衡,但更多核心共享相對少量增加的三級緩存,導(dǎo)致每個核心能分配到的三級緩存反而減少,進(jìn)而使三級緩存缺失率上升。這就是芯片設(shè)計(jì)中需要不斷評估的權(quán)衡問題。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

此外,亞馬遜云科技還進(jìn)行了一項(xiàng)重大架構(gòu)調(diào)整:在兩個CPU之間添加一致性鏈路,使其能為數(shù)據(jù)庫和大型分析工作負(fù)載提供最多192個核心。

亞馬遜最強(qiáng)服務(wù)器CPU登場!3nm、192核、暴增L3緩存,蘋果力挺

但鏈路連接會帶來額外開銷:當(dāng)一個核心需要訪問另一個CPU上的內(nèi)存時,請求必須通過互連鏈路傳輸,增加延遲、協(xié)議開銷,有時還會出現(xiàn)排隊(duì),在某些場景下,耗時可能達(dá)到原來的3倍。

因此,其團(tuán)隊(duì)思考:能否在單個封裝中實(shí)現(xiàn)192個核心,同時讓所有核心都能均勻、快速地訪問內(nèi)存,并配備更大容量的緩存?

這就是Graviton5設(shè)計(jì)的來源。

如今,使用亞馬遜自研服務(wù)器CPU Graviton系列的客戶數(shù)量已超過90000家,實(shí)現(xiàn)數(shù)百萬顆CPU量產(chǎn)。

其中包括前1000名Amazon EC2大客戶中的98%,涵蓋初創(chuàng)企業(yè)、大型企業(yè)等不同規(guī)模的客戶,部分客戶的大部分甚至全部計(jì)算工作都運(yùn)行在Graviton上。這些客戶包括Adobe Analytics、SAP、亞馬遜自身、Stripe、Pinterest、Airbnb等知名企業(yè)。

多年來,Graviton一直是Amazon EC2中性價比最高的選擇,讓客戶“以更少成本實(shí)現(xiàn)更多價值”。

客戶采用Graviton后,通常有兩種方式轉(zhuǎn)化性能提升的價值:一種是改善應(yīng)用延遲,對于延遲敏感型場景,Graviton帶來的更高性能和更低延遲,能直接推動業(yè)務(wù)成果優(yōu)化;另一種是在保持服務(wù)等級協(xié)議(SLA)或延遲不變的前提下,提升每秒事務(wù)數(shù)或請求數(shù)。

對于擁有大規(guī)模服務(wù)器集群的客戶而言,如果每個實(shí)例的處理能力提升25%,意味著服務(wù)器數(shù)量可減少25%,性能提升直接轉(zhuǎn)化為成本降低。

再加上Graviton本身相比x86產(chǎn)品的成本優(yōu)勢,客戶能獲得顯著的性價比提升。