芯東西(公眾號:aichip001)
編譯 | ?ZeR0
編輯 | ?漠影

芯東西5月15日報(bào)道,今日凌晨,谷歌在I/O大會上宣布推出其迄今性能最高、最節(jié)能的專用AI芯片——第六代TPU?Trillium。該芯片將于今年晚些時(shí)候上市。

與上一代TPU v5e相比,Trillium TPU在每個芯片上的峰值計(jì)算性能提高了4.7倍,節(jié)能67%以上,將高帶寬內(nèi)存(HBM)容量和帶寬提高了1倍,并將TPU v5e上的芯片間互連(ICI)帶寬提高了1倍。

谷歌最強(qiáng)AI芯片發(fā)布!計(jì)算性能提高4.7倍,HBM容量和帶寬翻番

為了提高性能水平,Trillium擴(kuò)大了矩陣乘單元(MXU)的大小并提高了時(shí)鐘速度。

此外,Trillium還配備了第三代SparseCore,這是一種專門用于處理高級排名和推薦工作負(fù)載中常見的超大型嵌入的專用加速器。SparseCore通過戰(zhàn)略性地從張量核心中卸載隨機(jī)和細(xì)粒度訪問來加速嵌入繁重的工作負(fù)載。

HBM容量和帶寬翻倍后,Trillium可以使用具有更多權(quán)重和更大鍵值緩存的更大模型。

下一代HBM支持更高的內(nèi)存帶寬、更高的功率效率和靈活的信道架構(gòu),以增加內(nèi)存吞吐量。這改善了大模型的訓(xùn)練時(shí)間和服務(wù)延遲。這是模型權(quán)重和鍵值緩存的兩倍,訪問速度更快,并且具有更多的計(jì)算容量來加速機(jī)器學(xué)習(xí)工作負(fù)載。

ICI帶寬翻倍,使訓(xùn)練和推理工作能夠擴(kuò)展到數(shù)萬個芯片,這是由定制光學(xué)ICI互連(每個POD中有256個芯片)和Google Jupiter Networking(將可擴(kuò)展性擴(kuò)展到集群中的數(shù)百個POD)的組合提供支持的。

Trillium可以在單個高帶寬、低延遲POD中擴(kuò)展到256個TPU。除了這種POD級的可擴(kuò)展性,通過multislice技術(shù)和Titanium處理單元(IPU)。Trillium TPU可以擴(kuò)展到數(shù)百個POD,連接數(shù)萬個芯片,在一個建筑級超級計(jì)算機(jī)中,通過每秒數(shù)petabit的數(shù)據(jù)中心網(wǎng)絡(luò)互連。

十多年來,谷歌一直在開發(fā)定制的AI專用硬件TPU,以推動規(guī)模和效率的發(fā)展。

2013年,谷歌開始開發(fā)世界上第一個專用AI加速器TPU v1,隨后在2017年推出了第一個Cloud TPU。如果沒有TPU,谷歌的實(shí)時(shí)語音搜索、照片對象識別、交互式語言翻譯等主流服務(wù)以及Gemini、Imagen和Gemma等先進(jìn)基礎(chǔ)模型將不能實(shí)現(xiàn)。

TPU的規(guī)模和效率為谷歌研究中心的Transformer提供了基礎(chǔ)工作,而Transformer是現(xiàn)代生成式AI的算法基礎(chǔ)。

在這些基礎(chǔ)上研發(fā)出的Trillium,將為下一代AI模型和Agent提供動力。例如,自動駕駛汽車公司Nuro通過使用Cloud TPU訓(xùn)練模型,致力于通過機(jī)器人技術(shù)創(chuàng)造更美好的日常生活;Deep Genomics正在通過AI推動藥物發(fā)現(xiàn)的未來,并期待著他們的下一個基礎(chǔ)模型如何在Trillium的支持下改變患者的生活;谷歌AI年度云合作伙伴德勤將基于Trillium通過生成式AI轉(zhuǎn)變業(yè)務(wù)。

Trillium TPU是谷歌云AI超級計(jì)算機(jī)的一部分,這是一種專門為頂尖AI工作負(fù)載設(shè)計(jì)的突破性超級計(jì)算架構(gòu)。它集成了性能優(yōu)化的基礎(chǔ)設(shè)施(包括Trillium TPU)、開源軟件框架和靈活的消費(fèi)級模型。

谷歌最強(qiáng)AI芯片發(fā)布!計(jì)算性能提高4.7倍,HBM容量和帶寬翻番

對JAX和XLA的支持意味著為任何上一代TPU編寫的聲明性模型描述可以直接映射到Trillium TPU的新硬件和網(wǎng)絡(luò)功能。谷歌還與Hugging Face合作了Optimum-TPU,以簡化模型訓(xùn)練和服務(wù)。

結(jié)語:下一代基礎(chǔ)模型需要更大的計(jì)算、存儲、通信能力

生成式AI正在改變?nèi)藗兣c技術(shù)的互動方式,并為商業(yè)影響帶來巨大的效率機(jī)會。這些進(jìn)步需要更大的計(jì)算、內(nèi)存和通信能力來訓(xùn)練和微調(diào)最強(qiáng)大的模型,并以交互方式為全球用戶群體提供服務(wù)。

谷歌今天發(fā)布的Gemini 1.5 Flash、Imagen 3和Gemma 2等新模型都是在TPU上訓(xùn)練并使用TPU提供服務(wù)的。Trillium TPU能更快地訓(xùn)練下一代基礎(chǔ)模型,并以更低的延遲和更低的成本為這些模型提供服務(wù)。

在Trillium TPU上支持長上下文、多模態(tài)模型的訓(xùn)練和服務(wù),將使谷歌DeepMind能夠比以往更快、更有效、更低延遲地訓(xùn)練和服務(wù)未來幾代Gemini模型。