芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西5月8日報道,今日,Imagination Technologies推出兼顧邊緣AI計算和圖形渲染需求的全新E系列GPU IP。E系列(E-Series)憑借其高效的并行處理架構(gòu),INT8/FP8算力可在2到200 TOPS之間擴展,為邊緣應(yīng)用提供了一種通用且可編程的解決方案。

該GPU IP適用于圖形渲染、桌面應(yīng)用、智能手機上的自然語言處理、工業(yè)計算機視覺以及自動駕駛等領(lǐng)域。首款E系列GPU IP將于2025年秋季正式上市,目前已完成授權(quán)。汽車、消費電子、桌面及移動版本亦在同步開發(fā)中。

Imagination推出E-Series,AI算力多達200TOPS,兼顧圖形渲染與AI計算

Imagination的PowerVR GPU架構(gòu)以能效著稱,已在功耗受限設(shè)備中應(yīng)用近二十年。E系列進一步引入全新的爆發(fā)式處理器(Burst Processors) 技術(shù),在AI推理、游戲和用戶界面等工作負載下平均功耗效率再提升35%。

Imagination創(chuàng)新與工程負責(zé)人Tim Mamtora談道:“E系列將GPU放在圖形與邊緣AI系統(tǒng)的核心位置。對需要同時運行圖形與計算任務(wù)的系統(tǒng)設(shè)計者而言,E系列GPU提供了一種高度靈活的解決方案,既無需依賴額外的向量處理器或固定功能AI加速器,又能在降低整體系統(tǒng)設(shè)計成本的同時,實現(xiàn)面向未來的可擴展性?!?/p>

在媒體溝通會上,Imagination中國區(qū)董事長兼亞太總裁白農(nóng)告訴芯東西等媒體,這款新產(chǎn)品是Imagination在圖形和計算領(lǐng)域多年來累積的又一個里程碑,它不僅在性能、功耗和面積方面實現(xiàn)了全面的優(yōu)化,更在架構(gòu)設(shè)計上實現(xiàn)了從傳統(tǒng)渲染將通用計算的深度拓展,具備高度的靈活性和可擴展性。

Imagination推出E-Series,AI算力多達200TOPS,兼顧圖形渲染與AI計算

“中國一直是我們?nèi)蜃钪匾膽?zhàn)略市場之一,”白農(nóng)談道,“未來,我們將持續(xù)加大對中國市場的投入,不僅為加大本土技術(shù)支持團隊的建設(shè),還將升華與本土生態(tài)伙伴的合作,幫助客戶抓住新一輪AI浪潮帶來的市場機遇。”

一、兩大核心創(chuàng)新,AI算力可擴展至200TOPS

Imagination E系列GPU IP的每個GPU核深度集成低精度、高能效AI加速能力。小核在1GHz頻率下有8Gpixel/s的像素填充率、0.25TFLOPS浮點算力、2TOPS INT8算力,可滿足輕量級應(yīng)用需求。4核配置在1.6GHz頻率下可提供400Gpixel/s的像素填充率、12.8TFLOPS浮點算力(FP32)、超過200TOPS的INT8算力。

E系列有兩項核心創(chuàng)新:Neural Cores(神經(jīng)核)與Burst Processors(爆發(fā)式處理器)。

神經(jīng)核計算密度高,AI性能可擴展至200 TOPS INT8 ,較前代D系列提升高達400%。它支持FP32、FP16、BF16、INT8、FP8、MXFP8、FP4、MXFP4等多種主流AI數(shù)值格式,能夠滿足不同精度、性能與功耗需求。其AI友好的內(nèi)存架構(gòu)在計算時優(yōu)先使用本地內(nèi)存,大幅降低了訪問外部內(nèi)存所消耗的功耗和性能成本。

Imagination推出E-Series,AI算力多達200TOPS,兼顧圖形渲染與AI計算

爆發(fā)式處理器擁有創(chuàng)新的架構(gòu)設(shè)計,使邊緣應(yīng)用中平均功耗效率提升35%。該技術(shù)深度集成于GPU中,改變了GPU原有指令調(diào)度方式,通過縮短流水線深度、減少數(shù)據(jù)在GPU內(nèi)部的移動等方式,實現(xiàn)盡可能多的數(shù)據(jù)重復(fù)使用和共享,從而減少很多不必要的計算開銷,提升能效。

Imagination推出E-Series,AI算力多達200TOPS,兼顧圖形渲染與AI計算

爆發(fā)式處理器主要優(yōu)勢包括:對特定指令進行調(diào)度,最小化控制器開銷,不會犧牲很多的延遲;重新設(shè)計ALU流水線,對流水線級數(shù)做縮減,實現(xiàn)了更高效的利用率,從而降低整體延遲和功耗;大量重復(fù)利用來自本地存儲的數(shù)據(jù),這也給功耗降低提供助力。

Imagination推出E-Series,AI算力多達200TOPS,兼顧圖形渲染與AI計算

E系列GPU上的創(chuàng)新建立在原有硬件資源的基礎(chǔ)上,并不會顯著增加芯片的面積,還可以對能效進行持續(xù)改進。

例如其一項重要架構(gòu)設(shè)計是在每一個計算單元都有將近0.5Mb的寄存器空間,能在芯片上高效保留需處理的數(shù)據(jù)。這些資源是GPU進行圖形處理時就存在的,現(xiàn)在又增加了AI相關(guān)的高效處理流水線,本質(zhì)上沒有額外增加芯片面積。

圖形處理和其他計算之間的靈活性取決于兩者之間的負載平衡,而Imagination實現(xiàn)了一種具有高靈活性的解決方案,可以對幾何像素和傳統(tǒng)計算進行負載平衡,還有基于優(yōu)先級的一些MCU調(diào)度機制。另一個優(yōu)勢是,GPU需要對多種不同紋理類型格式進行處理,本身就支持非常廣泛的數(shù)據(jù)類型,如今又拓展了數(shù)據(jù)轉(zhuǎn)換流水線來支持AI數(shù)據(jù)類型。

二、軟硬件充分協(xié)同,在GPU上可編程地開發(fā)AI模型

GPU作為可編程處理器,通過面向未來的架構(gòu)設(shè)計,使設(shè)備能夠持續(xù)應(yīng)對AI、計算和圖形工作負載的演進。

E系列延續(xù)了Imagination GPU的出色圖形處理能力,支持光線追蹤。通過在GPU內(nèi)部深度集成AI加速能力,其神經(jīng)核與更廣泛的GPU及異構(gòu)計算軟件生態(tài)實現(xiàn)無縫協(xié)同,有助于降低開發(fā)門檻。

Imagination也投入了大量的時間和工程資源,在更底層上確保認不同的AI工具和接口能夠與其硬件形成一種經(jīng)優(yōu)化的配合流程。

E系列GPU IP的算力可通過OpenCL等主流API直接調(diào)用,開發(fā)者借助oneAPI、Apache TVM或LiteRT等開放標準工具,能輕松將工作負載遷移至神經(jīng)核。Imagination的計算庫與高度優(yōu)化的圖形編譯器,可提高硬件利用率,進一步釋放GPU的潛能。

Imagination推出E-Series,AI算力多達200TOPS,兼顧圖形渲染與AI計算

當(dāng)代設(shè)備日益復(fù)雜,處理器需同時支持圖形與AI多項工作負載。為保障用戶體驗,實現(xiàn)高質(zhì)量服務(wù)(QoS)和清晰劃分任務(wù)優(yōu)先級至關(guān)重要。E系列在前代產(chǎn)品的多任務(wù)處理能力基礎(chǔ)上實現(xiàn)了增強,將Imagination GPU支持的、具備硬件加速且零開銷的虛擬機數(shù)量從8個翻倍至16個,并提供了先進的QoS支持。

E系列GPU IP的多核版本可利用額外的核心來提升性能或增強靈活性。這些GPU能夠同時處理多種圖形工作負載、多種AI工作負載,或圖形與AI工作負載的組合。

結(jié)語:可集成到各類SoC設(shè)計中,在任意設(shè)備上靈活部署新算法

IDC研究總監(jiān)Phil Solis認為:“各類設(shè)備上的AI功能正在迅速演進,但AI系統(tǒng)設(shè)計者依然面臨性能、效率與靈活性的多重挑戰(zhàn)。Imagination憑借其長期深耕低功耗GPU的經(jīng)驗,成功實現(xiàn)了GPU架構(gòu)對圖形與AI的靈活支持。E系列結(jié)合了GPU的可編程性與AI性能的飛躍,為邊緣AI系統(tǒng)開發(fā)者帶來了極具吸引力的解決方案?!?/p>

在行業(yè)分析師看來,要實現(xiàn)終端智能的真正潛力,邊緣AI的軟硬件必須協(xié)同演進。E系列便做到了各類開發(fā)者都能在任意設(shè)備上靈活部署最新算法。

由于Imagination提供的是一個軟IP解決方案,客戶可將其GPU IP集成到幾乎任何種類的SoC設(shè)計中。無論是想要開發(fā)用于智能手機或者其他系統(tǒng)的傳統(tǒng)SoC芯片,還是打造帶有自家顯存控制和PCIe總線的獨立GPU芯片、然后把它設(shè)計成一塊完整顯卡,都可以通過選用Imagination IP解決方案來實現(xiàn)。