芯東西(ID:aichip001
編輯 |? 溫淑

GTIC 2020全球AI芯片創(chuàng)新峰會(huì)剛剛在北京圓滿收官!在這場(chǎng)全天座無(wú)虛席、全網(wǎng)直播觀看人數(shù)逾150萬(wàn)次的高規(guī)格AI芯片產(chǎn)業(yè)峰會(huì)上,19位產(chǎn)學(xué)界重磅嘉賓從不同維度分享了對(duì)中國(guó)AI芯片自主創(chuàng)新和應(yīng)用落地的觀察與預(yù)判。

在峰會(huì)下午場(chǎng),Imagination Technologies公司副總裁&中國(guó)區(qū)總經(jīng)理劉國(guó)軍,發(fā)表了題為《多核GPU與專用NNA推動(dòng)從云到端側(cè)智能應(yīng)用》的演講。

Imagination劉國(guó)軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

▲Imagination Technologies公司副總裁&中國(guó)區(qū)總經(jīng)理劉國(guó)軍

劉國(guó)軍講解了Imagination的產(chǎn)品設(shè)計(jì)思路。隨著AI賦能的時(shí)代來(lái)臨,從互聯(lián)網(wǎng)到物聯(lián)網(wǎng)、從指紋解鎖到高性能計(jì)算,各個(gè)領(lǐng)域?qū)λ懔Φ男枨蟾邼q。后摩爾時(shí)代,異構(gòu)加速計(jì)算成為滿足全球各領(lǐng)域算力需求的可行解決方案。CPU、GPU、FPGA、ASIC、專用AI加速器的異構(gòu)融合,為提高算力開(kāi)辟了新的方向。

面向算力需求,Imagination打造GPU IP和神經(jīng)網(wǎng)絡(luò)加速器(NNA)IP的產(chǎn)品組合,分別著眼于AI計(jì)算的靈活性,以及高計(jì)算密度、低功耗需求。

Imagination分別于今年10月和11月,發(fā)布了采用多核架構(gòu)的最新B系列GPU IP和第四代NNA IP。在GTIC AI芯片創(chuàng)新峰會(huì)上,劉國(guó)軍亦分享了這兩款重磅新品的性能特點(diǎn),其中B系列GPU IP包含四款產(chǎn)品,功耗較前代產(chǎn)品降低30%,面積縮減25%,算力可達(dá)6TFLOPS,能滿足從移動(dòng)終端到自動(dòng)駕駛應(yīng)用的不同需求;而最新第四代NNA IP產(chǎn)品擁有全新多核架構(gòu),可提供600TOPS甚至更高的性能,能為大型神經(jīng)網(wǎng)絡(luò)工作負(fù)載提供極低的帶寬和延遲。

以下為劉國(guó)軍演講實(shí)錄整理:

一、Imagination所有知識(shí)產(chǎn)權(quán)沒(méi)有源自美國(guó)

Imagination Technologies是一家全球領(lǐng)先的戰(zhàn)略性獨(dú)立的IP供應(yīng)商。

1994年,Imagination在倫敦交易所上市。NEC和ST micro的PC以及世嘉Dreamcast游戲機(jī),都采用過(guò)PowerVR 3D技術(shù)。后期公司GPU技術(shù)轉(zhuǎn)向移動(dòng)端,并獲得了巨大成功。因?yàn)楣具\(yùn)營(yíng)的成功,Imagination創(chuàng)始人和當(dāng)時(shí)的CEO被英國(guó)伊麗莎白女王授予勛章。

基于GPU方面的成就近十年Imagination一直致力于研發(fā)人工智能IP技術(shù),并開(kāi)發(fā)了人工智能產(chǎn)品線。

2017年,在失去了最大客戶后,Imagination被中資背景的凱橋基金會(huì)全資收購(gòu)。

去年年底,Imagination曾經(jīng)的最大客戶重新回歸,與Imagination達(dá)成新的多年期授權(quán)協(xié)議。

Imagination有最核心的關(guān)鍵專利,公司專利技術(shù)多達(dá)1500多項(xiàng)。采用Imagination IP的芯片發(fā)貨量超過(guò)110億。在全球很多地方,Imagination設(shè)有研發(fā)人員和銷售機(jī)構(gòu)。

還有一點(diǎn)很特別,目前Imagination所有的知識(shí)產(chǎn)權(quán)沒(méi)有源自美國(guó),這在當(dāng)前的形勢(shì)下很關(guān)鍵。

二、用“GPU+AI加速器破解算力需求

Imagination現(xiàn)有產(chǎn)品分兩大類。

一類是GPU圖形處理IP,可用于移動(dòng)設(shè)備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視和汽車等眾多市場(chǎng)領(lǐng)域。目前Imagination在全球移動(dòng)GPU IP市場(chǎng)占有率為36%,在汽車GPU IP領(lǐng)域占到43%。Imagination今年剛推出的多核架構(gòu)IMG BXT產(chǎn)品,能夠達(dá)到數(shù)據(jù)中心的性能水平。

同時(shí)在圖形渲染方面,Imagination是全球?yàn)閿?shù)不多發(fā)布了硬件光線追蹤技術(shù)的高科技公司。

Imagination還有一類產(chǎn)品是神經(jīng)網(wǎng)絡(luò)加速器NNA IP。神經(jīng)網(wǎng)絡(luò)加速器,簡(jiǎn)單來(lái)講就是AI計(jì)算加速。

Imagination構(gòu)建了一個(gè)通用的計(jì)算平臺(tái)和專用的人工智能網(wǎng)絡(luò)加速的平臺(tái)。此外還有以太網(wǎng)的數(shù)據(jù)處理器,這是汽車整體解決方案中的一個(gè)重要技術(shù)。

ImaginationGPU IPNNA IP應(yīng)用范圍很廣,可應(yīng)用在移動(dòng)、汽車、物聯(lián)、云游戲等各個(gè)領(lǐng)域。

GTIC AI芯片創(chuàng)新峰會(huì)的討論離不開(kāi)算力。在信息與數(shù)據(jù)的社會(huì),從互聯(lián)網(wǎng)上的幾十億數(shù)據(jù),到物聯(lián)網(wǎng)上數(shù)萬(wàn)億的設(shè)備互相連接,這其中的AI應(yīng)用需要強(qiáng)大算力的支撐。應(yīng)用端也是一樣,從一個(gè)指紋的識(shí)別到最高性能的計(jì)算,都需要算力來(lái)支撐。

傳統(tǒng)的CPU遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前從云到端的算力需求。從云端到邊端,到2024年,數(shù)據(jù)中心市場(chǎng)可以達(dá)到約1000億美元。在這當(dāng)中,AI推理芯片在邊緣計(jì)算市場(chǎng)占據(jù)了很大份額,達(dá)到約63.6%。

隨著AI邊緣推理應(yīng)用向前發(fā)展,大家可以看到,移動(dòng)互聯(lián)、工業(yè)、安防、物聯(lián)網(wǎng)、多媒體、自動(dòng)駕駛等領(lǐng)域中的相關(guān)應(yīng)用逐漸落地。

算力需求怎么滿足?Imagination選取的是“GPU+AI加速器的解決方案,用“GPU+NNA”面向自動(dòng)駕駛和數(shù)據(jù)中心應(yīng)用。

在邊緣計(jì)算場(chǎng)景,AI 芯片主要承擔(dān)推理任務(wù)。由于邊緣側(cè)場(chǎng)景多種多樣、各不相同,對(duì)于計(jì)算硬件平臺(tái)的算力和能耗等性能需求也不同。因此,不同于云端AI芯片需具備“高端、通用”的性能特點(diǎn),應(yīng)用于邊緣側(cè)的AI芯片需要針對(duì)特殊場(chǎng)景進(jìn)行針對(duì)性設(shè)計(jì),以實(shí)現(xiàn)最優(yōu)的解決方案。

IMG的邊緣側(cè)推理解決方案將GPU和NNA相結(jié)合,靈活地將不同的工作負(fù)荷分配到最適合的硬件單元,最大限度地發(fā)揮不同硬件單元的性能。

Imagination劉國(guó)軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

三、全新B系列GPU IP & 4系列 NNA IP均采用多核架構(gòu)

今年十月份,Imagination在北京發(fā)布B系列的GPU。隨后在11月,Imagination發(fā)布第四代NNA IP。最新一代GPU IPNNA IP有什么特點(diǎn)?在AI芯片獲取算力方面,做出哪些提升?

劉國(guó)軍分享,B系列GPU IP共包含BXE、BXM、BXTBXS四款產(chǎn)品,從低到高提供不同的性能。

其中,BXS是符合ISO 26262標(biāo)準(zhǔn)的汽車GPU IP內(nèi)核,采用虛擬化技術(shù)及分塊區(qū)域保護(hù)技術(shù),具備全新的功能和安全機(jī)制。這些功能都集成在硬件中,對(duì)于汽車GPU和自動(dòng)駕駛應(yīng)用而言,這種設(shè)計(jì)有利于提升安全性。

BXT采用多核架構(gòu),算力可達(dá)6TFLOPS、192Gigapixel/s,且具備可擴(kuò)展性,可以去中心化。針對(duì)7nm5nm制程,BXT可做特定優(yōu)化,以滿足從移動(dòng)終端到數(shù)據(jù)中心的使用需求。

新的架構(gòu)在多核配置的時(shí)候,與傳統(tǒng)的配置有所不同。針對(duì)memory多核算力增加時(shí)的效率問(wèn)題、memory的讀取存儲(chǔ)問(wèn)題,Imagination也有比較好的解決方案。

對(duì)比市場(chǎng)上使用同樣半導(dǎo)體制造工藝的PCIe顯卡,IMG BXT具有更高的計(jì)算密度。這意味在同樣的硅片面積下,BXT可以提供更高的單精度(FP32)運(yùn)算能力。

Imagination劉國(guó)軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

Imagination最新4系列NNA IP也采用多核架構(gòu),這是NNA IP系列的第四代產(chǎn)品。

NNA IP系列第一代產(chǎn)品沒(méi)有發(fā)布。第二代NNA IP產(chǎn)品PowerVR 2NX于2017年在深圳發(fā)布。PowerVR 2NX單核IP運(yùn)行在保守頻率800?MHz,能提供2048?MACs/cycle(行業(yè)標(biāo)準(zhǔn)性能指標(biāo))操作,即可達(dá)到每秒3.2萬(wàn)億次推理操作。

紫光展銳采用這款IP開(kāi)發(fā)的虎賁T710芯片,在去年的Benchmark跑分中拿到第一名。

今年最新發(fā)布的第四代NNA IP計(jì)算效率和計(jì)算密度都十分杰出。4NX-MC4一個(gè)四核方案可提供50TOPS算力,由于具備可擴(kuò)展性,基于最新NNA IP的解決方案可將算力擴(kuò)展至200甚至500TOPS。

Imagination劉國(guó)軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

多核的特點(diǎn)是什么?是可擴(kuò)展。在整個(gè)計(jì)算過(guò)程中,多核架構(gòu)可以做到近memory計(jì)算,降低延遲。另外,多核架構(gòu)的各種調(diào)度和分配方式都十分靈活且可預(yù)測(cè)。

NNA IP可以多網(wǎng)絡(luò)運(yùn)行,也就是說(shuō)一個(gè)核可同時(shí)運(yùn)行多個(gè)網(wǎng)絡(luò),同一個(gè)網(wǎng)絡(luò)也可以切分到不同的核上去運(yùn)行,這樣就可以預(yù)測(cè)計(jì)算的時(shí)間。Imagination有一個(gè)離線工具,來(lái)對(duì)特定應(yīng)用作分配和調(diào)度。

根據(jù)各類實(shí)驗(yàn)結(jié)果,ImaginationTensor?Tiling技術(shù)(ITT)平均可以降低90%的帶寬。

目前,Imagination正在為ITT技術(shù)申請(qǐng)專利,這項(xiàng)技術(shù)也被應(yīng)用于4系列NNA IP。

ITT技術(shù)可以通過(guò)對(duì)計(jì)算任務(wù)進(jìn)行tiling,充分利用片上存儲(chǔ),提升數(shù)據(jù)處理效率,并節(jié)省訪問(wèn)外部存儲(chǔ)的帶寬。利用本地?cái)?shù)據(jù)的依賴性,ITT技術(shù)可將中間數(shù)據(jù)保存在片上存儲(chǔ)器中,最大限度地減少將數(shù)據(jù)傳輸至外部存儲(chǔ)器,從而將帶寬降低多達(dá)90%。作為一種可擴(kuò)展的算法,ITT在擁有大量輸入數(shù)據(jù)的網(wǎng)絡(luò)上具有顯著優(yōu)勢(shì)。

Imagination的解決方案里,GPU承擔(dān)計(jì)算任務(wù),同時(shí)承擔(dān)渲染的任務(wù);NNA承擔(dān)神經(jīng)網(wǎng)絡(luò)計(jì)算任務(wù)。

GPU的渲染能力基于Imagination已經(jīng)出貨多年的專利技術(shù)——硬件虛擬化。

借助硬件虛擬化技術(shù),一個(gè)GPU可以承擔(dān)多個(gè)屏的計(jì)算渲染任務(wù),支持多個(gè)操作系統(tǒng)。同時(shí),多個(gè)GPU之間有物理隔離,不會(huì)相互干擾。

這樣就實(shí)現(xiàn)了結(jié)合GPU的靈活性和NNA的效率,再加上memory,形成一個(gè)異構(gòu)的計(jì)算平臺(tái)。

這個(gè)異構(gòu)計(jì)算平臺(tái)具備非常靈活的任務(wù)分配和配置功能,上面是兩個(gè)GPU,下面是NNA,中間有內(nèi)部的總線。這是一種非常有效的算力配置方法,能滿足從ADAS到自動(dòng)駕駛的功能需求。

Imagination劉國(guó)軍:用“GPU+AI加速器”破局AI算力需求 | GTIC2020

同時(shí),Imagination提供統(tǒng)一的API,可以給開(kāi)發(fā)者提供統(tǒng)一的接口去支持各種不同的網(wǎng)絡(luò)。對(duì)工作量和網(wǎng)絡(luò)類型的適配,都可以由統(tǒng)一的API支持。另外,GPU IPNNA IP支持同一個(gè)開(kāi)發(fā)工具,這方便了廣大開(kāi)發(fā)者的使用。

以上是劉國(guó)軍演講內(nèi)容的完整整理。除劉國(guó)軍外,在本屆GTIC 2020 AI芯片創(chuàng)新峰會(huì)期間,清華大學(xué)微納電子系尹首一教授,比特大陸、地平線、燧原科技、黑芝麻智能、壁仞科技、光子算數(shù)、知存科技、億智電子、豪微科技等芯片創(chuàng)企,全球FPGA領(lǐng)先玩家賽靈思,知名IP供應(yīng)商安謀中國(guó),全球EDA巨頭Cadence,以及北極光創(chuàng)投、中芯聚源等知名投資機(jī)構(gòu),分別分享了對(duì)AI芯片產(chǎn)業(yè)的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關(guān)注芯東西后續(xù)推送內(nèi)容。