GPU是Graphics Processing Unit(圖形處理器)的簡(jiǎn)稱,它是一種專門在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上運(yùn)行繪圖運(yùn)算工作的微處理器。圖形處理器是NVIDIA公司(NVIDIA)在1999年8月發(fā)表NVIDIA GeForce 256(GeForce 256)繪圖處理芯片時(shí)首先提出的概念,在此之前,電腦中處理影像輸出的顯示芯片,通常很少被視為是一個(gè)獨(dú)立的運(yùn)算單元。而對(duì)手冶天科技(ATi)亦提出視覺處理器(Visual Processing Unit)概念。圖形處理器使顯卡減少對(duì)中央處理器(CPU)的依賴,并分擔(dān)部分原本是由中央處理器所擔(dān)當(dāng)?shù)墓ぷ?,尤其是在進(jìn)行三維繪圖運(yùn)算時(shí),功效更加明顯。圖形處理器所采用的核心技術(shù)有硬件坐標(biāo)轉(zhuǎn)換與光源、立體環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等。

圖形處理器可單獨(dú)與專用電路板以及附屬組件組成顯卡,或單獨(dú)一片芯片直接內(nèi)嵌入到主板上,或者內(nèi)置于主板的北橋芯片中,現(xiàn)在也有內(nèi)置于CPU上組成SoC的。個(gè)人電腦領(lǐng)域中,在2007年,90%以上的新型臺(tái)式機(jī)和筆記本電腦擁有嵌入式繪圖芯片,但是在性能上往往低于不少獨(dú)立顯卡。但2009年以后,AMD和英特爾都各自大力發(fā)展內(nèi)置于中央處理器內(nèi)的高性能集成式圖形處理核心,它們的性能在2012年時(shí)已經(jīng)勝于那些低端獨(dú)立顯卡,這使得不少低端的獨(dú)立顯卡逐漸失去市場(chǎng)需求,兩大個(gè)人電腦圖形處理器研發(fā)巨頭中,AMD以AMD APU產(chǎn)品線取代旗下大部分的低端獨(dú)立顯示核心產(chǎn)品線。而在手持設(shè)備領(lǐng)域上,隨著一些如平板電腦等設(shè)備對(duì)圖形處理能力的需求越來越高,不少廠商像是高通(Qualcomm)、Imagination、ARM、NVIDIA等,也在這個(gè)領(lǐng)域“大顯身手”。

GPU不同于傳統(tǒng)的CPU,如Intel i5或i7處理器,其內(nèi)核數(shù)量較少,專為通用計(jì)算而設(shè)計(jì)。相反,GPU是一種特殊類型的處理器,具有數(shù)百或數(shù)千個(gè)內(nèi)核,經(jīng)過優(yōu)化,可并行運(yùn)行大量計(jì)算。雖然GPU在游戲中以3D渲染而聞名,但它們對(duì)運(yùn)行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法尤其有用。GPU允許某些計(jì)算比傳統(tǒng)CPU上運(yùn)行相同的計(jì)算速度快10倍至100倍。

本期的智能內(nèi)參,我們推薦方正證券的報(bào)告《GPU研究框架》,從GPU的底層技術(shù)、產(chǎn)業(yè)鏈發(fā)展情況和國(guó)產(chǎn)GPU的自主之路三方面全面解析GPU及其產(chǎn)業(yè)。

本期內(nèi)參來源:方正證券

原標(biāo)題:

《GPU研究框架》

作者:陳杭 等

一、GPU:專用計(jì)算時(shí)代的“畫師”

GPU(graphics processing unit)圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備(如平板電腦、智能手機(jī)等)上做圖像和圖形相關(guān)運(yùn)算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計(jì)算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現(xiàn)使計(jì)算機(jī)減少了對(duì)CPU的依賴,并解放了部分原本CPU的工作。在3D圖形處理時(shí),GPU采用的核心技術(shù)有硬件T&L(幾何轉(zhuǎn)換和光照處理)、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等,而硬件T&L技術(shù)可以說是GPU的標(biāo)志。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU的內(nèi)部組成部分

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU核心及PCB板

GPU的微架構(gòu)(Micro Architecture)是一種給定的指令集和圖形函數(shù)集合在處理器中執(zhí)行的方法。圖形函數(shù)主要用于繪制各種圖形所需要的運(yùn)算。當(dāng)前和像素、光影處理、3D坐標(biāo)變換等相關(guān)運(yùn)算由GPU硬件加速來實(shí)現(xiàn)。相同的指令集和圖形函數(shù)集合可以在不同的微架構(gòu)中執(zhí)行,但實(shí)施的目的和效果可能不同。優(yōu)秀的微架構(gòu)對(duì)GPU性能和效能的提升發(fā)揮著至關(guān)重要的作用,GPU體系是GPU微架構(gòu)和圖形API的集合。

以目前最新的英偉達(dá)安培微架構(gòu)為例,GPU微架構(gòu)的運(yùn)算部份由流處理器(Stream Processor,SP)、紋理單元(Texture mapping unit, TMU)、張量單元(Tensor Core)、光線追蹤單元(RT Cores)、光柵化處理單元(ROPs)組成。這些運(yùn)算單元中,張量單元,光線追蹤單元由NVIDIA在伏特/圖靈微架構(gòu)引入。

除了上述運(yùn)算單元外,GPU的微架構(gòu)還包含L0/L1操作緩存、Warp調(diào)度器、分配單元(Dispatch Unit)、寄存器堆(register file)、特殊功能單元(Special function unit,SFU)、存取單元、顯卡互聯(lián)單元(NV Link)、PCIe總線接口、L2緩存、二代高位寬顯存(HBM2)等接口。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)安培內(nèi)核概覽

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)安培內(nèi)核“SM”單元

GPU的流處理器單元是NVIDIA對(duì)其統(tǒng)一架構(gòu)GPU內(nèi)通用標(biāo)量著色器的命名。SP單元是全新的全能渲染單元,是繼Pixel Pipelines(像素管線)和Vertex Pipelines(頂點(diǎn)管線)之后新一代的顯卡渲染技術(shù)指標(biāo)。SP單元既可以完成VS(Vertex Shader,頂點(diǎn)著色器)運(yùn)算,也可以完成PS(Pixel Shader,像素著色器)運(yùn)算,而且可以根據(jù)需要組成任意VS/PS比例,從而給開發(fā)者更廣闊的發(fā)揮空間。

流處理器單元首次出現(xiàn)于DirectX 10時(shí)代的G80核心的Nvidia GeForce 8800GTX顯卡,是顯卡發(fā)展史上一次重大的革新。之后AMD/ATI的顯卡也引入了這一概念,但是流處理器在橫向和縱向都不可類比,大量的流處理器是GPU性能強(qiáng)勁的必要非充分條件。

紋理映射單元(TMU)作為GPU的部件,它能夠?qū)ΧM(jìn)制圖像旋轉(zhuǎn)、縮放、扭曲,然后將其作為紋理放置到給定3D模型的任意平面,這個(gè)過程稱為紋理映射。紋理映射單元不可簡(jiǎn)單跨平臺(tái)橫向比較,大量的紋理映射單元是GPU性能強(qiáng)勁的必要非充分條件。

光柵化處理單元(ROPs)主要負(fù)責(zé)游戲中的光線和反射運(yùn)算,兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光影效果越厲害,對(duì)ROPs的性能要求就越高,否則可能導(dǎo)致幀數(shù)的急劇下降。NVIDIA的ROPs單元是和流處理器進(jìn)行捆綁的,二者同比例增減。在AMD GPU中,ROPs單元和流處理器單元沒有直接捆綁關(guān)系。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)安培內(nèi)核SP、ROPs、TMU拆解

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)RTX 3080 GPU-Z參數(shù)

消費(fèi)GPU的實(shí)時(shí)光線追蹤在2018年由英偉達(dá)的“圖靈”GPU首次引入,光追單元(RT Cores)在此過程中發(fā)揮著決定性的作用。圖靈GPU的光追單元支持邊界體積層次加速,實(shí)時(shí)陰影、環(huán)境光、照明和反射,光追單元和光柵單元可以協(xié)同工作,進(jìn)一步提高幀數(shù)和陰影的真實(shí)感。

光追單元在英偉達(dá)的RTX光線追蹤技術(shù)、微軟DXR API、英偉達(dá)Optix API和Vulkan光追API的支持下可以充分發(fā)揮性能。擁有68個(gè)光追單元的RTX2080Ti在光線處理性能上較無光追單元的GTX1080Ti強(qiáng)10倍。

張量單元(Tensor Core)在2017年由英偉達(dá)的“伏特”GPU中被首次引入。張量單元主要用于實(shí)時(shí)深度學(xué)習(xí),服務(wù)于人工智能,大型矩陣運(yùn)算和深度學(xué)習(xí)超級(jí)采樣(DLSS),可以帶來驚人的游戲和專業(yè)圖像顯示,同時(shí)提供基于云系統(tǒng)的快速人工智能。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)RTX2080Ti張量單元算力

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)圖靈GPU光追單元運(yùn)作流程

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)圖靈GPU張量單元提供多精度AI

GPU的API(Application Programming Interface)應(yīng)用程序接口發(fā)揮著連接應(yīng)用程序和顯卡驅(qū)動(dòng)的橋梁作用。不過隨著系統(tǒng)優(yōu)化的深入,API也可以直接統(tǒng)籌管理高級(jí)語言、顯卡驅(qū)動(dòng)和底層匯編語言。

3D API能夠讓編程人員所設(shè)計(jì)的3D軟件只需調(diào)動(dòng)其API內(nèi)的程序,讓API自動(dòng)和硬件的驅(qū)動(dòng)程序溝通,啟動(dòng)3D芯片內(nèi)強(qiáng)大的3D圖形處理功能,從而大幅地提高3D程序的設(shè)計(jì)效率。同樣的,GPU廠家也可以根據(jù)API標(biāo)準(zhǔn)來設(shè)計(jì)GPU芯片,以達(dá)到在API調(diào)用硬件資源時(shí)的最優(yōu)化,獲得更好的性能。3D API可以實(shí)現(xiàn)不同廠家的硬件、軟件最大范圍兼容。如果沒有API,那么開發(fā)人員必須對(duì)不同的硬件進(jìn)行一對(duì)一的編碼,這樣會(huì)帶來大量的軟件適配問題和編碼成本。

目前GPU API可以分為2大陣營(yíng)和若干其他類。2大陣營(yíng)分別是微軟的DirectX標(biāo)準(zhǔn)和KhronosGroup標(biāo)準(zhǔn),其他類包括蘋果的Metal API、AMD的Mantle(地幔)API、英特爾的One API等。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

微軟DirectX和Khronos Group API組合對(duì)比

DirectX是Direct eXtension的簡(jiǎn)稱,作為一種API,是由微軟公司創(chuàng)建的多媒體編程接口。DirectX可以讓以Windows為平臺(tái)的游戲或多媒體程序獲得更高的執(zhí)行效率,加強(qiáng)3D圖形和聲音效果,并提供設(shè)計(jì)人員一個(gè)共同的硬件驅(qū)動(dòng)標(biāo)準(zhǔn),讓游戲開發(fā)者不必為每一品牌的硬件來寫不同的驅(qū)動(dòng)程序,也降低用戶安裝及設(shè)置硬件的復(fù)雜度。DirectX已被廣泛使用于Windows操作系統(tǒng)和Xbox主機(jī)的電子游戲開發(fā)。

OpenGL是Open Graphics Library的簡(jiǎn)稱,是用于渲染2D、3D矢量圖形的跨語言、跨平臺(tái)的應(yīng)用程序編程接口(API),相比DirectX更加開放。這個(gè)接口由近350個(gè)不同的函數(shù)調(diào)用組成,用來繪制從簡(jiǎn)單的二維圖形到復(fù)雜的三維景象。OpenGL常用于CAD、虛擬現(xiàn)實(shí)、科學(xué)可視化程序和電子游戲開發(fā)。

正是由于OpenGL的開放,所以它可以被運(yùn)行在Windows、MacOS、Linux、安卓、iOS等多個(gè)操作系統(tǒng)上,學(xué)習(xí)門檻也比DirectX更低。但是,效率低是OpenGL的主要缺點(diǎn)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

DirectX和OpenGL特點(diǎn)對(duì)比

Metal是Apple在2014年創(chuàng)建的接近底層的,低開銷的硬件加速3D圖形和計(jì)算著色器API。Metal在iOS 8中首次亮相。Metal在一個(gè)API中結(jié)合了類似于OpenGL和OpenCL的功能。它旨在通過為iOS,iPadOS,macOS和tvOS上的應(yīng)用程序提供對(duì)GPU硬件的底層訪問來提高性能。相較于OpenGL ES,Metal減少了10倍的代碼擁擠,提供了更好的解決方案,并將會(huì)在蘋果設(shè)備中取代OpenGL。Metal也支持英特爾HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C編程語言調(diào)用的面向?qū)ο蟮腁PI。GPU的全部操作是通過Metal著色語言控制的。

2017年,蘋果推出了Metal的升級(jí)版Metal2,兼容前代Metal硬件,支持iOS11,MacOS和tvOS11。Metal2可以在Xcode中更有效地進(jìn)行配置和調(diào)試,加快機(jī)器學(xué)習(xí)速度,降低CPU工作量,在MacOS上支持VR,充分發(fā)揮A11 GPU的特性。

Vulkan是一種低開銷,跨平臺(tái)的3D圖像和計(jì)算API。Vulkan面向跨所有平臺(tái)的高性能實(shí)時(shí)3D圖形應(yīng)用程序,如視頻游戲和交互式媒體。與OpenGL,Direct3D 11和Metal相比,Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了較低的CPU使用外,Vulkan還旨在使開發(fā)人員更好地在多核CPU中分配工作。

Vulkan源自并基于AMD的Mantle API組件,最初的版本被稱為OpenGL的下一代。最新的Vulkan1.2發(fā)布于2020年1月15日,該版本整合了23個(gè)額外經(jīng)常被使用的Vulkan拓展。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

Metal與OpenGL性能對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

OpenGL和Vulkan對(duì)比

軟件生態(tài)方面,GPU無法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作,而CPU在處理大量類型一致的數(shù)據(jù)時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。所以,GPU的生態(tài)和CPU的生態(tài)是高度相關(guān)的。

近年來,在摩爾定律演進(jìn)的放緩和GPU在通用計(jì)算領(lǐng)域的高速發(fā)展的此消彼長(zhǎng)之下,通用圖形處理器(GPGPU)逐漸“反客為主”,利用GPU來計(jì)算原本由CPU處理的通用計(jì)算任務(wù)。

目前,各個(gè)GPU廠商的GPGPU的實(shí)現(xiàn)方法不盡相同,如NVIDIA使用的CUDA(compute unified device architecture)技術(shù)、原ATI的ATI Stream技術(shù)、Open CL聯(lián)盟、微軟的DirectCompute技術(shù)。這些技術(shù)可以讓GPU在媒體編碼加速、視頻補(bǔ)幀與畫面優(yōu)化、人工智能與深度學(xué)習(xí)、科研領(lǐng)域、超級(jí)計(jì)算機(jī)等方面發(fā)揮異構(gòu)加速的優(yōu)勢(shì)。以上4種技術(shù)中,只有OpenCL支持跨平臺(tái)和開放標(biāo)注的特性,還可以使用專門的可編程電路來加速計(jì)算,業(yè)界支持非常廣泛。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

DirectX和OpenGL生態(tài)對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

OpenCL聯(lián)盟生態(tài)

GPU根據(jù)接入方式可以劃分為獨(dú)立GPU和集成GPU。獨(dú)立GPU一般封裝在獨(dú)立的顯卡電路板上,擁有獨(dú)立顯存,而集成GPU常和CPU共用一個(gè)Die,共享系統(tǒng)內(nèi)存。GPU根據(jù)接入方式可以劃分為獨(dú)立GPU和集成GPU。獨(dú)立GPU一般封裝在獨(dú)立的顯卡電路板上,擁有獨(dú)立顯存,而集成GPU常和CPU共用一個(gè)Die,共享系統(tǒng)內(nèi)存。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GPU的主要分類

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲獨(dú)立GPU

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲集成GPU Die

GPU顯存是用來存儲(chǔ)顯卡芯片處理過或者即將提取的渲染數(shù)據(jù),是GPU正常運(yùn)作不可或缺的核心部件之一。GPU的顯存可以分為獨(dú)立顯存和集成顯存兩種。目前,獨(dú)立顯存主要采用GDDR3、GDDR5、GDDR5X、GDDR6,而集成顯存主要采用DDR3、DDR4。服務(wù)器GPU偏好使用Chiplet形式的HBM顯存,最大化吞吐量。

集成顯存受制于64位操作系統(tǒng)的限制,即便組成2通道甚至4通道,與獨(dú)立顯存的帶寬仍有相當(dāng)差距。通常這也造成了獨(dú)立GPU的性能強(qiáng)于集成GPU。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

顯存的主要分類

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲獨(dú)立顯存的工作方式

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲獨(dú)立顯存的工作方式

集成顯卡是指一般不帶顯存,而是使用系統(tǒng)的一部分主內(nèi)存作為顯存的顯卡。集成顯卡可以被整合進(jìn)主板作為北橋芯片的一部分,也可以和CPU集成在同一個(gè)Die中。集成顯卡的顯存一般根據(jù)系統(tǒng)軟件和應(yīng)用軟件的需求自動(dòng)調(diào)整。如果顯卡運(yùn)行需要占用大量?jī)?nèi)存空間,那么整個(gè)系統(tǒng)運(yùn)行會(huì)受限,此外系統(tǒng)內(nèi)存的頻率通常比獨(dú)立顯卡的顯存低很多,因此集成顯卡的性能比獨(dú)立顯卡要遜色一些。

獨(dú)立顯卡是將顯示芯片及相關(guān)器件制作成一個(gè)獨(dú)立于電腦主板的板卡,成為專業(yè)的圖像處理硬件設(shè)備。獨(dú)立顯卡因?yàn)榫邆涓呶粚?、高頻獨(dú)立顯存和更多的處理單元,性能遠(yuǎn)比集成顯卡優(yōu)越,不僅可用于一般性的工作,還具有完善的2D效果和很強(qiáng)的3D水平,因此常應(yīng)用于高性能臺(tái)式機(jī)和筆記本電腦,主要的接口為PCIe。

如今,獨(dú)立顯卡與集成顯卡已經(jīng)不是2個(gè)完全割裂,各自為營(yíng)的圖像處理單元了。二者在微軟DX12的支持下也可以實(shí)現(xiàn)獨(dú)核顯交火,同時(shí)AMD和NVIDIA的顯卡也可實(shí)現(xiàn)混合交火。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

集成顯卡和獨(dú)立顯卡對(duì)比

GPU對(duì)比CPU:從芯片設(shè)計(jì)思路看,CPU是以低延遲為導(dǎo)向的計(jì)算單元,通常由專為串行處理而優(yōu)化的幾個(gè)核心組成,而GPU是以吞吐量為導(dǎo)向的計(jì)算單元,由數(shù)以千計(jì)的更小、更高效的核心組成,專為并行多任務(wù)設(shè)計(jì)。

CPU和GPU設(shè)計(jì)思路的不同導(dǎo)致微架構(gòu)的不同。CPU的緩存大于GPU,但在線程數(shù),寄存器數(shù)和SIMD(單指令多數(shù)據(jù)流)方面GPU遠(yuǎn)強(qiáng)于CPU。

微架構(gòu)的不同最終導(dǎo)致CPU中大部分的晶體管用于構(gòu)建控制電路和緩存,只有少部分的晶體管完成實(shí)際的運(yùn)算工作,功能模塊很多,擅長(zhǎng)分支預(yù)測(cè)等復(fù)雜操作。GPU的流處理器和顯存控制器占據(jù)了絕大部分晶體管,而控制器相對(duì)簡(jiǎn)單,擅長(zhǎng)對(duì)大量數(shù)據(jù)進(jìn)行簡(jiǎn)單操作,擁有遠(yuǎn)勝于CPU的強(qiáng)大浮點(diǎn)計(jì)算能力。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GPU和CPU的核心設(shè)計(jì)思路對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GPU和CPU的核心對(duì)比

后摩爾時(shí)代,隨著GPU的可編程性不斷增強(qiáng),GPU的應(yīng)用能力已經(jīng)遠(yuǎn)遠(yuǎn)超出了圖形渲染,部份GPU被用于圖形渲染以外領(lǐng)域的計(jì)算成為GPGPU。與此同時(shí),CPU為了追求通用性,只有少部分晶體管被用于完成運(yùn)算,而大部分晶體管被用于構(gòu)建控制電路和高速緩存。但是由于GPU對(duì)CPU的依附性以及GPU相較CPU更高的開發(fā)難度,所以GPU不可能完全取代CPU。我們認(rèn)為未來計(jì)算架構(gòu)將是GPU+CPU的異構(gòu)運(yùn)算體系。

在GPU+CPU的異構(gòu)運(yùn)算中,GPU和CPU之間可以無縫地共享數(shù)據(jù),而無需內(nèi)存拷貝和緩存刷新,因?yàn)槿蝿?wù)以極低的開銷被調(diào)度到合適的處理器上。CPU憑借多個(gè)專為串行處理而優(yōu)化的核心運(yùn)行程序的串行部份,而GPU使用數(shù)以千計(jì)的小核心運(yùn)行程序的并行部分,充分發(fā)揮協(xié)同效應(yīng)和比較優(yōu)勢(shì)。

異構(gòu)運(yùn)算除了需要相關(guān)的CPU和GPU等硬件支持,還需要能將它們有效組織的軟件編程。OpenCL是(OpenComputing Language)的簡(jiǎn)稱,它是第一個(gè)為異構(gòu)系統(tǒng)的通用并行編程而產(chǎn)生的統(tǒng)一的、免費(fèi)的標(biāo)準(zhǔn)。OpenCL支持由多核的CPU、GPU、Cell架構(gòu)以及信號(hào)處理器(DSP)等其他并行設(shè)備組成的異構(gòu)系統(tǒng)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

OpenCL異構(gòu)運(yùn)算構(gòu)成

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

異構(gòu)運(yùn)算下的GPU工作流程

GPU與ASIC和FPGA的對(duì)比:數(shù)據(jù)、算力和算法是AI三大要素,CPU配合加速芯片的模式成為典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的產(chǎn)生。常見的AI加速芯片包括GPU、FPGA、ASIC三類。

GPU用于大量重復(fù)計(jì)算,由數(shù)以千計(jì)的更小、更高效的核心組成大規(guī)模并行計(jì)算架構(gòu),配備GPU的服務(wù)器可取代數(shù)百臺(tái)通用CPU服務(wù)器來處理HPC和AI業(yè)務(wù)。

FPGA是一種半定制芯片,靈活性強(qiáng)集成度高,但運(yùn)算量小,量產(chǎn)成本高,適用于算法更新頻繁或市場(chǎng)規(guī)模小的專用領(lǐng)域。

ASIC專用性強(qiáng),市場(chǎng)需求量大的專用領(lǐng)域,但開發(fā)周期較長(zhǎng)且難度極高。

在AI訓(xùn)練階段需要大量數(shù)據(jù)運(yùn)算,GPU預(yù)計(jì)占64%左右市場(chǎng)份額,F(xiàn)PGA和ASIC分別為22%和14%。推理階段無需大量數(shù)據(jù)運(yùn)算,GPU將占據(jù)42%左右市場(chǎng),F(xiàn)PGA和ASIC分別為34%和24%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

不同應(yīng)用場(chǎng)景AI芯片性能需求和具體指標(biāo)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GPU、FPGA、ASIC AI芯片對(duì)比

在PC誕生之初,并不存在GPU的概念,所有的圖形和多媒體運(yùn)算都由CPU負(fù)責(zé)。但是由于X86 CPU的暫存器數(shù)量有限,適合串行計(jì)算而不適合并行計(jì)算,雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補(bǔ)CPU的缺陷,但是僅僅在指令集方面的改進(jìn)不能起到根本效果,所以誕生了圖形加速器作為CPU的輔助運(yùn)算單元。

GPU的發(fā)展史概括說來就是NVIDIA、AMD(ATI)的發(fā)展史,在此過程中曾經(jīng)的GPU巨頭Imagination、3dfx、東芝等紛紛被后輩超越。如今獨(dú)立顯卡領(lǐng)域主要由英偉達(dá)和AMD控制,而集成顯卡領(lǐng)域由英特爾和AMD控制。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GPU的發(fā)展史

英偉達(dá)的GPU架構(gòu)自2008年以來幾乎一直保持著每2年一次大更新的節(jié)奏,帶來更多更新的運(yùn)算單元和更好的API適配性。在每次的大換代之間,不乏有一次的小升級(jí),如采用開普勒二代微架構(gòu)的GK110核心相較于采用初代開普勒微架構(gòu)的GK104核心,升級(jí)了顯卡智能動(dòng)態(tài)超頻技術(shù),CUDA運(yùn)算能力提升至3.5代,極致流式多處理器(SMX)的浮點(diǎn)運(yùn)算單元提升8倍,加入了Hyper-Q技術(shù)提高GPU的利用率并削減了閑置,更新了網(wǎng)格管理單元(Grid Management Unit),為動(dòng)態(tài)并行技術(shù)提供了靈活性。

英偉達(dá)GPU微架構(gòu)的持續(xù)更新,使英偉達(dá)GPU的能效提升了數(shù)十倍,占領(lǐng)了獨(dú)立顯卡技術(shù)的制高點(diǎn)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2008-2020英偉達(dá)GPU微架構(gòu)進(jìn)化

圖形API在GPU的運(yùn)算過程中發(fā)揮著連接高級(jí)語言、顯卡驅(qū)動(dòng)乃至底層匯編語言的作用,充當(dāng)GPU運(yùn)行和開發(fā)的“橋梁”和“翻譯官”。微軟DirectX標(biāo)準(zhǔn)可以劃分為顯示部份、聲音部份、輸入部分和網(wǎng)絡(luò)部分,其中與GPU具有最直接關(guān)系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標(biāo)準(zhǔn),前者主要負(fù)責(zé)2D圖像加速,后者主要負(fù)責(zé)3D效果顯示。

從1995年發(fā)布的初代DirectX 1.0開始微軟的DirectX已經(jīng)更新到了DirectX 12。在此過程中,DirectX不斷完善對(duì)各類GPU的兼容,增加開發(fā)人員的權(quán)限,提高GPU的顯示質(zhì)量和運(yùn)行幀數(shù)。

DirectX一般和Windows操作系統(tǒng)同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

1998-2014微軟DirectX進(jìn)化

GPU和CPU都是以先進(jìn)制程為導(dǎo)向的數(shù)字芯片。先進(jìn)制程可以在控制發(fā)熱和電能消耗的同時(shí),在有限的Die中放入盡可能多的晶體管,提高GPU的性能和能效。

NVIDIA的GPU從2008年GT200系列的65納米制程歷經(jīng)12年逐步升級(jí)到了RTX3000系列的7/8納米制程,在整個(gè)過程中,晶體管數(shù)量提升了20多倍,逐步確立了在獨(dú)立GPU的市場(chǎng)龍頭地位。

同時(shí)在整個(gè)過程中,NVIDIA一直堅(jiān)持不采用IDM的模式,而是讓臺(tái)積電負(fù)責(zé)GPU的制造,自生專注于芯片設(shè)計(jì),充分發(fā)揮比較優(yōu)勢(shì)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2008-2020英偉達(dá)GPU主要制程和晶體管數(shù)進(jìn)化

根據(jù)前12年的GPU發(fā)展軌跡來看,GPU微架構(gòu)的升級(jí)趨勢(shì)可以簡(jiǎn)要地概括為”更多”、”更?!?、”更智能”。“更多”是指晶體管數(shù)量和運(yùn)算單元的增加,其中包括流處理器單元、紋理單元、光柵單元等數(shù)量上升?!案鼘!笔侵赋顺R?guī)的計(jì)算單元,GPU還會(huì)增加新的運(yùn)算單元。例如,英偉達(dá)的圖靈架構(gòu)相較于帕斯卡架構(gòu)新增加了光追單元和張量單元,分別處理實(shí)時(shí)光線追蹤和人工智能運(yùn)算?!案悄堋笔侵窯PU的AI運(yùn)算能力上升。如第三代的張量單元相較于上代在吞吐量上提升了1倍。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)GTX1080對(duì)比RTX2080

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)伏特微架構(gòu)對(duì)比安培微架構(gòu)AI加速性能

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)安培架構(gòu)提升

綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX11、Metal、OpenGL的升級(jí),我們認(rèn)為GPU API的升級(jí)趨勢(shì)是提高GPU的運(yùn)行效率、增加高級(jí)語言和顯卡驅(qū)動(dòng)之間的連接、優(yōu)化視覺特效等。其中,提供更底層的支持:統(tǒng)籌高級(jí)語言、顯卡驅(qū)動(dòng)和底層語言是幾乎所有API升級(jí)的主要方向。

不過提供更底層的支持只是更高的幀數(shù)或更好的畫質(zhì)的必要非充分條件。在整個(gè)軟件的開發(fā)過程中,軟件開發(fā)商需要比驅(qū)動(dòng)程序和系統(tǒng)層更好地調(diào)度硬件資源,才能充分發(fā)揮底層API的效果。

在顯示質(zhì)量方面,DirectX 12 Ultimate采用當(dāng)下最新的圖形硬件技術(shù),支持光線追蹤、網(wǎng)格著色器和可變速率著色,PC和Xbox共用同一個(gè)API,堪稱次世代游戲的全新黃金標(biāo)準(zhǔn)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

非底層DirectX 11對(duì)比底層DirectX 12

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

DirectX 12 Ultimate新特性

GPU制造升級(jí)趨勢(shì):以先進(jìn)制程為導(dǎo)向。GPU性能的三大決定因素為主頻、微架構(gòu)、API。這些因素中主頻通常是由GPU的制程決定的。制程在過去通常表示晶體管或柵極長(zhǎng)度等特征尺寸,不過出于營(yíng)銷的需要,現(xiàn)在的制程已經(jīng)偏離了本意,因此單純比較納米數(shù)沒有意義。按英特爾的觀點(diǎn),每平方毫米內(nèi)的晶體管數(shù)(百萬)更能衡量制程。據(jù)此,臺(tái)積電和三星的7nm工藝更接近英特爾的10nm工藝。

先進(jìn)的制程可以降低每一個(gè)晶體管的成本,提升晶體管密度,在GPU Die體積不變下實(shí)現(xiàn)更高的性能;先進(jìn)制程可以提升處理器的效能,在性能不變的情況下,減少發(fā)熱或在發(fā)熱不變的情況下,通過提升主頻來拉高性能。

先進(jìn)制程的主要目的是降低平面結(jié)構(gòu)帶來的漏電率問題,提升方案可以通過改變工藝,如采用FinFET(鰭式場(chǎng)效應(yīng)晶體管)或GAA(環(huán)繞式柵極);或采用特殊材料,如FD-SOI(基于SOI的超薄絕緣層上硅體技術(shù))。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

先進(jìn)制程工藝之FinFET

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾10nm先進(jìn)制程帶來的性能和效能提升

GPU制造升級(jí)趨勢(shì):Chiplet化。高位寬內(nèi)存(HBM)是小芯片(Chiplet)在GPU中的常見應(yīng)用。HBM是一種高速計(jì)算機(jī)存儲(chǔ)器3D堆棧SDRAM接口。首款HBM于2013年推出,第二代HBM2已于2016年被JEDEC接受。目前,HBM主要應(yīng)用在高端獨(dú)立顯卡和服務(wù)器顯卡。

HBM通過3D堆疊4個(gè)DRAM Die和1片邏輯Die組成一個(gè)Chiplet,其中每片DRAM具有2個(gè)128位通道,通過TSV(硅通孔)相連。所以,一片Chiplet總共8個(gè)128位通道,總位寬1024比特。每片Chiplet又與GPU封裝在同一中介層(Interposer)連接GPU芯片。相比之下,GDDR5內(nèi)存的總線寬度為32位,帶有512位內(nèi)存接口的顯卡也只有16個(gè)通道,而且采用傳統(tǒng)的FBGA封裝。HBM與GDDR5相比,每GB的表面積減少94%,每GB/S帶寬的能效提升2倍多。

HBM支持最多每個(gè)Chiplet 4GB的存儲(chǔ),HBM2在HBM的基礎(chǔ)上將每片Chiplet的最大容量提升至了8GB,顯存主頻提升1倍,同時(shí)總位寬保持不變。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

HBM的GPU應(yīng)用

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GDDR5對(duì)比HBM

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

HBM先進(jìn)封裝結(jié)構(gòu)

GPU制造可分為IDM和Fab+Fabless。IDM集芯片設(shè)計(jì)、芯片制造、芯片封裝和測(cè)試等多個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)于一身。英特爾為IDM的代表。

Fabless只負(fù)責(zé)芯片的電路設(shè)計(jì)與銷售,將生產(chǎn)、測(cè)試、封裝等環(huán)節(jié)外包。蘋果和AMD為Fabless的代表。Foundry只負(fù)責(zé)制造,不負(fù)責(zé)芯片設(shè)計(jì),可以同時(shí)為多家設(shè)計(jì)公司服務(wù),但受制于公司間的競(jìng)爭(zhēng)關(guān)系。臺(tái)積電為Foundry的代表。目前英特爾GPU落后的主要原因是GPU制程的落后,根本原因是英特爾受困于IDM運(yùn)作模式。隨著28納米以下先進(jìn)制程的發(fā)展,芯片的制造成本和設(shè)計(jì)成本成指數(shù)級(jí)上升。同時(shí),一條12英寸晶圓的生產(chǎn)線從建設(shè)到生產(chǎn)的周期約2年,投資至少30-50億美元,資本支出占比80%,整體風(fēng)險(xiǎn)非常大。英特爾以有限的資源不支持它持續(xù)的設(shè)計(jì)和生產(chǎn)的的兩線作戰(zhàn)。

Fab+Fabless的模式通過充分發(fā)揮比較優(yōu)勢(shì),分散了GPU設(shè)計(jì)和制造的風(fēng)險(xiǎn),符合半導(dǎo)體分工的大趨勢(shì)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

IDM與Fab+Fabless對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯片設(shè)計(jì)費(fèi)用趨勢(shì)(億美元)

過去20多年里,GPU的基本需求源于視頻加速,2D/3D游戲。隨后GPU運(yùn)用自身在并行處理和通用計(jì)算的優(yōu)勢(shì),逐步開拓服務(wù)器、汽車、礦機(jī)、人工智能、邊緣計(jì)算等領(lǐng)域的衍生需求。雖然GPU無法離開CPU獨(dú)立運(yùn)作,但是在當(dāng)前“云化”加速的時(shí)代,離開了GPU的CPU也無法勝任龐大的計(jì)算需求。所以GPU和CPU組成了異構(gòu)運(yùn)算體系,從底層經(jīng)由系統(tǒng)軟件和驅(qū)動(dòng)層支持著上層的各種應(yīng)用。GPU已經(jīng)成為了專用計(jì)算時(shí)代的剛需。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

現(xiàn)代云計(jì)算中GPU加速的剛需

二、GPU的全球格局

2020年全球GPU市場(chǎng)價(jià)值預(yù)計(jì)為254.1億美元,預(yù)計(jì)2027年將達(dá)到1853.1億美元,年平均增速為32.82%。按GPU的類型進(jìn)行劃分,市場(chǎng)可以細(xì)分為獨(dú)立、集成和混合。2019年,集成GPU占GPU市場(chǎng)的主導(dǎo)地位,但是由于混合GPU同時(shí)擁有集成和專用GPU的能力,所以混合細(xì)分市場(chǎng)預(yù)計(jì)實(shí)現(xiàn)最高復(fù)合增長(zhǎng)率。

按GPU的設(shè)備進(jìn)行劃分,市場(chǎng)可細(xì)分為計(jì)算機(jī)、平板電腦、智能手機(jī)、游戲機(jī)、電視、其他。就收入而言,智能手機(jī)細(xì)分市場(chǎng)占比最大,在未來也將保持這一趨勢(shì)。但是,由于醫(yī)療等其他設(shè)備中對(duì)小型GPU的需求不斷增加,預(yù)計(jì)未來的年復(fù)合增長(zhǎng)率將最高。

按GPU的行業(yè)進(jìn)行劃分,市場(chǎng)可細(xì)分為電子、IT與電信、國(guó)防與情報(bào)、媒體與娛樂、汽車、其他。由于GPU在設(shè)計(jì)和工程應(yīng)用中的廣泛使用,預(yù)計(jì)汽車細(xì)分行業(yè)的年復(fù)合增長(zhǎng)率最高。

按GPU的地理區(qū)域劃分,市場(chǎng)可細(xì)分為北美、歐洲、亞太和其他地區(qū)。亞太地區(qū)在2019年主導(dǎo)了全球GPU市場(chǎng),預(yù)計(jì)在整個(gè)預(yù)測(cè)期內(nèi)將保持主導(dǎo)地位。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

全球GPU市場(chǎng)規(guī)模預(yù)測(cè)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2015-2025全球前三GPU供應(yīng)商營(yíng)收總和

全球GPU已經(jīng)進(jìn)入了寡頭壟斷的格局。在傳統(tǒng)GPU市場(chǎng)中,排名前三的Nvidia、AMD、Intel的營(yíng)收幾乎可以代表整個(gè)GPU行業(yè)收入。英偉達(dá)的收入占56%、AMD占26%、英特爾占18%。

在手機(jī)和平板GPU方面,聯(lián)發(fā)科、海思麒麟、三星Exynos的GPU設(shè)計(jì)主要基于公版ARM MaliGPU或PowerVR微架構(gòu)。高通驍龍Adreno和蘋果A系列采用自研GPU微架構(gòu)。2019Q2,ARM、高通、蘋果、Imagination科技、英特爾是全球智能手機(jī)和平板的前五大GPU供應(yīng)商。同期ARM Mali在以上五大GPU供應(yīng)商中占43%的市場(chǎng)份額,高通Adreno占36%的份額,蘋果占12%的份額。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2019前三家GPU供應(yīng)商收入份額對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2019 Q2手機(jī)和平板GPU供應(yīng)商份額

1、英偉達(dá)

英偉達(dá)公司成立于1993年,于1999年率先推出“GPU”的圖形解決方案。公司主要設(shè)計(jì)游戲和專業(yè)市場(chǎng)的GPU,移動(dòng)計(jì)算和自動(dòng)駕駛汽車的SoC,是GPU計(jì)算領(lǐng)域公認(rèn)的全球領(lǐng)導(dǎo)者。它主要的GPU產(chǎn)線“GeForce”和AMD的“Radeon”形成直接競(jìng)爭(zhēng)。同時(shí),英偉達(dá)為了拓展移動(dòng)游戲平臺(tái),推出了掌機(jī)Shield、Shield平板、Shield電視盒子和云游戲服務(wù)GeForce Now。目前,公司已經(jīng)完成了由芯片供應(yīng)商向計(jì)算平臺(tái)的轉(zhuǎn)型。

英偉達(dá)的四大增長(zhǎng)驅(qū)動(dòng)力分別是游戲業(yè)務(wù)、數(shù)據(jù)中心業(yè)務(wù)、專業(yè)視覺業(yè)務(wù)、自動(dòng)駕駛業(yè)務(wù),各業(yè)務(wù)的代表性GPU方案分別是GeForce,DGX、EGX、HGX,Quadro、AGX。

英偉達(dá)2021財(cái)年?duì)I收167億美元,其中游戲、數(shù)據(jù)中心、專業(yè)視覺、自動(dòng)駕駛業(yè)務(wù)在2020財(cái)年分別貢獻(xiàn)了營(yíng)收的47%、40%、6%、3%。公司繼2014年毛利率突破50%后,于2021財(cái)年毛利率突破60%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)2021財(cái)年的業(yè)務(wù)構(gòu)成

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)的主要增長(zhǎng)驅(qū)動(dòng)力

英偉達(dá)的游戲業(yè)務(wù)由GeForce和Shield組成。其中Shield面向移動(dòng)端和云,GeForce面向PC。游戲筆記本和云游戲是公司拓展市場(chǎng)的2大方向。GeForce是英偉達(dá)游戲業(yè)務(wù)的核心。GeForce是全球最大的游戲平臺(tái),擁有超過2億名玩家。在PC游戲領(lǐng)域,英偉達(dá)的營(yíng)收是其他主要GPU供應(yīng)商的三倍多。GeForce已經(jīng)來到了RTX30系列,采用第二代NVIDIA RTX架構(gòu)-NVIDIA安培架構(gòu),搭載全新的RT Core、Tensor Core及流式多處理器,擁有RTX游戲、DLSS、G-SYNC、DirectX12等先進(jìn)技術(shù),可帶來逼真的光線追蹤效果和先進(jìn)的AI性能。

除了PC游戲市場(chǎng),英偉達(dá)也向合作伙伴–任天堂Switch主機(jī)提供定制版Tegra SoC。作為合作的一部分,Shield主機(jī)可以暢享任天堂的游戲,GameStream串流游戲和熱門游戲,實(shí)現(xiàn)4KHDR畫質(zhì),支持百度DuerOS對(duì)話式人工智能。

英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)的技術(shù)根源是CUDA(統(tǒng)一計(jì)算設(shè)備架構(gòu))。CUDA首次推出于2006年的G80核心,隸屬于通用并行計(jì)算架構(gòu),創(chuàng)造了GPGPU。在“安培”時(shí)代,CUDA核心已經(jīng)進(jìn)化到了8.0,被運(yùn)用在幾乎所有的英偉達(dá)產(chǎn)品線。

CUDA兼容DirectCompute、OpenCL等計(jì)算接口。與Direct3D、OpenGL等高級(jí)圖形API相比,CUDA可以使開發(fā)者更容易使用GPU資源。當(dāng)前,CUDA在廣義上既代表GPU的硬件平臺(tái)又代表GPU的軟件平臺(tái)。

在硬件平臺(tái)方面,CUDA包含了CUDA指令集以及GPU內(nèi)部的并行計(jì)算引擎。GPU平臺(tái)的矢量運(yùn)算如INT、FP32、FP64都由CUDA承擔(dān)。開發(fā)人員可以使用C語言和Fortran語言為CUDA編寫程序。

在軟件平臺(tái)方面,基于CUDA的CUDA-X加速庫、工具和科技集合,向上對(duì)接不同的行業(yè)應(yīng)用需求。在英偉達(dá)的軟件棧體系中,分為CUDA-X AI和CUDA-X HPC,分別面向AI和HPC兩大領(lǐng)域,可以在人工智能和高性能計(jì)算方面提供遠(yuǎn)超其他競(jìng)品的性能。CUDA-X的開發(fā)者已經(jīng)超過100萬。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)CUDA-X HPC

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)CUDA-X AI

英偉達(dá)數(shù)據(jù)中心的產(chǎn)品包括適用于AI的DGX系統(tǒng),適用于邊緣計(jì)算的EGX平臺(tái),適用于超算的HGX平臺(tái)、適用于數(shù)據(jù)處理的DPU、簡(jiǎn)化深度學(xué)習(xí),機(jī)器學(xué)習(xí),高性能計(jì)算的NGC目錄。相關(guān)的GPU加速器有采用安培架構(gòu)的A100、A40,采用圖靈架構(gòu)的T4、RTX6000、RTX8000,采用伏特架構(gòu)的V100。

過去5個(gè)財(cái)年中,英偉達(dá)數(shù)據(jù)中心的營(yíng)收從8.3億美元上升至66.96億美元,年復(fù)合增速69%。同時(shí),公司的注冊(cè)開發(fā)者超過200萬,與主要的云供應(yīng)商如谷歌、騰訊、阿里建立了供應(yīng)關(guān)系,世界500強(qiáng)超算中的份額從6%上升至70%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)主要云合作伙伴

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)數(shù)據(jù)中心營(yíng)收趨勢(shì)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)在超算500強(qiáng)中份額

英偉達(dá)專業(yè)視覺業(yè)務(wù)主要由Quadro產(chǎn)品線組成。Quadro在GeForce的基礎(chǔ)上加強(qiáng)了NVLink、GPU的通用計(jì)算性能和顯存容量,擁有Iray、Omniverse平臺(tái)、材質(zhì)定義語言等特有技術(shù)。Quadro被廣泛應(yīng)用在臺(tái)式工作站、筆記本電腦、EGX服務(wù)器、虛擬工作空間、云端、定制化方案中。英偉達(dá)Quadro方案有超過50種應(yīng)用、4000萬設(shè)計(jì)用戶和2000萬企業(yè)用戶,并正在不斷解鎖新市場(chǎng)。

在過去的5個(gè)財(cái)年,英偉達(dá)專業(yè)視覺的營(yíng)收從8.35億美元上升至10.53億美元,年復(fù)合增速6%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)專業(yè)視覺GPU加速合作伙伴

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)專業(yè)視覺營(yíng)收趨勢(shì)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)專業(yè)視覺方案

英偉達(dá)的汽車產(chǎn)品包括相關(guān)駕駛軟件、駕駛基礎(chǔ)設(shè)計(jì)、AGX平臺(tái),提供訓(xùn)練、模擬、智能駕駛艙體驗(yàn)、高清地圖和定位等解決方案。在絕對(duì)性能方面,搭載4顆Drive AGX Origin的蔚來ADAM超算平臺(tái)支持L4以上自動(dòng)駕駛,超過7個(gè)特斯拉FSD算力總和。

不同于特斯拉自動(dòng)駕駛追求軟硬件的高度契合,英偉達(dá)的方案更追求開放性。公司在汽車領(lǐng)域的合作伙伴以軟件服務(wù)和轎車居多,分別達(dá)到了76家和42家。同時(shí),公司與大眾、豐田、本田、奔馳、寶馬、奧迪、沃爾沃、馬牌、滴滴、采埃孚、蔚來、小鵬、圖森等世界知名公司建立了強(qiáng)力的生態(tài)。

在過去的5個(gè)財(cái)年,英偉達(dá)自動(dòng)駕駛的營(yíng)收從4.87億美元上升至5.36億美元,年復(fù)合增速3%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)自動(dòng)駕駛營(yíng)收趨勢(shì)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)自動(dòng)駕駛合作伙伴分布數(shù)

2020年9月13日,NVIDIA宣布以400億美元收購ARM。本次收購意義可以細(xì)分為以下5個(gè)方面:

1. 創(chuàng)造AI時(shí)代的世界級(jí)計(jì)算公司,將英偉達(dá)領(lǐng)先的AI計(jì)算平臺(tái)和ARM龐大的CPU生態(tài)相結(jié)合;

2. 通過英偉達(dá)在移動(dòng)端和PC等大型終端市場(chǎng)的科技拓展ARM的IP授權(quán)組合;

3. 加速ARM的服務(wù)器CPU、數(shù)據(jù)中心、邊緣AI、IoT發(fā)展;

4. 將英偉達(dá)計(jì)算平臺(tái)的開發(fā)者由200萬提升至超過1500萬;

5. 并購可以立即增加英偉達(dá)的非GAAP毛利率和非GAAP每股收益;

合并后的英偉達(dá)將把計(jì)算從云、智能手機(jī)、PC、自動(dòng)駕駛車和機(jī)器人技術(shù)推進(jìn)到了邊緣物聯(lián)網(wǎng),將AI計(jì)算拓展到全球,在拓展大規(guī)模、高增長(zhǎng)市場(chǎng)的同時(shí)加速創(chuàng)新。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英偉達(dá)從云到邊緣

2、全球GPU先驅(qū):AMD

AMD是全球唯一可以同時(shí)提供高性能GPU和CPU的企業(yè)。AMD的顯卡來源于2006年并購的ATI科技。在這之后的4年中,AMD繼續(xù)使用ATI作為顯卡品牌。直到2010年,AMD才拋棄原ATI的品牌命名方式。

目前,AMD同時(shí)提供獨(dú)立GPU和集成GPU,其集成GPU主要運(yùn)用在Ryzen APU、嵌入式、半定制平臺(tái)中,獨(dú)立GPU分為Radeon和Instinct系列,主要用于游戲、專業(yè)視覺、服務(wù)器等應(yīng)用。

過去六年,AMD的計(jì)算和圖形收入的營(yíng)收由18.05億美元上升至64.32億美元,年復(fù)合增速29%。

未來五年,AMD計(jì)劃成為高性能計(jì)算的領(lǐng)導(dǎo)者,提供顛覆性的CPU和GPU方案。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD計(jì)算和圖形部門營(yíng)收

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD GPU的聚焦領(lǐng)域

AMD的集成GPU主要被運(yùn)用在臺(tái)式機(jī)和筆記本的APU產(chǎn)品中,和CPU組成異構(gòu)運(yùn)算單元。臺(tái)式和筆記本APU的GPU部份共用微架構(gòu)和核心技術(shù),二者GPU的主要差異在于TDP和處理單元的數(shù)量,臺(tái)式強(qiáng)于筆記本。

“Renior”APU的GPU繼續(xù)使用Vega微架構(gòu),但受益于7納米制程,每個(gè)處理單元效能顯著提升。

7納米Vega的提升包括:數(shù)據(jù)網(wǎng)絡(luò)翻倍、優(yōu)化低功耗狀態(tài)轉(zhuǎn)換、25%主頻提升、77%存儲(chǔ)位寬提升。這些提升帶來了在保持15W功耗不變的前提下,每個(gè)計(jì)算單元59%的性能提升、1.79TFLOPS的32位浮點(diǎn)峰值吞吐。

在3DMark Time Spy(DX12)的跑分中,7納米的Ryzen 4800U的GPU表現(xiàn)超過10納米i7-1065G7,是14納米i7-10710U的2倍以上。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD “RENIOR”APU

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD “RENIOR”APU內(nèi)核解析

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD “RENIOR”APU跑分對(duì)比

AMD的Radeon系列游戲獨(dú)立GPU按微架構(gòu)推出時(shí)間依次遞減可以分為RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中,除RX500系列外均采用臺(tái)積電7納米制程。

2020年11月推出的RDNA2微架構(gòu)相較于前代RDNA絕對(duì)性能最高提升一倍,能效提高54%,支持DirectX12 Ultimate,硬件光線追蹤和可變速率著色器等先進(jìn)技術(shù)。搭載16GBGDDR6顯存和128MB InfinityCache高速緩存的RX 6900XT的游戲性能接近英偉達(dá)的RTX 3090。

為了發(fā)揮AMD CPU和GPU的協(xié)同效應(yīng),Radeon擁有AMD SmartAccess Memory技術(shù),銳龍CPU和顯卡之間能實(shí)現(xiàn)更出色的通信。RX6800系列顯卡在部分游戲中4K畫質(zhì)性能額外提升最高可達(dá)7%。

2022年前,AMD將基于更先進(jìn)的制程打造RDNA3微架構(gòu),進(jìn)一步強(qiáng)化光追等計(jì)算表現(xiàn)。

除了傳統(tǒng)的BGA顯存封裝,AMD還積極運(yùn)用HBM系列顯存。在Radeon7中,16GB的HBM2顯存擁有1TB/S的帶寬,超過同期Titan RTX 50%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD獨(dú)立游戲GPU路線圖

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD獨(dú)立游戲GPU產(chǎn)品線

AMD的數(shù)據(jù)中心GPU業(yè)務(wù)由Radeon Instinct加速器系列、以客戶為核心的數(shù)據(jù)中心解決方案和ROCm組成。AMD的主要合作伙伴包括戴爾、惠普等OEM,同時(shí)AMD也向微軟AZURE和亞馬遜網(wǎng)絡(luò)服務(wù)提供視覺云解決方案。

ROCm是全球首個(gè)針對(duì)加速式計(jì)算且不限定編程語言的超大規(guī)模開源平臺(tái),遵循UNIX的選擇哲學(xué)、極簡(jiǎn)主義以及針對(duì)GPU計(jì)算的模塊化軟件開發(fā)。

ROCm適合大規(guī)模計(jì)算,支持多路GPU,有豐富的系統(tǒng)運(yùn)行庫,包括框架、庫、編程模型、互聯(lián)和Linux Kernel上游支持,提供各種重要功能來支持大規(guī)模應(yīng)用、編譯器和語言運(yùn)行庫的開發(fā)。

AMD正與美國(guó)能源部、橡樹嶺國(guó)家實(shí)驗(yàn)室和Cray公司合作,使用EPYC(霄龍)CPU、Radeon Instinct GPU和ROCm打造超過150億億次FLOPS的全球最快超算平臺(tái)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD ROCm開源軟件生態(tài)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD數(shù)據(jù)中心GPU產(chǎn)品線

Radeon Instinct MI 100加速器采用專注計(jì)算的CDNA微架構(gòu),在計(jì)算和連接方面實(shí)現(xiàn)了巨大飛躍,與AMD上一代加速器相比,高性能計(jì)算工作負(fù)載(FP32矩陣)性能提升近3.5倍,而人工智能工作負(fù)載(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英偉達(dá)安培A100,同時(shí)功耗比后者低100瓦。

為了滿足多路GPU的互聯(lián)通訊需求,AMD研發(fā)了InfinityFabric技術(shù)。Infinity Fabric擁有先進(jìn)的平臺(tái)連接性和可拓展性,最多支持4路GPU互聯(lián)。P2P帶寬是PCIe 4.0的2倍,四GPU集群的P2P帶寬最高可達(dá)552GB/s。

未來,AMD將基于更先進(jìn)的制程打造CDNA2微架構(gòu),進(jìn)入百億億級(jí)時(shí)代。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

Instinct MI 100與安培A100對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD數(shù)據(jù)中心GPU路線圖

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

AMD Infinity Fabric互聯(lián)

AMD的其他獨(dú)立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨(dú)立顯卡主要倍運(yùn)用在索尼、微軟的本世代和次世代主機(jī)中。如今,AMD的技術(shù)存在于2.2億個(gè)家庭暢享游戲和視頻娛樂時(shí)所用設(shè)備的核心。

嵌入式GPU的特點(diǎn)包括卓越的圖形性能、多屏顯示、外形緊湊、高能效、長(zhǎng)期供貨。嵌入式GPU分為超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它們主要使用14納米的GCN 1.4北極星微架構(gòu),TDP覆蓋20W-135W范圍。

Radeon Pro系列顯卡被廣泛應(yīng)用于建筑工程、設(shè)計(jì)制造、媒體娛樂等領(lǐng)域,擁有AMD遠(yuǎn)程工作站、AMD Eyefinity多屏顯示技術(shù)、AMD Radeon ProRender等技術(shù)。Radeon Pro系列采用Vega微架構(gòu),7或14納米制程,直接競(jìng)爭(zhēng)對(duì)手是英偉達(dá)的Quadro系列。Radeon Pro移動(dòng)和臺(tái)式工作站的合作伙伴包括蘋果、戴爾、惠普等。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

Radeon? Pro VII GPU規(guī)格

3、英特爾:全球GPU追趕者

英特爾是全球最大的PC GPU供應(yīng)商,也是PC和服務(wù)器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和緩慢的更新速度,一直沒有非常大的起色。進(jìn)入Core i時(shí)代后,英特爾通過將核芯顯卡和CPU進(jìn)行捆綁銷售,利用CPU的龐大市場(chǎng)份額,確立了公司在集成GPU領(lǐng)域的寡頭壟斷地位,在此過程中AMD的APU一直是酷睿的直接競(jìng)爭(zhēng)對(duì)手。

2020年,英特爾推出了第12代GPGPU,采用全新的Xe微架構(gòu)和10納米Super Fin制程。相較于第11代核顯,Xe-LP在保持電壓不變的前提下,大幅提升主頻,能效顯著提高。搭載Xe-LP的i7 1185G7在GPU性能方面已經(jīng)超過同期AMD的Vega核顯和英偉達(dá)的MX系列獨(dú)顯。

Xe系列可以細(xì)分為,集成/低功耗的Xe-LP、娛樂/游戲的Xe-HPG、數(shù)據(jù)中心/高性能的Xe-HP、高性能計(jì)算的Xe-HPC。

目前,Xe-LP的集成版本已經(jīng)被第11代酷睿所采用。Xe-LP的移動(dòng)獨(dú)立GPU版本DG1和服務(wù)器獨(dú)立GPU版本SG1也已發(fā)布。獨(dú)顯版在核顯版的基礎(chǔ)上進(jìn)一步提升主頻,并加入了128位4GB LPDDR4X-4266獨(dú)立顯存,單精度浮點(diǎn)算力提升15%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾Xe縱向?qū)Ρ鹊?1代核顯

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾Xe產(chǎn)品線

英特爾的集成GPU在形式上表現(xiàn)為核芯顯卡。核芯顯卡使用系統(tǒng)DRAM作為非獨(dú)立顯存,通過處理器內(nèi)部的環(huán)狀總線與CPU連接,負(fù)責(zé)處理游戲、視頻娛樂等圖像負(fù)載。

英特爾Xe核顯借助10納米SuperFin的優(yōu)勢(shì),將處理單元最高提升至96個(gè),相較于Icelake的64個(gè)提升了50%,并且將連接CPU和GPU的總線帶寬提升一倍,獨(dú)立最終緩存(LLC)提高50%,支持最高86GB/s的存儲(chǔ)帶寬。以上這些提升使i7-1185G7的3DMark跑分較前代i7-1065G7提升接近一倍,超過AMD的R74800U和同期英偉達(dá)的MX350。

Xe核顯的顯示引擎和媒體引擎也都得到加強(qiáng)。接口方面,內(nèi)部支持雙eDP,外部支持DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質(zhì)方面,支持8K、HDR10、12比特BT2020色域、360赫茲刷新率等。

英特爾Xe核心顯卡和CPU經(jīng)由自家One API驅(qū)動(dòng)中間層框架和上層應(yīng)用。英特爾One API解決了編碼模型在不同微架構(gòu)間的壁壘,最大化跨平臺(tái)表現(xiàn)和最小化開發(fā)成本。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾Tiger Lake 實(shí)物圖和Die

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾Tiger Lake Xe核顯3DMark性能對(duì)比

英特爾獨(dú)立GPU分為銳炬Xe MAX和服務(wù)器GPU,均隸屬于Xe LP系列,微架構(gòu)與核顯Xe相同,采用標(biāo)準(zhǔn)封裝和10納米SuperFin制程。

目前,銳炬Xe MAX是第一款基于英特爾 Xe 架構(gòu)的面向輕薄型筆記本電腦的GPU。銳炬Xe MAX在Xe集成GPU的基礎(chǔ)上增加了4GBLPDDR4X-4266的獨(dú)立顯存,TDP 25W,峰值主頻1650MHz,單精度浮點(diǎn)性能2.46TFLOPs。銳炬Xe MAX可以和11代酷睿處理器、銳炬Xe GPU同時(shí)工作。借助英特爾Deep Link技術(shù),獲得具有強(qiáng)大性能和經(jīng)過功耗優(yōu)化的集成系統(tǒng),以改進(jìn)創(chuàng)造力和游戲體驗(yàn)。

目前,英特爾服務(wù)器GPU在Xe核顯的基礎(chǔ)上,TDP提升到23W,增加了8GB LPDDR4的獨(dú)立顯存,支持高密度、低延遲的安卓云游戲和高密度媒體轉(zhuǎn)碼/編碼,以實(shí)現(xiàn)實(shí)時(shí)的OTT視頻直播。同時(shí),英特爾服務(wù)器GPU支持2顆、4顆獨(dú)立GPU的聚合,成倍提高性能。

未來,英特爾還將推出面向游戲和高性能桌面的Xe HPG產(chǎn)品線,增加了光線追蹤等硬件支持,采用傳統(tǒng)封裝,外包生產(chǎn)。英特爾服務(wù)器GPU將使用Xe HPC、Xe HP微架構(gòu),采用2.5D和3D先進(jìn)封裝,10納米SuperFin及更先進(jìn)自家或外包工藝。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾Xe服務(wù)器GPU參數(shù)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾Xe產(chǎn)品、封裝、制程

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

英特爾銳炬Xe MAX

4、ARM Mali:全球GPU IP巨頭

ARM是全球最大的半導(dǎo)體IP提供商。全世界超過95%的智能手機(jī)和平板電腦都采用ARM架構(gòu)。2019Q2,全球近43%的手機(jī)和平板GPU由Mali驅(qū)動(dòng)。2020第四季度,ARM半導(dǎo)體合作伙伴基于ARM技術(shù)的芯片出貨量達(dá)到67億顆,再創(chuàng)歷史新高,超過其他所有流行的CPU指令集架構(gòu)—X86、ARC、Power、MIPS的總和。

國(guó)產(chǎn)SoC中,有95%是基于ARM處理器技術(shù),ARM中國(guó)授權(quán)客戶超過150家,基于ARM架構(gòu)的國(guó)產(chǎn)芯片出貨量已經(jīng)超過184億。

ARM的Mali GPU按性能可以分為3大類,分別是高性能、主流、高能效。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

ARM IP組合和SoC設(shè)計(jì)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

ARM Mali GPU路線圖

Arm Mali-G78 GPU是用于高端設(shè)備的第二代基于Valhall架構(gòu)的GPU。Mali-G78是性能最高的ArmGPU,可支持復(fù)雜的應(yīng)用,例如適用于Vulkan和OpenCL等所有最新API的游戲圖形和機(jī)器學(xué)習(xí)(ML)。

Mali-G78與上一代設(shè)備相比,GPU性能提高了25%,并增強(qiáng)了設(shè)備上的ML功能,從而有助于將高度復(fù)雜的游戲帶入移動(dòng)設(shè)備。Mali-G78最多支持24個(gè)內(nèi)核,并包含異步頂級(jí)功能,可確保性能有效地分布在各個(gè)內(nèi)核上,從而使圖形運(yùn)行更加流暢。全新執(zhí)行引擎中的新型融合乘加(FMA)單元可進(jìn)一步降低30%的單元能耗。

在GFXBench Aztec Ruin的跑分中,使用臺(tái)積電5納米工藝,搭載24個(gè)Mali-G78內(nèi)核的麒麟9000 SoCGPU的幀數(shù)強(qiáng)于驍龍865的Adreno 650,但仍落后于蘋果A14。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

ARM Mali-G78

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

麒麟9000系列的ARM Mali-G78應(yīng)用

Imagination Technologies是一家總部在英國(guó),專注于半導(dǎo)體和相關(guān)知識(shí)產(chǎn)權(quán)許可,銷售PowerVR移動(dòng)圖形處理器,MIPS嵌入式微處理器和消費(fèi)電子產(chǎn)品。公司還提供無線基帶處理,網(wǎng)絡(luò),數(shù)字信號(hào)處理器,視頻和音頻硬件,IP語音軟件,云計(jì)算,以及芯片和系統(tǒng)設(shè)計(jì)服務(wù)。2017年,董事會(huì)宣布公司被中資的Canyon Bridge收購。

Imagination在GPU領(lǐng)域歷史悠久,在其超過25年的歷史中,Imagination先后推出過多代GPU產(chǎn)品,已積累超過1500項(xiàng)GPU專利,曾為蘋果供應(yīng)圖像處理器(GPU),在圖像處理器(GPU)領(lǐng)域與高通、ARM三分天下,曾占GPU市場(chǎng)大約占據(jù)三分之一的份額,在汽車領(lǐng)域更是達(dá)到43%。帶有Imagination IP的芯片產(chǎn)品累計(jì)出貨量已超過110億。

Imagination的IP包括圖形處理器和視覺與人工智能2類。公司Power VR產(chǎn)品被廣泛應(yīng)用于移動(dòng)設(shè)備(智能手機(jī)、平板)、汽車(儀表、信息娛樂、輔助駕駛)、沉浸式體驗(yàn)(AR/VR)、消費(fèi)電子(電視、機(jī)頂盒)。

根據(jù)Imagination的GPU路線圖,在A系列GPU性能最高提升2.5倍之后,B系列到D系列GPU的年復(fù)合增速在30%左右。2021年的C系列GPU將首次加入L4級(jí)別的光線追蹤,從硬件層面支持一致性分類的層次包圍體(BVH)和復(fù)雜光線處理,相比目前英偉達(dá)和AMD的L3級(jí)別光線追蹤方案可顯著提升能效,實(shí)現(xiàn)更好的用戶體驗(yàn)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

IMG系列GPU路線圖

5、全球GPU IP巨頭:Imagination

2020年10月,Imagination推出了全新的IMG B系列GPU,這是公司第一個(gè)包含新多核架構(gòu)的GPU IP系列,也是首次采用RISC-V,可提供最高的性能密度。得益于多核架構(gòu)和Imagination圖像壓縮技(IMGIC),B系列相比A系列,功耗降低30%,帶寬降低35%、面積縮減25%,AI算力達(dá)到24 TOPS,且填充率比競(jìng)品IP內(nèi)核高2.5倍。與A系列相似,B系列GPU也支持AI協(xié)同技術(shù),在提供圖形處理功能的同時(shí),可用備用資源來處理可編程AI等任務(wù)。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種系列。其中IMG BXE面向高清顯示應(yīng)用,IMG BXM主打圖形處理體驗(yàn),IMG BXT面向高性能應(yīng)用,IMG BXS面向未來汽車。

BXS系列符合ISO 26262標(biāo)準(zhǔn),也是迄今為止所開發(fā)的最先進(jìn)汽車GPU IP內(nèi)核。BXS提供了一個(gè)完整的產(chǎn)品系列,從入門到高端,可為下一代人機(jī)界面(HMI)、UI顯示、信息娛樂系統(tǒng)、數(shù)字駕艙、環(huán)繞視圖提供解決方案。高計(jì)算能力的配置可支持自動(dòng)駕駛和ADAS。

憑借核心可擴(kuò)展的優(yōu)勢(shì),IMG B系列適用于傳統(tǒng)移動(dòng)設(shè)備、消費(fèi)類設(shè)備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視(DTV)和汽車等市場(chǎng)領(lǐng)域。IMG B系列也可擴(kuò)展至桌面GPU、云端GPU服務(wù)器,且支持自動(dòng)駕駛和輔助駕駛等。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

IMG B系列對(duì)比A系列能效提升

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

Imagination GPU組合

6、高通Adreno:全球移動(dòng)GPU先驅(qū)

高通的自研GPU Adreno源于收購的AMD移動(dòng)GPU Imageon系列。早期的Adreno 100系列只有2D圖形加速和有限的多媒體功能。2008年發(fā)布的Adreno 200是首款被集成到驍龍SoC中的GPU,并加入了3D硬件加速功能。

2020年12月,高通推出了搭載Adreno 660的驍龍888 SoC。Adreno 660繼承了Adreno650的微架構(gòu),采用了三星5納米LPE工藝,大幅提高主頻,使圖形渲染性能提高35%,能效提高20%。Adreno 660全面支持Qualcomm? Snapdragon Elite Gaming和Qualcomm? Game Quick Touch ,二者將可變速率渲染和響應(yīng)速度分別提升30%和20%。

在GFXBench Aztec Ruin 1080P測(cè)試中,Adreno 660的峰值幀數(shù)追平麒麟9000,但相較蘋果A14仍有近20%的差距。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

高通Adreno 660 1080P性能對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

高通Adreno 660 GPU

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

高通Adreno 660參數(shù)

7、蘋果:全球移動(dòng)GPU新秀

蘋果的自研GPU首次出現(xiàn)于2017年的A11 SoC。A11的三核心GPU作為蘋果的首款自研GPU,其性能超過采用Power VR GT7600+的A10 GPU 30%。其后,所有的A系列SoC的GPU均為蘋果自研。

2020年,蘋果推出了5納米制程的M1芯片,該款SoC基于A14芯片,在CPU、GPU、NPU、緩存等各方面都進(jìn)行了強(qiáng)化,用于驅(qū)動(dòng)蘋果的Mac產(chǎn)品。M1芯片的發(fā)布標(biāo)志著蘋果繼2005年放棄IBM的PowerPC指令集轉(zhuǎn)向Intel的X86指令集后的又一大PC領(lǐng)域轉(zhuǎn)換。

采用8核GPU的M1擁有128個(gè)執(zhí)行單元,可以同步運(yùn)行近25000個(gè)線程,單精度浮點(diǎn)算力達(dá)到2.6 TFLOPs。M1 GPU的能效表現(xiàn)是當(dāng)時(shí)同類PC中集成GPU的三倍,峰值性能最高可達(dá)其他GPU的2倍。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

蘋果M1 GPU參數(shù)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

蘋果M1能效對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

蘋果M1 8核GPU

三、國(guó)產(chǎn)GPU自主之路

國(guó)產(chǎn)GPU的發(fā)展落后于國(guó)產(chǎn)CPU,直到2014年4月,景嘉微才成功研發(fā)出國(guó)內(nèi)首款國(guó)產(chǎn)高性能、低功耗GPU芯片—JM5400。在國(guó)產(chǎn)GPU的開發(fā)中,GPU對(duì)CPU的依賴性和GPU的高研發(fā)難度,阻礙了該產(chǎn)業(yè)的快速發(fā)展。

首先,GPU對(duì)CPU有依賴性。GPU結(jié)構(gòu)沒有控制器,必須由CPU進(jìn)行控制調(diào)用才能工作,否則GPU無法單獨(dú)工作。所以國(guó)產(chǎn)CPU較國(guó)產(chǎn)GPU先行一步是符合芯片產(chǎn)業(yè)發(fā)展邏輯的。

再者,GPU技術(shù)難度很高。Moor Insights & Strategy首席分析師莫海德曾表示:“相比CPU,開發(fā)GPU要更加困難,而GPU設(shè)計(jì)師、工程師和驅(qū)動(dòng)程序的作者都要更少?!眹?guó)內(nèi)人才缺口也是國(guó)產(chǎn)GPU發(fā)展緩慢的重要原因之一。在芯片行業(yè),一般來說,培養(yǎng)一位擁有豐富經(jīng)驗(yàn)并且能夠根據(jù)市場(chǎng)動(dòng)態(tài)及時(shí)修改芯片設(shè)計(jì)方案的成熟工程師,至少需要10年。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

國(guó)產(chǎn)GPU公司及其業(yè)務(wù)簡(jiǎn)介

中國(guó)GPU市場(chǎng)規(guī)模和潛力非常大,龐大的整機(jī)制造能力意味著巨量的GPU采購。雖然近些年,計(jì)算機(jī)整機(jī)和智能手機(jī)產(chǎn)量增長(zhǎng)都出現(xiàn)瓶頸,但由于這兩類產(chǎn)品體量龐大,2019年國(guó)內(nèi)智能手機(jī)出貨量為3.72億部,電子計(jì)算機(jī)整機(jī)年產(chǎn)量達(dá)到3.56億臺(tái),GPU的需求量大且單品價(jià)值非常高,市場(chǎng)規(guī)模依然非常可觀。

同時(shí),服務(wù)器GPU伴隨著整機(jī)出貨的快速成長(zhǎng),需求量增長(zhǎng)也較為迅速。據(jù)統(tǒng)計(jì),2018年國(guó)內(nèi)服務(wù)器出貨量達(dá)到330.4萬臺(tái),同比增長(zhǎng)26%,其中互聯(lián)網(wǎng)、電信、金融和服務(wù)業(yè)等行業(yè)的出貨量增速也均超過20%。另外,國(guó)內(nèi)在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、人工智能等新興計(jì)算領(lǐng)域,對(duì)GPU也存在海量的需求。

據(jù)統(tǒng)計(jì),近年來中國(guó)集成電路自給率不斷提升,2018年為13%,預(yù)計(jì)2020年有望提升至15%,但仍然處于較低水平。根據(jù)國(guó)務(wù)院印發(fā)的《新時(shí)期促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》等文件,中國(guó)芯片自給率要在2025年達(dá)到70%,這將產(chǎn)生8000億元的國(guó)產(chǎn)芯片需求。中國(guó)芯片產(chǎn)業(yè)發(fā)展空間非常大。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2019年中國(guó)大陸集成電路進(jìn)口額結(jié)構(gòu)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2012-2020年中國(guó)大陸集成電路自給率

1、景嘉微:具有完全自主知識(shí)產(chǎn)權(quán),打破國(guó)外GPU長(zhǎng)期壟斷

長(zhǎng)沙景嘉微電子股份有限公司成立于2006年4月,位于長(zhǎng)沙市高新技術(shù)開發(fā)區(qū),公司擁有經(jīng)驗(yàn)豐富的集成電路設(shè)計(jì)團(tuán)隊(duì),是國(guó)產(chǎn)GPU的主要參與者,也是唯一自主開發(fā)并已經(jīng)大規(guī)模商用的企業(yè)。

2014年4月,成功研發(fā)出國(guó)內(nèi)首款國(guó)產(chǎn)高可靠、低功耗GPU芯片-JM5400,具有完全自主知識(shí)產(chǎn)權(quán),打破了國(guó)外產(chǎn)品長(zhǎng)期壟斷我國(guó)GPU市場(chǎng)的局面,在多個(gè)國(guó)家重點(diǎn)項(xiàng)目中得到了成功的應(yīng)用;

2018年8月,公司自主研發(fā)的新一代高性能、高可靠GPU芯片-JM7200流片成功,將國(guó)產(chǎn)GPU的技術(shù)發(fā)展提高到新的水平,可為各類信息系統(tǒng)提供強(qiáng)大的顯示能力;

2019年,公司在JM7200基礎(chǔ)上,推出了商用版本-JM7201,滿足桌面系統(tǒng)高性能顯示需求,并全面支持國(guó)產(chǎn)CPU和國(guó)產(chǎn)操作系統(tǒng),推動(dòng)國(guó)產(chǎn)計(jì)算機(jī)的生態(tài)構(gòu)建和進(jìn)一步完善。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

景嘉微發(fā)展歷程

景嘉微已完成兩個(gè)系列、三款GPU的量產(chǎn)應(yīng)用,產(chǎn)品覆蓋軍用和民用兩大市場(chǎng)。景嘉微第一代GPU JM5400主要運(yùn)用于軍用市場(chǎng),替代原ATI M9、M54、M72等美系GPU芯片。景嘉微第二代GPU JM7200在產(chǎn)品性能和工藝設(shè)計(jì)上較JM5400有較大提升,是首例進(jìn)入民用市場(chǎng)的圖形芯片。公司與國(guó)內(nèi)主要CPU廠商和計(jì)算機(jī)整機(jī)廠商已建立合作關(guān)系。JM7201在JM7200的基礎(chǔ)上對(duì)民用市場(chǎng)的桌面應(yīng)用進(jìn)行了優(yōu)化,推出標(biāo)準(zhǔn)MXM和標(biāo)準(zhǔn)PCIE顯卡,在保證性能的同時(shí),降低了功耗,縮小了體積。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

景嘉微國(guó)產(chǎn)GPU芯片產(chǎn)品線

景嘉微的第二代GPU JM7200系列于2018年8月流片成功,并在2019年3月獲得首個(gè)訂單。相較于前代JM5400,JM7200在理論性能上有翻倍的提升,同時(shí)制程也進(jìn)化到了28納米。但是JM7200在顯存帶寬、像素填充率、浮點(diǎn)性能等方面較2012年發(fā)售,采用完整版GK107核心的英偉達(dá)GT640還有相當(dāng)差距。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

各景嘉微GPU參數(shù)對(duì)比

2018年12月,景嘉微定增募集10.88億元,用于高性能通用圖形處理器和面向消費(fèi)電子領(lǐng)域的通用類芯片研發(fā)和產(chǎn)業(yè)化項(xiàng)目。其中,高性能通用圖形處理器項(xiàng)目包括JM9231和JM9271兩款GPU芯片,分別面向不同應(yīng)用領(lǐng)域的中、高檔系列產(chǎn)品。據(jù)公司2020年中報(bào)顯示,下一代圖形處理器研發(fā)處于后端設(shè)計(jì)階段,研發(fā)進(jìn)程一切順利。

景嘉微JM9系列是繼JM5400和JM7200局部渲染計(jì)算內(nèi)核之后,首次采用統(tǒng)一渲染結(jié)構(gòu)的GPU,并且增加了可編程計(jì)算模塊數(shù)量。JM9231和JM9271在性能表現(xiàn)分別與英偉達(dá)于2016年推出的GTX1050和GTX1080相近。JM9系列的推出將使公司GPU水平與海外龍頭水平縮短至5年,大幅提升公司在GPU領(lǐng)域的競(jìng)爭(zhēng)力。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

景嘉微后續(xù)高性能通用GPU性能參數(shù)對(duì)比

2、芯原微電子:國(guó)產(chǎn)GPU IP龍頭

芯原微電子是依托自主半導(dǎo)體IP,為客戶提供平臺(tái)化、全方位、一站式芯片定制服務(wù)和半導(dǎo)體IP授權(quán)服務(wù)的企業(yè)。公司至今擁有高清視頻、高清音頻及語音、車載娛樂系統(tǒng)處理器、視頻監(jiān)控、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案,以及5類自主可控的處理器IP,分別為圖形處理器IP、神經(jīng)網(wǎng)絡(luò)處理器IP、視頻處理器IP、數(shù)字信號(hào)處理器IP和圖像信號(hào)處理器IP,以及1,400多個(gè)數(shù)模混合IP和射頻IP,年均流片項(xiàng)目超過40個(gè)。主營(yíng)業(yè)務(wù)的應(yīng)用領(lǐng)域廣泛包括消費(fèi)電子、汽車電子、計(jì)算機(jī)及周邊、工業(yè)、數(shù)據(jù)處理、物聯(lián)網(wǎng)等,主要客戶包括IDM、芯片設(shè)計(jì)公司,以及系統(tǒng)廠商、大型物聯(lián)網(wǎng)公司等。

芯原在傳統(tǒng)CMOS、先進(jìn)FinFET和FD-SOI等全球主流半導(dǎo)體工藝節(jié)點(diǎn)上都具有優(yōu)秀的設(shè)計(jì)能力,先進(jìn)工藝制程覆蓋14nm/10nm/7nm FinFET和28nm/22nm FD-SOI,并已開始進(jìn)行5nm FinFET 芯片的設(shè)計(jì)研發(fā)和新一代 FD-SOI 工藝節(jié)點(diǎn)芯片的設(shè)計(jì)預(yù)研。

此外,根據(jù)Ipnest統(tǒng)計(jì),芯原是2019年中國(guó)大陸排名第一、全球排名第七的半導(dǎo)體IP授權(quán)服務(wù)供應(yīng)商,全球市場(chǎng)占有率約為1.8%。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯原股份發(fā)展歷程

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2019全球IP企業(yè)市占率排名

芯原GPU IP源于公司在2016年收購的美國(guó)嵌入式GPU設(shè)計(jì)商圖芯技術(shù)(Vivante)。芯原在GPU IP領(lǐng)域已經(jīng)掌握了支持主流圖形加速標(biāo)準(zhǔn)、自主可控指令集和可拓展性強(qiáng),性能范圍廣泛等核心技術(shù),可廣泛應(yīng)用于IOT、汽車電子、PC等市場(chǎng)。根據(jù) IPnest 報(bào)告,芯原GPU IP(含 ISP)市場(chǎng)占有率排名全球前三,僅次于ARM和Imagination,2019 年全球市場(chǎng)占有率約為 11.8%。

目前,芯原在圖形處理器技術(shù)的研發(fā)課題包括通用圖形處理器運(yùn)算內(nèi)核的持續(xù)優(yōu)化和矢量圖形處理器DDR-Less技術(shù)。矢量GPU DDR-Less技術(shù)可以在不使用外部存儲(chǔ)器DDR的基礎(chǔ)上,實(shí)現(xiàn)架構(gòu)清晰、分工明確、易于使用、軟件控制流程簡(jiǎn)單等優(yōu)點(diǎn),適用于物聯(lián)網(wǎng)、可穿戴設(shè)備和車載設(shè)備。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

2019全球IP設(shè)計(jì)分類

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯原GPU IP的核心技術(shù)和典型應(yīng)用示例

芯原可拓展Vivante GPU IP應(yīng)用涵蓋從低功耗的小型物聯(lián)網(wǎng)MCU(GPU Nano IP系列)到面向汽車和計(jì)算機(jī)應(yīng)用的強(qiáng)大SoC(GPUArcturus圖形IP),可滿足各種芯片尺寸和功耗預(yù)算,是具有成本效益的優(yōu)質(zhì)圖形處理器解決方案。

芯原的的圖形處理器技術(shù)支持業(yè)界主流的嵌入式圖形加速標(biāo)準(zhǔn)Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等,具有自主可控的指令集及專用編譯器,支持每秒2500億次的浮點(diǎn)運(yùn)算能力及128個(gè)并行著色器處理單元。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯原GPU Nano IP產(chǎn)品線及其可應(yīng)用場(chǎng)景

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯原GPU IP API和操作系統(tǒng)兼容性

芯原股份現(xiàn)有的半導(dǎo)體IP分為處理器IP、數(shù)模混合IP及射頻IP,其中GPU IP隸屬于處理器IP。整體來看,2017-2019芯原得益于不斷豐富的IP儲(chǔ)備及一站式芯片定制業(yè)務(wù)的協(xié)同效應(yīng),公司半導(dǎo)體IP授權(quán)業(yè)務(wù)收入持續(xù)上升,GPU IP的年復(fù)合增速達(dá)13%。2019年GPU IP的營(yíng)收占公司半導(dǎo)體IP營(yíng)收的31.29%,主要由于其他類型IP收入上升,GPU IP比重相對(duì)下降。

芯原在圖形處理器技術(shù)方面的研發(fā)包括高性能的通用圖形處理器GC8400 IP,該IP適用于汽車電子,目前仍處IP設(shè)計(jì)驗(yàn)證階段,擬達(dá)到每秒1萬億次的浮點(diǎn)運(yùn)算能力雙倍精密度,512個(gè)并行著色器處理單元 。

3、航錦科技

航錦科技是一家大型化工生產(chǎn)基地,公司的前身是錦西化工總廠。2017下半年,航錦科技通過收購長(zhǎng)沙韶關(guān)和威科電子兩家軍工企業(yè),挺進(jìn)電子產(chǎn)業(yè),形成化工+電子雙主業(yè)發(fā)展模式,構(gòu)建起三個(gè)支撐板塊(化工、電子、金融)。

航錦科技電子板塊以芯片為核心產(chǎn)品,圍繞高端芯片與通信兩大領(lǐng)域,覆蓋高端芯片(圖形處理芯片/特種FPGA/存儲(chǔ)芯片/總線接口芯片)、北斗3芯片以及通信射頻三大主要產(chǎn)業(yè)。堅(jiān)持軍民兩用為發(fā)展方向,產(chǎn)品廣泛應(yīng)用于航空、航天、兵器、船舶、電子等領(lǐng)域,擁有廣闊的市場(chǎng)空間。

航錦科技的GPU技術(shù)源于并購的長(zhǎng)沙韶光。2018年,長(zhǎng)沙韶光自主研發(fā)和合作研發(fā)的第一代及第二代圖形處理芯片(GPU)獲得集成電路布圖設(shè)計(jì)登記證書;2019年,長(zhǎng)沙韶光自主研發(fā)的第二代改進(jìn)型圖形處理芯片在自主可控設(shè)備領(lǐng)域的應(yīng)用得到驗(yàn)證,并收獲相關(guān)訂單。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

航錦科技自主可控芯片板塊示意圖

4、兆芯:同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù)

上海兆芯集成電路有限公司,簡(jiǎn)稱“兆芯”,由上海聯(lián)合投資有限公司(上海市國(guó)資委完全出資)和中國(guó)臺(tái)灣威盛電子共同成立,也是世界上第三家擁有X86授權(quán)的微處理器公司,總部位于上海張江,在北京、西安、武漢、深圳等地設(shè)有研發(fā)中心和分支機(jī)構(gòu)。

公司同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù),且具備三大核心芯片及相關(guān)IP設(shè)計(jì)與研發(fā)的能力,致力于通過技術(shù)創(chuàng)新與兼容主流的發(fā)展路線,推動(dòng)信息產(chǎn)業(yè)的整體發(fā)展,并獲評(píng)了“高新技術(shù)企業(yè)資質(zhì)”。兆芯提供了桌面整機(jī),服務(wù)器,工業(yè)主板,工業(yè)平臺(tái),系統(tǒng)級(jí)解決方案,在黨政辦公,交通,金融,能源,教育,網(wǎng)絡(luò)安全方面有著廣泛的應(yīng)用。

2019Q2,兆芯發(fā)布了全新的用于PC的處理器KX-6000系列。KX-6000是業(yè)內(nèi)第一款完整集成CPU、GPU、芯片組的SoC單芯片國(guó)產(chǎn)通用處理器。

KX-6000系列處理器采用16納米制程,集成高性能顯卡,支持DP/HDMI/VGA輸出,兼容DirectX、OpenGL、OpenCL等主流API,最高可同時(shí)輸出3臺(tái)顯示器,分辨率可達(dá)4K。

全新的KX-6000系列處理器擁有出色的兼容性和應(yīng)用體驗(yàn),包括Windows操作系統(tǒng),日常辦公應(yīng)用,4K視頻解碼和主流游戲。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

兆芯KX-6000系列兼容性和應(yīng)用體驗(yàn)

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯KX-6000處理器芯片架構(gòu)?

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯KX-6000處理器集成顯卡參數(shù)

兆芯KX-6000的C-960 GPU在使用惠普兆芯圖形DCH驅(qū)動(dòng)的情況下,Dota 2游戲性能表現(xiàn)遠(yuǎn)落后英特爾酷睿i5-7400的UHD 630。未來,兆芯還會(huì)對(duì)KX系列處理器進(jìn)行進(jìn)一步的更新,使用全新的CPU架構(gòu),將內(nèi)存從DDR4升級(jí)為DDR5,將總線從PCIe3.0升級(jí)至PCIe4.0。內(nèi)存和總線的升級(jí)分別可以提高顯卡的帶寬和CPU與GPU間的通訊速度。

除了以上集成GPU外,兆芯還計(jì)劃發(fā)布一款采用臺(tái)積電28納米工藝,TDP 70瓦的獨(dú)立GPU。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

兆芯KX6000 GPU游戲性能對(duì)比

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

兆芯處理器發(fā)展路線圖

5、凌久電子GPU

凌久電子創(chuàng)立于1983年,是中國(guó)船舶重工集團(tuán)公司第七〇九研究所控股的高新技術(shù)企業(yè)。

凌久電子以嵌入式實(shí)時(shí)信號(hào)處理與高性能計(jì)算技術(shù)為基礎(chǔ),面向船舶、航空、航天、兵器等國(guó)防電子領(lǐng)域及軌道交通、海工裝備、能源電力、半導(dǎo)體制造等民用高科技領(lǐng)域提供芯片級(jí)、模塊級(jí)、設(shè)備級(jí)、系統(tǒng)級(jí)等軟硬件產(chǎn)品;面向科研院所、部隊(duì)及軍校提供作定制化軍事仿真服務(wù)。

凌久電子產(chǎn)品包括元器件類產(chǎn)品、基礎(chǔ)硬件設(shè)備、基礎(chǔ)支撐軟件、應(yīng)用類產(chǎn)品四大類。其中國(guó)產(chǎn)通用GPU GP101隸屬于元器件類產(chǎn)品。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

凌久電子平臺(tái)產(chǎn)品

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

凌久電子元器件類產(chǎn)品分類

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

凌久電子股權(quán)結(jié)構(gòu)

GP101是由中國(guó)船舶重工集團(tuán)第709研究所控股的凌久電子研制,具備完全自主知識(shí)產(chǎn)權(quán)的圖形處理器芯片。GP101支持2D/3D圖形加速,支持二維矢量圖形加速,支持4K分辨率、視頻解碼和硬件圖層處理等功能GP101支持VxWorks、Linux、Windows等通用操作系統(tǒng),支持中標(biāo)麒麟、道等國(guó)產(chǎn)操作系統(tǒng),支持龍芯、飛騰、申威等國(guó)產(chǎn)處理器。

GP101實(shí)現(xiàn)了我國(guó)通用3D顯卡零的突破,在信息安全和供貨能力方便有充分的保障,可以廣泛應(yīng)用于軍民多個(gè)領(lǐng)域。

6、中船重工716研究所:JARI G12 GPU

七一六所自主研發(fā)的JARI G12是2018年性能最強(qiáng)的國(guó)產(chǎn)通用圖形處理器。該處理器采用混合渲染架構(gòu),兼顧數(shù)據(jù)帶寬和渲染延時(shí)需求,極大地增強(qiáng)了芯片的靈活性和適應(yīng)性;

提供PCIe 3.0總線,支持x86處理器和龍芯、飛騰、申威等國(guó)產(chǎn)處理器;支持4路數(shù)字通道和1路VGA輸出,提供DP、eDP、HDMI、DVI等通用顯示介面,單路數(shù)字通道最大輸出分辨率為3840×2160@60fps,支持?jǐn)U展、復(fù)制顯示和“擴(kuò)展+復(fù)制”顯示模式;

內(nèi)建視頻編解碼硬核,支持2路3840×2160分辨率視頻的編碼、解碼功能;

支持OpenGL 4.5和OpenGL ES 3.0,滿足高性能3D加速和VR顯示需求;

支持OpenCL 2.0,滿足并行計(jì)算和云計(jì)算的使用需求;

集成張量加速計(jì)算硬核,支持AI計(jì)算加速。該GPU支持Windows、Linux、VxWorks等主流操作系統(tǒng),同時(shí)支持中標(biāo)麒麟、JARI-Works、道等國(guó)內(nèi)自主可控操作系統(tǒng),具備健全的生態(tài)環(huán)境體系。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

JARI G12架構(gòu)示意圖

7、芯動(dòng)科技:國(guó)產(chǎn)IP和芯片定制先驅(qū)

芯動(dòng)科技是中國(guó)一站式IP和芯片定制領(lǐng)軍企業(yè),提供全球6大工藝廠(臺(tái)積電/三星/格芯/中芯國(guó)際/聯(lián)華電子/英特爾)從130nm到5納米全套高速混合電路IP核和ASIC定制解決方案,聚焦先進(jìn)制程。

芯動(dòng)科技15年來立足本土發(fā)展,所有IP和產(chǎn)品全自主可控,連續(xù)十年中國(guó)市場(chǎng)份額領(lǐng)先。公司客戶群涵蓋華為海思、中興通訊、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企業(yè)。

在高性能計(jì)算/多媒體&汽車電子/IoT物聯(lián)網(wǎng)等領(lǐng)域,芯動(dòng)解決方案具有國(guó)際先進(jìn)水平,涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能圖像處理器GPU和多媒體處理內(nèi)核等多種技術(shù)。芯動(dòng)科技的芯片定制,跨工藝跨封裝,涉及從需求到產(chǎn)品, 能端到端為客戶加速從規(guī)格、設(shè)計(jì)到流片量產(chǎn),及封裝成型全流程。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯動(dòng)科技一站式IP系列

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯動(dòng)科技高性能計(jì)算平臺(tái)IP

2020年10月13日,芯動(dòng)科技與Imagination達(dá)成合作。采用最前沿的多晶粒芯片(chiplet)和GDDR6高速顯存等SOC創(chuàng)新,芯動(dòng)科技將全球首發(fā)Imagination全新頂配BXT多核架構(gòu)。

在信創(chuàng)和算力安全方面,“風(fēng)華”系列GPU內(nèi)置國(guó)產(chǎn)物理不可克隆iUnique Security PUF信息安全加密技術(shù),提升數(shù)據(jù)安全和算力抗攻擊性,支持桌面電腦和數(shù)據(jù)中心GPU計(jì)算自主可控生態(tài)。

“風(fēng)華”系列GPU自帶浮點(diǎn)和智能3D圖形處理功能,全定制多級(jí)流水計(jì)算內(nèi)核,兼具高性能渲染和智能AI算力,還可級(jí)聯(lián)組合多顆芯片合并處理能力,靈活性強(qiáng),適配國(guó)產(chǎn)桌面市場(chǎng)1080P/4K/8K高品質(zhì)顯示,支持VR/AR/AI,多路服務(wù)器云桌面、5G數(shù)據(jù)中心、云教育、云游戲、云辦公等中國(guó)新基建5G風(fēng)口下的大數(shù)據(jù)圖形應(yīng)用場(chǎng)景。

8、華為海思:GPU Turbo

GPU Turbo是一種軟硬協(xié)同的圖形加速技術(shù),可以減少無用渲染次數(shù),優(yōu)化或合并渲染區(qū)域。通過算法,將相關(guān)運(yùn)算放在一個(gè)或相鄰的寄存器中,以此來優(yōu)化圖形處理效率。

GPU Turbo技術(shù)打通了EMUI操作系統(tǒng)以及GPU和CPU之間的處理瓶頸,在系統(tǒng)底層對(duì)傳統(tǒng)的圖形處理框架進(jìn)行了重構(gòu),實(shí)現(xiàn)了軟硬件協(xié)同,使得GPU圖形處理整體效率得到大幅提升。

2018年6月發(fā)布了GPU Turbo 1.0,圖形處理效率提高60%,同時(shí)做到更省電,保證高畫質(zhì)。

2018年9月發(fā)布了GPU Turbo 2.0,游戲場(chǎng)景下功耗下降可達(dá)13.6%,新增支持多款主流游戲,同時(shí)針對(duì)支持的游戲中關(guān)鍵&極限場(chǎng)景(如團(tuán)戰(zhàn)、載具等)進(jìn)行了重點(diǎn)打磨與優(yōu)化。

2019年4月GPU Turbo全新升級(jí),不僅帶來主流游戲接近滿幀運(yùn)行的酣暢體驗(yàn),功耗的持續(xù)降低也帶來了續(xù)航時(shí)間的提升。累計(jì)支持60款國(guó)內(nèi)游戲。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

GPU Turbo 2.0能效對(duì)比

9、龍芯:GPU突擊隊(duì)

中科院計(jì)算所于2001年成立龍芯課題組,開始研制龍芯系列處理器,得到了中科院、863、973、核高基等項(xiàng)目大力支持,完成了十年的核心技術(shù)積累。2010年4月,中國(guó)科學(xué)院和北京市共同牽頭出資入股,成立龍芯中科技術(shù)有限公司,龍芯正式從研發(fā)走向產(chǎn)業(yè)化。

目前,龍芯自主研發(fā)的GPU集成在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號(hào)處理器的芯片組,通過HT3.0接口與處理器相連,集成GPU、顯示控制器和獨(dú)立顯存接口,外圍接口包括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和其它低速接口,可以滿足桌面和服務(wù)器領(lǐng)域?qū)O接口的應(yīng)用需求,并通過外接獨(dú)立顯卡的方式支持高性能圖形應(yīng)用需求。

雖然龍芯7A1000橋片的GPU性能一般,但是橋片作為CPU產(chǎn)業(yè)鏈的一環(huán),龍芯已經(jīng)實(shí)現(xiàn)CPU、橋片和GPU上完全自主化,打通了CPU產(chǎn)業(yè)鏈上每一個(gè)環(huán)節(jié)。

2020年,龍芯成立六支研發(fā)突擊隊(duì),分別為3A5000突擊隊(duì)、3C5000突擊隊(duì)、7A2000突擊隊(duì)、2K2000突擊隊(duì)、GPU突擊隊(duì)、PCIE突擊隊(duì)。這六支突擊隊(duì)的目的就是要把2-3年的工作,在一年內(nèi)干完!

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

龍芯7A1000

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

龍芯7A1000 GPU相關(guān)參數(shù)

10、芯瞳半導(dǎo)體:高性能GPU設(shè)計(jì)新星

芯瞳半導(dǎo)體成立于2019年,主要業(yè)務(wù)包括GPU芯片設(shè)計(jì)、異構(gòu)計(jì)算平臺(tái)方案、嵌入式顯示系統(tǒng)解決方案、GPU應(yīng)用部署解決方案。公司著力于研發(fā)高性能的GPU芯片,為用戶提供以自研GPU芯片為核心的解決方案,致力于打造業(yè)界領(lǐng)先的GPU芯片設(shè)計(jì)平臺(tái),目標(biāo)是成為國(guó)際一流的GPU芯片設(shè)計(jì)企業(yè)。公司創(chuàng)始團(tuán)隊(duì)在GPU領(lǐng)域有著超過10年的學(xué)術(shù)和工程經(jīng)驗(yàn),是一支軟硬件全棧式支持的研發(fā)團(tuán)隊(duì)。

公司的GPU架構(gòu)采用了業(yè)界主流的統(tǒng)一渲染架構(gòu),并具有高度可擴(kuò)展的互聯(lián)結(jié)構(gòu)和計(jì)算陣列,便于芯片后續(xù)迭代升級(jí)。經(jīng)過多年的積累,團(tuán)隊(duì)構(gòu)建了芯片建模虛擬平臺(tái),通過該虛擬平臺(tái),團(tuán)隊(duì)可以快速地完成GPU相關(guān)軟件的研發(fā)和軟件生態(tài)的部署,與此同時(shí),在該虛擬平臺(tái)上快速地對(duì)芯片架構(gòu)進(jìn)行驗(yàn)證,從而縮短GPU芯片的設(shè)計(jì)驗(yàn)證周期,提升GPU芯片的設(shè)計(jì)效能。

公司第一代GPU芯片(GenBu01)初測(cè)已成功,已與統(tǒng)信、麒麟及昆侖完成適配,目前正在為小批量量產(chǎn)做最終測(cè)試。 GenBu01主要面向的客戶為需要定制嵌入式計(jì)算機(jī)產(chǎn)品的客戶以及為國(guó)產(chǎn)替代領(lǐng)域提供信創(chuàng)辦公PC的ODM/OEM廠商。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

芯瞳GenBu01參數(shù)

11、天數(shù)智芯:國(guó)產(chǎn)GPGPU領(lǐng)跑者

天數(shù)智芯于2018年正式啟動(dòng)GPGPU芯片設(shè)計(jì),是中國(guó)第一家GPGPU高端芯片及超級(jí)算力提供商。天數(shù)智芯重點(diǎn)打造自主可控、國(guó)際一流的通用、標(biāo)準(zhǔn)、高性能云端計(jì)算芯片GPGPU,從芯片端解決計(jì)算力問題;并推出面向5G技術(shù)需求的邊緣云端推理GPGPU,提供對(duì)當(dāng)前進(jìn)口主流GPGPU體系的無縫兼容和市場(chǎng)化選擇。2021年1月15日,天數(shù)智芯成功點(diǎn)亮自研7納米制程GPGPU云端訓(xùn)練芯片,性能達(dá)市場(chǎng)主流產(chǎn)品的兩倍。該芯片量產(chǎn)后將廣泛應(yīng)用于AI訓(xùn)練、高性能計(jì)算(HPC)等場(chǎng)景,服務(wù)于教育、互聯(lián)網(wǎng)、金融、自動(dòng)駕駛、醫(yī)療、安防等各相關(guān)行業(yè),賦能AI智能社會(huì)。

天數(shù)智芯7納米GPGPU高端自研云端訓(xùn)練芯片的產(chǎn)品優(yōu)勢(shì)包括:全方位生態(tài)兼容、高性能有效算力、指令集編程架構(gòu)、軟硬件全棧支持、全自主知識(shí)產(chǎn)權(quán)。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

天數(shù)智芯GPGPU BI芯片參數(shù)

12、壁仞科技和沐曦集成電路

壁仞科技創(chuàng)立于2019年,團(tuán)隊(duì)由國(guó)內(nèi)外芯片和云計(jì)算領(lǐng)域核心專業(yè)人員、研發(fā)人員組成,在GPU、DSA(專用加速器)和計(jì)算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累和獨(dú)到的行業(yè)洞見。

壁仞科技致力于開發(fā)原創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺(tái),同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,壁仞科技將首先聚焦云端通用智能計(jì)算,逐步在人工智能訓(xùn)練和推理、圖形渲染、高性能通用計(jì)算等多個(gè)領(lǐng)域趕超現(xiàn)有解決方案,實(shí)現(xiàn)國(guó)產(chǎn)高端通用智能計(jì)算芯片的突破。

沐曦集成電路專注于設(shè)計(jì)具有完全自主知識(shí)產(chǎn)權(quán),針對(duì)異構(gòu)計(jì)算等各類應(yīng)用的高性能通用GPU芯片。公司致力于打造國(guó)內(nèi)最強(qiáng)商用GPU芯片,產(chǎn)品主要應(yīng)用方向包含傳統(tǒng)GPU及移動(dòng)應(yīng)用,人工智能、云計(jì)算、數(shù)據(jù)中心等高性能異構(gòu)計(jì)算領(lǐng)域。

對(duì)于研發(fā)的方向,沐曦表示將采用業(yè)界最先進(jìn)的5nm工藝技術(shù),研發(fā)全兼容CUDA及ROCm生態(tài)的國(guó)產(chǎn)高性能GPU芯片,滿足HPC、數(shù)據(jù)中心及AI等方面的計(jì)算需求。GPU將采用原創(chuàng)專利保護(hù)的可重構(gòu)GPU架構(gòu),突破傳統(tǒng)GPU芯片能效瓶頸;采用數(shù)據(jù)壓縮,數(shù)據(jù)廣播以及共享硬件加速單元等先進(jìn)技術(shù),大幅度優(yōu)化核心算力能耗比。

GPU深度報(bào)告,三大巨頭,十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

沐曦高性能GPU研發(fā)項(xiàng)目

12、登臨科技和摩爾線程

登臨科技成立于2017年11月,是一家專注于為新興計(jì)算領(lǐng)域提供高性能、高功效計(jì)算平臺(tái)的高科技企業(yè)。公司的產(chǎn)品是以芯片為核心的系統(tǒng)解決方案,在所有核心IP上堅(jiān)持自研路線。登臨科技已完成由元禾璞華、元生資本聯(lián)合領(lǐng)投的A+輪融資,包括北極光在內(nèi)的老股東持續(xù)在本輪加碼跟進(jìn)。登臨科技的首款GPU+(軟件定義的片內(nèi)異構(gòu)通用人工智能處理器)產(chǎn)品已成功回片通過測(cè)試,開始客戶送樣,公司團(tuán)隊(duì)具備架構(gòu)、系統(tǒng)、軟件、硬件、芯片、驗(yàn)證等方面的綜合能力。

登臨科技GoldwasserTM GPU+產(chǎn)品在現(xiàn)有市場(chǎng)主流的GPU架構(gòu)上,創(chuàng)新采用軟硬件協(xié)同的異構(gòu)設(shè)計(jì)。GPU+異構(gòu)設(shè)計(jì)讓產(chǎn)品在對(duì)客戶實(shí)際業(yè)務(wù)繼承在現(xiàn)有生態(tài)上的投入、在保證極高兼容性的同時(shí),相比傳統(tǒng)GPU在AI計(jì)算上性能和能效均有明顯提升,大大降低了外部帶寬的需求,顯著降低客戶總擁有成本。

摩爾線程創(chuàng)立于2020年10月,去年12月獲得天使輪融資,今年2月22日獲得Pre-A輪融資。摩爾線程致力于構(gòu)建中國(guó)視覺計(jì)算和人工智能領(lǐng)域計(jì)算平臺(tái),研發(fā)全球領(lǐng)先的自主創(chuàng)新GPU知識(shí)產(chǎn)權(quán),其GPU產(chǎn)品線覆蓋通用圖形計(jì)算和高性能計(jì)算。公司核心成員主要來自英偉達(dá)、微軟、英特爾、AMD、ARM等,覆蓋GPU研發(fā)設(shè)計(jì)、生產(chǎn)制造、市場(chǎng)銷售、服務(wù)支持等完整架構(gòu)。

13、國(guó)產(chǎn)GPU新星:翰博半導(dǎo)體

翰博半導(dǎo)體成立于2018年12月,立志于發(fā)展成為國(guó)際頂尖的芯片公司,立足于中國(guó)市場(chǎng),填補(bǔ)國(guó)內(nèi)市場(chǎng)國(guó)產(chǎn)芯片的空白,為智能應(yīng)用提供高效算力,為人工智能創(chuàng)新以及應(yīng)用落地賦能。

翰博半導(dǎo)體擁有國(guó)內(nèi)外專家組成的團(tuán)隊(duì)。公司核心員工來自世界頂級(jí)的高科技公司,平均擁有15年以上的相關(guān)芯片,軟件設(shè)計(jì)經(jīng)驗(yàn)。

瀚博的產(chǎn)品注重計(jì)算機(jī)視覺及視頻處理的優(yōu)化,提供豐富的特性,高效的性能/功耗;適用多個(gè)人工智能領(lǐng)域。產(chǎn)品覆蓋從邊到云,SOC及服務(wù)器市場(chǎng)。

翰博半導(dǎo)體CEO—錢軍擁有25年以上高端芯片設(shè)計(jì)經(jīng)驗(yàn)和40多款芯片設(shè)計(jì)和量產(chǎn)的經(jīng)驗(yàn),帶隊(duì)設(shè)計(jì)量產(chǎn)業(yè)界第一顆7納米圖像處理器和AI服務(wù)器芯片,曾任AMD高管Senior Director,直接負(fù)責(zé)設(shè)計(jì)團(tuán)隊(duì)超過800人,全面負(fù)責(zé)GPU( 圖像處理器和AI服務(wù)器)芯片設(shè)計(jì)和生產(chǎn),現(xiàn)在市場(chǎng)上所有AMD Radeon圖像處理器和AI服務(wù)器都是由其帶隊(duì)開發(fā),包括多個(gè)系列DGPU和MI系列產(chǎn)品。

14、國(guó)產(chǎn)GPU新星:燧原科技

燧原科技成立于2018年3月,專注于人工智能領(lǐng)域云端算力平臺(tái),致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案,提供自主知識(shí)產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品。

燧原科技的產(chǎn)品技術(shù)由訓(xùn)練、推理、軟件平臺(tái)構(gòu)成。其中,訓(xùn)練業(yè)務(wù)包含加速卡 “云燧T10” 和“云燧T11”;推理業(yè)務(wù)包含加速卡 “云燧i10”;軟件平臺(tái)包含“馭算”。

“云燧”系列加速卡采用自研DTU架構(gòu),支持ESL高速互聯(lián)和開放生態(tài)。 “云燧”芯片采用格羅方德的12nm FinFET工藝,結(jié)合 2.5D先進(jìn)封裝,擁有141億晶體管和16GB HBM2顯存,在FP32的算力和能效比方面領(lǐng)先GPU。

計(jì)算及編程平臺(tái)“馭算”,由燧原自主研發(fā),支持主流深度學(xué)習(xí)框架,并針對(duì)邃思芯片進(jìn)行了針對(duì)性優(yōu)化。

智東西認(rèn)為,GPU設(shè)計(jì)之初是為了圖像處理,但是隨著技術(shù)的不斷迭代升級(jí),GPU的功能已經(jīng)不僅限于“畫圖”,憑借在并行處理和通用計(jì)算的優(yōu)勢(shì),GPU在服務(wù)器、汽車、人工智能、邊緣計(jì)算等領(lǐng)域已經(jīng)開始大放異彩?,F(xiàn)階段,雖然國(guó)產(chǎn)GPU與英偉達(dá)、AMD等世界巨頭差距明顯,但在一些空白的細(xì)分領(lǐng)域或許有很大的“彎道超車”空間。