GPU是Graphics Processing Unit（圖形處理器）的簡(jiǎn)稱，它是一種專門在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備（如平板電腦、智能手機(jī)等）上運(yùn)行繪圖運(yùn)算工作的微處理器。圖形處理器是NVIDIA公司（NVIDIA）在1999年8月發(fā)表NVIDIA GeForce 256（GeForce 256）繪圖處理芯片時(shí)首先提出的概念，在此之前，電腦中處理影像輸出的顯示芯片，通常很少被視為是一個(gè)獨(dú)立的運(yùn)算單元。而對(duì)手冶天科技（ATi）亦提出視覺處理器（Visual Processing Unit）概念。圖形處理器使顯卡減少對(duì)中央處理器（CPU）的依賴，并分擔(dān)部分原本是由中央處理器所擔(dān)當(dāng)?shù)墓ぷ?，尤其是在進(jìn)行三維繪圖運(yùn)算時(shí)，功效更加明顯。圖形處理器所采用的核心技術(shù)有硬件坐標(biāo)轉(zhuǎn)換與光源、立體環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等。

圖形處理器可單獨(dú)與專用電路板以及附屬組件組成顯卡，或單獨(dú)一片芯片直接內(nèi)嵌入到主板上，或者內(nèi)置于主板的北橋芯片中，現(xiàn)在也有內(nèi)置于CPU上組成SoC的。個(gè)人電腦領(lǐng)域中，在2007年，90%以上的新型臺(tái)式機(jī)和筆記本電腦擁有嵌入式繪圖芯片，但是在性能上往往低于不少獨(dú)立顯卡。但2009年以后，AMD和英特爾都各自大力發(fā)展內(nèi)置于中央處理器內(nèi)的高性能集成式圖形處理核心，它們的性能在2012年時(shí)已經(jīng)勝于那些低端獨(dú)立顯卡，這使得不少低端的獨(dú)立顯卡逐漸失去市場(chǎng)需求，兩大個(gè)人電腦圖形處理器研發(fā)巨頭中，AMD以AMD APU產(chǎn)品線取代旗下大部分的低端獨(dú)立顯示核心產(chǎn)品線。而在手持設(shè)備領(lǐng)域上，隨著一些如平板電腦等設(shè)備對(duì)圖形處理能力的需求越來越高，不少廠商像是高通（Qualcomm）、Imagination、ARM、NVIDIA等，也在這個(gè)領(lǐng)域“大顯身手”。

GPU不同于傳統(tǒng)的CPU，如Intel i5或i7處理器，其內(nèi)核數(shù)量較少，專為通用計(jì)算而設(shè)計(jì)。相反，GPU是一種特殊類型的處理器，具有數(shù)百或數(shù)千個(gè)內(nèi)核，經(jīng)過優(yōu)化，可并行運(yùn)行大量計(jì)算。雖然GPU在游戲中以3D渲染而聞名，但它們對(duì)運(yùn)行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法尤其有用。GPU允許某些計(jì)算比傳統(tǒng)CPU上運(yùn)行相同的計(jì)算速度快10倍至100倍。

本期的智能內(nèi)參，我們推薦方正證券的報(bào)告《GPU研究框架》，從GPU的底層技術(shù)、產(chǎn)業(yè)鏈發(fā)展情況和國(guó)產(chǎn)GPU的自主之路三方面全面解析GPU及其產(chǎn)業(yè)。

本期內(nèi)參來源：方正證券

原標(biāo)題：

《GPU研究框架》

作者：陳杭等

一、GPU：專用計(jì)算時(shí)代的“畫師”

GPU（graphics processing unit）圖形處理器，又稱顯示核心、視覺處理器、顯示芯片，是一種在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備（如平板電腦、智能手機(jī)等）上做圖像和圖形相關(guān)運(yùn)算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計(jì)算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現(xiàn)使計(jì)算機(jī)減少了對(duì)CPU的依賴，并解放了部分原本CPU的工作。在3D圖形處理時(shí)，GPU采用的核心技術(shù)有硬件T&L（幾何轉(zhuǎn)換和光照處理）、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等，而硬件T&L技術(shù)可以說是GPU的標(biāo)志。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU的內(nèi)部組成部分

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU核心及PCB板

GPU的微架構(gòu)（Micro Architecture）是一種給定的指令集和圖形函數(shù)集合在處理器中執(zhí)行的方法。圖形函數(shù)主要用于繪制各種圖形所需要的運(yùn)算。當(dāng)前和像素、光影處理、3D坐標(biāo)變換等相關(guān)運(yùn)算由GPU硬件加速來實(shí)現(xiàn)。相同的指令集和圖形函數(shù)集合可以在不同的微架構(gòu)中執(zhí)行，但實(shí)施的目的和效果可能不同。優(yōu)秀的微架構(gòu)對(duì)GPU性能和效能的提升發(fā)揮著至關(guān)重要的作用，GPU體系是GPU微架構(gòu)和圖形API的集合。

以目前最新的英偉達(dá)安培微架構(gòu)為例，GPU微架構(gòu)的運(yùn)算部份由流處理器(Stream Processor，SP)、紋理單元（Texture mapping unit, TMU)、張量單元（Tensor Core）、光線追蹤單元（RT Cores）、光柵化處理單元（ROPs）組成。這些運(yùn)算單元中，張量單元，光線追蹤單元由NVIDIA在伏特/圖靈微架構(gòu)引入。

除了上述運(yùn)算單元外，GPU的微架構(gòu)還包含L0/L1操作緩存、Warp調(diào)度器、分配單元（Dispatch Unit）、寄存器堆（register file）、特殊功能單元（Special function unit，SFU）、存取單元、顯卡互聯(lián)單元（NV Link)、PCIe總線接口、L2緩存、二代高位寬顯存（HBM2）等接口。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)安培內(nèi)核概覽

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)安培內(nèi)核“SM”單元

GPU的流處理器單元是NVIDIA對(duì)其統(tǒng)一架構(gòu)GPU內(nèi)通用標(biāo)量著色器的命名。SP單元是全新的全能渲染單元，是繼Pixel Pipelines（像素管線）和Vertex Pipelines（頂點(diǎn)管線）之后新一代的顯卡渲染技術(shù)指標(biāo)。SP單元既可以完成VS（Vertex Shader，頂點(diǎn)著色器）運(yùn)算，也可以完成PS（Pixel Shader，像素著色器）運(yùn)算，而且可以根據(jù)需要組成任意VS/PS比例，從而給開發(fā)者更廣闊的發(fā)揮空間。

流處理器單元首次出現(xiàn)于DirectX 10時(shí)代的G80核心的Nvidia GeForce 8800GTX顯卡，是顯卡發(fā)展史上一次重大的革新。之后AMD/ATI的顯卡也引入了這一概念，但是流處理器在橫向和縱向都不可類比，大量的流處理器是GPU性能強(qiáng)勁的必要非充分條件。

紋理映射單元（TMU）作為GPU的部件，它能夠?qū)ΧM(jìn)制圖像旋轉(zhuǎn)、縮放、扭曲，然后將其作為紋理放置到給定3D模型的任意平面，這個(gè)過程稱為紋理映射。紋理映射單元不可簡(jiǎn)單跨平臺(tái)橫向比較，大量的紋理映射單元是GPU性能強(qiáng)勁的必要非充分條件。

光柵化處理單元（ROPs）主要負(fù)責(zé)游戲中的光線和反射運(yùn)算，兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光影效果越厲害，對(duì)ROPs的性能要求就越高，否則可能導(dǎo)致幀數(shù)的急劇下降。NVIDIA的ROPs單元是和流處理器進(jìn)行捆綁的，二者同比例增減。在AMD GPU中，ROPs單元和流處理器單元沒有直接捆綁關(guān)系。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)安培內(nèi)核SP、ROPs、TMU拆解

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)RTX 3080 GPU-Z參數(shù)

消費(fèi)GPU的實(shí)時(shí)光線追蹤在2018年由英偉達(dá)的“圖靈”GPU首次引入，光追單元（RT Cores）在此過程中發(fā)揮著決定性的作用。圖靈GPU的光追單元支持邊界體積層次加速，實(shí)時(shí)陰影、環(huán)境光、照明和反射，光追單元和光柵單元可以協(xié)同工作，進(jìn)一步提高幀數(shù)和陰影的真實(shí)感。

光追單元在英偉達(dá)的RTX光線追蹤技術(shù)、微軟DXR API、英偉達(dá)Optix API和Vulkan光追API的支持下可以充分發(fā)揮性能。擁有68個(gè)光追單元的RTX2080Ti在光線處理性能上較無光追單元的GTX1080Ti強(qiáng)10倍。

張量單元（Tensor Core）在2017年由英偉達(dá)的“伏特”GPU中被首次引入。張量單元主要用于實(shí)時(shí)深度學(xué)習(xí)，服務(wù)于人工智能，大型矩陣運(yùn)算和深度學(xué)習(xí)超級(jí)采樣（DLSS），可以帶來驚人的游戲和專業(yè)圖像顯示，同時(shí)提供基于云系統(tǒng)的快速人工智能。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)RTX2080Ti張量單元算力

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)圖靈GPU光追單元運(yùn)作流程

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)圖靈GPU張量單元提供多精度AI

GPU的API（Application Programming Interface）應(yīng)用程序接口發(fā)揮著連接應(yīng)用程序和顯卡驅(qū)動(dòng)的橋梁作用。不過隨著系統(tǒng)優(yōu)化的深入，API也可以直接統(tǒng)籌管理高級(jí)語言、顯卡驅(qū)動(dòng)和底層匯編語言。

3D API能夠讓編程人員所設(shè)計(jì)的3D軟件只需調(diào)動(dòng)其API內(nèi)的程序，讓API自動(dòng)和硬件的驅(qū)動(dòng)程序溝通，啟動(dòng)3D芯片內(nèi)強(qiáng)大的3D圖形處理功能，從而大幅地提高3D程序的設(shè)計(jì)效率。同樣的，GPU廠家也可以根據(jù)API標(biāo)準(zhǔn)來設(shè)計(jì)GPU芯片，以達(dá)到在API調(diào)用硬件資源時(shí)的最優(yōu)化，獲得更好的性能。3D API可以實(shí)現(xiàn)不同廠家的硬件、軟件最大范圍兼容。如果沒有API，那么開發(fā)人員必須對(duì)不同的硬件進(jìn)行一對(duì)一的編碼，這樣會(huì)帶來大量的軟件適配問題和編碼成本。

目前GPU API可以分為2大陣營(yíng)和若干其他類。2大陣營(yíng)分別是微軟的DirectX標(biāo)準(zhǔn)和KhronosGroup標(biāo)準(zhǔn)，其他類包括蘋果的Metal API、AMD的Mantle（地幔）API、英特爾的One API等。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲微軟DirectX和Khronos Group API組合對(duì)比

DirectX是Direct eXtension的簡(jiǎn)稱，作為一種API，是由微軟公司創(chuàng)建的多媒體編程接口。DirectX可以讓以Windows為平臺(tái)的游戲或多媒體程序獲得更高的執(zhí)行效率，加強(qiáng)3D圖形和聲音效果，并提供設(shè)計(jì)人員一個(gè)共同的硬件驅(qū)動(dòng)標(biāo)準(zhǔn)，讓游戲開發(fā)者不必為每一品牌的硬件來寫不同的驅(qū)動(dòng)程序，也降低用戶安裝及設(shè)置硬件的復(fù)雜度。DirectX已被廣泛使用于Windows操作系統(tǒng)和Xbox主機(jī)的電子游戲開發(fā)。

OpenGL是Open Graphics Library的簡(jiǎn)稱，是用于渲染2D、3D矢量圖形的跨語言、跨平臺(tái)的應(yīng)用程序編程接口（API），相比DirectX更加開放。這個(gè)接口由近350個(gè)不同的函數(shù)調(diào)用組成，用來繪制從簡(jiǎn)單的二維圖形到復(fù)雜的三維景象。OpenGL常用于CAD、虛擬現(xiàn)實(shí)、科學(xué)可視化程序和電子游戲開發(fā)。

正是由于OpenGL的開放，所以它可以被運(yùn)行在Windows、MacOS、Linux、安卓、iOS等多個(gè)操作系統(tǒng)上，學(xué)習(xí)門檻也比DirectX更低。但是，效率低是OpenGL的主要缺點(diǎn)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲DirectX和OpenGL特點(diǎn)對(duì)比

Metal是Apple在2014年創(chuàng)建的接近底層的，低開銷的硬件加速3D圖形和計(jì)算著色器API。Metal在iOS 8中首次亮相。Metal在一個(gè)API中結(jié)合了類似于OpenGL和OpenCL的功能。它旨在通過為iOS，iPadOS，macOS和tvOS上的應(yīng)用程序提供對(duì)GPU硬件的底層訪問來提高性能。相較于OpenGL ES，Metal減少了10倍的代碼擁擠，提供了更好的解決方案，并將會(huì)在蘋果設(shè)備中取代OpenGL。Metal也支持英特爾HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C編程語言調(diào)用的面向?qū)ο蟮腁PI。GPU的全部操作是通過Metal著色語言控制的。

2017年，蘋果推出了Metal的升級(jí)版Metal2，兼容前代Metal硬件，支持iOS11，MacOS和tvOS11。Metal2可以在Xcode中更有效地進(jìn)行配置和調(diào)試，加快機(jī)器學(xué)習(xí)速度，降低CPU工作量，在MacOS上支持VR，充分發(fā)揮A11 GPU的特性。

Vulkan是一種低開銷，跨平臺(tái)的3D圖像和計(jì)算API。Vulkan面向跨所有平臺(tái)的高性能實(shí)時(shí)3D圖形應(yīng)用程序，如視頻游戲和交互式媒體。與OpenGL，Direct3D 11和Metal相比，Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了較低的CPU使用外，Vulkan還旨在使開發(fā)人員更好地在多核CPU中分配工作。

Vulkan源自并基于AMD的Mantle API組件，最初的版本被稱為OpenGL的下一代。最新的Vulkan1.2發(fā)布于2020年1月15日，該版本整合了23個(gè)額外經(jīng)常被使用的Vulkan拓展。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲Metal與OpenGL性能對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲OpenGL和Vulkan對(duì)比

軟件生態(tài)方面，GPU無法單獨(dú)工作，必須由CPU進(jìn)行控制調(diào)用才能工作，而CPU在處理大量類型一致的數(shù)據(jù)時(shí)，則可調(diào)用GPU進(jìn)行并行計(jì)算。所以，GPU的生態(tài)和CPU的生態(tài)是高度相關(guān)的。

近年來，在摩爾定律演進(jìn)的放緩和GPU在通用計(jì)算領(lǐng)域的高速發(fā)展的此消彼長(zhǎng)之下，通用圖形處理器（GPGPU）逐漸“反客為主”，利用GPU來計(jì)算原本由CPU處理的通用計(jì)算任務(wù)。

目前，各個(gè)GPU廠商的GPGPU的實(shí)現(xiàn)方法不盡相同，如NVIDIA使用的CUDA（compute unified device architecture）技術(shù)、原ATI的ATI Stream技術(shù)、Open CL聯(lián)盟、微軟的DirectCompute技術(shù)。這些技術(shù)可以讓GPU在媒體編碼加速、視頻補(bǔ)幀與畫面優(yōu)化、人工智能與深度學(xué)習(xí)、科研領(lǐng)域、超級(jí)計(jì)算機(jī)等方面發(fā)揮異構(gòu)加速的優(yōu)勢(shì)。以上4種技術(shù)中，只有OpenCL支持跨平臺(tái)和開放標(biāo)注的特性，還可以使用專門的可編程電路來加速計(jì)算，業(yè)界支持非常廣泛。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲DirectX和OpenGL生態(tài)對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲OpenCL聯(lián)盟生態(tài)

GPU根據(jù)接入方式可以劃分為獨(dú)立GPU和集成GPU。獨(dú)立GPU一般封裝在獨(dú)立的顯卡電路板上，擁有獨(dú)立顯存，而集成GPU常和CPU共用一個(gè)Die，共享系統(tǒng)內(nèi)存。GPU根據(jù)接入方式可以劃分為獨(dú)立GPU和集成GPU。獨(dú)立GPU一般封裝在獨(dú)立的顯卡電路板上，擁有獨(dú)立顯存，而集成GPU常和CPU共用一個(gè)Die，共享系統(tǒng)內(nèi)存。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU的主要分類

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲獨(dú)立GPU

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲集成GPU Die

GPU顯存是用來存儲(chǔ)顯卡芯片處理過或者即將提取的渲染數(shù)據(jù)，是GPU正常運(yùn)作不可或缺的核心部件之一。GPU的顯存可以分為獨(dú)立顯存和集成顯存兩種。目前，獨(dú)立顯存主要采用GDDR3、GDDR5、GDDR5X、GDDR6，而集成顯存主要采用DDR3、DDR4。服務(wù)器GPU偏好使用Chiplet形式的HBM顯存，最大化吞吐量。

集成顯存受制于64位操作系統(tǒng)的限制，即便組成2通道甚至4通道，與獨(dú)立顯存的帶寬仍有相當(dāng)差距。通常這也造成了獨(dú)立GPU的性能強(qiáng)于集成GPU。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲顯存的主要分類

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲獨(dú)立顯存的工作方式

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲獨(dú)立顯存的工作方式

集成顯卡是指一般不帶顯存，而是使用系統(tǒng)的一部分主內(nèi)存作為顯存的顯卡。集成顯卡可以被整合進(jìn)主板作為北橋芯片的一部分，也可以和CPU集成在同一個(gè)Die中。集成顯卡的顯存一般根據(jù)系統(tǒng)軟件和應(yīng)用軟件的需求自動(dòng)調(diào)整。如果顯卡運(yùn)行需要占用大量?jī)?nèi)存空間，那么整個(gè)系統(tǒng)運(yùn)行會(huì)受限，此外系統(tǒng)內(nèi)存的頻率通常比獨(dú)立顯卡的顯存低很多，因此集成顯卡的性能比獨(dú)立顯卡要遜色一些。

獨(dú)立顯卡是將顯示芯片及相關(guān)器件制作成一個(gè)獨(dú)立于電腦主板的板卡，成為專業(yè)的圖像處理硬件設(shè)備。獨(dú)立顯卡因?yàn)榫邆涓呶粚?、高頻獨(dú)立顯存和更多的處理單元，性能遠(yuǎn)比集成顯卡優(yōu)越，不僅可用于一般性的工作，還具有完善的2D效果和很強(qiáng)的3D水平，因此常應(yīng)用于高性能臺(tái)式機(jī)和筆記本電腦，主要的接口為PCIe。

如今，獨(dú)立顯卡與集成顯卡已經(jīng)不是2個(gè)完全割裂，各自為營(yíng)的圖像處理單元了。二者在微軟DX12的支持下也可以實(shí)現(xiàn)獨(dú)核顯交火，同時(shí)AMD和NVIDIA的顯卡也可實(shí)現(xiàn)混合交火。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲集成顯卡和獨(dú)立顯卡對(duì)比

GPU對(duì)比CPU：從芯片設(shè)計(jì)思路看，CPU是以低延遲為導(dǎo)向的計(jì)算單元，通常由專為串行處理而優(yōu)化的幾個(gè)核心組成，而GPU是以吞吐量為導(dǎo)向的計(jì)算單元，由數(shù)以千計(jì)的更小、更高效的核心組成，專為并行多任務(wù)設(shè)計(jì)。

CPU和GPU設(shè)計(jì)思路的不同導(dǎo)致微架構(gòu)的不同。CPU的緩存大于GPU，但在線程數(shù)，寄存器數(shù)和SIMD（單指令多數(shù)據(jù)流）方面GPU遠(yuǎn)強(qiáng)于CPU。

微架構(gòu)的不同最終導(dǎo)致CPU中大部分的晶體管用于構(gòu)建控制電路和緩存，只有少部分的晶體管完成實(shí)際的運(yùn)算工作，功能模塊很多，擅長(zhǎng)分支預(yù)測(cè)等復(fù)雜操作。GPU的流處理器和顯存控制器占據(jù)了絕大部分晶體管，而控制器相對(duì)簡(jiǎn)單，擅長(zhǎng)對(duì)大量數(shù)據(jù)進(jìn)行簡(jiǎn)單操作，擁有遠(yuǎn)勝于CPU的強(qiáng)大浮點(diǎn)計(jì)算能力。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU和CPU的核心設(shè)計(jì)思路對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU和CPU的核心對(duì)比

后摩爾時(shí)代，隨著GPU的可編程性不斷增強(qiáng)，GPU的應(yīng)用能力已經(jīng)遠(yuǎn)遠(yuǎn)超出了圖形渲染，部份GPU被用于圖形渲染以外領(lǐng)域的計(jì)算成為GPGPU。與此同時(shí)，CPU為了追求通用性，只有少部分晶體管被用于完成運(yùn)算，而大部分晶體管被用于構(gòu)建控制電路和高速緩存。但是由于GPU對(duì)CPU的依附性以及GPU相較CPU更高的開發(fā)難度，所以GPU不可能完全取代CPU。我們認(rèn)為未來計(jì)算架構(gòu)將是GPU+CPU的異構(gòu)運(yùn)算體系。

在GPU+CPU的異構(gòu)運(yùn)算中，GPU和CPU之間可以無縫地共享數(shù)據(jù)，而無需內(nèi)存拷貝和緩存刷新，因?yàn)槿蝿?wù)以極低的開銷被調(diào)度到合適的處理器上。CPU憑借多個(gè)專為串行處理而優(yōu)化的核心運(yùn)行程序的串行部份，而GPU使用數(shù)以千計(jì)的小核心運(yùn)行程序的并行部分，充分發(fā)揮協(xié)同效應(yīng)和比較優(yōu)勢(shì)。

異構(gòu)運(yùn)算除了需要相關(guān)的CPU和GPU等硬件支持，還需要能將它們有效組織的軟件編程。OpenCL是（OpenComputing Language）的簡(jiǎn)稱，它是第一個(gè)為異構(gòu)系統(tǒng)的通用并行編程而產(chǎn)生的統(tǒng)一的、免費(fèi)的標(biāo)準(zhǔn)。OpenCL支持由多核的CPU、GPU、Cell架構(gòu)以及信號(hào)處理器(DSP)等其他并行設(shè)備組成的異構(gòu)系統(tǒng)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲OpenCL異構(gòu)運(yùn)算構(gòu)成

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲異構(gòu)運(yùn)算下的GPU工作流程

GPU與ASIC和FPGA的對(duì)比：數(shù)據(jù)、算力和算法是AI三大要素，CPU配合加速芯片的模式成為典型的AI部署方案，CPU提供算力，加速芯片提升算力并助推算法的產(chǎn)生。常見的AI加速芯片包括GPU、FPGA、ASIC三類。

GPU用于大量重復(fù)計(jì)算，由數(shù)以千計(jì)的更小、更高效的核心組成大規(guī)模并行計(jì)算架構(gòu)，配備GPU的服務(wù)器可取代數(shù)百臺(tái)通用CPU服務(wù)器來處理HPC和AI業(yè)務(wù)。

FPGA是一種半定制芯片，靈活性強(qiáng)集成度高，但運(yùn)算量小，量產(chǎn)成本高，適用于算法更新頻繁或市場(chǎng)規(guī)模小的專用領(lǐng)域。

ASIC專用性強(qiáng)，市場(chǎng)需求量大的專用領(lǐng)域，但開發(fā)周期較長(zhǎng)且難度極高。

在AI訓(xùn)練階段需要大量數(shù)據(jù)運(yùn)算，GPU預(yù)計(jì)占64%左右市場(chǎng)份額，F(xiàn)PGA和ASIC分別為22%和14%。推理階段無需大量數(shù)據(jù)運(yùn)算，GPU將占據(jù)42%左右市場(chǎng)，F(xiàn)PGA和ASIC分別為34%和24%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲不同應(yīng)用場(chǎng)景AI芯片性能需求和具體指標(biāo)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU、FPGA、ASIC AI芯片對(duì)比

在PC誕生之初，并不存在GPU的概念，所有的圖形和多媒體運(yùn)算都由CPU負(fù)責(zé)。但是由于X86 CPU的暫存器數(shù)量有限，適合串行計(jì)算而不適合并行計(jì)算，雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補(bǔ)CPU的缺陷，但是僅僅在指令集方面的改進(jìn)不能起到根本效果，所以誕生了圖形加速器作為CPU的輔助運(yùn)算單元。

GPU的發(fā)展史概括說來就是NVIDIA、AMD(ATI)的發(fā)展史，在此過程中曾經(jīng)的GPU巨頭Imagination、3dfx、東芝等紛紛被后輩超越。如今獨(dú)立顯卡領(lǐng)域主要由英偉達(dá)和AMD控制，而集成顯卡領(lǐng)域由英特爾和AMD控制。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU的發(fā)展史

英偉達(dá)的GPU架構(gòu)自2008年以來幾乎一直保持著每2年一次大更新的節(jié)奏，帶來更多更新的運(yùn)算單元和更好的API適配性。在每次的大換代之間，不乏有一次的小升級(jí)，如采用開普勒二代微架構(gòu)的GK110核心相較于采用初代開普勒微架構(gòu)的GK104核心，升級(jí)了顯卡智能動(dòng)態(tài)超頻技術(shù)，CUDA運(yùn)算能力提升至3.5代，極致流式多處理器（SMX）的浮點(diǎn)運(yùn)算單元提升8倍，加入了Hyper-Q技術(shù)提高GPU的利用率并削減了閑置，更新了網(wǎng)格管理單元（Grid Management Unit），為動(dòng)態(tài)并行技術(shù)提供了靈活性。

英偉達(dá)GPU微架構(gòu)的持續(xù)更新，使英偉達(dá)GPU的能效提升了數(shù)十倍，占領(lǐng)了獨(dú)立顯卡技術(shù)的制高點(diǎn)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2008-2020英偉達(dá)GPU微架構(gòu)進(jìn)化

圖形API在GPU的運(yùn)算過程中發(fā)揮著連接高級(jí)語言、顯卡驅(qū)動(dòng)乃至底層匯編語言的作用，充當(dāng)GPU運(yùn)行和開發(fā)的“橋梁”和“翻譯官”。微軟DirectX標(biāo)準(zhǔn)可以劃分為顯示部份、聲音部份、輸入部分和網(wǎng)絡(luò)部分，其中與GPU具有最直接關(guān)系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標(biāo)準(zhǔn)，前者主要負(fù)責(zé)2D圖像加速，后者主要負(fù)責(zé)3D效果顯示。

從1995年發(fā)布的初代DirectX 1.0開始微軟的DirectX已經(jīng)更新到了DirectX 12。在此過程中，DirectX不斷完善對(duì)各類GPU的兼容，增加開發(fā)人員的權(quán)限，提高GPU的顯示質(zhì)量和運(yùn)行幀數(shù)。

DirectX一般和Windows操作系統(tǒng)同步更新，如Windows 7推出了DX11、Windows 10推出了DX12。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲1998-2014微軟DirectX進(jìn)化

GPU和CPU都是以先進(jìn)制程為導(dǎo)向的數(shù)字芯片。先進(jìn)制程可以在控制發(fā)熱和電能消耗的同時(shí)，在有限的Die中放入盡可能多的晶體管，提高GPU的性能和能效。

NVIDIA的GPU從2008年GT200系列的65納米制程歷經(jīng)12年逐步升級(jí)到了RTX3000系列的7/8納米制程，在整個(gè)過程中，晶體管數(shù)量提升了20多倍，逐步確立了在獨(dú)立GPU的市場(chǎng)龍頭地位。

同時(shí)在整個(gè)過程中，NVIDIA一直堅(jiān)持不采用IDM的模式，而是讓臺(tái)積電負(fù)責(zé)GPU的制造，自生專注于芯片設(shè)計(jì)，充分發(fā)揮比較優(yōu)勢(shì)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2008-2020英偉達(dá)GPU主要制程和晶體管數(shù)進(jìn)化

根據(jù)前12年的GPU發(fā)展軌跡來看，GPU微架構(gòu)的升級(jí)趨勢(shì)可以簡(jiǎn)要地概括為”更多”、”更?！?、”更智能”。“更多”是指晶體管數(shù)量和運(yùn)算單元的增加，其中包括流處理器單元、紋理單元、光柵單元等數(shù)量上升?！案鼘！笔侵赋顺Ｒ?guī)的計(jì)算單元，GPU還會(huì)增加新的運(yùn)算單元。例如，英偉達(dá)的圖靈架構(gòu)相較于帕斯卡架構(gòu)新增加了光追單元和張量單元，分別處理實(shí)時(shí)光線追蹤和人工智能運(yùn)算?！案悄堋笔侵窯PU的AI運(yùn)算能力上升。如第三代的張量單元相較于上代在吞吐量上提升了1倍。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)GTX1080對(duì)比RTX2080

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)伏特微架構(gòu)對(duì)比安培微架構(gòu)AI加速性能

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)安培架構(gòu)提升

綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX11、Metal、OpenGL的升級(jí)，我們認(rèn)為GPU API的升級(jí)趨勢(shì)是提高GPU的運(yùn)行效率、增加高級(jí)語言和顯卡驅(qū)動(dòng)之間的連接、優(yōu)化視覺特效等。其中，提供更底層的支持：統(tǒng)籌高級(jí)語言、顯卡驅(qū)動(dòng)和底層語言是幾乎所有API升級(jí)的主要方向。

不過提供更底層的支持只是更高的幀數(shù)或更好的畫質(zhì)的必要非充分條件。在整個(gè)軟件的開發(fā)過程中，軟件開發(fā)商需要比驅(qū)動(dòng)程序和系統(tǒng)層更好地調(diào)度硬件資源，才能充分發(fā)揮底層API的效果。

在顯示質(zhì)量方面，DirectX 12 Ultimate采用當(dāng)下最新的圖形硬件技術(shù)，支持光線追蹤、網(wǎng)格著色器和可變速率著色，PC和Xbox共用同一個(gè)API，堪稱次世代游戲的全新黃金標(biāo)準(zhǔn)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲非底層DirectX 11對(duì)比底層DirectX 12

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲DirectX 12 Ultimate新特性

GPU制造升級(jí)趨勢(shì)：以先進(jìn)制程為導(dǎo)向。GPU性能的三大決定因素為主頻、微架構(gòu)、API。這些因素中主頻通常是由GPU的制程決定的。制程在過去通常表示晶體管或柵極長(zhǎng)度等特征尺寸，不過出于營(yíng)銷的需要，現(xiàn)在的制程已經(jīng)偏離了本意，因此單純比較納米數(shù)沒有意義。按英特爾的觀點(diǎn)，每平方毫米內(nèi)的晶體管數(shù)（百萬）更能衡量制程。據(jù)此，臺(tái)積電和三星的7nm工藝更接近英特爾的10nm工藝。

先進(jìn)的制程可以降低每一個(gè)晶體管的成本，提升晶體管密度，在GPU Die體積不變下實(shí)現(xiàn)更高的性能；先進(jìn)制程可以提升處理器的效能，在性能不變的情況下，減少發(fā)熱或在發(fā)熱不變的情況下，通過提升主頻來拉高性能。

先進(jìn)制程的主要目的是降低平面結(jié)構(gòu)帶來的漏電率問題，提升方案可以通過改變工藝，如采用FinFET（鰭式場(chǎng)效應(yīng)晶體管）或GAA（環(huán)繞式柵極）；或采用特殊材料，如FD-SOI（基于SOI的超薄絕緣層上硅體技術(shù))。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲先進(jìn)制程工藝之FinFET

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾10nm先進(jìn)制程帶來的性能和效能提升

GPU制造升級(jí)趨勢(shì)：Chiplet化。高位寬內(nèi)存（HBM）是小芯片（Chiplet）在GPU中的常見應(yīng)用。HBM是一種高速計(jì)算機(jī)存儲(chǔ)器3D堆棧SDRAM接口。首款HBM于2013年推出，第二代HBM2已于2016年被JEDEC接受。目前，HBM主要應(yīng)用在高端獨(dú)立顯卡和服務(wù)器顯卡。

HBM通過3D堆疊4個(gè)DRAM Die和1片邏輯Die組成一個(gè)Chiplet，其中每片DRAM具有2個(gè)128位通道，通過TSV（硅通孔）相連。所以，一片Chiplet總共8個(gè)128位通道，總位寬1024比特。每片Chiplet又與GPU封裝在同一中介層（Interposer）連接GPU芯片。相比之下，GDDR5內(nèi)存的總線寬度為32位，帶有512位內(nèi)存接口的顯卡也只有16個(gè)通道，而且采用傳統(tǒng)的FBGA封裝。HBM與GDDR5相比，每GB的表面積減少94%，每GB/S帶寬的能效提升2倍多。

HBM支持最多每個(gè)Chiplet 4GB的存儲(chǔ)，HBM2在HBM的基礎(chǔ)上將每片Chiplet的最大容量提升至了8GB，顯存主頻提升1倍，同時(shí)總位寬保持不變。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲HBM的GPU應(yīng)用

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GDDR5對(duì)比HBM

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲HBM先進(jìn)封裝結(jié)構(gòu)

GPU制造可分為IDM和Fab+Fabless。IDM集芯片設(shè)計(jì)、芯片制造、芯片封裝和測(cè)試等多個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)于一身。英特爾為IDM的代表。

Fabless只負(fù)責(zé)芯片的電路設(shè)計(jì)與銷售，將生產(chǎn)、測(cè)試、封裝等環(huán)節(jié)外包。蘋果和AMD為Fabless的代表。Foundry只負(fù)責(zé)制造，不負(fù)責(zé)芯片設(shè)計(jì)，可以同時(shí)為多家設(shè)計(jì)公司服務(wù)，但受制于公司間的競(jìng)爭(zhēng)關(guān)系。臺(tái)積電為Foundry的代表。目前英特爾GPU落后的主要原因是GPU制程的落后，根本原因是英特爾受困于IDM運(yùn)作模式。隨著28納米以下先進(jìn)制程的發(fā)展，芯片的制造成本和設(shè)計(jì)成本成指數(shù)級(jí)上升。同時(shí)，一條12英寸晶圓的生產(chǎn)線從建設(shè)到生產(chǎn)的周期約2年，投資至少30-50億美元，資本支出占比80%，整體風(fēng)險(xiǎn)非常大。英特爾以有限的資源不支持它持續(xù)的設(shè)計(jì)和生產(chǎn)的的兩線作戰(zhàn)。

Fab+Fabless的模式通過充分發(fā)揮比較優(yōu)勢(shì)，分散了GPU設(shè)計(jì)和制造的風(fēng)險(xiǎn)，符合半導(dǎo)體分工的大趨勢(shì)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲IDM與Fab+Fabless對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯片設(shè)計(jì)費(fèi)用趨勢(shì)（億美元）

過去20多年里，GPU的基本需求源于視頻加速，2D/3D游戲。隨后GPU運(yùn)用自身在并行處理和通用計(jì)算的優(yōu)勢(shì)，逐步開拓服務(wù)器、汽車、礦機(jī)、人工智能、邊緣計(jì)算等領(lǐng)域的衍生需求。雖然GPU無法離開CPU獨(dú)立運(yùn)作，但是在當(dāng)前“云化”加速的時(shí)代，離開了GPU的CPU也無法勝任龐大的計(jì)算需求。所以GPU和CPU組成了異構(gòu)運(yùn)算體系，從底層經(jīng)由系統(tǒng)軟件和驅(qū)動(dòng)層支持著上層的各種應(yīng)用。GPU已經(jīng)成為了專用計(jì)算時(shí)代的剛需。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲現(xiàn)代云計(jì)算中GPU加速的剛需

二、GPU的全球格局

2020年全球GPU市場(chǎng)價(jià)值預(yù)計(jì)為254.1億美元，預(yù)計(jì)2027年將達(dá)到1853.1億美元，年平均增速為32.82%。按GPU的類型進(jìn)行劃分，市場(chǎng)可以細(xì)分為獨(dú)立、集成和混合。2019年，集成GPU占GPU市場(chǎng)的主導(dǎo)地位，但是由于混合GPU同時(shí)擁有集成和專用GPU的能力，所以混合細(xì)分市場(chǎng)預(yù)計(jì)實(shí)現(xiàn)最高復(fù)合增長(zhǎng)率。

按GPU的設(shè)備進(jìn)行劃分，市場(chǎng)可細(xì)分為計(jì)算機(jī)、平板電腦、智能手機(jī)、游戲機(jī)、電視、其他。就收入而言，智能手機(jī)細(xì)分市場(chǎng)占比最大，在未來也將保持這一趨勢(shì)。但是，由于醫(yī)療等其他設(shè)備中對(duì)小型GPU的需求不斷增加，預(yù)計(jì)未來的年復(fù)合增長(zhǎng)率將最高。

按GPU的行業(yè)進(jìn)行劃分，市場(chǎng)可細(xì)分為電子、IT與電信、國(guó)防與情報(bào)、媒體與娛樂、汽車、其他。由于GPU在設(shè)計(jì)和工程應(yīng)用中的廣泛使用，預(yù)計(jì)汽車細(xì)分行業(yè)的年復(fù)合增長(zhǎng)率最高。

按GPU的地理區(qū)域劃分，市場(chǎng)可細(xì)分為北美、歐洲、亞太和其他地區(qū)。亞太地區(qū)在2019年主導(dǎo)了全球GPU市場(chǎng)，預(yù)計(jì)在整個(gè)預(yù)測(cè)期內(nèi)將保持主導(dǎo)地位。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲全球GPU市場(chǎng)規(guī)模預(yù)測(cè)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2015-2025全球前三GPU供應(yīng)商營(yíng)收總和

全球GPU已經(jīng)進(jìn)入了寡頭壟斷的格局。在傳統(tǒng)GPU市場(chǎng)中，排名前三的Nvidia、AMD、Intel的營(yíng)收幾乎可以代表整個(gè)GPU行業(yè)收入。英偉達(dá)的收入占56%、AMD占26%、英特爾占18%。

在手機(jī)和平板GPU方面，聯(lián)發(fā)科、海思麒麟、三星Exynos的GPU設(shè)計(jì)主要基于公版ARM MaliGPU或PowerVR微架構(gòu)。高通驍龍Adreno和蘋果A系列采用自研GPU微架構(gòu)。2019Q2，ARM、高通、蘋果、Imagination科技、英特爾是全球智能手機(jī)和平板的前五大GPU供應(yīng)商。同期ARM Mali在以上五大GPU供應(yīng)商中占43%的市場(chǎng)份額，高通Adreno占36%的份額，蘋果占12%的份額。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2019前三家GPU供應(yīng)商收入份額對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2019 Q2手機(jī)和平板GPU供應(yīng)商份額

1、英偉達(dá)

英偉達(dá)公司成立于1993年，于1999年率先推出“GPU”的圖形解決方案。公司主要設(shè)計(jì)游戲和專業(yè)市場(chǎng)的GPU，移動(dòng)計(jì)算和自動(dòng)駕駛汽車的SoC，是GPU計(jì)算領(lǐng)域公認(rèn)的全球領(lǐng)導(dǎo)者。它主要的GPU產(chǎn)線“GeForce”和AMD的“Radeon”形成直接競(jìng)爭(zhēng)。同時(shí)，英偉達(dá)為了拓展移動(dòng)游戲平臺(tái)，推出了掌機(jī)Shield、Shield平板、Shield電視盒子和云游戲服務(wù)GeForce Now。目前，公司已經(jīng)完成了由芯片供應(yīng)商向計(jì)算平臺(tái)的轉(zhuǎn)型。

英偉達(dá)的四大增長(zhǎng)驅(qū)動(dòng)力分別是游戲業(yè)務(wù)、數(shù)據(jù)中心業(yè)務(wù)、專業(yè)視覺業(yè)務(wù)、自動(dòng)駕駛業(yè)務(wù)，各業(yè)務(wù)的代表性GPU方案分別是GeForce，DGX、EGX、HGX，Quadro、AGX。

英偉達(dá)2021財(cái)年?duì)I收167億美元，其中游戲、數(shù)據(jù)中心、專業(yè)視覺、自動(dòng)駕駛業(yè)務(wù)在2020財(cái)年分別貢獻(xiàn)了營(yíng)收的47%、40%、6%、3%。公司繼2014年毛利率突破50%后，于2021財(cái)年毛利率突破60%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)2021財(cái)年的業(yè)務(wù)構(gòu)成

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)的主要增長(zhǎng)驅(qū)動(dòng)力

英偉達(dá)的游戲業(yè)務(wù)由GeForce和Shield組成。其中Shield面向移動(dòng)端和云，GeForce面向PC。游戲筆記本和云游戲是公司拓展市場(chǎng)的2大方向。GeForce是英偉達(dá)游戲業(yè)務(wù)的核心。GeForce是全球最大的游戲平臺(tái)，擁有超過2億名玩家。在PC游戲領(lǐng)域，英偉達(dá)的營(yíng)收是其他主要GPU供應(yīng)商的三倍多。GeForce已經(jīng)來到了RTX30系列，采用第二代NVIDIA RTX架構(gòu)-NVIDIA安培架構(gòu)，搭載全新的RT Core、Tensor Core及流式多處理器，擁有RTX游戲、DLSS、G-SYNC、DirectX12等先進(jìn)技術(shù)，可帶來逼真的光線追蹤效果和先進(jìn)的AI性能。

除了PC游戲市場(chǎng)，英偉達(dá)也向合作伙伴–任天堂Switch主機(jī)提供定制版Tegra SoC。作為合作的一部分，Shield主機(jī)可以暢享任天堂的游戲，GameStream串流游戲和熱門游戲，實(shí)現(xiàn)4KHDR畫質(zhì)，支持百度DuerOS對(duì)話式人工智能。

英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)的技術(shù)根源是CUDA（統(tǒng)一計(jì)算設(shè)備架構(gòu)）。CUDA首次推出于2006年的G80核心，隸屬于通用并行計(jì)算架構(gòu)，創(chuàng)造了GPGPU。在“安培”時(shí)代，CUDA核心已經(jīng)進(jìn)化到了8.0，被運(yùn)用在幾乎所有的英偉達(dá)產(chǎn)品線。

CUDA兼容DirectCompute、OpenCL等計(jì)算接口。與Direct3D、OpenGL等高級(jí)圖形API相比，CUDA可以使開發(fā)者更容易使用GPU資源。當(dāng)前，CUDA在廣義上既代表GPU的硬件平臺(tái)又代表GPU的軟件平臺(tái)。

在硬件平臺(tái)方面，CUDA包含了CUDA指令集以及GPU內(nèi)部的并行計(jì)算引擎。GPU平臺(tái)的矢量運(yùn)算如INT、FP32、FP64都由CUDA承擔(dān)。開發(fā)人員可以使用C語言和Fortran語言為CUDA編寫程序。

在軟件平臺(tái)方面，基于CUDA的CUDA-X加速庫、工具和科技集合，向上對(duì)接不同的行業(yè)應(yīng)用需求。在英偉達(dá)的軟件棧體系中，分為CUDA-X AI和CUDA-X HPC，分別面向AI和HPC兩大領(lǐng)域，可以在人工智能和高性能計(jì)算方面提供遠(yuǎn)超其他競(jìng)品的性能。CUDA-X的開發(fā)者已經(jīng)超過100萬。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)CUDA-X HPC

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)CUDA-X AI

英偉達(dá)數(shù)據(jù)中心的產(chǎn)品包括適用于AI的DGX系統(tǒng)，適用于邊緣計(jì)算的EGX平臺(tái)，適用于超算的HGX平臺(tái)、適用于數(shù)據(jù)處理的DPU、簡(jiǎn)化深度學(xué)習(xí)，機(jī)器學(xué)習(xí)，高性能計(jì)算的NGC目錄。相關(guān)的GPU加速器有采用安培架構(gòu)的A100、A40，采用圖靈架構(gòu)的T4、RTX6000、RTX8000，采用伏特架構(gòu)的V100。

過去5個(gè)財(cái)年中，英偉達(dá)數(shù)據(jù)中心的營(yíng)收從8.3億美元上升至66.96億美元，年復(fù)合增速69%。同時(shí)，公司的注冊(cè)開發(fā)者超過200萬，與主要的云供應(yīng)商如谷歌、騰訊、阿里建立了供應(yīng)關(guān)系，世界500強(qiáng)超算中的份額從6%上升至70%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)主要云合作伙伴

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)數(shù)據(jù)中心營(yíng)收趨勢(shì)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)在超算500強(qiáng)中份額

英偉達(dá)專業(yè)視覺業(yè)務(wù)主要由Quadro產(chǎn)品線組成。Quadro在GeForce的基礎(chǔ)上加強(qiáng)了NVLink、GPU的通用計(jì)算性能和顯存容量，擁有Iray、Omniverse平臺(tái)、材質(zhì)定義語言等特有技術(shù)。Quadro被廣泛應(yīng)用在臺(tái)式工作站、筆記本電腦、EGX服務(wù)器、虛擬工作空間、云端、定制化方案中。英偉達(dá)Quadro方案有超過50種應(yīng)用、4000萬設(shè)計(jì)用戶和2000萬企業(yè)用戶，并正在不斷解鎖新市場(chǎng)。

在過去的5個(gè)財(cái)年，英偉達(dá)專業(yè)視覺的營(yíng)收從8.35億美元上升至10.53億美元，年復(fù)合增速6%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)專業(yè)視覺GPU加速合作伙伴

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)專業(yè)視覺營(yíng)收趨勢(shì)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)專業(yè)視覺方案

英偉達(dá)的汽車產(chǎn)品包括相關(guān)駕駛軟件、駕駛基礎(chǔ)設(shè)計(jì)、AGX平臺(tái)，提供訓(xùn)練、模擬、智能駕駛艙體驗(yàn)、高清地圖和定位等解決方案。在絕對(duì)性能方面，搭載4顆Drive AGX Origin的蔚來ADAM超算平臺(tái)支持L4以上自動(dòng)駕駛，超過7個(gè)特斯拉FSD算力總和。

不同于特斯拉自動(dòng)駕駛追求軟硬件的高度契合，英偉達(dá)的方案更追求開放性。公司在汽車領(lǐng)域的合作伙伴以軟件服務(wù)和轎車居多，分別達(dá)到了76家和42家。同時(shí)，公司與大眾、豐田、本田、奔馳、寶馬、奧迪、沃爾沃、馬牌、滴滴、采埃孚、蔚來、小鵬、圖森等世界知名公司建立了強(qiáng)力的生態(tài)。

在過去的5個(gè)財(cái)年，英偉達(dá)自動(dòng)駕駛的營(yíng)收從4.87億美元上升至5.36億美元，年復(fù)合增速3%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)自動(dòng)駕駛營(yíng)收趨勢(shì)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)自動(dòng)駕駛合作伙伴分布數(shù)

2020年9月13日，NVIDIA宣布以400億美元收購ARM。本次收購意義可以細(xì)分為以下5個(gè)方面：

1. 創(chuàng)造AI時(shí)代的世界級(jí)計(jì)算公司，將英偉達(dá)領(lǐng)先的AI計(jì)算平臺(tái)和ARM龐大的CPU生態(tài)相結(jié)合；

2. 通過英偉達(dá)在移動(dòng)端和PC等大型終端市場(chǎng)的科技拓展ARM的IP授權(quán)組合；

3. 加速ARM的服務(wù)器CPU、數(shù)據(jù)中心、邊緣AI、IoT發(fā)展；

4. 將英偉達(dá)計(jì)算平臺(tái)的開發(fā)者由200萬提升至超過1500萬；

5. 并購可以立即增加英偉達(dá)的非GAAP毛利率和非GAAP每股收益；

合并后的英偉達(dá)將把計(jì)算從云、智能手機(jī)、PC、自動(dòng)駕駛車和機(jī)器人技術(shù)推進(jìn)到了邊緣物聯(lián)網(wǎng)，將AI計(jì)算拓展到全球，在拓展大規(guī)模、高增長(zhǎng)市場(chǎng)的同時(shí)加速創(chuàng)新。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英偉達(dá)從云到邊緣

2、全球GPU先驅(qū)：AMD

AMD是全球唯一可以同時(shí)提供高性能GPU和CPU的企業(yè)。AMD的顯卡來源于2006年并購的ATI科技。在這之后的4年中，AMD繼續(xù)使用ATI作為顯卡品牌。直到2010年，AMD才拋棄原ATI的品牌命名方式。

目前，AMD同時(shí)提供獨(dú)立GPU和集成GPU，其集成GPU主要運(yùn)用在Ryzen APU、嵌入式、半定制平臺(tái)中，獨(dú)立GPU分為Radeon和Instinct系列，主要用于游戲、專業(yè)視覺、服務(wù)器等應(yīng)用。

過去六年，AMD的計(jì)算和圖形收入的營(yíng)收由18.05億美元上升至64.32億美元，年復(fù)合增速29%。

未來五年，AMD計(jì)劃成為高性能計(jì)算的領(lǐng)導(dǎo)者，提供顛覆性的CPU和GPU方案。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD計(jì)算和圖形部門營(yíng)收

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD GPU的聚焦領(lǐng)域

AMD的集成GPU主要被運(yùn)用在臺(tái)式機(jī)和筆記本的APU產(chǎn)品中，和CPU組成異構(gòu)運(yùn)算單元。臺(tái)式和筆記本APU的GPU部份共用微架構(gòu)和核心技術(shù)，二者GPU的主要差異在于TDP和處理單元的數(shù)量，臺(tái)式強(qiáng)于筆記本。

“Renior”APU的GPU繼續(xù)使用Vega微架構(gòu)，但受益于7納米制程，每個(gè)處理單元效能顯著提升。

7納米Vega的提升包括：數(shù)據(jù)網(wǎng)絡(luò)翻倍、優(yōu)化低功耗狀態(tài)轉(zhuǎn)換、25%主頻提升、77%存儲(chǔ)位寬提升。這些提升帶來了在保持15W功耗不變的前提下，每個(gè)計(jì)算單元59%的性能提升、1.79TFLOPS的32位浮點(diǎn)峰值吞吐。

在3DMark Time Spy（DX12）的跑分中，7納米的Ryzen 4800U的GPU表現(xiàn)超過10納米i7-1065G7，是14納米i7-10710U的2倍以上。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD “RENIOR”APU

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD “RENIOR”APU內(nèi)核解析

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD “RENIOR”APU跑分對(duì)比

AMD的Radeon系列游戲獨(dú)立GPU按微架構(gòu)推出時(shí)間依次遞減可以分為RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中，除RX500系列外均采用臺(tái)積電7納米制程。

2020年11月推出的RDNA2微架構(gòu)相較于前代RDNA絕對(duì)性能最高提升一倍，能效提高54%，支持DirectX12 Ultimate，硬件光線追蹤和可變速率著色器等先進(jìn)技術(shù)。搭載16GBGDDR6顯存和128MB InfinityCache高速緩存的RX 6900XT的游戲性能接近英偉達(dá)的RTX 3090。

為了發(fā)揮AMD CPU和GPU的協(xié)同效應(yīng)，Radeon擁有AMD SmartAccess Memory技術(shù)，銳龍CPU和顯卡之間能實(shí)現(xiàn)更出色的通信。RX6800系列顯卡在部分游戲中4K畫質(zhì)性能額外提升最高可達(dá)7%。

2022年前，AMD將基于更先進(jìn)的制程打造RDNA3微架構(gòu)，進(jìn)一步強(qiáng)化光追等計(jì)算表現(xiàn)。

除了傳統(tǒng)的BGA顯存封裝，AMD還積極運(yùn)用HBM系列顯存。在Radeon7中，16GB的HBM2顯存擁有1TB/S的帶寬，超過同期Titan RTX 50%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD獨(dú)立游戲GPU路線圖

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD獨(dú)立游戲GPU產(chǎn)品線

AMD的數(shù)據(jù)中心GPU業(yè)務(wù)由Radeon Instinct加速器系列、以客戶為核心的數(shù)據(jù)中心解決方案和ROCm組成。AMD的主要合作伙伴包括戴爾、惠普等OEM，同時(shí)AMD也向微軟AZURE和亞馬遜網(wǎng)絡(luò)服務(wù)提供視覺云解決方案。

ROCm是全球首個(gè)針對(duì)加速式計(jì)算且不限定編程語言的超大規(guī)模開源平臺(tái)，遵循UNIX的選擇哲學(xué)、極簡(jiǎn)主義以及針對(duì)GPU計(jì)算的模塊化軟件開發(fā)。

ROCm適合大規(guī)模計(jì)算，支持多路GPU，有豐富的系統(tǒng)運(yùn)行庫，包括框架、庫、編程模型、互聯(lián)和Linux Kernel上游支持，提供各種重要功能來支持大規(guī)模應(yīng)用、編譯器和語言運(yùn)行庫的開發(fā)。

AMD正與美國(guó)能源部、橡樹嶺國(guó)家實(shí)驗(yàn)室和Cray公司合作，使用EPYC（霄龍）CPU、Radeon Instinct GPU和ROCm打造超過150億億次FLOPS的全球最快超算平臺(tái)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD ROCm開源軟件生態(tài)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD數(shù)據(jù)中心GPU產(chǎn)品線

Radeon Instinct MI 100加速器采用專注計(jì)算的CDNA微架構(gòu)，在計(jì)算和連接方面實(shí)現(xiàn)了巨大飛躍，與AMD上一代加速器相比，高性能計(jì)算工作負(fù)載（FP32矩陣）性能提升近3.5倍，而人工智能工作負(fù)載（FP16）性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英偉達(dá)安培A100，同時(shí)功耗比后者低100瓦。

為了滿足多路GPU的互聯(lián)通訊需求，AMD研發(fā)了InfinityFabric技術(shù)。Infinity Fabric擁有先進(jìn)的平臺(tái)連接性和可拓展性，最多支持4路GPU互聯(lián)。P2P帶寬是PCIe 4.0的2倍，四GPU集群的P2P帶寬最高可達(dá)552GB/s。

未來，AMD將基于更先進(jìn)的制程打造CDNA2微架構(gòu)，進(jìn)入百億億級(jí)時(shí)代。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲Instinct MI 100與安培A100對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD數(shù)據(jù)中心GPU路線圖

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲AMD Infinity Fabric互聯(lián)

AMD的其他獨(dú)立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨(dú)立顯卡主要倍運(yùn)用在索尼、微軟的本世代和次世代主機(jī)中。如今，AMD的技術(shù)存在于2.2億個(gè)家庭暢享游戲和視頻娛樂時(shí)所用設(shè)備的核心。

嵌入式GPU的特點(diǎn)包括卓越的圖形性能、多屏顯示、外形緊湊、高能效、長(zhǎng)期供貨。嵌入式GPU分為超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU，它們主要使用14納米的GCN 1.4北極星微架構(gòu)，TDP覆蓋20W-135W范圍。

Radeon Pro系列顯卡被廣泛應(yīng)用于建筑工程、設(shè)計(jì)制造、媒體娛樂等領(lǐng)域，擁有AMD遠(yuǎn)程工作站、AMD Eyefinity多屏顯示技術(shù)、AMD Radeon ProRender等技術(shù)。Radeon Pro系列采用Vega微架構(gòu)，7或14納米制程，直接競(jìng)爭(zhēng)對(duì)手是英偉達(dá)的Quadro系列。Radeon Pro移動(dòng)和臺(tái)式工作站的合作伙伴包括蘋果、戴爾、惠普等。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲Radeon? Pro VII GPU規(guī)格

3、英特爾：全球GPU追趕者

英特爾是全球最大的PC GPU供應(yīng)商，也是PC和服務(wù)器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740，但是由于羸弱的性能和緩慢的更新速度，一直沒有非常大的起色。進(jìn)入Core i時(shí)代后，英特爾通過將核芯顯卡和CPU進(jìn)行捆綁銷售，利用CPU的龐大市場(chǎng)份額，確立了公司在集成GPU領(lǐng)域的寡頭壟斷地位，在此過程中AMD的APU一直是酷睿的直接競(jìng)爭(zhēng)對(duì)手。

2020年，英特爾推出了第12代GPGPU，采用全新的Xe微架構(gòu)和10納米Super Fin制程。相較于第11代核顯，Xe-LP在保持電壓不變的前提下，大幅提升主頻，能效顯著提高。搭載Xe-LP的i7 1185G7在GPU性能方面已經(jīng)超過同期AMD的Vega核顯和英偉達(dá)的MX系列獨(dú)顯。

Xe系列可以細(xì)分為，集成/低功耗的Xe-LP、娛樂/游戲的Xe-HPG、數(shù)據(jù)中心/高性能的Xe-HP、高性能計(jì)算的Xe-HPC。

目前，Xe-LP的集成版本已經(jīng)被第11代酷睿所采用。Xe-LP的移動(dòng)獨(dú)立GPU版本DG1和服務(wù)器獨(dú)立GPU版本SG1也已發(fā)布。獨(dú)顯版在核顯版的基礎(chǔ)上進(jìn)一步提升主頻，并加入了128位4GB LPDDR4X-4266獨(dú)立顯存，單精度浮點(diǎn)算力提升15%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾Xe縱向?qū)Ρ鹊?1代核顯

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾Xe產(chǎn)品線

英特爾的集成GPU在形式上表現(xiàn)為核芯顯卡。核芯顯卡使用系統(tǒng)DRAM作為非獨(dú)立顯存，通過處理器內(nèi)部的環(huán)狀總線與CPU連接，負(fù)責(zé)處理游戲、視頻娛樂等圖像負(fù)載。

英特爾Xe核顯借助10納米SuperFin的優(yōu)勢(shì)，將處理單元最高提升至96個(gè)，相較于Icelake的64個(gè)提升了50%，并且將連接CPU和GPU的總線帶寬提升一倍，獨(dú)立最終緩存（LLC）提高50%，支持最高86GB/s的存儲(chǔ)帶寬。以上這些提升使i7-1185G7的3DMark跑分較前代i7-1065G7提升接近一倍，超過AMD的R74800U和同期英偉達(dá)的MX350。

Xe核顯的顯示引擎和媒體引擎也都得到加強(qiáng)。接口方面，內(nèi)部支持雙eDP，外部支持DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質(zhì)方面，支持8K、HDR10、12比特BT2020色域、360赫茲刷新率等。

英特爾Xe核心顯卡和CPU經(jīng)由自家One API驅(qū)動(dòng)中間層框架和上層應(yīng)用。英特爾One API解決了編碼模型在不同微架構(gòu)間的壁壘，最大化跨平臺(tái)表現(xiàn)和最小化開發(fā)成本。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾Tiger Lake 實(shí)物圖和Die

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾Tiger Lake Xe核顯3DMark性能對(duì)比

英特爾獨(dú)立GPU分為銳炬Xe MAX和服務(wù)器GPU，均隸屬于Xe LP系列，微架構(gòu)與核顯Xe相同，采用標(biāo)準(zhǔn)封裝和10納米SuperFin制程。

目前，銳炬Xe MAX是第一款基于英特爾 Xe 架構(gòu)的面向輕薄型筆記本電腦的GPU。銳炬Xe MAX在Xe集成GPU的基礎(chǔ)上增加了4GBLPDDR4X-4266的獨(dú)立顯存，TDP 25W，峰值主頻1650MHz，單精度浮點(diǎn)性能2.46TFLOPs。銳炬Xe MAX可以和11代酷睿處理器、銳炬Xe GPU同時(shí)工作。借助英特爾Deep Link技術(shù)，獲得具有強(qiáng)大性能和經(jīng)過功耗優(yōu)化的集成系統(tǒng)，以改進(jìn)創(chuàng)造力和游戲體驗(yàn)。

目前，英特爾服務(wù)器GPU在Xe核顯的基礎(chǔ)上，TDP提升到23W，增加了8GB LPDDR4的獨(dú)立顯存，支持高密度、低延遲的安卓云游戲和高密度媒體轉(zhuǎn)碼/編碼，以實(shí)現(xiàn)實(shí)時(shí)的OTT視頻直播。同時(shí)，英特爾服務(wù)器GPU支持2顆、4顆獨(dú)立GPU的聚合，成倍提高性能。

未來，英特爾還將推出面向游戲和高性能桌面的Xe HPG產(chǎn)品線，增加了光線追蹤等硬件支持，采用傳統(tǒng)封裝，外包生產(chǎn)。英特爾服務(wù)器GPU將使用Xe HPC、Xe HP微架構(gòu)，采用2.5D和3D先進(jìn)封裝，10納米SuperFin及更先進(jìn)自家或外包工藝。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾Xe服務(wù)器GPU參數(shù)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾Xe產(chǎn)品、封裝、制程

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲英特爾銳炬Xe MAX

4、ARM Mali：全球GPU IP巨頭

ARM是全球最大的半導(dǎo)體IP提供商。全世界超過95%的智能手機(jī)和平板電腦都采用ARM架構(gòu)。2019Q2，全球近43%的手機(jī)和平板GPU由Mali驅(qū)動(dòng)。2020第四季度，ARM半導(dǎo)體合作伙伴基于ARM技術(shù)的芯片出貨量達(dá)到67億顆，再創(chuàng)歷史新高，超過其他所有流行的CPU指令集架構(gòu)—X86、ARC、Power、MIPS的總和。

國(guó)產(chǎn)SoC中，有95%是基于ARM處理器技術(shù)，ARM中國(guó)授權(quán)客戶超過150家，基于ARM架構(gòu)的國(guó)產(chǎn)芯片出貨量已經(jīng)超過184億。

ARM的Mali GPU按性能可以分為3大類，分別是高性能、主流、高能效。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲ARM IP組合和SoC設(shè)計(jì)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲ARM Mali GPU路線圖

Arm Mali-G78 GPU是用于高端設(shè)備的第二代基于Valhall架構(gòu)的GPU。Mali-G78是性能最高的ArmGPU，可支持復(fù)雜的應(yīng)用，例如適用于Vulkan和OpenCL等所有最新API的游戲圖形和機(jī)器學(xué)習(xí)（ML）。

Mali-G78與上一代設(shè)備相比，GPU性能提高了25％，并增強(qiáng)了設(shè)備上的ML功能，從而有助于將高度復(fù)雜的游戲帶入移動(dòng)設(shè)備。Mali-G78最多支持24個(gè)內(nèi)核，并包含異步頂級(jí)功能，可確保性能有效地分布在各個(gè)內(nèi)核上，從而使圖形運(yùn)行更加流暢。全新執(zhí)行引擎中的新型融合乘加（FMA）單元可進(jìn)一步降低30%的單元能耗。

在GFXBench Aztec Ruin的跑分中，使用臺(tái)積電5納米工藝，搭載24個(gè)Mali-G78內(nèi)核的麒麟9000 SoCGPU的幀數(shù)強(qiáng)于驍龍865的Adreno 650，但仍落后于蘋果A14。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲ARM Mali-G78

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲麒麟9000系列的ARM Mali-G78應(yīng)用

Imagination Technologies是一家總部在英國(guó)，專注于半導(dǎo)體和相關(guān)知識(shí)產(chǎn)權(quán)許可，銷售PowerVR移動(dòng)圖形處理器，MIPS嵌入式微處理器和消費(fèi)電子產(chǎn)品。公司還提供無線基帶處理，網(wǎng)絡(luò)，數(shù)字信號(hào)處理器，視頻和音頻硬件，IP語音軟件，云計(jì)算，以及芯片和系統(tǒng)設(shè)計(jì)服務(wù)。2017年，董事會(huì)宣布公司被中資的Canyon Bridge收購。

Imagination在GPU領(lǐng)域歷史悠久，在其超過25年的歷史中，Imagination先后推出過多代GPU產(chǎn)品，已積累超過1500項(xiàng)GPU專利，曾為蘋果供應(yīng)圖像處理器（GPU），在圖像處理器（GPU）領(lǐng)域與高通、ARM三分天下，曾占GPU市場(chǎng)大約占據(jù)三分之一的份額，在汽車領(lǐng)域更是達(dá)到43%。帶有Imagination IP的芯片產(chǎn)品累計(jì)出貨量已超過110億。

Imagination的IP包括圖形處理器和視覺與人工智能2類。公司Power VR產(chǎn)品被廣泛應(yīng)用于移動(dòng)設(shè)備（智能手機(jī)、平板）、汽車（儀表、信息娛樂、輔助駕駛）、沉浸式體驗(yàn)（AR/VR）、消費(fèi)電子（電視、機(jī)頂盒）。

根據(jù)Imagination的GPU路線圖，在A系列GPU性能最高提升2.5倍之后，B系列到D系列GPU的年復(fù)合增速在30%左右。2021年的C系列GPU將首次加入L4級(jí)別的光線追蹤，從硬件層面支持一致性分類的層次包圍體（BVH）和復(fù)雜光線處理，相比目前英偉達(dá)和AMD的L3級(jí)別光線追蹤方案可顯著提升能效，實(shí)現(xiàn)更好的用戶體驗(yàn)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲IMG系列GPU路線圖

5、全球GPU IP巨頭：Imagination

2020年10月，Imagination推出了全新的IMG B系列GPU，這是公司第一個(gè)包含新多核架構(gòu)的GPU IP系列，也是首次采用RISC-V，可提供最高的性能密度。得益于多核架構(gòu)和Imagination圖像壓縮技（IMGIC），B系列相比A系列，功耗降低30%，帶寬降低35%、面積縮減25%，AI算力達(dá)到24 TOPS，且填充率比競(jìng)品IP內(nèi)核高2.5倍。與A系列相似，B系列GPU也支持AI協(xié)同技術(shù)，在提供圖形處理功能的同時(shí)，可用備用資源來處理可編程AI等任務(wù)。

IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種系列。其中IMG BXE面向高清顯示應(yīng)用，IMG BXM主打圖形處理體驗(yàn)，IMG BXT面向高性能應(yīng)用，IMG BXS面向未來汽車。

BXS系列符合ISO 26262標(biāo)準(zhǔn)，也是迄今為止所開發(fā)的最先進(jìn)汽車GPU IP內(nèi)核。BXS提供了一個(gè)完整的產(chǎn)品系列，從入門到高端，可為下一代人機(jī)界面（HMI）、UI顯示、信息娛樂系統(tǒng)、數(shù)字駕艙、環(huán)繞視圖提供解決方案。高計(jì)算能力的配置可支持自動(dòng)駕駛和ADAS。

憑借核心可擴(kuò)展的優(yōu)勢(shì)，IMG B系列適用于傳統(tǒng)移動(dòng)設(shè)備、消費(fèi)類設(shè)備、物聯(lián)網(wǎng)、微控制器、數(shù)字電視(DTV)和汽車等市場(chǎng)領(lǐng)域。IMG B系列也可擴(kuò)展至桌面GPU、云端GPU服務(wù)器，且支持自動(dòng)駕駛和輔助駕駛等。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲IMG B系列對(duì)比A系列能效提升

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲Imagination GPU組合

6、高通Adreno：全球移動(dòng)GPU先驅(qū)

高通的自研GPU Adreno源于收購的AMD移動(dòng)GPU Imageon系列。早期的Adreno 100系列只有2D圖形加速和有限的多媒體功能。2008年發(fā)布的Adreno 200是首款被集成到驍龍SoC中的GPU，并加入了3D硬件加速功能。

2020年12月，高通推出了搭載Adreno 660的驍龍888 SoC。Adreno 660繼承了Adreno650的微架構(gòu)，采用了三星5納米LPE工藝，大幅提高主頻，使圖形渲染性能提高35%，能效提高20%。Adreno 660全面支持Qualcomm? Snapdragon Elite Gaming和Qualcomm? Game Quick Touch ，二者將可變速率渲染和響應(yīng)速度分別提升30%和20%。

在GFXBench Aztec Ruin 1080P測(cè)試中，Adreno 660的峰值幀數(shù)追平麒麟9000，但相較蘋果A14仍有近20%的差距。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲高通Adreno 660 1080P性能對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲高通Adreno 660 GPU

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲高通Adreno 660參數(shù)

7、蘋果：全球移動(dòng)GPU新秀

蘋果的自研GPU首次出現(xiàn)于2017年的A11 SoC。A11的三核心GPU作為蘋果的首款自研GPU，其性能超過采用Power VR GT7600+的A10 GPU 30%。其后，所有的A系列SoC的GPU均為蘋果自研。

2020年，蘋果推出了5納米制程的M1芯片，該款SoC基于A14芯片，在CPU、GPU、NPU、緩存等各方面都進(jìn)行了強(qiáng)化，用于驅(qū)動(dòng)蘋果的Mac產(chǎn)品。M1芯片的發(fā)布標(biāo)志著蘋果繼2005年放棄IBM的PowerPC指令集轉(zhuǎn)向Intel的X86指令集后的又一大PC領(lǐng)域轉(zhuǎn)換。

采用8核GPU的M1擁有128個(gè)執(zhí)行單元，可以同步運(yùn)行近25000個(gè)線程，單精度浮點(diǎn)算力達(dá)到2.6 TFLOPs。M1 GPU的能效表現(xiàn)是當(dāng)時(shí)同類PC中集成GPU的三倍，峰值性能最高可達(dá)其他GPU的2倍。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲蘋果M1 GPU參數(shù)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲蘋果M1能效對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲蘋果M1 8核GPU

三、國(guó)產(chǎn)GPU自主之路

國(guó)產(chǎn)GPU的發(fā)展落后于國(guó)產(chǎn)CPU，直到2014年4月，景嘉微才成功研發(fā)出國(guó)內(nèi)首款國(guó)產(chǎn)高性能、低功耗GPU芯片—JM5400。在國(guó)產(chǎn)GPU的開發(fā)中，GPU對(duì)CPU的依賴性和GPU的高研發(fā)難度，阻礙了該產(chǎn)業(yè)的快速發(fā)展。

首先，GPU對(duì)CPU有依賴性。GPU結(jié)構(gòu)沒有控制器，必須由CPU進(jìn)行控制調(diào)用才能工作，否則GPU無法單獨(dú)工作。所以國(guó)產(chǎn)CPU較國(guó)產(chǎn)GPU先行一步是符合芯片產(chǎn)業(yè)發(fā)展邏輯的。

再者，GPU技術(shù)難度很高。Moor Insights & Strategy首席分析師莫海德曾表示：“相比CPU，開發(fā)GPU要更加困難，而GPU設(shè)計(jì)師、工程師和驅(qū)動(dòng)程序的作者都要更少?！眹?guó)內(nèi)人才缺口也是國(guó)產(chǎn)GPU發(fā)展緩慢的重要原因之一。在芯片行業(yè)，一般來說，培養(yǎng)一位擁有豐富經(jīng)驗(yàn)并且能夠根據(jù)市場(chǎng)動(dòng)態(tài)及時(shí)修改芯片設(shè)計(jì)方案的成熟工程師，至少需要10年。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲國(guó)產(chǎn)GPU公司及其業(yè)務(wù)簡(jiǎn)介

中國(guó)GPU市場(chǎng)規(guī)模和潛力非常大，龐大的整機(jī)制造能力意味著巨量的GPU采購。雖然近些年，計(jì)算機(jī)整機(jī)和智能手機(jī)產(chǎn)量增長(zhǎng)都出現(xiàn)瓶頸，但由于這兩類產(chǎn)品體量龐大，2019年國(guó)內(nèi)智能手機(jī)出貨量為3.72億部，電子計(jì)算機(jī)整機(jī)年產(chǎn)量達(dá)到3.56億臺(tái)，GPU的需求量大且單品價(jià)值非常高，市場(chǎng)規(guī)模依然非常可觀。

同時(shí)，服務(wù)器GPU伴隨著整機(jī)出貨的快速成長(zhǎng)，需求量增長(zhǎng)也較為迅速。據(jù)統(tǒng)計(jì)，2018年國(guó)內(nèi)服務(wù)器出貨量達(dá)到330.4萬臺(tái)，同比增長(zhǎng)26%，其中互聯(lián)網(wǎng)、電信、金融和服務(wù)業(yè)等行業(yè)的出貨量增速也均超過20%。另外，國(guó)內(nèi)在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、人工智能等新興計(jì)算領(lǐng)域，對(duì)GPU也存在海量的需求。

據(jù)統(tǒng)計(jì)，近年來中國(guó)集成電路自給率不斷提升，2018年為13%，預(yù)計(jì)2020年有望提升至15%，但仍然處于較低水平。根據(jù)國(guó)務(wù)院印發(fā)的《新時(shí)期促進(jìn)集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展的若干政策》等文件，中國(guó)芯片自給率要在2025年達(dá)到70%，這將產(chǎn)生8000億元的國(guó)產(chǎn)芯片需求。中國(guó)芯片產(chǎn)業(yè)發(fā)展空間非常大。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2019年中國(guó)大陸集成電路進(jìn)口額結(jié)構(gòu)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2012-2020年中國(guó)大陸集成電路自給率

1、景嘉微：具有完全自主知識(shí)產(chǎn)權(quán)，打破國(guó)外GPU長(zhǎng)期壟斷

長(zhǎng)沙景嘉微電子股份有限公司成立于2006年4月，位于長(zhǎng)沙市高新技術(shù)開發(fā)區(qū)，公司擁有經(jīng)驗(yàn)豐富的集成電路設(shè)計(jì)團(tuán)隊(duì)，是國(guó)產(chǎn)GPU的主要參與者，也是唯一自主開發(fā)并已經(jīng)大規(guī)模商用的企業(yè)。

2014年4月，成功研發(fā)出國(guó)內(nèi)首款國(guó)產(chǎn)高可靠、低功耗GPU芯片-JM5400，具有完全自主知識(shí)產(chǎn)權(quán)，打破了國(guó)外產(chǎn)品長(zhǎng)期壟斷我國(guó)GPU市場(chǎng)的局面，在多個(gè)國(guó)家重點(diǎn)項(xiàng)目中得到了成功的應(yīng)用；

2018年8月，公司自主研發(fā)的新一代高性能、高可靠GPU芯片-JM7200流片成功，將國(guó)產(chǎn)GPU的技術(shù)發(fā)展提高到新的水平，可為各類信息系統(tǒng)提供強(qiáng)大的顯示能力；

2019年，公司在JM7200基礎(chǔ)上，推出了商用版本-JM7201，滿足桌面系統(tǒng)高性能顯示需求，并全面支持國(guó)產(chǎn)CPU和國(guó)產(chǎn)操作系統(tǒng)，推動(dòng)國(guó)產(chǎn)計(jì)算機(jī)的生態(tài)構(gòu)建和進(jìn)一步完善。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲景嘉微發(fā)展歷程

景嘉微已完成兩個(gè)系列、三款GPU的量產(chǎn)應(yīng)用，產(chǎn)品覆蓋軍用和民用兩大市場(chǎng)。景嘉微第一代GPU JM5400主要運(yùn)用于軍用市場(chǎng)，替代原ATI M9、M54、M72等美系GPU芯片。景嘉微第二代GPU JM7200在產(chǎn)品性能和工藝設(shè)計(jì)上較JM5400有較大提升，是首例進(jìn)入民用市場(chǎng)的圖形芯片。公司與國(guó)內(nèi)主要CPU廠商和計(jì)算機(jī)整機(jī)廠商已建立合作關(guān)系。JM7201在JM7200的基礎(chǔ)上對(duì)民用市場(chǎng)的桌面應(yīng)用進(jìn)行了優(yōu)化，推出標(biāo)準(zhǔn)MXM和標(biāo)準(zhǔn)PCIE顯卡，在保證性能的同時(shí)，降低了功耗，縮小了體積。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲景嘉微國(guó)產(chǎn)GPU芯片產(chǎn)品線

景嘉微的第二代GPU JM7200系列于2018年8月流片成功，并在2019年3月獲得首個(gè)訂單。相較于前代JM5400，JM7200在理論性能上有翻倍的提升，同時(shí)制程也進(jìn)化到了28納米。但是JM7200在顯存帶寬、像素填充率、浮點(diǎn)性能等方面較2012年發(fā)售，采用完整版GK107核心的英偉達(dá)GT640還有相當(dāng)差距。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲各景嘉微GPU參數(shù)對(duì)比

2018年12月，景嘉微定增募集10.88億元，用于高性能通用圖形處理器和面向消費(fèi)電子領(lǐng)域的通用類芯片研發(fā)和產(chǎn)業(yè)化項(xiàng)目。其中，高性能通用圖形處理器項(xiàng)目包括JM9231和JM9271兩款GPU芯片，分別面向不同應(yīng)用領(lǐng)域的中、高檔系列產(chǎn)品。據(jù)公司2020年中報(bào)顯示，下一代圖形處理器研發(fā)處于后端設(shè)計(jì)階段，研發(fā)進(jìn)程一切順利。

景嘉微JM9系列是繼JM5400和JM7200局部渲染計(jì)算內(nèi)核之后，首次采用統(tǒng)一渲染結(jié)構(gòu)的GPU，并且增加了可編程計(jì)算模塊數(shù)量。JM9231和JM9271在性能表現(xiàn)分別與英偉達(dá)于2016年推出的GTX1050和GTX1080相近。JM9系列的推出將使公司GPU水平與海外龍頭水平縮短至5年，大幅提升公司在GPU領(lǐng)域的競(jìng)爭(zhēng)力。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲景嘉微后續(xù)高性能通用GPU性能參數(shù)對(duì)比

2、芯原微電子：國(guó)產(chǎn)GPU IP龍頭

芯原微電子是依托自主半導(dǎo)體IP，為客戶提供平臺(tái)化、全方位、一站式芯片定制服務(wù)和半導(dǎo)體IP授權(quán)服務(wù)的企業(yè)。公司至今擁有高清視頻、高清音頻及語音、車載娛樂系統(tǒng)處理器、視頻監(jiān)控、物聯(lián)網(wǎng)連接、數(shù)據(jù)中心等多種一站式芯片定制解決方案，以及5類自主可控的處理器IP，分別為圖形處理器IP、神經(jīng)網(wǎng)絡(luò)處理器IP、視頻處理器IP、數(shù)字信號(hào)處理器IP和圖像信號(hào)處理器IP，以及1,400多個(gè)數(shù)模混合IP和射頻IP，年均流片項(xiàng)目超過40個(gè)。主營(yíng)業(yè)務(wù)的應(yīng)用領(lǐng)域廣泛包括消費(fèi)電子、汽車電子、計(jì)算機(jī)及周邊、工業(yè)、數(shù)據(jù)處理、物聯(lián)網(wǎng)等，主要客戶包括IDM、芯片設(shè)計(jì)公司，以及系統(tǒng)廠商、大型物聯(lián)網(wǎng)公司等。

芯原在傳統(tǒng)CMOS、先進(jìn)FinFET和FD-SOI等全球主流半導(dǎo)體工藝節(jié)點(diǎn)上都具有優(yōu)秀的設(shè)計(jì)能力，先進(jìn)工藝制程覆蓋14nm/10nm/7nm FinFET和28nm/22nm FD-SOI，并已開始進(jìn)行5nm FinFET 芯片的設(shè)計(jì)研發(fā)和新一代 FD-SOI 工藝節(jié)點(diǎn)芯片的設(shè)計(jì)預(yù)研。

此外，根據(jù)Ipnest統(tǒng)計(jì)，芯原是2019年中國(guó)大陸排名第一、全球排名第七的半導(dǎo)體IP授權(quán)服務(wù)供應(yīng)商，全球市場(chǎng)占有率約為1.8%。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯原股份發(fā)展歷程

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2019全球IP企業(yè)市占率排名

芯原GPU IP源于公司在2016年收購的美國(guó)嵌入式GPU設(shè)計(jì)商圖芯技術(shù)（Vivante）。芯原在GPU IP領(lǐng)域已經(jīng)掌握了支持主流圖形加速標(biāo)準(zhǔn)、自主可控指令集和可拓展性強(qiáng)，性能范圍廣泛等核心技術(shù)，可廣泛應(yīng)用于IOT、汽車電子、PC等市場(chǎng)。根據(jù) IPnest 報(bào)告，芯原GPU IP（含 ISP）市場(chǎng)占有率排名全球前三，僅次于ARM和Imagination，2019 年全球市場(chǎng)占有率約為 11.8%。

目前，芯原在圖形處理器技術(shù)的研發(fā)課題包括通用圖形處理器運(yùn)算內(nèi)核的持續(xù)優(yōu)化和矢量圖形處理器DDR-Less技術(shù)。矢量GPU DDR-Less技術(shù)可以在不使用外部存儲(chǔ)器DDR的基礎(chǔ)上，實(shí)現(xiàn)架構(gòu)清晰、分工明確、易于使用、軟件控制流程簡(jiǎn)單等優(yōu)點(diǎn)，適用于物聯(lián)網(wǎng)、可穿戴設(shè)備和車載設(shè)備。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲2019全球IP設(shè)計(jì)分類

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯原GPU IP的核心技術(shù)和典型應(yīng)用示例

芯原可拓展Vivante GPU IP應(yīng)用涵蓋從低功耗的小型物聯(lián)網(wǎng)MCU（GPU Nano IP系列）到面向汽車和計(jì)算機(jī)應(yīng)用的強(qiáng)大SoC（GPUArcturus圖形IP），可滿足各種芯片尺寸和功耗預(yù)算，是具有成本效益的優(yōu)質(zhì)圖形處理器解決方案。

芯原的的圖形處理器技術(shù)支持業(yè)界主流的嵌入式圖形加速標(biāo)準(zhǔn)Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等，具有自主可控的指令集及專用編譯器，支持每秒2500億次的浮點(diǎn)運(yùn)算能力及128個(gè)并行著色器處理單元。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯原GPU Nano IP產(chǎn)品線及其可應(yīng)用場(chǎng)景

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯原GPU IP API和操作系統(tǒng)兼容性

芯原股份現(xiàn)有的半導(dǎo)體IP分為處理器IP、數(shù)模混合IP及射頻IP，其中GPU IP隸屬于處理器IP。整體來看，2017-2019芯原得益于不斷豐富的IP儲(chǔ)備及一站式芯片定制業(yè)務(wù)的協(xié)同效應(yīng)，公司半導(dǎo)體IP授權(quán)業(yè)務(wù)收入持續(xù)上升，GPU IP的年復(fù)合增速達(dá)13%。2019年GPU IP的營(yíng)收占公司半導(dǎo)體IP營(yíng)收的31.29%，主要由于其他類型IP收入上升，GPU IP比重相對(duì)下降。

芯原在圖形處理器技術(shù)方面的研發(fā)包括高性能的通用圖形處理器GC8400 IP，該IP適用于汽車電子，目前仍處IP設(shè)計(jì)驗(yàn)證階段，擬達(dá)到每秒1萬億次的浮點(diǎn)運(yùn)算能力雙倍精密度，512個(gè)并行著色器處理單元。

3、航錦科技

航錦科技是一家大型化工生產(chǎn)基地，公司的前身是錦西化工總廠。2017下半年，航錦科技通過收購長(zhǎng)沙韶關(guān)和威科電子兩家軍工企業(yè)，挺進(jìn)電子產(chǎn)業(yè)，形成化工+電子雙主業(yè)發(fā)展模式，構(gòu)建起三個(gè)支撐板塊（化工、電子、金融）。

航錦科技電子板塊以芯片為核心產(chǎn)品，圍繞高端芯片與通信兩大領(lǐng)域，覆蓋高端芯片（圖形處理芯片/特種FPGA/存儲(chǔ)芯片/總線接口芯片）、北斗3芯片以及通信射頻三大主要產(chǎn)業(yè)。堅(jiān)持軍民兩用為發(fā)展方向，產(chǎn)品廣泛應(yīng)用于航空、航天、兵器、船舶、電子等領(lǐng)域，擁有廣闊的市場(chǎng)空間。

航錦科技的GPU技術(shù)源于并購的長(zhǎng)沙韶光。2018年，長(zhǎng)沙韶光自主研發(fā)和合作研發(fā)的第一代及第二代圖形處理芯片（GPU）獲得集成電路布圖設(shè)計(jì)登記證書；2019年，長(zhǎng)沙韶光自主研發(fā)的第二代改進(jìn)型圖形處理芯片在自主可控設(shè)備領(lǐng)域的應(yīng)用得到驗(yàn)證，并收獲相關(guān)訂單。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲航錦科技自主可控芯片板塊示意圖

4、兆芯：同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù)

上海兆芯集成電路有限公司，簡(jiǎn)稱“兆芯”，由上海聯(lián)合投資有限公司（上海市國(guó)資委完全出資）和中國(guó)臺(tái)灣威盛電子共同成立，也是世界上第三家擁有X86授權(quán)的微處理器公司，總部位于上海張江，在北京、西安、武漢、深圳等地設(shè)有研發(fā)中心和分支機(jī)構(gòu)。

公司同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù)，且具備三大核心芯片及相關(guān)IP設(shè)計(jì)與研發(fā)的能力，致力于通過技術(shù)創(chuàng)新與兼容主流的發(fā)展路線，推動(dòng)信息產(chǎn)業(yè)的整體發(fā)展，并獲評(píng)了“高新技術(shù)企業(yè)資質(zhì)”。兆芯提供了桌面整機(jī)，服務(wù)器，工業(yè)主板，工業(yè)平臺(tái)，系統(tǒng)級(jí)解決方案，在黨政辦公，交通，金融，能源，教育，網(wǎng)絡(luò)安全方面有著廣泛的應(yīng)用。

2019Q2，兆芯發(fā)布了全新的用于PC的處理器KX-6000系列。KX-6000是業(yè)內(nèi)第一款完整集成CPU、GPU、芯片組的SoC單芯片國(guó)產(chǎn)通用處理器。

KX-6000系列處理器采用16納米制程，集成高性能顯卡，支持DP/HDMI/VGA輸出，兼容DirectX、OpenGL、OpenCL等主流API，最高可同時(shí)輸出3臺(tái)顯示器，分辨率可達(dá)4K。

全新的KX-6000系列處理器擁有出色的兼容性和應(yīng)用體驗(yàn)，包括Windows操作系統(tǒng)，日常辦公應(yīng)用，4K視頻解碼和主流游戲。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯KX-6000系列兼容性和應(yīng)用體驗(yàn)

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯KX-6000處理器芯片架構(gòu)?

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯KX-6000處理器集成顯卡參數(shù)

兆芯KX-6000的C-960 GPU在使用惠普兆芯圖形DCH驅(qū)動(dòng)的情況下，Dota 2游戲性能表現(xiàn)遠(yuǎn)落后英特爾酷睿i5-7400的UHD 630。未來，兆芯還會(huì)對(duì)KX系列處理器進(jìn)行進(jìn)一步的更新，使用全新的CPU架構(gòu)，將內(nèi)存從DDR4升級(jí)為DDR5，將總線從PCIe3.0升級(jí)至PCIe4.0。內(nèi)存和總線的升級(jí)分別可以提高顯卡的帶寬和CPU與GPU間的通訊速度。

除了以上集成GPU外，兆芯還計(jì)劃發(fā)布一款采用臺(tái)積電28納米工藝，TDP 70瓦的獨(dú)立GPU。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯KX6000 GPU游戲性能對(duì)比

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲兆芯處理器發(fā)展路線圖

5、凌久電子GPU

凌久電子創(chuàng)立于1983年，是中國(guó)船舶重工集團(tuán)公司第七〇九研究所控股的高新技術(shù)企業(yè)。

凌久電子以嵌入式實(shí)時(shí)信號(hào)處理與高性能計(jì)算技術(shù)為基礎(chǔ)，面向船舶、航空、航天、兵器等國(guó)防電子領(lǐng)域及軌道交通、海工裝備、能源電力、半導(dǎo)體制造等民用高科技領(lǐng)域提供芯片級(jí)、模塊級(jí)、設(shè)備級(jí)、系統(tǒng)級(jí)等軟硬件產(chǎn)品；面向科研院所、部隊(duì)及軍校提供作定制化軍事仿真服務(wù)。

凌久電子產(chǎn)品包括元器件類產(chǎn)品、基礎(chǔ)硬件設(shè)備、基礎(chǔ)支撐軟件、應(yīng)用類產(chǎn)品四大類。其中國(guó)產(chǎn)通用GPU GP101隸屬于元器件類產(chǎn)品。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲凌久電子平臺(tái)產(chǎn)品

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲凌久電子元器件類產(chǎn)品分類

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲凌久電子股權(quán)結(jié)構(gòu)

GP101是由中國(guó)船舶重工集團(tuán)第709研究所控股的凌久電子研制，具備完全自主知識(shí)產(chǎn)權(quán)的圖形處理器芯片。GP101支持2D/3D圖形加速，支持二維矢量圖形加速,支持4K分辨率、視頻解碼和硬件圖層處理等功能GP101支持VxWorks、Linux、Windows等通用操作系統(tǒng)，支持中標(biāo)麒麟、道等國(guó)產(chǎn)操作系統(tǒng)，支持龍芯、飛騰、申威等國(guó)產(chǎn)處理器。

GP101實(shí)現(xiàn)了我國(guó)通用3D顯卡零的突破，在信息安全和供貨能力方便有充分的保障,可以廣泛應(yīng)用于軍民多個(gè)領(lǐng)域。

6、中船重工716研究所：JARI G12 GPU

七一六所自主研發(fā)的JARI G12是2018年性能最強(qiáng)的國(guó)產(chǎn)通用圖形處理器。該處理器采用混合渲染架構(gòu)，兼顧數(shù)據(jù)帶寬和渲染延時(shí)需求，極大地增強(qiáng)了芯片的靈活性和適應(yīng)性；

提供PCIe 3.0總線，支持x86處理器和龍芯、飛騰、申威等國(guó)產(chǎn)處理器；支持4路數(shù)字通道和1路VGA輸出，提供DP、eDP、HDMI、DVI等通用顯示介面，單路數(shù)字通道最大輸出分辨率為3840×2160@60fps，支持?jǐn)U展、復(fù)制顯示和“擴(kuò)展+復(fù)制”顯示模式；

內(nèi)建視頻編解碼硬核，支持2路3840×2160分辨率視頻的編碼、解碼功能；

支持OpenGL 4.5和OpenGL ES 3.0，滿足高性能3D加速和VR顯示需求；

支持OpenCL 2.0，滿足并行計(jì)算和云計(jì)算的使用需求；

集成張量加速計(jì)算硬核，支持AI計(jì)算加速。該GPU支持Windows、Linux、VxWorks等主流操作系統(tǒng)，同時(shí)支持中標(biāo)麒麟、JARI-Works、道等國(guó)內(nèi)自主可控操作系統(tǒng)，具備健全的生態(tài)環(huán)境體系。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲JARI G12架構(gòu)示意圖

7、芯動(dòng)科技：國(guó)產(chǎn)IP和芯片定制先驅(qū)

芯動(dòng)科技是中國(guó)一站式IP和芯片定制領(lǐng)軍企業(yè)，提供全球6大工藝廠（臺(tái)積電/三星/格芯/中芯國(guó)際/聯(lián)華電子/英特爾）從130nm到5納米全套高速混合電路IP核和ASIC定制解決方案，聚焦先進(jìn)制程。

芯動(dòng)科技15年來立足本土發(fā)展，所有IP和產(chǎn)品全自主可控，連續(xù)十年中國(guó)市場(chǎng)份額領(lǐng)先。公司客戶群涵蓋華為海思、中興通訊、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企業(yè)。

在高性能計(jì)算/多媒體&汽車電子/IoT物聯(lián)網(wǎng)等領(lǐng)域，芯動(dòng)解決方案具有國(guó)際先進(jìn)水平，涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes（含
PCIe5/4/USB3.2/SATA/RapidIO/GMII等）、ADC/DAC、智能圖像處理器GPU和多媒體處理內(nèi)核等多種技術(shù)。芯動(dòng)科技的芯片定制，跨工藝跨封裝，涉及從需求到產(chǎn)品，能端到端為客戶加速從規(guī)格、設(shè)計(jì)到流片量產(chǎn)，及封裝成型全流程。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯動(dòng)科技一站式IP系列

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯動(dòng)科技高性能計(jì)算平臺(tái)IP

2020年10月13日，芯動(dòng)科技與Imagination達(dá)成合作。采用最前沿的多晶粒芯片（chiplet）和GDDR6高速顯存等SOC創(chuàng)新，芯動(dòng)科技將全球首發(fā)Imagination全新頂配BXT多核架構(gòu)。

在信創(chuàng)和算力安全方面，“風(fēng)華”系列GPU內(nèi)置國(guó)產(chǎn)物理不可克隆iUnique Security PUF信息安全加密技術(shù)，提升數(shù)據(jù)安全和算力抗攻擊性，支持桌面電腦和數(shù)據(jù)中心GPU計(jì)算自主可控生態(tài)。

“風(fēng)華”系列GPU自帶浮點(diǎn)和智能3D圖形處理功能，全定制多級(jí)流水計(jì)算內(nèi)核，兼具高性能渲染和智能AI算力，還可級(jí)聯(lián)組合多顆芯片合并處理能力，靈活性強(qiáng)，適配國(guó)產(chǎn)桌面市場(chǎng)1080P/4K/8K高品質(zhì)顯示，支持VR/AR/AI，多路服務(wù)器云桌面、5G數(shù)據(jù)中心、云教育、云游戲、云辦公等中國(guó)新基建5G風(fēng)口下的大數(shù)據(jù)圖形應(yīng)用場(chǎng)景。

8、華為海思：GPU Turbo

GPU Turbo是一種軟硬協(xié)同的圖形加速技術(shù)，可以減少無用渲染次數(shù)，優(yōu)化或合并渲染區(qū)域。通過算法，將相關(guān)運(yùn)算放在一個(gè)或相鄰的寄存器中，以此來優(yōu)化圖形處理效率。

GPU Turbo技術(shù)打通了EMUI操作系統(tǒng)以及GPU和CPU之間的處理瓶頸，在系統(tǒng)底層對(duì)傳統(tǒng)的圖形處理框架進(jìn)行了重構(gòu)，實(shí)現(xiàn)了軟硬件協(xié)同，使得GPU圖形處理整體效率得到大幅提升。

2018年6月發(fā)布了GPU Turbo 1.0，圖形處理效率提高60%，同時(shí)做到更省電，保證高畫質(zhì)。

2018年9月發(fā)布了GPU Turbo 2.0，游戲場(chǎng)景下功耗下降可達(dá)13.6%，新增支持多款主流游戲，同時(shí)針對(duì)支持的游戲中關(guān)鍵&極限場(chǎng)景（如團(tuán)戰(zhàn)、載具等）進(jìn)行了重點(diǎn)打磨與優(yōu)化。

2019年4月GPU Turbo全新升級(jí)，不僅帶來主流游戲接近滿幀運(yùn)行的酣暢體驗(yàn)，功耗的持續(xù)降低也帶來了續(xù)航時(shí)間的提升。累計(jì)支持60款國(guó)內(nèi)游戲。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲GPU Turbo 2.0能效對(duì)比

9、龍芯：GPU突擊隊(duì)

中科院計(jì)算所于2001年成立龍芯課題組，開始研制龍芯系列處理器，得到了中科院、863、973、核高基等項(xiàng)目大力支持，完成了十年的核心技術(shù)積累。2010年4月，中國(guó)科學(xué)院和北京市共同牽頭出資入股，成立龍芯中科技術(shù)有限公司，龍芯正式從研發(fā)走向產(chǎn)業(yè)化。

目前，龍芯自主研發(fā)的GPU集成在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號(hào)處理器的芯片組，通過HT3.0接口與處理器相連，集成GPU、顯示控制器和獨(dú)立顯存接口，外圍接口包括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和其它低速接口，可以滿足桌面和服務(wù)器領(lǐng)域?qū)O接口的應(yīng)用需求，并通過外接獨(dú)立顯卡的方式支持高性能圖形應(yīng)用需求。

雖然龍芯7A1000橋片的GPU性能一般，但是橋片作為CPU產(chǎn)業(yè)鏈的一環(huán)，龍芯已經(jīng)實(shí)現(xiàn)CPU、橋片和GPU上完全自主化，打通了CPU產(chǎn)業(yè)鏈上每一個(gè)環(huán)節(jié)。

2020年，龍芯成立六支研發(fā)突擊隊(duì)，分別為3A5000突擊隊(duì)、3C5000突擊隊(duì)、7A2000突擊隊(duì)、2K2000突擊隊(duì)、GPU突擊隊(duì)、PCIE突擊隊(duì)。這六支突擊隊(duì)的目的就是要把2-3年的工作，在一年內(nèi)干完！

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲龍芯7A1000

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲龍芯7A1000 GPU相關(guān)參數(shù)

10、芯瞳半導(dǎo)體：高性能GPU設(shè)計(jì)新星

芯瞳半導(dǎo)體成立于2019年，主要業(yè)務(wù)包括GPU芯片設(shè)計(jì)、異構(gòu)計(jì)算平臺(tái)方案、嵌入式顯示系統(tǒng)解決方案、GPU應(yīng)用部署解決方案。公司著力于研發(fā)高性能的GPU芯片，為用戶提供以自研GPU芯片為核心的解決方案，致力于打造業(yè)界領(lǐng)先的GPU芯片設(shè)計(jì)平臺(tái)，目標(biāo)是成為國(guó)際一流的GPU芯片設(shè)計(jì)企業(yè)。公司創(chuàng)始團(tuán)隊(duì)在GPU領(lǐng)域有著超過10年的學(xué)術(shù)和工程經(jīng)驗(yàn)，是一支軟硬件全棧式支持的研發(fā)團(tuán)隊(duì)。

公司的GPU架構(gòu)采用了業(yè)界主流的統(tǒng)一渲染架構(gòu)，并具有高度可擴(kuò)展的互聯(lián)結(jié)構(gòu)和計(jì)算陣列，便于芯片后續(xù)迭代升級(jí)。經(jīng)過多年的積累，團(tuán)隊(duì)構(gòu)建了芯片建模虛擬平臺(tái)，通過該虛擬平臺(tái)，團(tuán)隊(duì)可以快速地完成GPU相關(guān)軟件的研發(fā)和軟件生態(tài)的部署，與此同時(shí)，在該虛擬平臺(tái)上快速地對(duì)芯片架構(gòu)進(jìn)行驗(yàn)證，從而縮短GPU芯片的設(shè)計(jì)驗(yàn)證周期，提升GPU芯片的設(shè)計(jì)效能。

公司第一代GPU芯片（GenBu01）初測(cè)已成功，已與統(tǒng)信、麒麟及昆侖完成適配，目前正在為小批量量產(chǎn)做最終測(cè)試。 GenBu01主要面向的客戶為需要定制嵌入式計(jì)算機(jī)產(chǎn)品的客戶以及為國(guó)產(chǎn)替代領(lǐng)域提供信創(chuàng)辦公PC的ODM/OEM廠商。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲芯瞳GenBu01參數(shù)

11、天數(shù)智芯：國(guó)產(chǎn)GPGPU領(lǐng)跑者

天數(shù)智芯于2018年正式啟動(dòng)GPGPU芯片設(shè)計(jì)，是中國(guó)第一家GPGPU高端芯片及超級(jí)算力提供商。天數(shù)智芯重點(diǎn)打造自主可控、國(guó)際一流的通用、標(biāo)準(zhǔn)、高性能云端計(jì)算芯片GPGPU，從芯片端解決計(jì)算力問題；并推出面向5G技術(shù)需求的邊緣云端推理GPGPU，提供對(duì)當(dāng)前進(jìn)口主流GPGPU體系的無縫兼容和市場(chǎng)化選擇。2021年1月15日，天數(shù)智芯成功點(diǎn)亮自研7納米制程GPGPU云端訓(xùn)練芯片，性能達(dá)市場(chǎng)主流產(chǎn)品的兩倍。該芯片量產(chǎn)后將廣泛應(yīng)用于AI訓(xùn)練、高性能計(jì)算（HPC）等場(chǎng)景，服務(wù)于教育、互聯(lián)網(wǎng)、金融、自動(dòng)駕駛、醫(yī)療、安防等各相關(guān)行業(yè)，賦能AI智能社會(huì)。

天數(shù)智芯7納米GPGPU高端自研云端訓(xùn)練芯片的產(chǎn)品優(yōu)勢(shì)包括：全方位生態(tài)兼容、高性能有效算力、指令集編程架構(gòu)、軟硬件全棧支持、全自主知識(shí)產(chǎn)權(quán)。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲天數(shù)智芯GPGPU BI芯片參數(shù)

12、壁仞科技和沐曦集成電路

壁仞科技創(chuàng)立于2019年，團(tuán)隊(duì)由國(guó)內(nèi)外芯片和云計(jì)算領(lǐng)域核心專業(yè)人員、研發(fā)人員組成，在GPU、DSA（專用加速器）和計(jì)算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累和獨(dú)到的行業(yè)洞見。

壁仞科技致力于開發(fā)原創(chuàng)性的通用計(jì)算體系，建立高效的軟硬件平臺(tái)，同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上，壁仞科技將首先聚焦云端通用智能計(jì)算，逐步在人工智能訓(xùn)練和推理、圖形渲染、高性能通用計(jì)算等多個(gè)領(lǐng)域趕超現(xiàn)有解決方案，實(shí)現(xiàn)國(guó)產(chǎn)高端通用智能計(jì)算芯片的突破。

沐曦集成電路專注于設(shè)計(jì)具有完全自主知識(shí)產(chǎn)權(quán)，針對(duì)異構(gòu)計(jì)算等各類應(yīng)用的高性能通用GPU芯片。公司致力于打造國(guó)內(nèi)最強(qiáng)商用GPU芯片，產(chǎn)品主要應(yīng)用方向包含傳統(tǒng)GPU及移動(dòng)應(yīng)用，人工智能、云計(jì)算、數(shù)據(jù)中心等高性能異構(gòu)計(jì)算領(lǐng)域。

對(duì)于研發(fā)的方向，沐曦表示將采用業(yè)界最先進(jìn)的5nm工藝技術(shù)，研發(fā)全兼容CUDA及ROCm生態(tài)的國(guó)產(chǎn)高性能GPU芯片，滿足HPC、數(shù)據(jù)中心及AI等方面的計(jì)算需求。GPU將采用原創(chuàng)專利保護(hù)的可重構(gòu)GPU架構(gòu)，突破傳統(tǒng)GPU芯片能效瓶頸；采用數(shù)據(jù)壓縮，數(shù)據(jù)廣播以及共享硬件加速單元等先進(jìn)技術(shù)，大幅度優(yōu)化核心算力能耗比。

GPU深度報(bào)告，三大巨頭，十四個(gè)國(guó)內(nèi)玩家一文看懂 | 智東西內(nèi)參

▲沐曦高性能GPU研發(fā)項(xiàng)目

12、登臨科技和摩爾線程

登臨科技成立于2017年11月，是一家專注于為新興計(jì)算領(lǐng)域提供高性能、高功效計(jì)算平臺(tái)的高科技企業(yè)。公司的產(chǎn)品是以芯片為核心的系統(tǒng)解決方案，在所有核心IP上堅(jiān)持自研路線。登臨科技已完成由元禾璞華、元生資本聯(lián)合領(lǐng)投的A+輪融資，包括北極光在內(nèi)的老股東持續(xù)在本輪加碼跟進(jìn)。登臨科技的首款GPU+（軟件定義的片內(nèi)異構(gòu)通用人工智能處理器)產(chǎn)品已成功回片通過測(cè)試，開始客戶送樣，公司團(tuán)隊(duì)具備架構(gòu)、系統(tǒng)、軟件、硬件、芯片、驗(yàn)證等方面的綜合能力。

登臨科技GoldwasserTM GPU+產(chǎn)品在現(xiàn)有市場(chǎng)主流的GPU架構(gòu)上，創(chuàng)新采用軟硬件協(xié)同的異構(gòu)設(shè)計(jì)。GPU+異構(gòu)設(shè)計(jì)讓產(chǎn)品在對(duì)客戶實(shí)際業(yè)務(wù)繼承在現(xiàn)有生態(tài)上的投入、在保證極高兼容性的同時(shí)，相比傳統(tǒng)GPU在AI計(jì)算上性能和能效均有明顯提升，大大降低了外部帶寬的需求，顯著降低客戶總擁有成本。

摩爾線程創(chuàng)立于2020年10月，去年12月獲得天使輪融資，今年2月22日獲得Pre-A輪融資。摩爾線程致力于構(gòu)建中國(guó)視覺計(jì)算和人工智能領(lǐng)域計(jì)算平臺(tái)，研發(fā)全球領(lǐng)先的自主創(chuàng)新GPU知識(shí)產(chǎn)權(quán)，其GPU產(chǎn)品線覆蓋通用圖形計(jì)算和高性能計(jì)算。公司核心成員主要來自英偉達(dá)、微軟、英特爾、AMD、ARM等，覆蓋GPU研發(fā)設(shè)計(jì)、生產(chǎn)制造、市場(chǎng)銷售、服務(wù)支持等完整架構(gòu)。

13、國(guó)產(chǎn)GPU新星：翰博半導(dǎo)體

翰博半導(dǎo)體成立于2018年12月，立志于發(fā)展成為國(guó)際頂尖的芯片公司，立足于中國(guó)市場(chǎng)，填補(bǔ)國(guó)內(nèi)市場(chǎng)國(guó)產(chǎn)芯片的空白，為智能應(yīng)用提供高效算力，為人工智能創(chuàng)新以及應(yīng)用落地賦能。

翰博半導(dǎo)體擁有國(guó)內(nèi)外專家組成的團(tuán)隊(duì)。公司核心員工來自世界頂級(jí)的高科技公司，平均擁有15年以上的相關(guān)芯片，軟件設(shè)計(jì)經(jīng)驗(yàn)。

瀚博的產(chǎn)品注重計(jì)算機(jī)視覺及視頻處理的優(yōu)化，提供豐富的特性，高效的性能/功耗；適用多個(gè)人工智能領(lǐng)域。產(chǎn)品覆蓋從邊到云，SOC及服務(wù)器市場(chǎng)。

翰博半導(dǎo)體CEO—錢軍擁有25年以上高端芯片設(shè)計(jì)經(jīng)驗(yàn)和40多款芯片設(shè)計(jì)和量產(chǎn)的經(jīng)驗(yàn)，帶隊(duì)設(shè)計(jì)量產(chǎn)業(yè)界第一顆7納米圖像處理器和AI服務(wù)器芯片，曾任AMD高管Senior Director，直接負(fù)責(zé)設(shè)計(jì)團(tuán)隊(duì)超過800人，全面負(fù)責(zé)GPU（圖像處理器和AI服務(wù)器）芯片設(shè)計(jì)和生產(chǎn)，現(xiàn)在市場(chǎng)上所有AMD Radeon圖像處理器和AI服務(wù)器都是由其帶隊(duì)開發(fā)，包括多個(gè)系列DGPU和MI系列產(chǎn)品。

14、國(guó)產(chǎn)GPU新星：燧原科技

燧原科技成立于2018年3月，專注于人工智能領(lǐng)域云端算力平臺(tái)，致力為人工智能產(chǎn)業(yè)發(fā)展提供普惠的基礎(chǔ)設(shè)施解決方案，提供自主知識(shí)產(chǎn)權(quán)的高算力、高能效比、可編程的通用人工智能訓(xùn)練和推理產(chǎn)品。

燧原科技的產(chǎn)品技術(shù)由訓(xùn)練、推理、軟件平臺(tái)構(gòu)成。其中，訓(xùn)練業(yè)務(wù)包含加速卡 “云燧T10” 和“云燧T11”；推理業(yè)務(wù)包含加速卡 “云燧i10”；軟件平臺(tái)包含“馭算”。

“云燧”系列加速卡采用自研DTU架構(gòu)，支持ESL高速互聯(lián)和開放生態(tài)。 “云燧”芯片采用格羅方德的12nm FinFET工藝，結(jié)合 2.5D先進(jìn)封裝，擁有141億晶體管和16GB HBM2顯存，在FP32的算力和能效比方面領(lǐng)先GPU。

計(jì)算及編程平臺(tái)“馭算”，由燧原自主研發(fā)，支持主流深度學(xué)習(xí)框架，并針對(duì)邃思芯片進(jìn)行了針對(duì)性優(yōu)化。

智東西認(rèn)為，GPU設(shè)計(jì)之初是為了圖像處理，但是隨著技術(shù)的不斷迭代升級(jí)，GPU的功能已經(jīng)不僅限于“畫圖”，憑借在并行處理和通用計(jì)算的優(yōu)勢(shì)，GPU在服務(wù)器、汽車、人工智能、邊緣計(jì)算等領(lǐng)域已經(jīng)開始大放異彩?，F(xiàn)階段，雖然國(guó)產(chǎn)GPU與英偉達(dá)、AMD等世界巨頭差距明顯，但在一些空白的細(xì)分領(lǐng)域或許有很大的“彎道超車”空間。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、GPU：專用計(jì)算時(shí)代的“畫師”

二、GPU的全球格局

1、英偉達(dá)

2、全球GPU先驅(qū)：AMD

3、英特爾：全球GPU追趕者

4、ARM Mali：全球GPU IP巨頭

5、全球GPU IP巨頭：Imagination

6、高通Adreno：全球移動(dòng)GPU先驅(qū)

7、蘋果：全球移動(dòng)GPU新秀

三、國(guó)產(chǎn)GPU自主之路

1、景嘉微：具有完全自主知識(shí)產(chǎn)權(quán)，打破國(guó)外GPU長(zhǎng)期壟斷

2、芯原微電子：國(guó)產(chǎn)GPU IP龍頭

3、航錦科技

4、兆芯：同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù)

5、凌久電子GPU

6、中船重工716研究所：JARI G12 GPU

7、芯動(dòng)科技：國(guó)產(chǎn)IP和芯片定制先驅(qū)

8、華為海思：GPU Turbo

9、龍芯：GPU突擊隊(duì)

10、芯瞳半導(dǎo)體：高性能GPU設(shè)計(jì)新星

11、天數(shù)智芯：國(guó)產(chǎn)GPGPU領(lǐng)跑者

12、壁仞科技和沐曦集成電路

12、登臨科技和摩爾線程

13、國(guó)產(chǎn)GPU新星：翰博半導(dǎo)體

14、國(guó)產(chǎn)GPU新星：燧原科技

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、GPU：專用計(jì)算時(shí)代的“畫師”

二、GPU的全球格局

1、英偉達(dá)

2、全球GPU先驅(qū)：AMD

3、英特爾：全球GPU追趕者

4、ARM Mali：全球GPU IP巨頭

5、全球GPU IP巨頭：Imagination

6、高通Adreno：全球移動(dòng)GPU先驅(qū)

7、蘋果：全球移動(dòng)GPU新秀

三、國(guó)產(chǎn)GPU自主之路

1、景嘉微：具有完全自主知識(shí)產(chǎn)權(quán)，打破國(guó)外GPU長(zhǎng)期壟斷

2、芯原微電子：國(guó)產(chǎn)GPU IP龍頭

3、航錦科技

4、兆芯：同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù)

5、凌久電子GPU

6、中船重工716研究所：JARI G12 GPU

7、芯動(dòng)科技：國(guó)產(chǎn)IP和芯片定制先驅(qū)

8、華為海思：GPU Turbo

9、龍芯：GPU突擊隊(duì)

10、芯瞳半導(dǎo)體：高性能GPU設(shè)計(jì)新星

11、天數(shù)智芯：國(guó)產(chǎn)GPGPU領(lǐng)跑者

12、壁仞科技和沐曦集成電路

12、登臨科技和摩爾線程

13、國(guó)產(chǎn)GPU新星：翰博半導(dǎo)體

14、國(guó)產(chǎn)GPU新星：燧原科技

相關(guān)推薦

一、GPU：專用計(jì)算時(shí)代的“畫師”

1、英偉達(dá)

2、全球GPU先驅(qū)：AMD

3、英特爾：全球GPU追趕者

4、ARM Mali：全球GPU IP巨頭

5、全球GPU IP巨頭：Imagination

6、高通Adreno：全球移動(dòng)GPU先驅(qū)

7、蘋果：全球移動(dòng)GPU新秀

三、國(guó)產(chǎn)GPU自主之路

1、景嘉微：具有完全自主知識(shí)產(chǎn)權(quán)，打破國(guó)外GPU長(zhǎng)期壟斷

2、芯原微電子：國(guó)產(chǎn)GPU IP龍頭

3、航錦科技

4、兆芯：同時(shí)掌握CPU、GPU、芯片組三大核心技術(shù)

5、凌久電子GPU

6、中船重工716研究所：JARI G12 GPU

7、芯動(dòng)科技：國(guó)產(chǎn)IP和芯片定制先驅(qū)

8、華為海思：GPU Turbo

9、龍芯：GPU突擊隊(duì)

10、芯瞳半導(dǎo)體：高性能GPU設(shè)計(jì)新星

12、壁仞科技和沐曦集成電路