芯東西(公眾號(hào):aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(huì)(GACS 2024)于9月6日~7日在北京舉行,大會(huì)由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識(shí)分享社區(qū)智猩猩發(fā)起舉辦。在大會(huì)第一天的主會(huì)場(chǎng)開(kāi)幕式上,AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng)以《推進(jìn)大模型從云到端部署,打造變革性未來(lái)》為題發(fā)表演講。

AMD在端到端的AI基礎(chǔ)設(shè)施領(lǐng)域打造了全面的產(chǎn)品線,覆蓋從數(shù)據(jù)中心服務(wù)器、AI PC到智能嵌入式和邊緣設(shè)備,并提供領(lǐng)先的AI開(kāi)源軟件及開(kāi)放的生態(tài)系統(tǒng)。AMD基于先進(jìn)ZEN4架構(gòu)設(shè)計(jì)的CPU處理器平臺(tái)、基于CDNA3架構(gòu)面向AI推理&訓(xùn)練的MI系列加速器,已被微軟等巨頭采用。

據(jù)AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng)分享,AMD還在推動(dòng)數(shù)據(jù)中心高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施(UALink,Ultra Ethernet),這對(duì)AI網(wǎng)絡(luò)結(jié)構(gòu)需要支持快速切換和極低延遲、擴(kuò)展AI數(shù)據(jù)中心性能至關(guān)重要。AMD即將發(fā)布下一代高性能AI PC芯片,其基于第二代XDNA架構(gòu)的Ryzen AI NPU,可提供50TOPS算力,將能效比提高至通用架構(gòu)的35倍。

在AI PC對(duì)隱私、安全和數(shù)據(jù)自主性的推動(dòng)下,重要的AI工作負(fù)載開(kāi)始部署在PC上。作為全球領(lǐng)先的AI基礎(chǔ)設(shè)施提供商之一,AMD愿意攜手廣大客戶與開(kāi)發(fā)者共建變革性未來(lái)。

目前,為了推進(jìn)AI從云到端部署,AMD重點(diǎn)主要集中在提供豐富多樣的高性能和自適應(yīng)硬件和軟件解決方案組合、建設(shè)開(kāi)放式生態(tài)系統(tǒng)、將復(fù)雜的工作負(fù)載簡(jiǎn)化為引人入勝的用戶體驗(yàn)這三大關(guān)鍵領(lǐng)域。

AMD王宏強(qiáng):全產(chǎn)品線推動(dòng)大模型從云到端落地,解讀下一代AI PC平臺(tái)丨GACS 2024

▲AMD人工智能事業(yè)部高級(jí)總監(jiān)王宏強(qiáng)

以下為王宏強(qiáng)的演講實(shí)錄:

自去年以來(lái),人工智能(AI)領(lǐng)域?qū)崿F(xiàn)了顯著的發(fā)展,尤其是在大模型和生成式AI方面。AMD在這些技術(shù)產(chǎn)品方面逐步推出了從硬件平臺(tái)到軟件,從端到端的解決方案。

AMD擁有非常全的產(chǎn)品線,從數(shù)據(jù)中心服務(wù)器,到邊緣側(cè)的Edge&Embedded,還有AI PC,都有非常全面的硬件AI平臺(tái)。

AMD公司真正做到針對(duì)不同數(shù)據(jù)中心業(yè)務(wù)需求進(jìn)行優(yōu)化,以滿足各種工作負(fù)載。這包括使用CPU處理器進(jìn)行輕量級(jí)AI推理,或者利用MI加速器處理大規(guī)模任務(wù),尤其是當(dāng)前生成式AI大模型的推理和訓(xùn)練。

同時(shí),我們知道在數(shù)據(jù)中心,除了推理和訓(xùn)練,特別是在訓(xùn)練里面,我們需要有Scaling Out(橫向擴(kuò)展)和Scaling Up(縱向擴(kuò)展)。在同一個(gè)節(jié)點(diǎn)里面有多卡互聯(lián),在不同節(jié)點(diǎn)之間則是需要有Scaling Out擴(kuò)大整個(gè)處理的能力。

針對(duì)這方面,我們集中發(fā)展開(kāi)放的高速互聯(lián),如UALink和Ultra Ethernet,我們?cè)谟?jì)算和跨節(jié)點(diǎn)互聯(lián)方面都提供了重要的技術(shù)支持。AI網(wǎng)絡(luò)有一個(gè)很重要的需求,就是需要一個(gè)極低的延時(shí)和響應(yīng)的時(shí)間,AMD找的是開(kāi)放的UALink和Ultra Ethemet,更好地與業(yè)界其他客戶一起構(gòu)建我們整個(gè)的計(jì)算加速平臺(tái)。

一、加速器輕松處理上萬(wàn)億參數(shù)模型

AMD的EPYC系列新一代CPU擁有多達(dá)192個(gè)核心和384個(gè)線程,這是基于我們最新的ZEN5架構(gòu)設(shè)計(jì)的,它相比上一代也有非常大的性能提升,不僅是從Instruction Bandwidth(指令帶寬),還有數(shù)據(jù)的Bandwidch(帶寬),比如L2到L1的,還有L1到浮點(diǎn)數(shù)據(jù)的帶寬都有提升2倍。

同時(shí),我們的AVX-512技術(shù)是完整的,它在數(shù)據(jù)的buffer(緩沖區(qū))也有帶寬,從而能夠更有效地支持AI推理服務(wù)。

自去年12月以來(lái),我們?cè)跀?shù)據(jù)中心也推出了一系列新的MI加速器,這些產(chǎn)品已經(jīng)被包括微軟在內(nèi)的大型互聯(lián)網(wǎng)公司采用。

我們加速的板卡已經(jīng)被服務(wù)器制造商,包括OEM(原始設(shè)備制造商)和ODM(原始設(shè)計(jì)制造商)集成到他們的服務(wù)器中。

對(duì)于用戶而言,只要購(gòu)買了這些服務(wù)器,就可以獲得內(nèi)置我們的CPU和MI加速器的系統(tǒng),并用于執(zhí)行AI推理和訓(xùn)練任務(wù)。

目前,在大模型生成式AI領(lǐng)域,ADM也是一直在提升我們的架構(gòu)。我們?cè)瓉?lái)是Llama3的架構(gòu),對(duì)此我們也將繼續(xù)演進(jìn)。

在存儲(chǔ)容量和存儲(chǔ)帶寬方面,我們也取得了快速的發(fā)展。預(yù)計(jì)到今年年底,大家將會(huì)看到一些相關(guān)的更新產(chǎn)品的發(fā)布。

我們將更有效地支持當(dāng)前在大模型的推理,例如Llama和GPT等。讓所有的這些模型都能輕松地在我們的加速器上運(yùn)行。更為重要的是,我們的加速器甚至能夠處理具有上萬(wàn)億參數(shù)的模型。

二、GPU設(shè)計(jì)完全開(kāi)源,人人都可對(duì)代碼進(jìn)行修改

在GPU軟件設(shè)計(jì)上,我們有ROCm,它是一個(gè)開(kāi)源的加速器軟件。我們不僅設(shè)計(jì)是開(kāi)源的,而且整個(gè)架構(gòu)也是模塊化的,對(duì)用戶完全開(kāi)放、開(kāi)源。

用戶和社區(qū)成員都可以訪問(wèn)這些開(kāi)源代碼,你甚至可以對(duì)代碼進(jìn)行修改。我們鼓勵(lì)更多地去把AI整個(gè)社區(qū)的貢獻(xiàn)集成在我們整個(gè)ROCm平臺(tái)里面。

我們針對(duì)當(dāng)下最熱的生成式AI也做了很多創(chuàng)新,比如像對(duì)RADEON這個(gè)開(kāi)源推理引擎的支持。此外,我們還積極支持了像SGlang這樣的新型開(kāi)源推理引擎。

SGlang和RADEON之間存在一些差異,特別是在調(diào)度上。與CUDA這個(gè)相對(duì)閉源的環(huán)境不同,我們支持不同的開(kāi)源推理引擎,使用戶、社區(qū),整個(gè)生態(tài)處在一個(gè)環(huán)境里面。

為了支持生成式AI的大模型,我們對(duì)FlashAttention-2和FlashAttention-3進(jìn)行了優(yōu)化,包括對(duì)FP8這些算子的支持。這些都是用在推理里面非常典型的數(shù)據(jù)類型,在訓(xùn)練里面,我們也能夠支持BF16的數(shù)據(jù)類型

除了提供算子支持,我們還支持通信,包括RCCL優(yōu)化和虛擬化技術(shù)的支持等。

三、AI發(fā)展不僅在于硬件,軟件和基礎(chǔ)設(shè)施投入同樣重要

我們堅(jiān)持在AI的軟件及基礎(chǔ)設(shè)施上的投入。除了加大自己內(nèi)部的投入,我們還會(huì)收購(gòu)一些業(yè)界比較有名的公司。

最近我們收購(gòu)了SILO.ai,這是一家擁有眾多杰出AI案例的公司。

通過(guò)收購(gòu)SILO.ai,我們不僅能夠進(jìn)一步提供AI優(yōu)化技術(shù),還獲得了他們?cè)贏I開(kāi)源領(lǐng)域積累的豐富專業(yè)知識(shí)。

我們也收購(gòu)了ZT Systems。作為行業(yè)領(lǐng)先的數(shù)據(jù)中心,ZT Systems專注于AI基礎(chǔ)設(shè)施。

我們不僅從軟件、硬件平臺(tái),還從整個(gè)機(jī)框、機(jī)架這一整套來(lái)提供AI加速的能力。

開(kāi)源加速的發(fā)展速度在不斷加快,每天都有新的開(kāi)源算子和框架被推出。

AMD本著開(kāi)源開(kāi)放的戰(zhàn)略,積極在開(kāi)源社區(qū)進(jìn)行部署和推廣新模型。我們借助整個(gè)生態(tài)系統(tǒng)的力量,迅速推動(dòng)AI技術(shù)的發(fā)展,這與相對(duì)封閉的CUDA環(huán)境完全不一樣。

我們與HuggingFace的合作也是非常緊密的。HuggingFace上有70多萬(wàn)個(gè)模型,每天我們都會(huì)進(jìn)行一些測(cè)試,保證它的這些模型都是可以直接運(yùn)行在我們加速器的平臺(tái)上,包括在數(shù)據(jù)中心里面,還有在個(gè)人筆記本Ryzen平臺(tái)上。

我們還與OpenAI Triton合作,它提供了更高層次的AI語(yǔ)言抽象,使我們能夠在更高層次的語(yǔ)言抽象上更容易地實(shí)現(xiàn)功能。此外,我們很早就開(kāi)始支持像PyTorch這樣的推理框架。

四、XDNA2架構(gòu)下的NPU,算力與存儲(chǔ)提升

剛剛介紹了我們?cè)跀?shù)據(jù)中心的投入,實(shí)際上我們?cè)贏I PC的投入也非常大。

我們一直在RyzenAI平臺(tái)引領(lǐng)AI PC。

現(xiàn)在越來(lái)越多的應(yīng)用可以跑在個(gè)人筆記本電腦里面,比如一些實(shí)時(shí)的協(xié)同都可以在個(gè)人電腦里面跑一些大模型,通過(guò)這些大模型作為基座,去開(kāi)發(fā)各種應(yīng)用,這就使得各種應(yīng)用真的可以落地到端側(cè)。

我們AMD要發(fā)布的下一代高性能AI PC芯片,它也是基于我們Zen5 CPU的架構(gòu),加上了第2代XDNA,Ryzen是升級(jí)到3.5的版本,能夠提供50TOPS的算力。

在AI PC領(lǐng)域,用戶越來(lái)越重視隱私保護(hù)、數(shù)據(jù)安全和數(shù)據(jù)自主性。隨著重要的AI工作流程逐步在個(gè)人電腦端部署,對(duì)專用處理器的需求也隨之增加。

在PC部署上,大家對(duì)PC機(jī)的耗電需求非常大,因此非常需要NPU的處理器。NPU在性能功耗比具有非常大的優(yōu)勢(shì),相比通用的處理器,它能夠擴(kuò)大35倍以上的能效,所以我們?cè)贏I PC里面有集成這個(gè)NPU。

NPU是基于我們XDNA2最新的架構(gòu),它的底層是AI處理引擎,相比之前,從算力,包括存儲(chǔ)都有一點(diǎn)幾倍的提升。

我們?cè)跀?shù)據(jù)類型上也進(jìn)行了很多創(chuàng)新,例如對(duì)Block FP16的支持。與第一代XDNA相比,我們實(shí)現(xiàn)了更高的能效比,計(jì)算能力提升了5倍,功耗效率也提高了2倍。

關(guān)于關(guān)鍵數(shù)據(jù)類型的創(chuàng)新,就是塊狀浮點(diǎn)的支持。塊狀浮點(diǎn)的優(yōu)勢(shì)在于它結(jié)合了8-bit數(shù)據(jù)類型的高性能和16-bit精度的優(yōu)點(diǎn),從而在數(shù)據(jù)位寬、精度以及存儲(chǔ)需求之間實(shí)現(xiàn)了理想的平衡。它在性能上與8-bit相近,同時(shí)在模型大小上僅需9-bit表征。此外,它在精度上非常接近16-bit,能夠達(dá)到與16-bit數(shù)據(jù)類型幾乎相同的99.9%的準(zhǔn)確度。

另外一個(gè)在AI PC上的應(yīng)用就是RAG推薦系統(tǒng)。它包括前處理步驟,其中一些處理在CPU上執(zhí)行,而核心計(jì)算則在NPU,這種設(shè)計(jì)使得整個(gè)系統(tǒng)能夠?qū)崟r(shí)處理RAG推薦系統(tǒng)的任務(wù)。

剛剛介紹的這些功能都是通過(guò)AMD的Ryzen軟件達(dá)到的,RyzenAI的軟件架構(gòu)包括從浮點(diǎn)模型開(kāi)始,通過(guò)內(nèi)置的量化器進(jìn)行優(yōu)化,最后通過(guò)ONNX的表示執(zhí)行到NPU里面。

我們也支持通用架構(gòu),并正在開(kāi)發(fā)Unified AI software stack(軟件棧)。這一軟件棧能夠智能地識(shí)別系統(tǒng)中的CPU、NPU和iGPU這三種加速引擎,并自動(dòng)分配最適合的引擎來(lái)處理相應(yīng)的工作流程,從而實(shí)現(xiàn)最優(yōu)性能。

我將很快分享一下AMD基于Edge&Embedded,在嵌入式和邊緣的應(yīng)用。

在AMD,這個(gè)平臺(tái)是真正的一個(gè)異構(gòu)計(jì)算平臺(tái),它不僅包括可編程邏輯,也包括XDNA和ARM CPU。它能夠處理AI中的關(guān)鍵模塊,包括前處理,如LiDAR數(shù)據(jù)處理,這些都可以由可編程模塊來(lái)執(zhí)行。

AI的Inference可以在XDNA架構(gòu)中進(jìn)行,而一些后處理、決策和Dedision Making則可以在后處理器,如CPU里面去進(jìn)行。

我介紹一個(gè)Demo,它是基于AI的立體攝像頭實(shí)現(xiàn)的,沒(méi)有用雷達(dá),也沒(méi)有用地圖,可以看到只是用了立體攝像頭做AI相應(yīng)的處理,就能實(shí)現(xiàn)自動(dòng)駕駛的功能。

最后我總結(jié)一下我們的優(yōu)勢(shì),我們能夠定義新的AI時(shí)代端到端的基礎(chǔ)設(shè)施,我們整個(gè)產(chǎn)品的線路是最全的,從數(shù)據(jù)中心、從邊緣,到端側(cè),都有一整套的硬件。

我們?cè)贏I軟件上一直有非常大的投入,包括對(duì)軟件的支持,我們一直走的是開(kāi)源開(kāi)放的生態(tài),讓所有的AI開(kāi)發(fā)者、客戶、用戶,包括整個(gè)社區(qū),大家都可以在我們開(kāi)放的軟件平臺(tái)上貢獻(xiàn),去推進(jìn)整個(gè)AI軟件的快速發(fā)展,去支持在不同平臺(tái)上的各種新的模型。

我們正處在一個(gè)AI推動(dòng)的社會(huì)變革中,AI的影響已經(jīng)深入到我們的日常生活之中。AMD會(huì)繼續(xù)推進(jìn)大模型,從云邊端的部署,以真正幫助到用戶,基于AI技術(shù)去打造一個(gè)更加方便、更加便捷的生活。