芯東西(公眾號(hào):aichip001)
編輯 |?GACS 2024

2024全球AI芯片峰會(huì)(GACS 2024)于9月6日~7日在北京舉行,大會(huì)由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識(shí)分享社區(qū)智猩猩發(fā)起舉辦。在主會(huì)場(chǎng)AI芯片架構(gòu)創(chuàng)新專場(chǎng)上,億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬以《AI芯片架構(gòu)創(chuàng)新開啟大算力第二增長(zhǎng)曲線》為題發(fā)表演講。

熊大鵬認(rèn)為,AI芯片架構(gòu)創(chuàng)新將開啟大算力第二增長(zhǎng)曲線。如今摩爾定律面臨挑戰(zhàn),以計(jì)算單元為中心的已到達(dá)天花板,將來AI芯片一定是以存儲(chǔ)單元為中心。

他談到如今算力提升面臨瓶頸,首要破局之路就是是解決數(shù)據(jù)搬運(yùn)問題,并詳細(xì)展開闡述了存算一體技術(shù)對(duì)AI模型算力方面的支持作用。

在人工智能領(lǐng)域,存算一體技術(shù)正以前所未有的速度推動(dòng)著計(jì)算效率與性能邊界的拓展。該技術(shù)涵蓋了存內(nèi)計(jì)算與近存計(jì)算兩大主流路徑,旨在通過減少數(shù)據(jù)搬運(yùn)、提升計(jì)算密度與能效比,為大規(guī)模AI模型提供強(qiáng)有力的算力支持。

億鑄科技于2023年首次提出存算一體超異構(gòu)架構(gòu),并致力于通過基于新型存儲(chǔ)介質(zhì),提供高性價(jià)比,高能效比的AI大算力芯片。

億鑄科技熊大鵬:算力增長(zhǎng)面臨挑戰(zhàn),存算一體技術(shù)成破局密鑰丨GACS 2024▲億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬

以下為熊大鵬的演講實(shí)錄:

一、AI芯片架構(gòu)迎來第二增長(zhǎng)曲線,大模型引領(lǐng)算力需求飆升

今天我這邊介紹一下AI芯片架構(gòu)第二增長(zhǎng)曲線。

大模型發(fā)展到今天已經(jīng)從量變發(fā)生了質(zhì)變,量變指的是大模型不斷加大參數(shù)等,能夠使得模型的能力不斷增強(qiáng)。質(zhì)變,則是說當(dāng)大模型容量到了一定程度時(shí),人工智能尤其通用智能在某些方面超過人類,甚至后續(xù)的發(fā)展還會(huì)有更多超過人類的東西會(huì)出現(xiàn)。

同時(shí),隨著基礎(chǔ)模型越來越完善的情況下,再加上大模型最后一公里的落地,包括AI智能體等等,對(duì)于AI計(jì)算能力的需求會(huì)不斷持續(xù)快速地增長(zhǎng)。根據(jù)研究報(bào)告,市場(chǎng)規(guī)模已經(jīng)從2022年不到100億增長(zhǎng)到今年的780億美金。

從英偉達(dá)的財(cái)報(bào)能看得出來,去年其收入差不多700億美金,占了全球90%以上的AI芯片市場(chǎng)。預(yù)計(jì)到2029年,市場(chǎng)規(guī)模會(huì)到1510億美金,在這個(gè)過程中,我們可以看得到,2026年有可能會(huì)出現(xiàn)比較明顯的拐點(diǎn)。

這個(gè)拐點(diǎn)是什么?目前,全球更多的算力是花在大模型的訓(xùn)練上,到2026年,大模型會(huì)在各個(gè)領(lǐng)域開始落地,推動(dòng)推理算力的進(jìn)一步增長(zhǎng)。

根據(jù)IDC預(yù)計(jì),到2027年用于推理的AI算力占比可能會(huì)達(dá)到70%以上,未來95%以上都是推理模型一旦成熟之后,主要就是落地應(yīng)用,落地應(yīng)用主要就是推理。

摩爾定律已經(jīng)遇到很大的挑戰(zhàn),2019年OpenAI的研究表明,AI模型的計(jì)算量每年增長(zhǎng)十倍,遠(yuǎn)超摩爾定律一年半到兩年翻一倍。根據(jù)今年國(guó)信證券的研究報(bào)告,大模型的參數(shù)量每一年半增加35倍。

二、詳述AI芯片“三堵墻”,硬件架構(gòu)突破很重要

摩爾定律已經(jīng)失效,我們一定要尋求新的硬件架構(gòu)的突破。探索新的架構(gòu),成為非常關(guān)鍵非常重要的一件事

對(duì)于AI芯片來說,一直存在三面墻存儲(chǔ)墻、能耗墻、編譯墻。這些墻根源來源于存儲(chǔ)墻,也就是所需要參數(shù)的存儲(chǔ)量越來越大,對(duì)參數(shù)的搬運(yùn)量也越來越大。從這里出發(fā),帶來很多的問題。

第一,存儲(chǔ)墻會(huì)帶來數(shù)據(jù)的堵塞,需要我們對(duì)數(shù)據(jù)流在動(dòng)態(tài)過程中進(jìn)行優(yōu)化,這個(gè)也會(huì)導(dǎo)致軟件的算子要做非常深度的優(yōu)化。所有這些都會(huì)使得能耗非常高,不管是數(shù)據(jù)搬運(yùn)導(dǎo)致的能耗,還是因?yàn)槟P头浅4?,?duì)于計(jì)算能力的需求非常高。

繼而就會(huì)帶來能耗墻的問題英偉達(dá)最新的芯片B200,現(xiàn)在已經(jīng)推遲推出,其中的原因就是封裝散熱的問題。現(xiàn)在一顆芯片號(hào)稱功耗超過1000多瓦,這是一個(gè)很恐怖的數(shù)字。

第三,就是編譯墻。要對(duì)數(shù)據(jù)流進(jìn)行深度的優(yōu)化,這就要求編譯器包括相應(yīng)的工具能夠做得非常好,能夠提供非常好的優(yōu)化工具。當(dāng)然,這個(gè)很難做到,至少今天為止,我們做GPGPU公司很多人力物力包括資源都花在對(duì)算子、程序各方面的優(yōu)化。這是為什么英偉達(dá)在軟件生態(tài)上占據(jù)很大的優(yōu)勢(shì),這也是一個(gè)主要的原因之一。

三、盲目堆算力不可取,存算一體技術(shù)可為AI模型提供算力支持

問題的根源其實(shí)還是來自于阿姆達(dá)爾定律。對(duì)計(jì)算架構(gòu)基本實(shí)際有效的算力取決于兩個(gè)因素,一個(gè)α,一個(gè)F,α比較好理解,更好的工藝,能夠堆疊更多的計(jì)算單元在上面、能夠有更高的工作頻率,這個(gè)α值更高。

英特爾告訴我們,你買我更好的芯片,我的芯片工藝更好、密度更高、計(jì)算能力更強(qiáng)。但是我們買了它的電腦回去之后發(fā)現(xiàn),其實(shí)它真正的計(jì)算能力并沒有提高,或者提高不多,為什么?

真正決定計(jì)算效率的還有另外一個(gè)原因,包括數(shù)據(jù)的搬運(yùn)、數(shù)據(jù)的緩存、數(shù)據(jù)的整備所花的時(shí)間等等,這個(gè)時(shí)間在整個(gè)計(jì)算周期里面它占的百分比是F,如果這個(gè)值很大的話,你這個(gè)α值再高,其實(shí)最后它會(huì)碰到一個(gè)天花板,這個(gè)天花板是由F值設(shè)定的。

在AI大模型的時(shí)代,我們的AI芯片包括英偉達(dá)的AI芯片,用于數(shù)據(jù)搬運(yùn),不管能耗也好,還是它占用的整個(gè)計(jì)算周期百分比也好,都超過80%,甚至90%,就意味著英偉達(dá)如果繼續(xù)往下走,采取1nm、2nm的工藝,能收獲的性能提升也就是20%左右,基本到天花板。

為什么英偉達(dá)現(xiàn)在把更多的精力投放到跟存儲(chǔ)相關(guān)的,包括花很多精力去做HBM4.0。盡管這個(gè)東西做出來之后,最終賺錢可能是三星、SK海力士,但為了有效提升自己的AI芯片實(shí)際效能,這樣一條路必須要走。

將來的AI芯片一定是以存儲(chǔ)為中心,而不是以傳統(tǒng)的計(jì)算單元為中心來配存儲(chǔ)器。

這里舉一個(gè)簡(jiǎn)單的例子,去解答F值怎樣估算,怎樣影響有效算力的。LLaMA2—70B每次完整計(jì)算至少有70B或者70G數(shù)據(jù)的搬運(yùn),并且這個(gè)數(shù)據(jù)搬運(yùn)如果距離非常遠(yuǎn),所經(jīng)過的節(jié)點(diǎn)非常多,搬運(yùn)的時(shí)候頻率結(jié)點(diǎn)比較多,自然導(dǎo)致F值非常大,搬運(yùn)70B所花的時(shí)間比較長(zhǎng)。

現(xiàn)有的技術(shù)帶寬是很大瓶頸。舉一個(gè)例子,英偉達(dá)H100的算力大概是2000T,要把它的算力完全用滿,即使計(jì)算強(qiáng)度非常低的情況下,它大概需要1000T的搬運(yùn)量。這意味著即使現(xiàn)在用HBM4.0,甚至將來10.0或者20.0,我相信帶寬也不夠。

同樣再往下走,用現(xiàn)在HBM3.0的技術(shù)的H100,大概是3T的帶寬,當(dāng)然有另外一些種類可以到4T、6T,我們以3T作為例子,它的性能天花板就是42token,遠(yuǎn)遠(yuǎn)低于2000T的算力質(zhì)量能夠達(dá)到的。當(dāng)然它可以加上多用戶批處理,去把它的算力用得更多,但是它帶來的問題是延時(shí)比較長(zhǎng)。

芯片本身能夠支持的用戶數(shù)量是有限的,不管內(nèi)部的算子資源,還是并行度等等資源,會(huì)給它造成很大的限制。將來的模型會(huì)越來越大,我們相信帶寬的瓶頸會(huì)更加突出這些問題,F(xiàn)值進(jìn)一步上升,越上升意味著算力實(shí)際利用率越小。

如果只是盲目往上去堆算力,其實(shí)意義不大。

四、第一增長(zhǎng)曲線已觸頂,解決數(shù)據(jù)搬運(yùn)問題成關(guān)鍵

以算力單元為中心的時(shí)代已經(jīng)結(jié)束了,第二增長(zhǎng)曲線一定是以存儲(chǔ)單元為中心。

我們做過分析,第一增長(zhǎng)曲線基本已經(jīng)到了天花板,像今天英偉達(dá)BG200不斷堆計(jì)算單元核,堆到1000多瓦,很難想象這是什么概念,比重慶火鍋的溫度還高很多。一定要想新的辦法去解決這個(gè)問題。

突破天花板有兩個(gè)途徑,從芯片層面,主要就是要解決數(shù)據(jù)搬運(yùn)的問題。數(shù)據(jù)搬運(yùn)的問題第一點(diǎn)就是,縮短數(shù)據(jù)搬運(yùn)的距離和時(shí)間,如果沒有距離當(dāng)然是最好的,縮短距離有很多不同的方式,包括近存、3D封裝、2.5D封裝等等。

另外一類,存內(nèi)計(jì)算,計(jì)算和存儲(chǔ)在同一個(gè)單元。除了芯片本身之外,我們知道大模型一般來說用一顆芯片裝下去完成整個(gè)任務(wù)看起來不太現(xiàn)實(shí),即使推理也需要多顆芯片來做,這時(shí)候做一件事可能是一個(gè)集群。既然如此,板件和板件的通信互聯(lián)、芯片和芯片之間或者芯片內(nèi)部用Chiplet組成一個(gè)完整的芯片。

我們認(rèn)為,芯片之間的互聯(lián)是解決這個(gè)問題的另外一個(gè)重要路徑。包括類似英偉達(dá)的NVLink、NVSwitch技術(shù)也應(yīng)該是重點(diǎn)的研究方向之一。

存算一體有很多不同的技術(shù)路徑,有存內(nèi)計(jì)算,有近存計(jì)算。

對(duì)存內(nèi)計(jì)算來說,存儲(chǔ)和計(jì)算融為一體,有不同的方式做到這一點(diǎn),尤其模擬計(jì)算。但模擬計(jì)算有很多問題,主要是精度不可信。那些號(hào)稱8位精度、4位精度的,實(shí)際達(dá)不到。

數(shù)模轉(zhuǎn)換會(huì)吃掉很多的面積和功耗,三四年前,大家開始往數(shù)字化的存算一體方向轉(zhuǎn),包括億鑄也算是在這個(gè)領(lǐng)域走得比較靠前。

通過數(shù)字化的方式,有優(yōu)點(diǎn),也有犧牲存儲(chǔ)容量的代價(jià)。理論上來說,存內(nèi)計(jì)算可以讓F值等于0或者接近于0,是最理想的方式。當(dāng)然它也有它的問題,最大問題就是它的存儲(chǔ)容量,普遍來說,不管使用了哪種存儲(chǔ)介質(zhì),要么存儲(chǔ)容量不夠理想,要么計(jì)算速度各方面不是特別理想,希望有新的更好的下一代的新興存儲(chǔ)能夠出來。

后期的演進(jìn),到了全數(shù)字化存算一體,細(xì)節(jié)不解釋,主要的原理就是每個(gè)存儲(chǔ)器只存放0跟1,如果是8位精度就是8位存儲(chǔ)器,如果是16位的精度就是16位存儲(chǔ)器,性能可能會(huì)犧牲,但是精度是可信的,并且消滅掉了數(shù)模轉(zhuǎn)換最大的好處還是減少了或者消滅了數(shù)據(jù)搬運(yùn)的瓶頸。

說到近存計(jì)算,可以想象一個(gè)存儲(chǔ)器,不管其類型是SRAM、FRAM還是DRAM,我們將數(shù)據(jù)存放到這里。然后,另一側(cè)有一個(gè)計(jì)算單元,其中包括可重構(gòu)計(jì)算單元。存儲(chǔ)器和計(jì)算單元可以通過2.5D/3D封裝技術(shù)封裝到一起,二者之間距離很短,傳輸寬帶就變得很寬、速度很快。

另外,如果我們想處理像GPGPU相關(guān)的復(fù)雜計(jì)算任務(wù),或者是邏輯計(jì)算等,也可以把這兩個(gè)功能的芯片封裝到一起,形成一個(gè)比較完整的AI計(jì)算芯片。這種計(jì)算芯片,在很大程度上突破或者緩解了數(shù)據(jù)搬運(yùn)的帶寬和瓶頸的問題。

將各種計(jì)算單元通過2.5D/3D封裝技術(shù)封裝到一起,不同計(jì)算單元可以用各種不同的存儲(chǔ)介質(zhì),因?yàn)椴煌拇鎯?chǔ)介質(zhì)可能有不同的優(yōu)點(diǎn),也有不足,根據(jù)不同的應(yīng)用場(chǎng)景可以去做適配。這樣做的好處是,會(huì)使傳輸帶寬遠(yuǎn)遠(yuǎn)超過HBM(高帶寬內(nèi)存)技術(shù),能效比和性價(jià)比接近存內(nèi)計(jì)算。

存近計(jì)算與存內(nèi)計(jì)算兩個(gè)相比較,各有優(yōu)缺點(diǎn)。或許把存內(nèi)計(jì)算跟近存計(jì)算有進(jìn)行非常好的結(jié)合,其效果更能夠解決目前現(xiàn)實(shí)的問題。