芯東西(公眾號(hào):aichip001)
編輯 |? GACS

芯東西10月7日?qǐng)?bào)道,9月14日~15日,2023全球AI芯片峰會(huì)(GACS 2023)在深圳南山圓滿舉行。在次日高效能AI芯片芯片專場(chǎng)上,九天睿芯副總裁袁野分享了主題為《基于6T SRAM的混合存內(nèi)計(jì)算架構(gòu)處理器加速多樣化應(yīng)用落地》的主題演講。

袁野在演講中介紹了AIGC和存內(nèi)計(jì)算與高速互聯(lián)的技術(shù)。對(duì)于AIGC,他強(qiáng)調(diào)了它是人類的助手而不是取代工作,指出了基于ChatGPT的應(yīng)用領(lǐng)域和未來(lái)的發(fā)展趨勢(shì)。同時(shí),他講到存內(nèi)計(jì)算技術(shù),包括模式混合架構(gòu)和純數(shù)字架構(gòu)各自的優(yōu)勢(shì)。

袁野還介紹了九天睿芯開(kāi)發(fā)的ADA系列芯片,針對(duì)傳感器側(cè)、SoC側(cè)大算力需求的定位。并且列舉了一些應(yīng)用機(jī)會(huì),如星光級(jí)夜視和個(gè)人智能終端。

以下為袁野的演講實(shí)錄:

非常高興能來(lái)參加這次活動(dòng),大概給大家講一下我們現(xiàn)在的一些情況,也給大家分享一下我們所暢想的一些未來(lái)。分成四個(gè)部分,第一個(gè)講講AIGC,第二個(gè)講講我們存內(nèi)計(jì)算與高速互聯(lián)的技術(shù)。因?yàn)樵谕黄拼笏懔ζ款i上,除了本身的存內(nèi)計(jì)算技術(shù)是最底層的解決互聯(lián)問(wèn)題以外,中間相互之間的互聯(lián)也是非常重要的一個(gè)板塊。

第一個(gè)板塊是AIGC。ChatGPT剛出來(lái)的時(shí)候,很多人在說(shuō)基于這個(gè)生態(tài)可能會(huì)取代很多工作,但是在我看來(lái)AIGC一直是人類的助手,所以不要太過(guò)于把它看成一個(gè)猛虎,而是要把它看成一個(gè)伙伴,一個(gè)絕對(duì)非常好用的輔助工具跟助手。

我一直在用ChatGPT,在使用過(guò)程中發(fā)現(xiàn)它有自身的缺陷,包括它本身是一個(gè)逐字推理的模型,所以效率肯定不會(huì)特別高。第二,它腦洞確實(shí)比較小,因?yàn)槭鼙旧韮?nèi)部邏輯的限制。還有它在時(shí)空域的聯(lián)想會(huì)比較差,如果前天問(wèn)了它一個(gè)問(wèn)題今天再去問(wèn),同一個(gè)人對(duì)它問(wèn)的問(wèn)題,但是得出來(lái)的結(jié)果是不一樣的。

ChatGPT是一個(gè)通用大模型,當(dāng)它真正做到個(gè)人模型后就可以解決相關(guān)的問(wèn)題,所以真正的通用大模型未來(lái)到垂直落地場(chǎng)景、到個(gè)人大模型,我覺(jué)得是大趨勢(shì)。

大模型可以應(yīng)用的點(diǎn),像教育、客服、助手、NPC這些都非常多。我是一個(gè)游戲愛(ài)好者,也是一個(gè)小說(shuō)愛(ài)好者,所以網(wǎng)絡(luò)上腦洞大開(kāi)的寫(xiě)游戲的虛擬小說(shuō),我覺(jué)得寫(xiě)得非常好。通過(guò)ChatGPT和現(xiàn)在大算力的發(fā)展,包括存內(nèi)計(jì)算的發(fā)展,那種游戲的落地在未來(lái)已經(jīng)不遠(yuǎn)了。這對(duì)我個(gè)人來(lái)說(shuō)是一件非常值得興奮的事情,在我有生之年能夠完善這樣的游戲我就圓滿了。

一、基于純數(shù)字架構(gòu)SRAM存內(nèi)計(jì)算,ADA系列芯片能效、面效雙提升

基于我們本身的存內(nèi)計(jì)算給大家講一講。初期我們是做模式混合架構(gòu)存內(nèi)計(jì)算的芯片,后面同步延展了基于純數(shù)字架構(gòu)SRAM的存內(nèi)計(jì)算的芯片?,F(xiàn)在第二代ADA200芯片能效跟面效比已經(jīng)非常明顯了,能效比做到20TOPS/W,面效是做到10TOPS/平方,比現(xiàn)有純數(shù)字架構(gòu)的MPU有非常大的優(yōu)勢(shì)。

九天睿芯袁野:存內(nèi)計(jì)算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運(yùn)墻”丨GACS 2023

另外,基于數(shù)字板塊架構(gòu)的SRAM存內(nèi)計(jì)算也在設(shè)計(jì)當(dāng)中。

為什么還去做一個(gè)純數(shù)字的?因?yàn)槟J交旌系募軜?gòu)在支持INT8、INT4、INT2這樣有效精度計(jì)算時(shí)候是非常好的,但是在做更高精度的比如16甚至32精度計(jì)算的時(shí)候表現(xiàn)就沒(méi)有那么好。所以做了純數(shù)字架構(gòu)SRAM的東西以后,純數(shù)字的可以做更高精度的計(jì)算,模式混合的可以做低精度的計(jì)算。整個(gè)芯片做好融合以后,在推理跟訓(xùn)練的時(shí)候都可以用到,這就類似于GPU的核心功能。

這是我們一個(gè)完整的實(shí)現(xiàn)方式,數(shù)字的就是數(shù)字信號(hào)+加法樹(shù)+無(wú)精度損失,好處是無(wú)精度損失。模式混合的架構(gòu)的好處是在面效跟能效上表現(xiàn)上會(huì)更高,但是會(huì)有一定精度損失。現(xiàn)在我們自己測(cè)試下來(lái),精度損失差不多在百萬(wàn)分之二,在大模型或者大量AI運(yùn)算上基本是可以忽略不計(jì)的損失。

另外一種方式是CIMA,用純模擬的架構(gòu)做,它更好的支持類似于INT4、INT2更低精度的運(yùn)算。在未來(lái)大模型量化過(guò)后,CIMA也是很好的方向。我們跟很多做AIGC的大廠、做大模型大廠溝通的時(shí)候,他們現(xiàn)在還是基于INT8、INT16級(jí)別在做。往更低層次的量化,他們有在研究但是還沒(méi)有做。

九天睿芯袁野:存內(nèi)計(jì)算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運(yùn)墻”丨GACS 2023

我們也得到了其它的消息,現(xiàn)在AIGC算法或者大模型的算法未來(lái)會(huì)往什么方向走還是不定性的,而且國(guó)內(nèi)的牌照未來(lái)可能還會(huì)重新洗牌,到底哪些廠商有資格去做大模型現(xiàn)在還沒(méi)有定論。

所以在做這個(gè)芯片的時(shí)候,無(wú)論是選擇CIMD還是CIMX架構(gòu),我們更多思考的是怎么把底層對(duì)Transformer一些算子的支持、把互聯(lián)做好,而不是現(xiàn)在就去做一顆SoC。如果現(xiàn)階段就去做SoC,可能在某個(gè)階段等真真正正大模型定下來(lái)以后到底適不適用,還是一個(gè)非常大的問(wèn)題?,F(xiàn)在更多的精力是跟很多的大廠做溝通或者基于存內(nèi)計(jì)算定制開(kāi)發(fā)的合作。這里講了CIMD、CIMX的優(yōu)勢(shì)。

九天睿芯袁野:存內(nèi)計(jì)算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運(yùn)墻”丨GACS 2023

我們定位的幾個(gè)事情:第一,針對(duì)傳感器側(cè),已經(jīng)量產(chǎn)的ADA100芯片系列是完全針對(duì)傳感器側(cè)AI的運(yùn)算。AI的東西應(yīng)該是無(wú)處不在的,從最初的傳感器端開(kāi)始就可以帶一定的AI處理,幫助壓縮傳到后端的數(shù)據(jù)量或者是更準(zhǔn)確的數(shù)據(jù)傳到后端的核心功能,所以第一代芯片中非常小算力的部分主要是針對(duì)邊緣側(cè)傳感器的AI。

ADA200系列差不多4T左右,而且4T-20T范圍內(nèi)的AI芯片就是針對(duì)SoC側(cè)的算力補(bǔ)充。SoC側(cè)的算力想覆蓋所有應(yīng)用是非常難的,現(xiàn)在很多產(chǎn)品對(duì)AI需求會(huì)越來(lái)越大,但是SoC要重新設(shè)計(jì)或者做更大的NPU難度是非常大的。我們就去做了這樣的NPU來(lái)幫助做算力支撐,算是SoC側(cè)的一個(gè)協(xié)處理器。ADA300更多是針對(duì)更大算力需求,比如100T-1000T范圍的算力支撐,我們也是針對(duì)算力支撐而沒(méi)有做完整的SoC。

為什么做這樣的東西,或者ADA300為什么做呢?跟國(guó)內(nèi)做筆電、手機(jī)大廠溝通的時(shí)候發(fā)現(xiàn),他們想把AIGC直接落地在平板、電腦上,形成個(gè)人的AI智能終端。這樣的AI智能終端對(duì)算力的需求很大,而且對(duì)功耗方面的要求很高,所以存內(nèi)計(jì)算在這個(gè)階段可以發(fā)揮非常好的作用,這是我們?yōu)槭裁匆鲞@個(gè)產(chǎn)品的原因,待會(huì)兒有具體的應(yīng)用跟大家分享。

二、高速互聯(lián)接口,打通CPU、算力、存儲(chǔ)的次級(jí)搬運(yùn)墻

我們公司2018年成立,中間有做了兩代、三代存內(nèi)計(jì)算,今年開(kāi)始做互聯(lián)。為什么做互聯(lián)?存內(nèi)計(jì)算所形成的算力芯片并不大,單個(gè)存內(nèi)計(jì)算芯片算力基本上是堆到4T,再往上走是通過(guò)互聯(lián)通過(guò)疊加的形式實(shí)現(xiàn)更大算力的模式,所以互聯(lián)在整個(gè)AI或者存內(nèi)計(jì)算中起到的作用是非常核心的,這是我們?yōu)槭裁醋龌ヂ?lián)的原因。

在芯片內(nèi)部或者芯片外部,互聯(lián)技術(shù)已經(jīng)非常多了,基本上是把整個(gè)行業(yè)做了一個(gè)串聯(lián),從最初傳感器到端側(cè)的SoC,通過(guò)低速接口做連接。

SoC內(nèi)部CPU、GPU之間的互相通信也是有自己的通信技術(shù)。存儲(chǔ)跟CPU之間的通信不用說(shuō),SATA是最早的,但是現(xiàn)在PCIe的東西越來(lái)越多,特別是服務(wù)器級(jí)類似這樣的芯片越來(lái)越多。存儲(chǔ)又跟傳輸中心、算力中心互連,中間有非常多的互連技術(shù)。典型代表,現(xiàn)在比較火的類似于英特爾提的CXL,基于PCIe5、PCIe6、NVlink這樣一些互連技術(shù),包括上面總線內(nèi)部的互聯(lián)就是我們現(xiàn)在所做的核心,一切是為了實(shí)現(xiàn)大算力做準(zhǔn)備。

我們自定義的技術(shù)就不詳細(xì)講了。一個(gè)是片內(nèi)的,一個(gè)是片間的。這兩塊互聯(lián)技術(shù)本身是圍繞未來(lái)大算力需求或者是中算力需求而去做準(zhǔn)備的。

九天睿芯袁野:存內(nèi)計(jì)算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運(yùn)墻”丨GACS 2023

三、算法+系統(tǒng)+底層硬件支持,AI技術(shù)升級(jí)加速應(yīng)用落地

最后我想說(shuō)的是迎接智能時(shí)代。

英偉達(dá)不用說(shuō)了,它本身的生態(tài)搭建得很完整。新一代應(yīng)對(duì)于推理側(cè)的芯片也出來(lái)了,而且它跟很多行業(yè)內(nèi)大廠已經(jīng)開(kāi)始向做下一代個(gè)人智能終端設(shè)備的趨勢(shì)走了。他們最早也是做協(xié)處理器,英偉達(dá)最早是做游戲顯卡起家,但是到下一代智能PC階段,基本上超過(guò)英特爾成為主控了,英特爾CPU反而可以說(shuō)是一個(gè)協(xié)處理器、控制器的概念。我們還是很看好AI的未來(lái),希望順著這條路走出國(guó)內(nèi)的發(fā)展。

我列舉了一些應(yīng)用的機(jī)會(huì),現(xiàn)在可以看到無(wú)論是手機(jī)、PC還是智能終端的設(shè)備,有越來(lái)越多AI升級(jí)的機(jī)會(huì),所以最終會(huì)帶來(lái)新的終端設(shè)備、新的行業(yè)設(shè)備、新的芯片架構(gòu)包括整個(gè)新的生態(tài)邏輯,是非常龐大的一個(gè)新的市場(chǎng)。在座的各位如果還有心思,可以仔細(xì)想一想在中間能夠找到什么樣的機(jī)會(huì)。

這邊列舉了一些應(yīng)用。第一個(gè),星光級(jí)夜視。這是我朋友公司做的技術(shù),他們可以在只有0.001lux的前提下做到真彩成像,這是非常牛的一個(gè)技術(shù)。它的算力是不高,但參數(shù)量非常大,怎么樣把它量化、跑起來(lái)是非常難的事情,所以現(xiàn)在用傳統(tǒng)的SoC跑延時(shí)就非常嚴(yán)重,而且成像效果并不佳。他的想法是基于存內(nèi)可不可以把這個(gè)東西做得更好?這是存內(nèi)的應(yīng)用點(diǎn),類似這樣的算法在未來(lái)會(huì)越來(lái)越多。怎么支持這樣的算法把AI落地得更好?這是我們要做的事情。

九天睿芯袁野:存內(nèi)計(jì)算適配AIGC芯片需求,高速互聯(lián)接口打通“搬運(yùn)墻”丨GACS 2023

第二個(gè),個(gè)人智能終端,這是暢想型的東西。所有ChatGPT或者AIGC的東西越來(lái)越成熟后,我們想把這些AI算力布置到各個(gè)終端上,包括手持式終端、便攜式終端,最終形成的是真正的自動(dòng)化助手。其中的生意機(jī)會(huì)也非常多。

總的來(lái)說(shuō),我們公司是提供支撐算力平臺(tái)的公司,我們想把它從傳感器側(cè)、到SOC側(cè)、到未來(lái)個(gè)人平臺(tái)側(cè)一些算力做更好的支撐,感謝大家!

以上是袁野演講內(nèi)容的完整整理。