芯東西(公眾號:aichip001)
編輯 | ?GACS

9月14日~15日,2023全球AI芯片峰會(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,原粒半導(dǎo)體聯(lián)合創(chuàng)始人原鋼分享了題為《AI Chiplet:加速大模型在邊緣端多場景落地的新思路》的主題演講。

由于大模型蒸餾技術(shù)得到了充分發(fā)展,超大模型可以生成一系列適合邊端的小模型,取得接近于大模型的效果。而說到大模型邊緣端部署,一定離不開芯片的支持。原鋼談道,面對大模型,當(dāng)下的邊緣端芯片面臨挑戰(zhàn),涉及模型演進、存儲容量、帶寬、互連、功耗、方案成本、多變需求、研發(fā)成本、研發(fā)周期等多個方面。

對此,原粒半導(dǎo)體的思路是用AI Chiplet的方法應(yīng)對,把SoC算力跟NPU(神經(jīng)網(wǎng)絡(luò)處理器)的AI算力解綁,再靈活組合出邊緣端芯片,以適配邊緣端大模型的推理要求。目前,原粒半導(dǎo)體已研發(fā)出多模態(tài)算力核心CalCore技術(shù),支持企業(yè)將大模型部署在端側(cè);以及自適應(yīng)算力融合CalFusion技術(shù),自動分配芯粒以捆綁不同的算力。

以下為原鋼的演講實錄

大家下午好,我叫原鋼,來自原粒半導(dǎo)體。今天很感謝主辦方邀請我能來參加活動,我們主要是想分享一下大模型在邊緣端側(cè)的一些想法。

我這次主要報告大概分成三個部分:一是邊緣端大模型芯片機遇和挑戰(zhàn),二是如何用Chiplet推動邊緣端大模型部署,最后是原粒半導(dǎo)體在AI Chiplet方面所做努力或者想法。

一、大模型奔向邊緣端,AI芯片面臨九大挑戰(zhàn)

第一部分,邊緣大模型AI芯片機遇和挑戰(zhàn)。就在幾個月之前,基本上大家談到大模型還是大語言模型,無論是ChatGPT,還是百度文心一言,以及阿里、騰訊、科大迅飛的(大模型),大家都是在云端做大模型的推理。在云端推理,并不適合每一個場景,有很多場景需要在邊端推理。

這里總結(jié)了四個典型問題:

第一,在云端推理,當(dāng)你用戶的數(shù)目激增的時候,基本上云端服務(wù)器的成本,無論是部署成本還是最后的運營成本,總成本都會得到很大的提升。根據(jù)CNBC報道,微軟在Bing里已經(jīng)集成了ChatGPT的引擎,如果想滿足所有Bing客戶的請求,想得到一個很好的響應(yīng),大概要部署16萬塊A100,投資40億美元,并不是每一個創(chuàng)業(yè)公司都有能力、有足夠的成本覆蓋這部分的投入。

第二,大模型對網(wǎng)絡(luò)要求非常強。有很多場景不可能時時刻刻有聯(lián)網(wǎng),典型就是車,因為車在城市里開問題不大,一旦開到郊區(qū),開到無人區(qū)或者越野,大概率網(wǎng)絡(luò)會時有時無,甚至山里很可能沒有網(wǎng)絡(luò)了。無論是座艙還是自動駕駛,如果是高度依賴云端推理,我想在車領(lǐng)域是很不適合的。

第三,云端無論是因為算力的漲落還是因為網(wǎng)絡(luò)延遲,總會造成控制網(wǎng)絡(luò)的延遲。比如谷歌演示的通過大模型演示機械手,如果依賴云端的推理,很可能在機械手操作過程中出現(xiàn)卡頓,甚至出現(xiàn)更多的錯誤,這對于機械手來說是絕對不能接受的。

第四,云端安全問題。有很多場景是非常明顯的,像醫(yī)院會有很多病歷,對于他們來說都是非常高的精密數(shù)據(jù),他們大概不會把它傳到云端去做推理。大模型很大的應(yīng)用是對于已有文檔的推理或者歸納,產(chǎn)生一些新的報告,比如讓它閱讀以往的文件、產(chǎn)生綜述或者分析以往病歷、推理病的診斷。這個情況下如果把之前積攢的模型全部放到云端,這對很多特殊場合肯定是不能接受的。

最近兩三個月來,可以看到整個大模型在加速地奔向邊緣端。因為目前大模型蒸餾技術(shù)得到了充分的發(fā)展,使用原來預(yù)訓(xùn)練超大模型,通過對應(yīng)的辦法,生成一系列適合邊端的小模型,就能取得接近于大模型的效果。

右邊列了比較典型的例子,類似于Meta已經(jīng)推出7B、13B、70B,最早是3B。這種模型,如果進行量化,比如量化成INT4之后,它很適合在邊緣端設(shè)備上部署的。

我們也看到最近兩個月,無論是高通還是蘋果,都已經(jīng)嘗試在他們的手機上部署大模型。左邊結(jié)構(gòu)是我自己iPhone的截圖,它跑的是7B模型,達到了相對比較好的結(jié)果。當(dāng)然可能跟云端ChatGPT沒法比,但是我感覺如果對一些垂直領(lǐng)域的應(yīng)用來說,可能不需要回答一些哲學(xué)問題,只是讓它回答簡單的問題,還是高度可用的。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

既然說到大模型要到邊緣端,一定會有芯片。本身在邊緣端大模型芯片,現(xiàn)在多數(shù)是SoC。如果你為邊緣端推理部署一些芯片,我們大概總結(jié)了一些困境或者一些需要考慮的問題:

第一,模型演進。整個大模型的演進復(fù)雜度遠(yuǎn)超原來CNN算法復(fù)雜度,而且算法不斷迭代。包括Transformer本身,很可能不久將來對基礎(chǔ)的結(jié)構(gòu)也會替換掉。這樣就要求當(dāng)我們做芯片設(shè)計,比如AI IP的時候,就不能說針對某一個模型做優(yōu)化,很可能當(dāng)你芯片出來之后就已經(jīng)過時了,不能支持最新的算法。

第二,存儲容量。大模型的容量遠(yuǎn)遠(yuǎn)超過之前傳統(tǒng)CNN的模型。最小的大模型,就算是3B,如果不量化,大概也有3GB容量,已經(jīng)超過很多經(jīng)典SoC能支撐的容量。

第三,帶寬。如果拿大模型做語音推理,基本上每吐出一個字/詞就要把整個模型完整地Round一遍。如果達到一秒鐘吐出10個詞,如果用一個3GB模型,整個SoC帶寬至少要30GB,才能夠支持這么一個推理。

第四,互聯(lián)。如果跑很大的模型,很可能一個芯片不能完成。就像剛才嘉賓講的,他們是用芯粒的方式,可能會用多個芯?;蛘叨鄠€芯片完成一個大模型的推理。對于大模型怎么拆分,拆完之后你認(rèn)為怎么分配、算力怎么部署,會有很復(fù)雜的考量。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

第五,功耗。邊緣端最看重功耗。因為在云端,功耗就是成本問題,無非是對各種散熱方法,可以承受。英偉達最新的H100或更高的卡,可能已經(jīng)到700W功耗,這對數(shù)據(jù)中心來說不是什么大問題,但是作為邊緣端,基本功耗超過10W就加風(fēng)扇了。加風(fēng)扇,一是有噪音,二是風(fēng)扇可靠性會有問題,所以邊緣端,功耗是非常重要的因素。

第六,整個方案的成本。比如你要搭配不同的算力,成本是決定大模型在邊緣端能不能真正大批量鋪開一個非常關(guān)鍵的因素。因為很多應(yīng)用,大模型本身是做一個賦能,如果成本太高,去做市場推廣也是很不利的。

第七,多變需求。大模型的尺寸可能既有不到3B,又有超過10B甚至100B,很可能你需要在不同場景部署不同的尺寸大模型。這樣就要求你,很難用統(tǒng)一的標(biāo)準(zhǔn)或者幾個標(biāo)準(zhǔn)的規(guī)格SoC去覆蓋這一系列模型,因為這樣對于成本不是特別劃算。最好的是給每一個算法或者每一個模型尺寸專門去配一個SoC,這對于研發(fā)來說成本是不能接受的。

最后兩項:一個是研發(fā)成本,一個是研發(fā)周期。現(xiàn)在一個SoC,如果12納米,基本上在1000萬到2000萬美元之間,連IP到后端可能才能拿下來,周期基本18個月,連前端驗證+后端+整個軟件開發(fā)。如果你想開發(fā)太多規(guī)格的SoC,無論是周期還是成本,都是很難承受的代價。

二、AI Chiplet :邊緣端大模型部署新選擇

下面講講我們?nèi)绾稳テ平鈩偛盘岬降膯栴},我們的思路是用AI Chiplet的方法進行應(yīng)對。

首先拿桌面游戲的PC舉例,因為我是很多年電腦游戲的玩家。我們在學(xué)校去配一臺游戲電腦,CPU沒什么太多可選的?,F(xiàn)在我們就用一顆i5 13500或者i7 13700,就能滿足絕大部分的要求,主要成本或錢就花在顯卡上。玩一些網(wǎng)游顯卡需要兩千,主流游戲可能要三千到四千,骨灰級游戲可能要一萬多,就是英偉達的4090。依此類推,基本上CPU跟主板變化是非常小的。主要對游戲來說,CPU都不是瓶頸,真正瓶頸在顯卡。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

我們拓展到邊緣端是一樣的,現(xiàn)在很多邊緣端應(yīng)用,SoC或者是Arm,它的能力都足夠覆蓋大模型處理需求,真正差別在于NPU本身。我們可以參照PC端情況,我們把SoC和NPU也進行解綁。像這邊,也是對應(yīng)左邊三個顯卡,也是列出三種NPU Die的組合。

比如我們拿一個SoC配合輕量級NPU,它就可以處理一些比較輕量級的AI任務(wù)。拿SoC配一顆中量級的NPU Die,就可以處理稍微復(fù)雜的工作。把同樣一個SoC去配兩顆NPU Die的組合,就可以處理非常重的任務(wù)。這是把算力跟NPU解綁的過程,可以很靈活各種方案適配邊緣端大模型推理的要求。

我們是用NPU、用芯粒來解決問題,怎么做呢?說起來簡單,其實有很多問題要考慮,尤其是成本。由成本,又引入了互連、存儲、擴展三個方面。

首先看互連,因為現(xiàn)在NPU基本是基于MR總線或者基于其他的總線,它是很寬的一個并行接口。如果簡單把它移到片外,等于你要應(yīng)對幾千條很高速的連接才能跟CPU進行連接。對于封裝甚至最高級的封裝是不能接受的,所以必須把接口進行轉(zhuǎn)換。但是轉(zhuǎn)換就有很多不同的選項,包括USB也有很多不同的選項。不同的選項,決定它有不同的成本,包括方案,2D封裝還是2.5D封裝?一個基板,到底是5美金還是20美金?這個會差得非常大。

當(dāng)我們芯粒跟SoC互連,目前的情況主要是,市面上的SoC或者已經(jīng)做好的SoC的設(shè)計都不會有專用的die-to-die結(jié)構(gòu),還是用通用的PCIe或者USB接口。如果把NPU從CPU中剝離,如果用專用結(jié)構(gòu),整個設(shè)計要重來。如果已經(jīng)有現(xiàn)成的一顆SoC,不想重來怎么辦呢?就可以用USB或者PCIe接口,跟主芯片進行互連,這樣可以很快地得到一個全新的設(shè)計。

然后存儲,這主要是說AI Chiplet到底是自帶DRAM還是主SoC的DRAM?因為現(xiàn)在多數(shù)主流SoC本身DRAM的位寬不是很寬,最大的也是將將應(yīng)對大概7B大模型的支持。我們?nèi)绻ミx擇用共享來做DRAM,它的好處是成本,整個方案可能只用同一個DRAM,但是它會搶主SoC帶寬。尤其同時顯示,顯示要不斷刷屏。如果用大模型推理,再去搶主SoC帶寬,會對原來功能形成沖擊。這塊要平衡一下,到底RAM是放在主芯片,通過總線共享,還是每個AI芯粒要自帶一個DRAM?

然后是擴展,擴展主要指的是到底是從頭為了把AI芯粒拆分出來,重新設(shè)計一顆?還是盡量借由現(xiàn)有的SoC設(shè)計,只去迭代推出一個方案?如果是AI Chiplet,面臨多芯?;ヂ?lián)的問題,因為芯粒最大的好處是堆疊不同數(shù)目的Die、不同種類的Die,來實現(xiàn)迅速的新方案,所以互聯(lián)也是它難以避免的話題。

三、原粒AI Chiplet,助力SoC廠商拓展大模型邊緣端應(yīng)用

下面簡單給大家匯報一下我們原粒半導(dǎo)體在AI方面的進展,還有我們一些想法。

首先給大家介紹一下,我們公司成立也不太久,我們所有核心成員都是來自于國內(nèi)、國外頂級的芯片公司。整個團隊在AI方面的經(jīng)驗有很多年的時間,一直專注于AI芯粒本身。我們公司的目標(biāo)是專注于AI芯粒本身,配合其他成熟或者現(xiàn)有的廠商,提供做大模型算力的支持。

我們主要提供下面四類產(chǎn)品:第一,標(biāo)準(zhǔn)AI Chiplet產(chǎn)品,翻譯過來就是買Die。第二,我們會把AI Chiplet做封裝,提供給客戶。因為有些客戶是沒有封裝設(shè)備能力,可能它有一個芯片但是不希望進行合封,因為種種原因可能不太適合合封,我們可以把我們的Die封成芯片,在PC板上跟它進行連接。第三,我們會做一些定制化AI Chiplet封裝,主要是兩方面,一是AI Chiplet規(guī)格,比如客戶需要多少算力、需要什么樣的接口,我們可以定制;二是可以通過客戶所需要的算力,去搭配不同數(shù)目的AI Die,給客戶提供類似的選擇。最后,AI應(yīng)用開發(fā)軟件棧,畢竟也是我們一個異構(gòu)的AI處理器,肯定是需要有一些配套的軟件開發(fā)棧完成客戶的設(shè)計。

這邊主要介紹我們公司兩個核心技術(shù),一個是重中之重,多模態(tài)算力核心。無論是對于傳統(tǒng)CNN算法,還是對于目前大模型、未來多模態(tài)算法,都能提供很好的支持。它為了支持未來的這些算法,盡量提高兼容性,做了從INT4、INT8、FP8等全精度的支持,便于客戶把它在顯卡上所訓(xùn)練好的模型直接部署到我們芯片中。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

第二個是跟AI Chiplet結(jié)合很緊的自適應(yīng)算力融合技術(shù),這也是跟芯粒概念息息相關(guān)、緊密捆綁的,必須得做一個不同拓?fù)浣Y(jié)構(gòu)的支持。我可能會根據(jù)不同算法要求或者不同應(yīng)用場景,去捆綁不同的算力。同時,不同芯粒之間可能也會用不同的拓?fù)浞绞?。如果你讓客戶根?jù)拓?fù)浣Y(jié)構(gòu)編程、定制,我想體驗會非常差。我們這邊所有的軟件和硬件是支持拓?fù)渥赃m應(yīng)的連接,無論芯粒配了多少顆,用什么樣的拓?fù)?,會自動把它進行分配,包括協(xié)調(diào)芯粒之間的連接。

當(dāng)我們有4個芯粒組成的系統(tǒng),怎么動態(tài)分配它的連接還有算力?左邊是基于Tranformer大模型的一段,比如這個模型非常大,無論它的容量還是算力都不足以被一顆算力所支撐,我們會把它拆成兩段,把它放在兩個芯粒,甚至拆成更多的段。當(dāng)然,這個工作都是由編譯器、運行時自動完成的。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

如果是右邊的案例,這是稍微比較經(jīng)典的CV視覺任務(wù)。當(dāng)我們一個芯粒能處理超過一個模型的時候,會把我們輸出數(shù)據(jù)最合理地分配到不同的芯粒之間,實現(xiàn)一個更高的效果。我們支持通過分景模型、分景任務(wù),自動分配。無論是對于模型切分,還是對于任務(wù)進行切分,都是能完成的。

另外強調(diào)一點,目前看到的一些新的應(yīng)用或者新的場景,是對于本地大模型微調(diào)的需求。以后大模型更多是垂直領(lǐng)域,無論是律所還是醫(yī)院,甚至更加小眾的,他們大概的模式是去下載預(yù)訓(xùn)練大模型,結(jié)合本地一些數(shù)據(jù),然后做微調(diào),去匹配,在本地進行更符合本地業(yè)務(wù)的推理,這也是未來大模型非常典型的應(yīng)用。

傳統(tǒng)的方法怎么做的?我拿大模型,在云端或者在大服務(wù)器上,針對本地的數(shù)據(jù)進行微調(diào)。因為芯粒支持多精度計算,我們是支持在邊緣端針對本地采集的數(shù)據(jù)進行微調(diào)。我們把大模型微調(diào)的位置從服務(wù)器或者從客戶中心轉(zhuǎn)移到邊緣端設(shè)備,這未來一定會創(chuàng)造很多新的應(yīng)用場景。

基本上每家做芯片都會有,配合AI Chiplet一定會有一套軟件。這跟別家不一樣,對多芯粒之間拓?fù)涞闹С?。無論你的算力是多少、你的配置多少,一定會有一個配置,如果你要求客戶自己根據(jù)硬件連接做特殊編程,一定會有非常差的體驗。我們從供應(yīng)鏈、運行時的角度,能夠根據(jù)你的配置、算力、任務(wù)需求自動分配,完全是透明的,用戶看到的就是算力大了很多。比如我們用了4個芯粒,用戶看到就是算力×4統(tǒng)一的接口,不會按照4個NPU的方法去編程。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

為了加快產(chǎn)品落地,也是為了盡量重用市場現(xiàn)有SoC廠商的產(chǎn)品,我們?yōu)橐恍┏墒霺oC產(chǎn)品做優(yōu)化。主要是這幾塊:

第一,我們是會用標(biāo)準(zhǔn)的接口搭配現(xiàn)在已經(jīng)成熟的SoC,無論是市場上買到的還是未來的發(fā)布,大多數(shù)可能具備PCIe或者USB接口。

第二,芯?;ミB,我們采用的是多模態(tài)die-to-die接口。多模態(tài)指的是既支持在同一個封裝上進行多模態(tài)集成,也支持多個芯片在PCB上進行互連。這樣的好處是,用戶可以通過最大的靈活性滿足要求。因為我們重做一個封裝至少要6個月時間,從設(shè)計到打樣、量產(chǎn),畢竟還要去調(diào)測程序,還要做很多事情。但是重做一個PCB,最快一個月時間可以完成一個生產(chǎn)。為了能夠滿足盡量多樣化配置和規(guī)格需求,也盡量縮短研發(fā)時間,我們采用了既支持多Die在統(tǒng)一封裝形式,也支持PCB級擴展的模式。

我們放了很多異構(gòu)核心,主要考量我們想盡量降低對主芯片算力的需求,采用最低端的CPU也可以通過配合AI芯粒完成大模型的推理。

我們也會支持一些可選非易失性存儲器接口,主要是考慮當(dāng)配合一些很低端CPU的時候,可能不具備高速的Flash接口。我們會在芯粒內(nèi)部會支持這么一個加載,其實也是變相減輕了對主CPU的需求。我們還是采用2D封裝,盡量滿足成本需求,沒有采用2.5D封裝。

給大家匯報一下我們目前的產(chǎn)品規(guī)劃。

這是我們第一代產(chǎn)品規(guī)劃,單芯粒數(shù)+TOPS INT8等效算力,支持多芯粒擴展數(shù)十至數(shù)百TOPS INT8等效算力;支持FP32/FP16/BF16/FP8/INT8/INT4等AI精度;我們是支持高效訓(xùn)推一體架構(gòu),支持通用算子及自定義算子。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

在互連方面,我們支持die-to-die方式,也支持通過PCIe和USB等方式互連。支持不同位寬不同數(shù)目的位置,滿足不同場景的需求。這是我們推出的標(biāo)準(zhǔn)封裝片產(chǎn)品,包括封了1個Die、2個Die,還有4個Die的。

我們列了一些現(xiàn)在主流上能買到的SoC規(guī)格,至少是A53、A55起。我們認(rèn)為這些SoC跑大模型足夠強,它們有足夠數(shù)目的視頻接口,也有足夠規(guī)格的硬件接口,是跑編程大模型一個很完美的CPU配置。只要去搭配原?,F(xiàn)有的AI Chiplet,很快可以實現(xiàn)邊緣端大模型推理方案。

原粒半導(dǎo)體原鋼:大模型加速奔向邊緣端,AI Chiplet成部署新選擇丨GACS 2023

最后給大家講一下我們的愿景,我們的愿景是聚焦高性價比、多模態(tài)通用AI Chiplet研發(fā)。我們目標(biāo)是配合現(xiàn)有SoC廠商,一起合作供應(yīng)推出大模型邊緣端方案。我們的遠(yuǎn)景是做一個最全面AI算力基礎(chǔ)設(shè)施供應(yīng)商。我的報告到這里,謝謝大家聆聽。

以上是原鋼演講內(nèi)容的完整整理。