芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦。在7日的主會場邊緣/端側(cè)AI芯片專場上,云天勵飛副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛軍以《面向大模型的國產(chǎn)工藝邊緣AI芯片架構(gòu)創(chuàng)新與展望》為題發(fā)表演講。

隨著大模型推動物理世界的智能化演進,更多的應(yīng)用將在邊緣側(cè)完成。大模型使邊緣AI場景面臨新的算力挑戰(zhàn)算力需求大、帶寬要求高、計算擴展性強。李愛軍談道,國產(chǎn)工藝邊緣AI芯片要應(yīng)對挑戰(zhàn),架構(gòu)創(chuàng)新是關(guān)鍵。

面向大模型所帶來的新的邊緣AI計算場景,云天勵飛研發(fā)國內(nèi)首顆基于國產(chǎn)工藝Chiplet系列化邊緣AI芯片,采用“算力積木”的理念,設(shè)計了D2D Chiplet/C2C Mesh大模型推理架構(gòu),從芯片設(shè)計、制程工藝、基板選擇到封裝測試均用國產(chǎn)技術(shù),算力覆蓋8TOPS~256TOPS,滿足大模型落地的個性化需求,可應(yīng)用于各類邊緣場景,并且工具鏈與軟件棧統(tǒng)一,算法的部署落地更便捷。

他預(yù)告說,云天勵飛后續(xù)將發(fā)布基于國產(chǎn)工藝的大模型邊緣推理一體機,提供更有性價比的邊緣算力。

云天勵飛李愛軍:詳解“算力積木”架構(gòu),探路國產(chǎn)工藝邊緣AI芯片丨GACS 2024▲云天勵飛副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛軍

以下是李愛軍演講內(nèi)容的完整整理:

一、大模型邊緣落地離不開芯片,打造三大產(chǎn)品技術(shù)平臺

云天勵飛創(chuàng)業(yè)10年一直堅持在邊緣AI這個場景。今年,大家非常清楚處于大模型應(yīng)用落地元年,我們看到的現(xiàn)狀是大模型應(yīng)用落地。海量的場景一定是在邊緣,而邊緣一定離不開芯片,離不開芯片其實有一個繞不開的話題就是國產(chǎn)工藝。如何在當前國產(chǎn)工藝的條件下做出能夠滿足大模型邊緣落地的AI芯片?這是我們不可回避的話題。今天我就給大家?guī)碓铺靹铒w基于這一命題下的一些實踐和探索。我會從以下四個方面闡述。

云天勵飛自創(chuàng)業(yè)以來深耕邊緣AI,圍繞著邊緣AI,打造了三個產(chǎn)品技術(shù)的平臺。

第一個產(chǎn)品技術(shù)平臺是應(yīng)用落地驅(qū)動的算法平臺。通過這個平臺我們實現(xiàn)了覆蓋14個領(lǐng)域、超過102個種類,300多個適合邊緣AI行業(yè)落地的算法,這樣的平臺還支持端云協(xié)同,支持算法在細分場景下的快速訓練微調(diào)和快速部署,我們在這個平臺上也打造了云天自己的天書”多模態(tài)大模型。這個大模型在今年3月28日產(chǎn)品發(fā)布會上已經(jīng)正式對外發(fā)布了。

第二個平臺是算法驅(qū)動的神經(jīng)網(wǎng)絡(luò)處理器平臺。在這個平臺上實現(xiàn)高效推理指令級設(shè)計,同時完成了四代神經(jīng)網(wǎng)絡(luò)處理器的迭代。也是因為這么高頻的迭代,所以我們可以高效地支持包括卷積神經(jīng)網(wǎng)絡(luò),包括DV神經(jīng)網(wǎng)絡(luò),以及新一代的Transformer計算方式。在這個基礎(chǔ)上,我們可以高效支持包括視覺大模型、多模態(tài)大模型和大語言模型這類在邊緣高效推理。

第三個平臺是面向邊緣計算場景芯片平臺?;谶@個平臺,我們實現(xiàn)三代商用邊緣AI芯片的迭代,同時算力覆蓋從2T到256T的規(guī)模。我們在這樣一個平臺上,也完成了基于國產(chǎn)工藝的D2DChiplet先進封裝技術(shù),我們可能是國內(nèi)第一個能達成商用量產(chǎn)階段的芯片和平臺。同時在這個基礎(chǔ)上,我們還實現(xiàn)了C2C Mesh高效互聯(lián)技術(shù)開發(fā)。

基于上面的三大平臺,我們從邊緣AI底層的算法,以及AI處理器和芯片技術(shù)的不斷迭代和創(chuàng)新,支撐了過去10年來云天勵飛推出一系列面向邊緣AI的產(chǎn)品。基于這些邊緣AI產(chǎn)品,我們也一步步去探索面向邊緣AI行業(yè)應(yīng)用的各種場景。通過這些場景的探索,我們反過來又可以反哺算法和處理器、芯片的迭代,下一代包括算法,以及處理器和芯片下一代的迭代開發(fā)。

二、大模型向物理世界演進,垂類大模型解應(yīng)用場景難題

大模型在邊緣落地具有哪些挑戰(zhàn)呢?

首先回到過往AI1.0時代,在AI1.0的時代,邊緣場景落地有兩大痛點,第一個是場景眾多。場景眾多帶來最大的問題是為了滿足場景的需求,需要各種各樣的長尾算法,而長尾算法生產(chǎn)效率出現(xiàn)了投入產(chǎn)出不成正比的情況。李愛軍提到,過去10年以來,有很多算法創(chuàng)新公司,基本很難實現(xiàn)盈利,包括我們在內(nèi)。

另外一個痛點,用于邊緣AI場景的芯片和算力五花八門,帶來的問題是什么?邊緣產(chǎn)品極度碎片化,我們很難有哪一個場景下的哪一個芯片年用量突破10萬片,甚至是5萬片。在這樣的情況下,是很難有做芯片的規(guī)模效應(yīng),或者是邊緣場景落地的規(guī)模效應(yīng)。

大模型出現(xiàn)以后,我們看到了在邊緣AI場景大規(guī)模落地,我們覺得有了這個可能性。在過去一年半內(nèi),我們看到整個大模型算法在快速向物理世界演進。從2022年11月份ChatGPT發(fā)布標志著語言大模型突破;到2023年3月份,Stable Diffusion發(fā)布,標志著圖像大模型的突破;再到2024年2月份,Sora大模型出現(xiàn),進一步開始理解物理世界;一直到今年5月份,空間計算率先提出,同時基于空間智能的大模型也開始出現(xiàn),大模型在進一步理解三維的物理世界。

另外一方面,去年大家在拼基礎(chǔ)大模型,到現(xiàn)在大家開始往行業(yè)走,開始真正把大模型往應(yīng)用落地方向推。出現(xiàn)了各種各樣的垂類大模型,開始真正去解決應(yīng)用場景的問題。而大模型的落地正在快速從云端往邊緣端發(fā)展,現(xiàn)在大家提得最多的就是大模型邊緣節(jié)點怎么去構(gòu)筑。

三、大模型落地邊緣AI芯片迎挑戰(zhàn),提出“算力積木”新架構(gòu)解題

大模型落地對我們的邊緣AI芯片帶來了新的挑戰(zhàn)。邊緣應(yīng)用場景本身有剛性需求,這個需求里面有系統(tǒng)自動化的要求,有人機交互的要求,包括更方便、更便利控制和維護的要求,以及隱私保護的要求。大模型又帶來了新的計算范式,以及大參數(shù)量、大吞吐、大算力要求。這兩者結(jié)合以后,對我們面向大模型邊緣AI的落地提出了全新的芯片要求。包括對于新的計算范式,要具有高的內(nèi)存帶寬,以及高的內(nèi)存容量。同時,算力要具有很強的擴展性。為什么?因為我們看到在邊緣大模型落地,參數(shù)有1.8B、1.4B、2.4B,還有3B、4B、7B、8B一直到13B等一系列。你如何能夠提供出一個彈性的架構(gòu),可以使得各種各樣的大模型在落地的時候能保證大模型高推理實時性要求,同時還要保證高性價比。這其實是對邊緣AI芯片提出很高的挑戰(zhàn),同時還要具備高能效、高實時性、高性價比等一系列的特性。

云天勵飛基于國產(chǎn)工藝提出了“算力積木”這樣的架構(gòu)創(chuàng)新來應(yīng)對這樣的挑戰(zhàn)。我們再回顧一下國產(chǎn)工藝。我們看到的是國產(chǎn)工藝在相當長的一段時間內(nèi)可能比國際工藝都要落后兩到三代。我們?nèi)绾卧谙鄬β浜蟮膰a(chǎn)工藝上又實現(xiàn)滿足大模型落地需要的高性能、高性價比的邊緣AI芯片的突破呢?我們覺得只有在架構(gòu)上進行創(chuàng)新才是唯一的出路。

云天勵飛基于國產(chǎn)工藝提出的“算力積木”架構(gòu),是一個基于國產(chǎn)工藝的D2D Chiplet和C2C Mesh的大模型推理架構(gòu)。我們首先實現(xiàn)了一個標準化的大模型的計算單元,這個計算單元可以實現(xiàn)1.8B大模型的實時高效推理;在這個基礎(chǔ)上,通過D2D Chiplet藝術(shù),可以實現(xiàn)7B大模型的高效推理;在此基礎(chǔ)上,利用C2C Mesh技術(shù),實現(xiàn)了14B的,140億參數(shù)高效推理;進一步通過Mesh Torus架構(gòu)可以實現(xiàn)高達1000億以上模型在邊緣端的推理。這樣的架構(gòu)可以滿足邊緣算力在保證實時性的情況下,可以實現(xiàn)大模型對于算力的擴展性,以及靈活性的要求。

四、堅持走國產(chǎn)工藝路線,將推大模型邊緣架構(gòu)推理機

為了實現(xiàn)這樣的方面,我們做了很多技術(shù)上的創(chuàng)新。我們在標準化算力單元上面進行了以下三個創(chuàng)新,實現(xiàn)大模型高效推理。

首先,我們設(shè)計了近存計算,通過近存計算可以實現(xiàn)Transformer這種計算的超低延時。通過可編程路由引擎,我們可以實現(xiàn)高效分布式的并行計算,同時通過多路由協(xié)同機制??梢杂行У靥岣叽竽P偷膮?shù)數(shù)據(jù)響應(yīng)速度,從而滿足高效推理的需要。

我們在Mesh Torus上面,通過自適應(yīng)路由機制,能夠?qū)崿F(xiàn)減少數(shù)據(jù)搬運次數(shù);通過減少數(shù)據(jù)搬運次數(shù),可以有效地降低帶寬的需求;通過Torus結(jié)構(gòu),可以有效地降低多跳帶來時延的影響,從而可以提升推理速度。我們現(xiàn)在可以實現(xiàn)8×16個標準“算力積木”單元的Mesh Torus架構(gòu)互聯(lián),可以提供2048Tops統(tǒng)一管理智能算力。同時,我們可以實現(xiàn)統(tǒng)一的內(nèi)存管理尋址,容量可以達到512GB。大家知道現(xiàn)在大模型最大的就是參數(shù)量。如果沒有大內(nèi)存,你想做到很好的推理是難的。我們還可以實現(xiàn)可統(tǒng)一調(diào)度的內(nèi)存帶寬,高達3840GB/s的帶寬。

基于這樣的一些架構(gòu)上的創(chuàng)新,我們也推出了國內(nèi)首個基于國產(chǎn)工藝Chiplet邊緣化的AI芯片。這個芯片是全國產(chǎn)化的設(shè)計,從設(shè)計到工藝到封裝等。同時也是系列化芯片,算力從8T到256T范圍,可以滿足邊緣場景各類大模型落地算力的需要。這個芯片還是主控級SoC芯片,一顆芯片就可以滿足這個場景單芯片設(shè)備的需要,不需要再加其他的芯片,集成了第四代的處理器。雖然芯片是系列化的,但是我們工具鏈是統(tǒng)一的,而且是統(tǒng)一的軟件棧,這樣方便軟件的開發(fā)和應(yīng)用。

目前Edge10國產(chǎn)化芯片平臺已經(jīng)支持了主流大模型,包括Transformer模型、BEV模型、CV大模型和各類主流的大語言模型,還有多模態(tài)大模型。我們在單個“算力積木”單元,就是單芯片上,可以實現(xiàn)1.8B模型14.5tokens/s的性能。在Chiplet芯片上,可以實現(xiàn)1.8B模型,達到55tokens/s的推理性能。如果是7B模型,可以實現(xiàn)30tokens/s的性能。如果是用Edge10做的Mesh Torus的一體機,對70B模型可以有高達60tokens/s的推理。

Edge10芯片現(xiàn)在已經(jīng)在邊緣AI各類場景下實現(xiàn)商業(yè)化落地。

我們展望邊緣AI大模型芯片的發(fā)展,無論是Gartner的預(yù)測,還是ABI的研究,包括IDC的預(yù)計,大家的判斷都是一致的。未來大部分的場景數(shù)據(jù)都將在數(shù)據(jù)中心之外產(chǎn)生,數(shù)據(jù)中心之外就是在邊緣端產(chǎn)生。我們認為在大模型和海量數(shù)據(jù)的驅(qū)動下,邊緣AI芯片未來一定會在可見的未來迎來大爆發(fā)。邊緣AI芯片大爆發(fā)最核心的就是大模型邊緣推理,它需要具備的,包括大算力、高能效、低延時、可擴展。特別是國產(chǎn)化,在當前的國際形勢下特別重要。

未來,云天勵飛將會推出基于Mesh Torus架構(gòu)的大模型邊緣推理一體機。以高峰值算力與突出的能效比支持大模型的單機部署,包括7B、70B、MoE等主流大模型的邊緣側(cè)推理部署。

我們堅持走國產(chǎn)工藝這個路線。通過架構(gòu)創(chuàng)新的方式,能夠在相對落后的國產(chǎn)工藝上進行性能突破,我們相比現(xiàn)在主流的用于大模型推理的一體機,我們可以做到更高的性能、更高的性價比。即使用國產(chǎn)工藝,我相信我們也可以給大家?guī)砀咝詢r比的產(chǎn)品。