智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會第一天的主會場大模型專場上,安謀科技產(chǎn)品總監(jiān)楊磊以《大模型端側(cè)部署提速,NPU賦能終端算力革新》為題發(fā)表演講。

從GPT-3.5到GPT-4.0,從多模態(tài)交互到插件支持,從閉源到開源,AI任務處理正加速從云側(cè)向端側(cè)遷移,NPU及其生態(tài)迎來全新的發(fā)展階段。安謀科技產(chǎn)品總監(jiān)楊磊談道,生成式AI正逐步成為客戶端設(shè)備上的人機交互界面,而具備100億參數(shù)級別的大模型已成為現(xiàn)有終端設(shè)備的最佳匹配規(guī)格。

然而,在終端部署這類AI大模型時,仍面臨成本、功耗及軟件生態(tài)等多重挑戰(zhàn)。在當前大模型發(fā)展的硬件驅(qū)動方面,楊磊認為異構(gòu)計算才是本地部署端側(cè)大模型的理想選擇,它能最大限度地提升SoC的性能、能效以及面積利用率。其中,NPU作為端側(cè)AI應用的關(guān)鍵算力資源,將為大模型的分布式落地演進提供核心動力。

當前,隨著大模型持續(xù)向邊緣側(cè)和端側(cè)滲透,AI計算和推理工作逐步由云端遷移至手機、PC、智能汽車等終端產(chǎn)品上運行。在這一過程中,NPU能夠以其更簡單的控制流、更高的效率以及更低的功耗,處理AI工作負載。安謀科技自研“周易”NPU面向大模型場景做了架構(gòu)、內(nèi)存墻等多方面改進,正在研發(fā)的下一代“周易”NPU將采用多核設(shè)計,能夠同時支持卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu),將會適配國內(nèi)外多個主流大模型。

一、生成式AI革新人機交互界面,端側(cè)大模型應用有望迎來爆發(fā)

近年來,大模型不僅在對話式文本方面取得巨大成功,也在圖像處理、音視頻生成等多模態(tài)領(lǐng)域展現(xiàn)出強大的潛能。隨著生成式AI在人們?nèi)粘9ぷ骷吧钪斜粡V泛應用,數(shù)據(jù)處理和存儲需求急劇增加,使得智能計算體系結(jié)構(gòu)發(fā)生根本性轉(zhuǎn)變。

大模型對人機交互界面產(chǎn)生了深刻的影響,生成式AI已成為人與終端設(shè)備的最新交互界面。在生成式AI加持下,從寫作、編程、繪畫到視頻創(chuàng)作,多種模態(tài)的內(nèi)容創(chuàng)作門檻正被前所未有地降低,人機交互的流程也被大大簡化。

在楊磊看來,端側(cè)設(shè)備的核心交互問題關(guān)乎入口,這是爭奪用戶時間、持續(xù)時長、資金投入的關(guān)鍵所在,也是業(yè)內(nèi)競爭的焦點。以典型的端側(cè)設(shè)備——手機為例,在本地設(shè)備上運行大模型已是兵家必爭之地,各家手機大廠都在想方設(shè)法占據(jù)這一入口。

在此過程中,一方面,多模態(tài)模型正成為大勢所趨;另一方面,針對不同的應用場景、設(shè)備或成本考量,眾多廠商都推出了不同參數(shù)規(guī)模的模型。以智能手機為例,旗艦手機芯片算力可達40~50TOPS,中檔手機的算力在10~20TOPS的范圍內(nèi),而入門級手機目前尚未專門配備AI能力,更多地依賴于CPU的通用計算能力。

安謀科技楊磊:搶占端側(cè)大模型部署制高點,NPU將為端側(cè)提供關(guān)鍵動力丨GenAICon 2024

據(jù)楊磊預測,隨著半導體技術(shù)的持續(xù)演進,旗艦手機的算力水平有望達到100TOPS,入門級手機也將從當前的無算力水平提升至5~10TOPS范圍。預計兩年后,不論是高價位段的手機,還是性價比優(yōu)良的千元機,都有望具備本地部署AI大模型的硬件計算能力。

此外,在楊磊看來,除智能手機和PC等終端設(shè)備外,如今智能化水平不斷提速的新能源汽車以及目前炙手可熱的人形機器人也是大模型落地的硬件載體之一。在大會現(xiàn)場,楊磊列舉了一些數(shù)字:目前智能汽車的算力已經(jīng)能達到500TOPS左右,一些機器人方案也在按照這一算力規(guī)模進行相應的技術(shù)規(guī)劃。

盡管AI大模型的應用日趨普及,比如手機上安裝了Kimi、豆包、文心一言等諸多應用,但這些應用尚未達到殺手級應用的水平,實際上很多端側(cè)硬件的計算能力已經(jīng)領(lǐng)先于相關(guān)應用的發(fā)展。很多用戶更多是出于獵奇心理來試用這類應用,并沒有產(chǎn)生持續(xù)、頻繁且高度黏性的使用需求。

我們目前仍處于硬件先行、應用后發(fā)的階段安謀科技則希望結(jié)合自身獨特的技術(shù)優(yōu)勢,打造軟硬一體且極具競爭力的解決方案,推動AI大模型在端側(cè)設(shè)備加速落地。”楊磊談道。

二、端側(cè)大模型部署面臨三重考驗,異構(gòu)計算將是最優(yōu)解

目前,AI PC、AI手機、“大模型上車”等細分領(lǐng)域已成為終端設(shè)備廠商以及半導體行業(yè)爭相入局的熱門賽道,那多大參數(shù)規(guī)模的大模型適合在端側(cè)部署呢?楊磊將端側(cè)大模型的主流參數(shù)范圍總結(jié)在3億到100億,許多業(yè)內(nèi)廠商也都在關(guān)注百億參數(shù)這一規(guī)格。

兵馬未動,糧草先行。盡管大模型應用還未全面爆發(fā),但端側(cè)大模型高效落地必然需要一個可靠的硬件載體,其應用需求涵蓋了多個方面,比如大語言模型用于交互、多模態(tài)模型用于識別和理解、對實時計算的響應需求等,使得算法能輕松部署在不同硬件平臺上,并確保在端側(cè)的運行速度足夠快,而不是僅僅能在云端運行。

在楊磊看來,目前端側(cè)大模型部署面臨著三重難關(guān):

安謀科技楊磊:搶占端側(cè)大模型部署制高點,NPU將為端側(cè)提供關(guān)鍵動力丨GenAICon 2024

首先是成本。端側(cè)設(shè)備由于使用范圍廣且頻次更高,因而對于成本也更加敏感。不能單純?yōu)榱嗽黾覣I能力而導致手機或PC的售價上漲太多,由此帶來的現(xiàn)實要求則對芯片面積、存儲帶寬、能效和計算資源這類與成本強相關(guān)的因素多加考量和平衡。

其次是功耗。無論是PC、平板電腦、手機還是智能眼鏡,其大部分的使用模式都由電池供電,功耗和電池容量決定了設(shè)備的續(xù)航時長。一張高性能的GPU動輒功耗數(shù)百瓦,更適合在云端使用,而非手持設(shè)備。相比之下,一般手機的功耗則不超過10瓦,這就要求芯片在兼具算力的同時,也要盡可能降低功耗,以保證設(shè)備的使用時長和控制發(fā)熱。

第三是軟件生態(tài)。硬件平臺需要支持不同的應用場景,讓來自不同企業(yè)的不同類型算法都能被輕松部署,并且計算效率和速度符合預期,這就涉及到一些軟件生態(tài)和投入。由此,選擇軟件適配度高、開發(fā)工具和資源更為豐富的技術(shù)生態(tài)也非常重要。而Arm技術(shù)已成為全球應用最廣泛的計算平臺之一,具有顯著的軟件生態(tài)優(yōu)勢。

對此,楊磊認為,在硬件成本、功耗和軟件生態(tài)三重難關(guān)之下,即使在端側(cè)設(shè)備,單純依靠傳統(tǒng)的CPU或者GPU等通用計算單元也難以滿足當前以Transformer架構(gòu)為主的大模型計算要求。因此,結(jié)合各種算力單元特性的異構(gòu)計算將是端側(cè)大模型部署的最優(yōu)解決方案。

安謀科技楊磊:搶占端側(cè)大模型部署制高點,NPU將為端側(cè)提供關(guān)鍵動力丨GenAICon 2024

三、搶占端側(cè)部署大模型制高點,安謀科技打造高性能異構(gòu)計算IP平臺

異構(gòu)計算其實是近年來業(yè)界比較熱議的話題。其核心在于多種計算單元在SoC上的異構(gòu)組合,即在硬件方案中協(xié)同使用CPU、GPU、NPU等多種不同類型的計算單元,實現(xiàn)更高效的計算能力,以平衡成本、功耗、計算性能等。

對此,楊磊在大會現(xiàn)場進一步闡述異構(gòu)計算為何更適合端側(cè)大模型部署的背后原理。舉例來看,要在手機上部署一個“壓縮版”的ChatGPT或Llama大語言模型,其實最大的難點不在于計算量,更為棘手的是數(shù)據(jù)訪問量,即內(nèi)存墻。楊磊解釋說,目前AI大模型除了對話式的語言類應用場景以外,還涵蓋了文生圖、文生視頻等場景,這類應用所涉及的大量AI計算任務對于端側(cè)設(shè)備里原有的CPU或GPU來說就比較吃力,更適合調(diào)用專為AI設(shè)計的計算單元NPU來進行計算。

對此,安謀科技將全球領(lǐng)先的Arm CPU、GPU等通用計算單元,與本土自研的NPU、SPU、VPU等專用計算單元相結(jié)合,打造一體化、高質(zhì)量的異構(gòu)計算IP平臺,持續(xù)助力本土芯片創(chuàng)新。

其中,正如前面提到的,NPU作為面向AI計算場景應運而生的計算單元,自然也是加速端側(cè)AI應用的關(guān)鍵算力資源。對此,楊磊重點介紹了安謀科技針對深度學習而自研的人工智能處理器——“周易”NPU。

目前,“周易”NPU已迭代了Z系列和X系列的多款產(chǎn)品,滿足多樣化計算需求。其中,Z系列主要面向AIoT市場,為物聯(lián)網(wǎng)設(shè)備提供AI算力支持;X系列則主要面向車載、邊緣計算等高算力應用場景,進一步提升計算效率。以安謀科技最新發(fā)布的“周易”NPU為例,該產(chǎn)品采用第三代“周易”架構(gòu),在算力、精度、靈活性等方面均有大幅提升,支持多核Cluster,最高可達320TOPS子系統(tǒng),為新興領(lǐng)域不斷迭代的計算需求提供更為完善的解決方案。

據(jù)楊磊補充,“周易”NPU將針對端側(cè)大模型場景進行專門的升級優(yōu)化,包括微架構(gòu)改進、內(nèi)存優(yōu)化、并行結(jié)構(gòu)升級等多個方面,并透露正在研發(fā)的下一代“周易”NPU將會適配國內(nèi)外多個主流的開源大模型方案,覆蓋硬件及其配套的軟件工具。

安謀科技楊磊:搶占端側(cè)大模型部署制高點,NPU將為端側(cè)提供關(guān)鍵動力丨GenAICon 2024

微架構(gòu)方面,“周易”NPU架構(gòu)將面向Transformer結(jié)構(gòu)進行專門的加速改進;在內(nèi)存方面,“周易”NPU也會針對存儲限制做進一步優(yōu)化,包括常見的低比特量化技術(shù)等;而在并行計算方面,下一代“周易”NPU則重點考慮滿足并行計算的需求,能夠同時支持卷積神經(jīng)網(wǎng)絡(luò)和Transformer架構(gòu),更好地滿足當前應用端的不同場景需求。

此外,據(jù)楊磊介紹,安謀科技的下一代“周易”NPU將采用多核架構(gòu),能夠根據(jù)不同場景需求來配置不同的算力,例如AI PC等高算力場景可配置多個NPU核心,而AR眼鏡等更需平衡性能和功耗的場景則可以考慮配置單核,多核架構(gòu)可以更好地滿足算力從小到大的靈活擴展

結(jié)語:端側(cè)大模型爆發(fā)將至,安謀科技提供底層核心技術(shù)支撐

技術(shù)進步為大模型在云邊端的部署提供了廣泛的可能,大至在成百上千張卡的大型集群上做訓練,小至在手持設(shè)備上部署,大模型正通過越來越多元的硬件載體,走進千家萬戶和千行百業(yè)。

在云端,國內(nèi)外已有很多GPU和AI芯片企業(yè)在開展相關(guān)工作。但在邊緣端側(cè),目前還沒有一個成熟、統(tǒng)一的硬件平臺,能夠支撐大模型部署到手機、PC或機器人等設(shè)備上,因此市場潛力巨大。

“端側(cè)設(shè)備已成為大模型部署的兵家必爭之地”,楊磊如此形容端側(cè)大模型的競爭態(tài)勢。綜合來看,搶占入口的不止是硬件設(shè)備制造商,還有眾多算法開發(fā)者,以及像安謀科技這類專注于芯片底層技術(shù)創(chuàng)新的企業(yè),大家不約而同地看到了其中蘊藏的市場機會。

楊磊最后談到:“AI大模型不僅僅部署到云上,未來在端側(cè)也將迎來爆發(fā)式增長,我們非常期待與產(chǎn)業(yè)鏈上下游的伙伴們加強溝通與合作,攜手共贏生成式AI未來?!?/p>