芯東西(公眾號(hào):aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西9月10日?qǐng)?bào)道,今日,Arm在上海發(fā)布全新Arm Lumex計(jì)算子系統(tǒng)(CSS)平臺(tái),專(zhuān)為旗艦級(jí)智能手機(jī)及下一代PC加速AI體驗(yàn)而打造,可實(shí)現(xiàn)兩位數(shù)的性能增長(zhǎng)。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

這套先進(jìn)計(jì)算平臺(tái)集成了搭載第二代可伸縮矩陣擴(kuò)展(SME2)技術(shù)的最高性能Arm CPU、GPU及系統(tǒng)IP,為桌面級(jí)移動(dòng)游戲、實(shí)時(shí)翻譯、智能助手、個(gè)性化應(yīng)用等各種實(shí)時(shí)端側(cè)AI用例帶來(lái)更流暢、更快速的體驗(yàn)。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

搭載SME2的Arm C1 CPU集群實(shí)現(xiàn)了顯著的AI性能提升,包括AI性能提升高達(dá)5倍,語(yǔ)音類(lèi)工作負(fù)載延遲優(yōu)化至4.7倍,經(jīng)典大語(yǔ)言模型任務(wù)性能提升多達(dá)4.7倍,音頻生成速度提升多達(dá)2.8倍。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

Lumex能夠在設(shè)備端本地實(shí)現(xiàn)更快、更安全且隨時(shí)可用的智能體驗(yàn)。SME2已被阿里巴巴、支付寶、三星System LSI、騰訊、vivo等業(yè)界領(lǐng)先的生態(tài)伙伴采用。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

Arm的每個(gè)計(jì)算子系統(tǒng)(CSS)都針對(duì)細(xì)分市場(chǎng)的獨(dú)特需求進(jìn)行了調(diào)整,通過(guò)縮短設(shè)計(jì)用時(shí)和降低開(kāi)發(fā)風(fēng)險(xiǎn)來(lái)加快開(kāi)發(fā),已獲得超過(guò)16次授權(quán),其中超過(guò)一半都是去年完成的。

Arm還將發(fā)布面向PC、物聯(lián)網(wǎng)和邊緣計(jì)算的CSS平臺(tái)。

一、Lumex:多款CPU與GPU按需組合,針對(duì)3nm優(yōu)化

針對(duì)旗艦級(jí)設(shè)備,Arm Lumex CSS平臺(tái)連續(xù)6年實(shí)現(xiàn)兩位數(shù)的每時(shí)鐘周期指令數(shù)(IPC)性能提升。

全新Arm Lumex平臺(tái)包含以下核心組件:

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

(1)新一代搭載SME2技術(shù)的Armv9.3 CPU:包括Arm C1-Ultra和Arm C1-Pro,為旗艦設(shè)備提供支持,設(shè)備端性能可提升多達(dá)5倍、能效提升多達(dá)3倍。

(2)Arm C1-Premium:專(zhuān)為次旗艦市場(chǎng)打造,可提供一流的面積效率。

(3)Arm Mali G1-Ultra GPU:配備新一代光線(xiàn)追蹤技術(shù),在實(shí)現(xiàn)先進(jìn)的圖形和游戲體驗(yàn)同時(shí),還可提升整體AI性能。

(4)Arm C1-DSU:Arm迄今為止最靈活、高能效且具多種電源模式的DynamIQ Shared Unit(DSU)。

(5)針對(duì)3nm工藝節(jié)點(diǎn)優(yōu)化的物理實(shí)現(xiàn)。

(6)跨軟件棧的深度集成,為使用KleidiAI軟件庫(kù)的開(kāi)發(fā)者提供無(wú)縫的AI加速體驗(yàn)。

相比Cortex-X925,C1-Ultra CPU的單線(xiàn)程性能提高25% ;相比Cortex-A725,C1-Pro的持續(xù)能效提升12%;相比Immortalis-G925,Mali G1-Ultra的性能提升20%,能效提升9%。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

合作伙伴可靈活選擇使用Arm Lumex的方式,來(lái)打造SoC芯片。

例如,可以直接采用Arm交付的平臺(tái),并借助為其需求定制的先進(jìn)物理實(shí)現(xiàn)方案,從而獲得縮短產(chǎn)品上市時(shí)間和快速兌現(xiàn)性能價(jià)值等雙重優(yōu)勢(shì);也可以根據(jù)目標(biāo)市場(chǎng),對(duì)平臺(tái)寄存器傳輸級(jí)(RTL)設(shè)計(jì)進(jìn)行配置,并自行完成核心模塊的硬化工作。

Arm Lumex為合作伙伴提供了充分的自由度,使其能從高端智能手機(jī)、PC到新興AI優(yōu)先設(shè)備的各類(lèi)產(chǎn)品中,實(shí)現(xiàn)峰值性能、持續(xù)能效與芯片面積之間的靈活平衡。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

二、將AI加速集成到CPU中,用SME2大幅提升AI性能 ?

新款CPU的一大核心技術(shù)是SME2。該技術(shù)能加快設(shè)備端CPU直接運(yùn)行模型及AI工具的速度。

Arm高級(jí)副總裁兼終端事業(yè)部總經(jīng)理Chris Bergey說(shuō),AI已成為下一代移動(dòng)與消費(fèi)技術(shù)的支撐底座,依托Arm Lumex平臺(tái),Arm持續(xù)提升端側(cè)AI體驗(yàn),正積極將SME2技術(shù)擴(kuò)展至每一個(gè)CPU平臺(tái)。

在實(shí)際場(chǎng)景中,SME2技術(shù)將響應(yīng)速度與運(yùn)行效率提升至新水平。

SME2是最新CPU集群的一項(xiàng)關(guān)鍵特性,為高效執(zhí)行單側(cè)AI而生,就是給CPU配備了一個(gè)新的矩陣加速器,讓復(fù)雜計(jì)算變得更快更省電,同時(shí)支持SME2的新硬件與CPU、GPU等其他計(jì)算單元分工協(xié)作,實(shí)現(xiàn)更高效的端側(cè)AI異構(gòu)計(jì)算。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

例如,得益于SME2技術(shù),“智能瑜伽教練”演示應(yīng)用的文本轉(zhuǎn)語(yǔ)音生成速度提升多達(dá)2.4倍

此外,Arm、支付寶與vivo的三方合作,將大語(yǔ)言模型的交互響應(yīng)時(shí)間縮短了多達(dá)40%,證明了SME2可為終端設(shè)備帶來(lái)更快速的實(shí)時(shí)生成式AI體驗(yàn)。

據(jù)vivo高級(jí)副總裁、CTO施玉堅(jiān)分享,vivo藍(lán)晶芯片技術(shù)棧新增對(duì)SME2的支持,vivo計(jì)算加速平臺(tái)VCAP已全面支持SME2指令集,對(duì)視覺(jué)、語(yǔ)音、文本等AI計(jì)算任務(wù)實(shí)現(xiàn)了顯著的性能加速,例如在全局離線(xiàn)翻譯場(chǎng)景,開(kāi)啟SME2硬件,能實(shí)現(xiàn)額外20%的性能收益。

再比如,在搭載SME2的單個(gè)核心上運(yùn)行神經(jīng)攝像頭降噪功能,可在1080P分辨率下實(shí)現(xiàn)幀率超120幀/秒(fps),或在4K分辨率下實(shí)現(xiàn)幀率達(dá)30fps。這意味著智能手機(jī)用戶(hù)即使身處光線(xiàn)最暗的場(chǎng)景,也能捕捉到更銳利、清晰的圖像。

Arm預(yù)計(jì)到2030年,SME與SME2技術(shù)將為超過(guò)30億臺(tái)設(shè)備新增超100億TOPS的計(jì)算能力,為端側(cè)AI性能帶來(lái)指數(shù)級(jí)躍升。

三、全新Mali G1-Ultra GPU:AI性能提升20%,光追性能翻倍

Arm GPU的芯片累計(jì)出貨量已突破120億顆。

全新Mali G1-Ultra GPU專(zhuān)為游戲玩家設(shè)計(jì),擁有14個(gè)核心,可將AI推理性能提升最高20%,顯著增強(qiáng)各類(lèi)實(shí)時(shí)應(yīng)用的響應(yīng)速度;在各類(lèi)圖形基準(zhǔn)測(cè)試中實(shí)現(xiàn)了20%的性能提升。

其第二代光線(xiàn)追蹤(Ray Tracing Unit v2, RTUv2)技術(shù)顯著提升光照、陰影與反射效果,使光線(xiàn)追蹤性能提升至前代的2倍,并實(shí)現(xiàn)每幀功耗降低9%,為手游玩家?guī)?lái)高保真、主機(jī)級(jí)畫(huà)質(zhì)。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

同時(shí),Mali G1-Premium(6~9核心)與Mali G1-Pro(1~5核心)兩款GPU,也為硬件資源受限的設(shè)備提供了更出色的性能與能效表現(xiàn)。

四、跨平臺(tái)易遷移,滿(mǎn)足生態(tài)系統(tǒng)AI開(kāi)發(fā)需求

Lumex具備靈活性和可定制性,并提供全新的可遷移性:
  • Gmail、YouTube、Google Photos等谷歌應(yīng)用現(xiàn)已全面支持SME2 ,搭載Lumex的設(shè)備一經(jīng)上市即可無(wú)縫運(yùn)行;
  • 跨平臺(tái)可遷移性意味著針對(duì)安卓構(gòu)建的優(yōu)化功能可無(wú)縫擴(kuò)展至采用Arm架構(gòu)的Windows及其他操作系統(tǒng);
  • 支付寶等合作伙伴已成功驗(yàn)證:依托SME2技術(shù),終端設(shè)備上的大語(yǔ)言模型可實(shí)現(xiàn)高效運(yùn)行。

蘋(píng)果、三星、聯(lián)發(fā)科等芯片巨頭正積極集成AI加速功能,推動(dòng)端側(cè)AI向更快速、更高效的方向發(fā)展。

阿里巴巴淘天集團(tuán)業(yè)務(wù)技術(shù)MNN負(fù)責(zé)人姜霄棠說(shuō),通過(guò)與 SME2的深度集成,MNN現(xiàn)已能在智能手機(jī)端,為通義千問(wèn)等十億參數(shù)級(jí)大模型提供低延遲的量化推理能力。

支付寶終端技術(shù)負(fù)責(zé)人翁欣旦談道,在Arm、支付寶與vivo的三方密切協(xié)作下,支付寶已在vivo新一代旗艦智能手機(jī)上完成了基于Arm SME2技術(shù)的大語(yǔ)言模型推理驗(yàn)證。結(jié)果顯示,在預(yù)填充與解碼階段,其性能分別實(shí)現(xiàn)了超過(guò)40%和25%的提升。

據(jù)騰訊機(jī)器學(xué)習(xí)平臺(tái)專(zhuān)家楊曉峰分享,SME2技術(shù)通過(guò)突破關(guān)鍵性能瓶頸,高效助力大語(yǔ)言模型在移動(dòng)端落地部署,如騰訊混元大模型,為端側(cè)大語(yǔ)言模型提供強(qiáng)勁加速,最終帶來(lái)更優(yōu)質(zhì)的用戶(hù)體驗(yàn)。

開(kāi)發(fā)者可在Arm Lumex平臺(tái)上獲取開(kāi)機(jī)即用的AI開(kāi)發(fā)體驗(yàn),借助KleidiAI調(diào)用SME2技術(shù)帶來(lái)的性能優(yōu)勢(shì)。

KleidiAI已集成至所有主流移動(dòng)操作系統(tǒng)及AI框架中,包括PyTorch ExecuTorch、谷歌LiteRT、阿里巴巴MNN、微軟ONNX Runtime等。開(kāi)發(fā)者無(wú)需修改任何代碼,就能自動(dòng)取得SME2的加速能力。

Arm把手機(jī)AI芯片開(kāi)發(fā)變簡(jiǎn)單!最強(qiáng)CPU塞進(jìn)AI加速,vivo阿里都說(shuō)好

結(jié)語(yǔ):為端側(cè)AI加速提供定制芯片套餐

Arm Lumex是Arm面向消費(fèi)計(jì)算市場(chǎng)的最先進(jìn)CSS平臺(tái),也被Arm視作開(kāi)啟新時(shí)代智能體驗(yàn)的基石。

面向OEM廠(chǎng)商及開(kāi)發(fā)者,Lumex可提供所需工具,助力其在關(guān)鍵端側(cè)場(chǎng)景實(shí)現(xiàn)兼具個(gè)性化、隱私保障與高性能的AI體驗(yàn)。

這標(biāo)志著Arm戰(zhàn)略的重大轉(zhuǎn)變,從提供半導(dǎo)體IP到提供全面的AI平臺(tái)解決方案,以加速客戶(hù)芯片設(shè)計(jì)及開(kāi)發(fā)流程,滿(mǎn)足日益增長(zhǎng)的設(shè)備端實(shí)時(shí)、保障安全隱私、始終可用的AI應(yīng)用需求。