芯東西(公眾號(hào):aichip001)
編輯 | 高歌
智東西6月4日消息,近日GTIC 2021嵌入式AI創(chuàng)新峰會(huì)在北京圓滿收官!在這場全天座無虛席、全網(wǎng)直播觀看人數(shù)逾150萬次的高規(guī)格產(chǎn)業(yè)峰會(huì)上,來自產(chǎn)業(yè)鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態(tài)創(chuàng)新、家居AIoT、移動(dòng)機(jī)器人和工業(yè)制造產(chǎn)業(yè)4大版塊地圖,帶來了深入淺出的分享。
會(huì)上,安謀中國AI技術(shù)高級(jí)市場經(jīng)理吳彤以《構(gòu)建AI智能“芯”生態(tài)》為題,對(duì)當(dāng)前AI芯片發(fā)展趨勢以及安謀自研人工智能專用處理器IP“周易”AIPU進(jìn)行解讀。
如今行業(yè)已進(jìn)入以數(shù)據(jù)為驅(qū)動(dòng)的計(jì)算時(shí)代,也稱為第五波計(jì)算浪潮,從網(wǎng)絡(luò)架構(gòu)到計(jì)算架構(gòu)都產(chǎn)生了大量需求。依托Arm世界領(lǐng)先的生態(tài)系統(tǒng)資源與技術(shù)優(yōu)勢,安謀中國面向國內(nèi)市場獨(dú)立研發(fā)了“周易”AIPU。
▲安謀中國AI技術(shù)高級(jí)市場經(jīng)理吳彤
吳彤談到當(dāng)下AI芯片市場有四大發(fā)展趨勢,一是端側(cè)芯片市場增速非常高,二是未來5-10年端側(cè)推理市場的增速最快,三是ASIC定制化芯片將成為未來的主流,四是細(xì)分市場規(guī)模將會(huì)保持高速增長。
另一方面,AI芯片行業(yè)專用架構(gòu)(DSA)正在興起,主流AI算法也呈現(xiàn)輕量化趨勢。在這些趨勢下,安謀中國自研的“周易”AIPU擁有完全自主可控、完整生態(tài)等特點(diǎn),目前已經(jīng)推出兩代產(chǎn)品,分別為“周易”Z1和“周易”Z2。
其中,“周易”Z1是邊緣計(jì)算通用的AI IP,面向IoT&Edge,基于“周易”Z1研發(fā)的全志R329智能語音芯片即將大規(guī)模商用;“周易”Z2面向邊緣計(jì)算中高性能場景,基于“周易”Z2開發(fā)的芯片也即將應(yīng)用落地,主要覆蓋中高端安防和自動(dòng)駕駛/智能座艙領(lǐng)域。
此外,吳彤還介紹了兩款A(yù)I IP的應(yīng)用案例,包括人體關(guān)鍵點(diǎn)檢測、駕駛員疲勞監(jiān)測(DMS) 和DTV超級(jí)分辨率應(yīng)用等。
以下是吳彤的演講實(shí)錄整理:
一、第五波計(jì)算浪潮或助推Arm芯片出貨超萬億
吳彤:首先感謝主辦方智東西的邀請(qǐng),我是安謀中國AI技術(shù)市場吳彤。今天給大家?guī)淼姆窒碇黝}《構(gòu)建AI智能“芯”生態(tài)》。我的主題分享分為三部分,第一部分是介紹整個(gè)Arm架構(gòu)的賦能情況,第二部分是一個(gè)對(duì)AI芯片以及AIoT市場簡單的分析,最后一部分是我們整個(gè)安謀中國自研的AI IP“周易”兩代產(chǎn)品的市場、技術(shù)情況。
首先,有一個(gè)概念叫做第五波計(jì)算浪潮,大家都知道在以前最開始的時(shí)候,我們有PC、個(gè)人計(jì)算、互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng),可以稱之為前四波計(jì)算浪潮。什么叫第五波計(jì)算浪潮?一句話總結(jié),一個(gè)以數(shù)據(jù)為驅(qū)動(dòng)的計(jì)算時(shí)代。第五波計(jì)算浪潮主要特點(diǎn)除了芯片層面多樣化的需求以外,從網(wǎng)絡(luò)架構(gòu),包括從計(jì)算架構(gòu)都有大量的需求產(chǎn)生。作為Arm的一家生態(tài)型公司,我們一直在思考怎么樣在這個(gè)體系下通過和我們合作伙伴提供更多定制化的服務(wù),包括架構(gòu)以及芯片類的創(chuàng)新,能夠賦能整個(gè)生態(tài)。

這是我們整個(gè)Arm的一個(gè)從1991年一直到現(xiàn)在Arm計(jì)算架構(gòu)走向萬億級(jí)生態(tài)的圖。大家可以看到,從1991年一直到2017年用了26年的時(shí)間,(Arm)達(dá)到了全球第一個(gè)一千億芯片的出貨量。從2017年到2021年,其實(shí)我們只用了四年時(shí)間就達(dá)到了第二個(gè)一千億芯片的出貨量,這個(gè)增長非常快。(在)第五代計(jì)算浪潮的驅(qū)動(dòng)下,我們希望未來能達(dá)到一萬億芯片的出貨量。
安謀中國從成立之初到現(xiàn)在,幾年內(nèi),安謀中國在國內(nèi)服務(wù)的客戶超過兩百家以上,在國內(nèi)的(芯片)出貨量將近兩百億。
二、端側(cè)AI芯片增速快,領(lǐng)域?qū)S眉軜?gòu)興起
下面給大家分享一下AI芯片以及整個(gè)AIoT市場整體的情況。這里有四張圖從AI芯片的市場規(guī)模、按場景、按架構(gòu)、按應(yīng)用層面對(duì)AI芯片的整體介紹。
1、AI芯片發(fā)展趨勢:端側(cè)增速最快
首先第一張圖是整個(gè)AI人工智能芯片的市場規(guī)模,2017年到2025年接近十年的區(qū)間,有一個(gè)趨勢可以看到,從紅色數(shù)值可以看出,和云端相比,端側(cè)AI芯片的市場增速非常高,尤其在未來的5—10年的區(qū)間之內(nèi)。
第二張圖是AI芯片按場景來劃分的趨勢,這個(gè)場景分成四塊,兩大部分。第一個(gè)維度是整個(gè)的云端,包括云端推理和云端訓(xùn)練。第二維度Edge端側(cè),包括推理和訓(xùn)練。這張圖得出一個(gè)結(jié)論,在未來5—10年內(nèi),我們可以看到,在整個(gè)端側(cè)包括云端還有Edge端推理市場的增速是最快的。
第三個(gè)圖是AI芯片按架構(gòu)劃分,能夠看到人工智能芯片所有看到的主流架構(gòu),包括GPU、FPGA、包括ASIC等等。從中也可以看到,ASIC定制類的芯片也會(huì)在未來的五到十年內(nèi)成為市場上的一個(gè)主流。
最后一張圖,是按照人工智能的細(xì)分垂直領(lǐng)域場景來看,這里面我們看到,手機(jī)端不用說了,也是Arm比較主流的一個(gè)行業(yè),手機(jī)端依然保持相對(duì)比較高速的增長。同時(shí)像可穿戴設(shè)備、包括智能音箱幾個(gè)細(xì)分市場未來幾年之內(nèi)也會(huì)保持比較高的增長。

2、AI芯片領(lǐng)域?qū)S眉軜?gòu)(DSA)開始流行
這個(gè)是從垂直市場的層面來講,我們談到,整個(gè)人工智能芯片有一個(gè)比較重要的概念叫DSA。談到之前,我們先看一個(gè)很有意思的試驗(yàn),這個(gè)試驗(yàn)是一個(gè)算法,這個(gè)算法主要以矩陣乘法為主。
我們可以看到,增速很快的這條曲線在不同的硬件環(huán)境包括軟件環(huán)境下做的實(shí)驗(yàn)。從最開始在Python環(huán)境,第二個(gè)是在純C的環(huán)境下做,再往后我們加入了很多并行計(jì)算包括memory優(yōu)化、包括目前主流的SIMD助理,在不同的體系架構(gòu)下,同一套算法從最原始的Python到最后的SIMD形式(的執(zhí)行效率)增長63000多倍。

這個(gè)試驗(yàn)說明什么問題?在我們現(xiàn)在AI芯片領(lǐng)域里面,其實(shí)DSA也就是專用架構(gòu)可以處理特定領(lǐng)域的一些問題,目前甚至將來應(yīng)該會(huì)成為一個(gè)主流。這種DSA我給大家舉一個(gè)例子,就是什么樣的(架構(gòu))屬于DSA呢?比較知名的像是NVIDIA GPU、包括很多網(wǎng)絡(luò)處理器芯片、包括現(xiàn)在我們比較熱門的NPU神經(jīng)網(wǎng)絡(luò)處理器都可以理解為一種處理某些特定領(lǐng)域問題的架構(gòu),我們都(可以)叫DSA。
這是我們看到的目前、包括未來有可能AI芯片架構(gòu)整體技術(shù)演進(jìn)的趨勢。從最上面的GPU,以英偉達(dá)和AMD為代表,GPU本身做圖形處理,最開始不是給AI人工智能來用,英偉達(dá)為代表的這些公司在GPU里面做了大量改進(jìn),加入HWA(Hard·Wired·Accelerator),也就是我們叫TensorCore,把它(GPU)變成面向人工智能領(lǐng)域很好的處理器芯片。

還有一類也是傳統(tǒng)做信號(hào)處理的DSP,現(xiàn)在也有很多公司把它變成人工智能芯片,在DSP基礎(chǔ)上加入大量的MAC陣列。比如英特爾收購的一家公司較Habana他們的架構(gòu)也是基于這個(gè)架構(gòu)設(shè)計(jì)的。
另有一類,以ARM為代表的異構(gòu)計(jì)算,加了CPU,同時(shí)也有DSA的專用領(lǐng)域,加入專業(yè)面向矩陣加速的HWA加速器,構(gòu)成了一種異構(gòu)計(jì)算模式。這種模式我們認(rèn)為,在目前包括未來將會(huì)成為主流,它可以同時(shí)滿足很好的PPA(Power Perform Area),包括各種能效比都會(huì)達(dá)到很高的數(shù)值。
3、6大維度評(píng)判AI芯片
這里是我們根據(jù)很多客戶的需求,我們大概總結(jié)了一下,當(dāng)很多公司都在談一款好的AI芯片,不管你自己設(shè)計(jì)還是用各種成熟的IP也好,什么樣的芯片才能稱之為好的AI芯片?我大概分了六個(gè)維度。

一顆好的AI芯片經(jīng)過各種國際主流的benchmark評(píng)測,包括像MLPerf;像人工智能聯(lián)盟的benchmark,也是在國內(nèi)很知名的benchmark;還有等等。這個(gè)是衡量AI芯片算法模型很主流的評(píng)測標(biāo)準(zhǔn)。
還有一個(gè),我們不光從硬件,我們還要從整個(gè)生態(tài)鏈、軟件棧,也就是我們經(jīng)常說的工具鏈(來看)。從工具鏈層面,很多公司尤其像我們?cè)O(shè)計(jì)了很完整的工具鏈體系。工具鏈的完整是衡量你AI芯片是否成熟的一個(gè)標(biāo)準(zhǔn),同時(shí)也是看到你能夠給客戶提供什么樣的這種支持。
還有一個(gè)很多媒體都在談的,AI芯片一定要談算力TOPS。其實(shí)TOPS不是唯一衡量AI芯片算力的標(biāo)準(zhǔn),還有很多其它因素,比如有TOPS/瓦能效比,跟微觀、功耗包括算力利用率都是有關(guān)的。還有很重要的因素,就是存儲(chǔ)帶寬。剛剛知存科技的王總也提到了,為什么我們現(xiàn)在存算一體芯片非常熱門,就是它能夠解決數(shù)據(jù)搬移的問題。
當(dāng)然了,還有幾個(gè)維度關(guān)于AI芯片這塊。
首先AI芯片要有很好的靈活性,因?yàn)槲覀兊乃懔Σ皇枪潭ǖ臇|西,需要支持常見的神經(jīng)網(wǎng)絡(luò),同時(shí)有很強(qiáng)的擴(kuò)展能力,比如客戶能力很強(qiáng),會(huì)自定義自己的算子,作為IP或者芯片供應(yīng)商來說,我們需要能夠支持客戶做自定義算子的擴(kuò)展。
當(dāng)然了,還有除了AI層面的其它因素,我把它列了叫非AI功能。我們接觸了很多客戶后發(fā)現(xiàn),客戶對(duì)我們的需求不僅僅只在AI一個(gè)層面。比如對(duì)于安防場景來說,安防客戶不僅僅需要你只提供一個(gè)AI芯片,希望你提供更多的Solution解決方案,比如需要ISP、VPU、視頻處理等等。
其實(shí)很多非AI功能如果你能把它變成一個(gè)總體解決方案,在未來很多垂直領(lǐng)域是非常有競爭力的。目前安謀中國也在打造這樣比較完整的IP組合平臺(tái)。
4、AI算法正趨于輕量化
這是一個(gè)對(duì)AIoT芯片市場的分析。簡單說,整個(gè)AIoT芯片剛才幾位嘉賓也講過,AIoT整個(gè)市場其實(shí)比較碎片化,目前看它的增速非??欤藗?cè)的芯片增速也非???。

但是首先它有很多這種需求,比如對(duì)低功耗要求非常高,在很多低功耗的場景,甚至達(dá)到毫瓦級(jí)的水平,比如可穿戴設(shè)備等。同時(shí),對(duì)于很多場景來講,可能算力要求沒有特別高,尤其對(duì)于AIoT領(lǐng)域,在100 GOPS下就可以覆蓋大部分場景。

這個(gè)是我們看到的整個(gè)AI算法市場的一個(gè)輕量化趨勢。左邊這張圖來說,2014年開始市面上主流的輕量化算法,對(duì)算力需求越來越低。我們看到,很多主流的算法輕量化趨勢非常明顯,它的計(jì)算量包括權(quán)重跟之前相比已經(jīng)減少了幾十倍左右。舉個(gè)例子,我們做多目標(biāo)檢測的時(shí)候,如果想做30FPS Throughput(吞吐量),只需要大概百GOPS算力就可以了,每幀計(jì)算量可以降低到5GOPS以內(nèi)。
此外,算法輕量化的趨勢商湯的閆總也提到了,我們有大量模型輕量化的手段,都是一些很主流的量化、剪枝、共享、知識(shí)蒸餾等等。那么這種模型量化的手段是日益的在演進(jìn),也就把我們算法輕量化的趨勢推的越來越明顯。
三、“周易”AIPU:兩代產(chǎn)品覆蓋全場景、全棧平臺(tái)
前面分享了Arm架構(gòu)和AI芯片和AIoT芯片的趨勢。后面重點(diǎn)講一下安謀中國“周易”AIPU的一個(gè)整體情況?!爸芤住盇IPU是安謀中國自研IP產(chǎn)品線中AI人工智能部分,我們還有CPU、ISP其他等等的產(chǎn)品線。
這是我們目前,“周易”也是AIPU產(chǎn)品線上看到的市場上幾個(gè)比較熱門的機(jī)會(huì)。第一個(gè)是比較熱的安防,我們目前有客戶和合作伙伴已經(jīng)在基于我們的AIPU定制自己安防前端的芯片,應(yīng)該很快產(chǎn)品就會(huì)出來。手機(jī)是ARM在手機(jī)端生態(tài)里面比較優(yōu)勢的一塊,未來作為安謀中國自研“周易”AIPU將來關(guān)注的市場。
還有另外一個(gè)市場就是自動(dòng)駕駛和智能座艙。如果大家去看各種峰會(huì)、媒體(報(bào)道),智能汽車已經(jīng)成為目前最熱的一個(gè)詞,而不是之一。

從安謀中國來講,我們對(duì)自動(dòng)駕駛以及智能座艙領(lǐng)域非常關(guān)注。首先,Arm能夠提供的IP組合通過級(jí)聯(lián)等,做到幾百體T(TOPS)以上的算力,同時(shí)我們可以提供的不僅僅是AI,而是包括AI完整的一套面向智能汽車完整的解決方案,(這)也是未來我們希望著力去發(fā)展的領(lǐng)域之一。而且目前我們有比較知名的合作伙伴,也會(huì)在今年或者明年推出基于我們AIPU的座艙類產(chǎn)品。
其他幾種,像智能家居、機(jī)器人、新零售,目前智能家居已經(jīng)有落地的芯片,今年年內(nèi)有智能音箱的產(chǎn)品出來,也是一家TOP的公司。

1、“周易”AIPU四大特點(diǎn):本土研發(fā)、生態(tài)完整、架構(gòu)創(chuàng)新、滿足高PPA指標(biāo)
安謀中國的“周易”AIPU有四個(gè)特點(diǎn),這是我們硬件一個(gè)比較簡單的框架圖:
1)首先“周易”AIPU由中國本土團(tuán)隊(duì)研發(fā),所有的知識(shí)產(chǎn)權(quán)完全自主可控,目前“周易”AIPU在幾個(gè)比較重點(diǎn)的領(lǐng)域安防、汽車、智能語音領(lǐng)域開始即將大規(guī)模商用;
2)同時(shí),我們會(huì)給客戶、合作伙伴提供完整的技術(shù)生態(tài),它是一個(gè)硬件加上完整的工具鏈以及適配整個(gè)硬件算法的體系;
3)從架構(gòu)層面,自研一套專門面向深度學(xué)習(xí)的指令集架構(gòu),也是安謀中國技術(shù)團(tuán)隊(duì)自主研發(fā);
4)從PPA的三個(gè)指標(biāo)來講,通過我們的實(shí)際測試和客戶的反饋,可以達(dá)到很好的匹配。

這是我們整個(gè)“周易”架構(gòu)相對(duì)比較詳細(xì)的介紹。從技術(shù)層面,指令集層面分成三類,第一類指令集叫做張量指令集,也就是我們經(jīng)常常見的向量Vector,能夠?qū)σ话愕纳窠?jīng)網(wǎng)絡(luò)進(jìn)行運(yùn)算和處理。
第二類我們把它叫做AI Fix Function,這一類有點(diǎn)類似硬件加速單元,它是針對(duì)卷積操作里面很常見的一些操作來做特定的硬件加速,能夠提供很好的效率,比如像卷積、池化、激活等等。
最后一類屬于算力需求比較低的我們叫標(biāo)量,主要做一些循環(huán)跳轉(zhuǎn)類的處理,有點(diǎn)類似CPU模式?!爸芤住睆募軜?gòu)級(jí)層面來說,三種不同的處理混合在一起,能夠滿足客戶從算力很低到算力很高不同的需求。同時(shí),Arm還有一個(gè)知名度比較高的Trustzone可安全擴(kuò)展,本身在“周易”里面也集成了我們的安全保護(hù),可以有效保護(hù)用戶信息,比如算法的數(shù)據(jù)等。

最后一點(diǎn),也是比較關(guān)鍵的一點(diǎn),我們跟很多客戶接觸中發(fā)現(xiàn),很多客戶如果選用比較成熟的IP做自己的SoC的時(shí)候,有很多客戶的算法能力非常強(qiáng),需要有算子自定義的需求。根據(jù)我們的調(diào)研,大概50%以上的客戶有算子自定義的需求、本身我們的“周易”AIPU就有很好的支持客戶算子的自定義擴(kuò)展。
本身AIPU關(guān)鍵的一點(diǎn)就是靈活可編程。在設(shè)計(jì)一款芯片的時(shí)候,其生命周期在5年左右。在這5年的區(qū)間里,算法本身的迭代是非??斓?。在設(shè)計(jì)芯片之初,就要考慮有很完整的算子支持,甚至IP的變化是完全可編程的,這才能滿足算法的不同需求。本身我們的IP也是朝這個(gè)方向去做。

“周易”AIPU可以提供一個(gè)比較完整的可擴(kuò)展能力。因?yàn)椤爸芤住北旧硎潜容^通用的AIPU平臺(tái),可以提供從最小0.2T算力甚至上百T算力的組合。這里面對(duì)很多比如常見神經(jīng)網(wǎng)絡(luò)層,包括算子可以完全實(shí)現(xiàn)可編程,通過TEC張量來做的。
針對(duì)特定的卷積類操作,比如池化、激活、權(quán)重、特征圖壓縮等,我們通過一個(gè)特定的AI指令集也就是AI Fix Function來做,同時(shí)支持客戶的擴(kuò)展。
從工具鏈層面,我們會(huì)給客戶提供完整易用的SDK。舉個(gè)例子來說,我們有命令行甚至圖形的方式讓客戶能夠快速一鍵生成我們的模型,比如你有一個(gè)TensorFlow或者Caffe的模型,通過命令行輸入,直接通過SDK一鍵轉(zhuǎn)化,很快生成AIPU可執(zhí)行的文件,整個(gè)操作非常方便。同時(shí),從模型框架方面,目前支持現(xiàn)在市面上比較主流的一些模型,包括TensorFlow、Python、TensorFlowLite等。

這是我們的總結(jié),面向人工智能領(lǐng)域端、邊、云三大類,“周易”基本可以覆蓋全場景人工智能解決方案,從端側(cè)、邊緣側(cè)、云端做一個(gè)總結(jié)。端側(cè)有門鎖、可穿戴設(shè)備,像TWS、智能音箱、包括手機(jī)智能終端等每年市場的規(guī)模,包括需要的算力需求以及它的功耗,我大概做了一個(gè)整體的分析。
從這里面,我們可以得出一個(gè)結(jié)論,目前市場主流的解決方案基本還是以GPU包括DSP為主,但是未來的趨勢,也就是最佳的解決方案,面向所有的場景來說,ASIC定制化的芯片將成為主要的解決方案。對(duì)于“周易”AI IP來講,兩代產(chǎn)品包括今年年末發(fā)的第三代產(chǎn)品基本上可以覆蓋從端側(cè)到邊緣側(cè)所有的人工智能場景。

人工智能芯片除了硬件層面,整個(gè)軟件棧就是我們的生態(tài)是非常重要的,這是目前“周易”全棧式異構(gòu)平臺(tái)的軟件棧。最底層對(duì)Arm整體Cortex CPU、Mali GPU以及我們自研的AIPU硬件體系的支持;到上層很多計(jì)算庫,包括合作伙伴完整的driver以及run time庫,像Arm NN、Tengine的支持;到最上面像TensorFlow、Caffe、PyTorch等等支持,“周易”覆蓋了整個(gè)軟件站各個(gè)層面的支持。
從工具鏈層面,我們目前針對(duì)一顆芯片來說,所有的工具鏈全部都是支持的,包括Simulator、Debugger、Profiler、Compiler還有Build Tool,也是構(gòu)建整個(gè)完整生態(tài)非常重要的一個(gè)環(huán)節(jié)。

這里面是我們剛剛講的,“周易”是通用的AIPU平臺(tái),如果通用的話,我們一定要談到對(duì)目前市場上主流的深度學(xué)習(xí)算子支持,內(nèi)置的Model Zoo預(yù)訓(xùn)練模型的支持,涵蓋了目前市面上可以看到的主流算法,比較熱門的transformer等等。
在算子層面,“周易”的第二代產(chǎn)品支持超過120個(gè)以上的主流算子,而且還在持續(xù)的增加過程中。

在安防、自動(dòng)駕駛很多場景里面,客戶需要完整的解決方案,針對(duì)客戶需求我們打造了面向CV視覺領(lǐng)域完整的IP解決方案。這里面不僅僅包括AI,包括ISP、CPU,通過互聯(lián)的方式組成完整的生態(tài)鏈。
Arm的M和A系列是完全支持的,ISP也有Arm中國自研的玲瓏,(該產(chǎn)品)前段時(shí)間剛剛發(fā)布,ISP和“周易”、Video Encoder等一起,可以為客戶提供一個(gè)完成比較完整的視覺IP解決方案。
2、“周易”Z1:邊緣計(jì)算通用的AI IP,面向IoT&Edge
這是我們“周易”的第一代產(chǎn)品,叫“周易”Z1。這是我們跟全志科技(合作)已經(jīng)正式量產(chǎn),今年很快大規(guī)模商用。全志R329用的是周易Z1的AIPU,提供的算力在0.2TOPS左右。
這個(gè)算力也讓我們看到了在智能音箱領(lǐng)域算力的一個(gè)趨勢,我們可以看到,端到端的語音算法將會(huì)成為一個(gè)主流的趨勢。

“周易”可以很快解決端到端的處理,把數(shù)據(jù)直接通過神經(jīng)網(wǎng)絡(luò)送進(jìn)來,不需要單獨(dú)像之前由DSP做前端處理,可以通過AIPU處理。通過試驗(yàn)對(duì)比,我們跟一些DSP做了一些測算。能效比包括算力(“周易”AIPU)相當(dāng)于它(DSP)的七倍以上。
這也是“周易”Z1,可以提供不同的算力組合。這是我們做了一個(gè)人體關(guān)鍵點(diǎn)檢測的應(yīng)用案例,實(shí)際應(yīng)用去跑,支持人臉關(guān)鍵檢測的算法,像Open pose、Deep pose等,在1TOPS計(jì)算力環(huán)境下吞吐量基本可以做到80FPS。而且在這個(gè)環(huán)境下,我們的bandwidth(帶寬)非常低,整個(gè)成本相較來說也比較低。
3、“周易”Z2:針對(duì)邊緣計(jì)算中高端場景優(yōu)化
“周易”Z2(是)第二代產(chǎn)品,跟Z1有一點(diǎn)不同,“周易”Z2更多面向邊緣計(jì)算和中高端的場景,比如自動(dòng)駕駛、中高端的安防等等。
Z2和上一代產(chǎn)品相比,它的特點(diǎn)在于單核算力是上一代產(chǎn)品的兩倍甚至更高,同時(shí)支持多核級(jí)聯(lián),其算力在128TOPS左右,可以做到自動(dòng)駕駛甚至中高端場景的需求,芯片面積Z2比上一代產(chǎn)品節(jié)省30%左右

從算法層面來講,“周易”Z2支持混合精度計(jì)算,同時(shí)在同等算力配置下,通過測算“周易”Z2比上一代產(chǎn)品針對(duì)某些網(wǎng)絡(luò)模型的性能高很多,兩代產(chǎn)品做了一個(gè)對(duì)比,找了一個(gè)比較知名的網(wǎng)絡(luò)模型MobileNet?V2,在帶寬節(jié)省30%同時(shí),性能提升接近3倍左右
“周易”Z2在今年或者明年也有一些合作伙伴,基于“周易”Z2 AI IP做應(yīng)用和場景的落地,主要面向安防和智能汽車兩個(gè)領(lǐng)域。

這是我們?cè)凇爸芤住盳2實(shí)際的應(yīng)用環(huán)境做的智能汽車比較熱的領(lǐng)域DMS駕駛員的疲勞監(jiān)測。我們和主流的DMS公司做了算法的合作,涵蓋了Face Detection、Face landmark、Head pose、Gaze等所有算法我們做了一個(gè)融合?!爸芤住盳2在1TOPS算力環(huán)境下,throughput做到了70fps左右。

這是另外一個(gè)應(yīng)用,“周易”Z2做了超級(jí)分辨率DTV(的一個(gè)案例)。我們也是跟主流的超級(jí)分辨率公司做了合作,用的“周易”Z2 1T算力硬件環(huán)境,經(jīng)過我們的測算能夠做到4K 60幀左右,同時(shí)使用業(yè)內(nèi)知名的圖象或者質(zhì)量評(píng)價(jià)工具WMAF,其評(píng)分達(dá)到93分。基本上(該應(yīng)用的)93分是非常高的分值,一般做到80分以上就非常高了。

最后跟大家整體的總結(jié)一下,目前安謀中國基于全球Arm的標(biāo)準(zhǔn),我們?cè)谶@個(gè)基礎(chǔ)上做了很多本土創(chuàng)新的工作。第一,我們的“周易”AIPU是面向安防、車載甚至移動(dòng)很多IT場景的AI通用處理器。
還有其它的安謀中國自研產(chǎn)品,包括“山?!保敲嫦蛭锫?lián)網(wǎng)領(lǐng)域的安全解決方案,目前很多客戶在落地。還有兩個(gè)是我們的CPU和ISP解決方案,一個(gè)是“星辰”(STAR),(一個(gè)是“玲瓏”)。在TWS領(lǐng)域,OPPO用了我們“星辰”CPU IP(的產(chǎn)品),已經(jīng)大規(guī)模量產(chǎn)和出貨。“鈴瓏”是我們近期剛剛安謀中國推出的自研ISP解決方案,后面還會(huì)推出面向安防和智能汽車不同應(yīng)用場景的解決方案。
我今天的介紹就到這里,謝謝大家。
以上是吳彤演講內(nèi)容的完整整理。