智東西(公眾號:zhidxcom)
文 | 心緣

智東西6月27日消息,最近,脫胎于清華大學(xué)微電子所Thinker團(tuán)隊的AI芯片創(chuàng)企清微智能迎來新進(jìn)展:

全球首款可重構(gòu)超低功耗語音人工智能(AI)芯片TX210已實現(xiàn)規(guī)?;慨a(chǎn),于6月中旬正式交付市場,而此時清微智能距成立還不到1年。

這是一款語音SoC芯片,針對手機(jī)、可穿戴設(shè)備、智能家居等多種應(yīng)用場景的智能終端產(chǎn)品開發(fā),工作功耗不超過2mW,語音活動檢測(VAD)功耗小于100uW,延時不到10ms。

清微智能,拆開來,就是清華、微電子、人工智能,也就代表了這家公司的定位——專注可重構(gòu)計算芯片,提供以端側(cè)為基礎(chǔ),并向云側(cè)延伸的芯片產(chǎn)品及解決方案。

其核心技術(shù)團(tuán)隊來自清華微電子學(xué)研究所(以下簡稱微電子所),其芯片所采用的架構(gòu)正是中國芯片技術(shù)學(xué)術(shù)領(lǐng)軍者——中國半導(dǎo)體行業(yè)協(xié)會IC設(shè)計分會理事長、清華大學(xué)微電子所所長魏少軍教授所帶領(lǐng)研發(fā)的可重構(gòu)計算架構(gòu)。

今日,智東西來到清微智能的辦公室,和創(chuàng)始人兼CEO王博深入交流,看這家出身“名門”、即將滿1周歲的AI芯片新秀,如何帶著清華大學(xué)前沿的創(chuàng)新架構(gòu)踏入產(chǎn)業(yè)的大門,如何快速在逐漸火熱的AI芯片市場站穩(wěn)腳跟。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

一、謀定而后動,脫胎清華微電子系

清微智能成立于2018年7月,其技術(shù)脫胎于清華大學(xué)微電子學(xué)Thinker團(tuán)隊。

如今的芯片產(chǎn)業(yè),放眼望去,數(shù)不勝數(shù)的國內(nèi)外半導(dǎo)體企業(yè)高管從清華大學(xué)電子工程系和微電子所走出。

而微電子所的靈魂人物——現(xiàn)任清華大學(xué)微電子研究所所長、中國半導(dǎo)體行業(yè)協(xié)會IC設(shè)計分會理事長魏少軍教授,在過去的十幾年間一直深耕于一項核心技術(shù)——“軟件定義芯片”,即可重構(gòu)計算芯片技術(shù)。

意識到可重構(gòu)計算架構(gòu)對于芯片算力提升和功耗降低的巨大優(yōu)勢,2006年,魏少軍教授牽頭成立了清華大學(xué)可重構(gòu)計算研究團(tuán)隊,而這支團(tuán)隊后來成為清微智能的核心。

2015年,AI復(fù)興,對芯片運(yùn)算能力產(chǎn)生了遠(yuǎn)高于傳統(tǒng)芯片的要求,這個時候,沉寂了9年的可重構(gòu)計算因其與AI算法契合的特性,開始重新進(jìn)入“聚光燈下”。

自2016年起,基于可重構(gòu)計算架構(gòu),魏少軍教授團(tuán)隊中的清華大學(xué)微納電子系副系主任尹首一副教授帶隊設(shè)計研發(fā)了4款Thinker系列的低功耗終端AI芯片,分別是實驗性質(zhì)的驗證芯片Thinker I、人臉識別芯片Thinker II、語音識別芯片Thinker S、語音識別芯片Thinker IM。(AI芯片終極難題 被清華大學(xué)IC男神解決了!

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

這三款芯片的設(shè)計方案一問世,就收獲了國際學(xué)術(shù)界的認(rèn)可。比如Thinker-I首次出現(xiàn)在2017VLSI國際研討會上時,外界評價它“突破了神經(jīng)網(wǎng)絡(luò)計算和訪存瓶頸,實現(xiàn)了高能效多模態(tài)混合神經(jīng)網(wǎng)絡(luò)計算。”

而清微智能CEO王博的本科和碩士均在北京郵電大學(xué)計算機(jī)通信專業(yè)就讀,他與清華大學(xué)Thinker團(tuán)隊的相識,卻來自一段同學(xué)緣分。

彼時,王博還在一家云計算方案提供商工作,負(fù)責(zé)智能硬件產(chǎn)品,他在做一款人臉識別智能門鎖時,想要找到合適的芯片,卻發(fā)現(xiàn)市面上的高通等公司無法滿足他們對能耗比等性能的需求。

尹首一副教授的大學(xué)同學(xué)是王博的高中同學(xué),兩人因此結(jié)識。

王博得知尹首一副教授在帶領(lǐng)Thinker團(tuán)隊做AI芯片,看到其芯片設(shè)計方案擁有出色的能耗比,再經(jīng)過深入了解他們所設(shè)計的可重構(gòu)計算架構(gòu)的技術(shù),王博對這一架構(gòu)的擴(kuò)展性感到認(rèn)可,覺得這條路線是可行的。

預(yù)測到AIoT市場將步入全面爆發(fā)期后,2018年7月,王博牽頭在北京中關(guān)村成立了清微智能公司,將技術(shù)產(chǎn)品化,由王博任CEO,尹首一副教授為首席科學(xué)家,歐陽鵬博士任CTO和Thinker芯片主架構(gòu)師。

Thinker團(tuán)隊原本就分為兩部分,一部分是尹首一副教授帶領(lǐng)一些博士生從事整個架構(gòu)的設(shè)計和優(yōu)化工作,另一部分是清華以社招形式招進(jìn)來的專門負(fù)責(zé)芯片實現(xiàn)的工程師。

清微智能的初始技術(shù)團(tuán)隊主要來自Thinker團(tuán)隊中負(fù)責(zé)實現(xiàn)芯片的工程師們,約一二十人,如今其團(tuán)隊數(shù)量已擴(kuò)展到70多人。團(tuán)隊成員來自清華大學(xué)、NVIDIA、Sony等知名高校和企業(yè),在半導(dǎo)體行業(yè)具備多年經(jīng)驗。

去年第三季度,清微智能拿到百度戰(zhàn)投領(lǐng)投的近億元天使輪融資,由百度戰(zhàn)投、分眾傳媒、禧筠資本、國隆資本、西子聯(lián)合控股等聯(lián)合投資,而新一輪融資計劃也將于近期啟動。

而清微智能在成立不足一年的時間,就交出了TX210語音芯片百萬數(shù)量級的量產(chǎn),圖像芯片也將于今年12月量產(chǎn),這一成就,源自清華大學(xué)十多年扎實的技術(shù)積累、200多項技術(shù)專利。

二、軟件定義芯片:可重構(gòu)計算芯片架構(gòu)

在今年的全球AI芯片峰會GTIC 2019上,魏少軍教授曾展示這樣一張PPT。他將芯片分成三部分:第一部分是可更多編程的,如CPU;第二部分是能少量編程的,如GPU;第三部分是不能編程的,如專用芯片。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

除了可編程性,這些不同計算架構(gòu)的主要差別在于能效。專用芯片到GPU之間有1000倍的能效差距,而1000倍是一個很重要的分界線。

魏少軍教授表示,如果我們的AI芯片做不到比GPU高1000倍的能效,就不能滿足人們在終端側(cè)的需求。

傳統(tǒng)的終端AI芯片,主要基于CPU、DSP、GPU、NPU等架構(gòu),這些架構(gòu)本質(zhì)屬于指令驅(qū)動的計算模式,屬于馮·諾依曼架構(gòu)。

這些架構(gòu)在具體計算過程中,面向某一特定領(lǐng)域,往往存在高能效和靈活性不可兼得的問題,比如華為旗艦手機(jī)中強(qiáng)大的麒麟芯片,就不適用于安防攝像頭、智能家居等場景。

它們需要從指令存儲器中加載指令并解析指令,然后指導(dǎo)執(zhí)行單元進(jìn)行計算。在數(shù)據(jù)計算中,這是一種靈活但是低效的時域計算模式。

此外,在AI芯片的研發(fā)過程中,也有團(tuán)隊利用單指令流多數(shù)據(jù)流(SIMD)的方式來提高數(shù)據(jù)復(fù)用,從而減少指令解析,但是SIMD面向的是同構(gòu)的操作,當(dāng)指令功能變換時,仍需要重復(fù)前面的過程。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

為了兼具高能效和可編程性,清華大學(xué)Thinker團(tuán)隊致力于研究的是一種無需指令驅(qū)動的計算模式,即動態(tài)可重構(gòu)計算架構(gòu)(CGRA,Coarse grain reconfigurable architecture),也就是上圖紅色區(qū)域。

它是一種非馮·諾依曼架構(gòu),簡單而言,就是將軟件通過不同的管道輸送到硬件中來執(zhí)行功能,使得芯片能夠?qū)崟r地根據(jù)軟件/產(chǎn)品的需求改變功能,實現(xiàn)更加靈活的芯片設(shè)計。

傳統(tǒng)的芯片需要讓應(yīng)用來適應(yīng)架構(gòu),而CGRA架構(gòu)更加靈活,能夠根據(jù)數(shù)據(jù)流的特點,讓軟件來調(diào)整芯片的計算能力,在最合理分配和使用算力的同時,成倍節(jié)約了數(shù)據(jù)存儲和傳輸帶寬。

王博介紹說,CGRA架構(gòu)適合AI、視頻編解碼、語音處理等計算密集型場景,但不適用于以邏輯判斷為主的非計算密集型場景。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

CGRA基于數(shù)據(jù)流圖,面向的是異構(gòu)的空域計算,一次配置形成固定的電路結(jié)構(gòu),從而以接近ASIC效率反復(fù)執(zhí)行,資源利用率和數(shù)據(jù)復(fù)用率高。

同時,相比專用集成電路(ASIC)方式的固定電路結(jié)構(gòu),它又可以根據(jù)應(yīng)用或者算法進(jìn)行電路配置,使得硬件重新形成不同的計算電路結(jié)構(gòu),具有非常強(qiáng)的靈活性。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

▲“指令驅(qū)動”的時域計算模式 v.s. “數(shù)據(jù)驅(qū)動、動態(tài)重構(gòu)”的空間計算模式

以這個更低能耗和更強(qiáng)靈活性的架構(gòu)為基礎(chǔ),清微智能CTO歐陽鵬透露,清微智能在具體的芯片設(shè)計上,又做了兩方面深化。

1、支持混合精度計算

主流神經(jīng)網(wǎng)絡(luò)算法具有混合數(shù)據(jù)精度表示的特點,即不同的神經(jīng)網(wǎng)絡(luò)層可用不同數(shù)據(jù)位寬來表達(dá)中間數(shù)據(jù)或者權(quán)重數(shù)據(jù)的精度。

然而,傳統(tǒng)AI架構(gòu)無法高效支持混合精度計算,通常只能支持單一精度計算,或者只能通過擴(kuò)展資源方式支持少數(shù)幾種精度。

相較而言,清微AI芯片產(chǎn)品能支持從1bit-16bit的混合精度計算,同時,不同的神經(jīng)網(wǎng)絡(luò)層可以采用不同的精度表示,可以實時切換精度。

這源自CGRA架構(gòu)的特點,在具體實現(xiàn)過程中,可重構(gòu)模式動態(tài)重組計算資源和帶寬,根據(jù)精度表示,讓計算資源和帶寬接近滿負(fù)荷進(jìn)行計算,從而將混合精度網(wǎng)絡(luò)下的計算資源和帶寬的利用率逼近極限,高效支持多種混合精度的神經(jīng)網(wǎng)絡(luò)。

2、優(yōu)化非神經(jīng)網(wǎng)絡(luò)計算效率

AI算法不止有神經(jīng)網(wǎng)絡(luò)中卷積層、全連接層等邏輯,還有非神經(jīng)網(wǎng)絡(luò)計算邏輯。

比如在人臉檢測和識別中,有NMS(非極大值抑制)以及仿射變換;在語音識別中,有FBANK/MFCC特征提取以及聲學(xué)解碼等。
而與此同時,非神經(jīng)網(wǎng)絡(luò)算法也在快速演進(jìn)。比如最新NMS已經(jīng)演化到Soft-NMS。

傳統(tǒng)AI芯片架構(gòu)強(qiáng)調(diào)了神經(jīng)網(wǎng)絡(luò)邏輯的計算效率,卻忽視了非神經(jīng)網(wǎng)絡(luò)邏輯的計算效率。

針對非神經(jīng)網(wǎng)絡(luò)邏輯,一般仍然采用CPU或者DSP進(jìn)行處理,或者采用ASIC進(jìn)行固化。

清微AI芯片產(chǎn)品針對神經(jīng)網(wǎng)絡(luò)部分和非神經(jīng)網(wǎng)絡(luò)部分均進(jìn)行了計算效率考慮。

針對非神經(jīng)網(wǎng)絡(luò)處理邏輯,從算法數(shù)據(jù)流圖進(jìn)行空間映射,以接近ASIC效率計算。

同時,其產(chǎn)品通過配置形成不同的電路結(jié)構(gòu)來動態(tài)處理不同非神經(jīng)網(wǎng)絡(luò)計算邏輯,在保證靈活性前提下,計算效率有極大提升。

三、首款語音AI芯片量產(chǎn),超強(qiáng)能效比

基于創(chuàng)新的CGRA架構(gòu),清微智能第一款實現(xiàn)規(guī)?;慨a(chǎn)的語音AI芯片TX210擁有業(yè)界領(lǐng)先的算力、能耗比、時延、面積和成本。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

據(jù)介紹,TX210采用臺積電40nm ULP工藝,支持WLCSP和QFN兩種產(chǎn)品封裝。

該芯片支持離線語音喚醒功能,支持5個喚醒詞和10個命令詞,還支持聲紋識別。它支持3-5m的遠(yuǎn)場語音喚醒和識別,工作頻率為50MHz,延遲不到10ms。

繼承CGRA架構(gòu)的特點,TX210芯片可編程、可重構(gòu),在結(jié)構(gòu)上有著極強(qiáng)的靈活性,支持多比特DNN神經(jīng)網(wǎng)絡(luò),可以支持1-16bit位寬的神經(jīng)網(wǎng)絡(luò)計算,也支持FFT/MEL FILTER等。

由于語音AI芯片的應(yīng)用場景非常豐富,可以應(yīng)用至智能手機(jī)、可穿戴智能設(shè)備、小家電、大家電、玩具及車載等眾多場景中,而低能耗又是從終端設(shè)備到用戶都非常重視的性能。

對此,TX210針對語音交互場景做了更多優(yōu)化。

比如為了保持在低功耗狀態(tài),它采用多級功耗喚醒模式,只有在通過麥克風(fēng)檢測到人聲時,它才會被激活,準(zhǔn)確監(jiān)聽到“喚醒詞”后,TX210才會去喚醒處于休眠狀態(tài)的主控處理器芯片。

另外,芯片支持一語直達(dá)功能,處理器只需要處理喚醒詞之后的語音信號內(nèi)容。

經(jīng)過多重優(yōu)化,TX210將工作功耗控制在2mW內(nèi),將語音活動檢測(Voice Activity Detection,VAD)功耗降至100uW內(nèi)。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

該語音AI芯片的另一個特點是用極小的芯片面積支持豐富的接口和電源管理。

TX210的WLCSP封裝面積僅有2.3 x 1.9mm2,適用于手機(jī),藍(lán)牙耳機(jī)等對體積要求苛刻的應(yīng)用場景;同時TX210集成了LDO/ADC/BANDGAP/PGA等模擬器件,支持32K crystal輸入,極大降低了用戶的使用成本。

除此之外,在降噪方面,TX210也做了進(jìn)一步優(yōu)化,單麥基于深度學(xué)習(xí)進(jìn)行降噪,雙麥則是將傳統(tǒng)算法與深度學(xué)習(xí)相結(jié)合,在典型信噪比下,TX210的喚醒識別率達(dá)95%,誤識別率小于24小時一次。

據(jù)介紹,在TX210正式上市前,清微智能已與一些大型的互聯(lián)網(wǎng)公司、智能手機(jī)及家電廠商建立了合作關(guān)系。

而這只是清微智能基于CGRA架構(gòu)芯片的開始,他們的視覺芯片預(yù)計將在今年12月量產(chǎn)。

王博告訴智東西,目前他們規(guī)劃CGRA架構(gòu)18個月一迭代,下一代架構(gòu)有望將算力再提高5-10倍。隨著Thinker團(tuán)隊持續(xù)迭代更新CGRA架構(gòu),未來其語音芯片和視覺芯片的算力和能效比都將進(jìn)一步提升。

在算法方面,清微智能在在算法壓縮,量化以及硬件友好化設(shè)計方面有長期的積累,并與中科院、清華大學(xué)、喬治理工大學(xué)等開展了深入合作。

清微智能還研發(fā)了一套CGRA軟件開發(fā)平臺,這個平臺兼容TensorFlow、Caffe等主流AI框架,可自動完成轉(zhuǎn)換、解析、編譯、生成等過程。他們自己的編譯平臺,允許用戶從其它框架無縫遷移清微智能的芯片。

清華創(chuàng)新架構(gòu)芯片量產(chǎn)!全球首款可重構(gòu)超低功耗語音AI芯片

清微智能選擇先切入終端AI芯片市場,這與當(dāng)下的大環(huán)境不無關(guān)聯(lián)。

去年,智能終端產(chǎn)品呈井噴式發(fā)展,智能音箱在2018年第四季度的出貨量增長了95%。日前,工信部電子科技委副主任莫瑋曾表示:“中國已成為全球最大的智能終端生產(chǎn)和消費(fèi)國?!?/p>

但業(yè)界普遍認(rèn)為,終端智能的滲透率尚不足1%。這意味著,智能終端市場規(guī)模遠(yuǎn)未達(dá)到預(yù)期,也意味著終端AI芯片市場的巨大潛力。

基于CGRA架構(gòu)研發(fā)芯片的不止清微智能一家,美國創(chuàng)企Wave Computing采用這一架構(gòu)的第二代DPU芯片預(yù)計將在明年面世,是一款7nm云端AI芯片。

至于清微智能是否有進(jìn)軍云端AI芯片的計劃,王博表示,Thinker團(tuán)隊之前曾做出過成功的云端芯片,考慮到公司規(guī)模和投入階段問題,他們想先在端側(cè)驗證架構(gòu)的表現(xiàn)是出色的,等下一階段有了足夠積累,再去做云端芯片。

四、創(chuàng)新架構(gòu)是AI芯片發(fā)展的關(guān)鍵

目前AI芯片產(chǎn)業(yè)化還在起步階段,從算法到算力,能耗比剛剛能滿足用戶基礎(chǔ)的需求。

由于AI計算需要很大算力,但傳統(tǒng)的馮·諾依曼架構(gòu)在計算密集型任務(wù)方面遇到了瓶頸,芯片設(shè)計底層架構(gòu)的創(chuàng)新成為未來持續(xù)發(fā)展關(guān)鍵,王博認(rèn)為,這也是很多AI創(chuàng)業(yè)公司集中出現(xiàn)的原因,大家都在同一起跑線上。

即便采用同一類架構(gòu),如CGRA,設(shè)計思路在本質(zhì)上不會有太多差別,但每個處理元素(PE,Processing Element)中怎么設(shè)計、讓它實現(xiàn)怎樣的功能、處理元素之間怎樣連接更高效……這些細(xì)節(jié)的設(shè)計與創(chuàng)新會決定各家芯片的差異。

除了架構(gòu)創(chuàng)新,工藝、近閾值的技術(shù)等方法的進(jìn)化也很重要,他們能在先進(jìn)架構(gòu)的基礎(chǔ)上進(jìn)一步提升芯片的性能。

王博也談到,做芯片的本質(zhì)上還是要獨立流片以及建立一個完整的生態(tài)系統(tǒng),而不是把各種功能的IP堆在一起就行。做好芯片的前提,是要擁有大量的芯片行業(yè)積累。

芯片還需面臨越來越多的場景去定義創(chuàng)新,才能將前期費(fèi)用分?jǐn)傁氯?,才能盈利,如果沒有幾千萬的場景去支撐,做芯片的意義就不存在了。

對于終端智能而言,上傳云端的穩(wěn)定性、延時、隱私、部署成本等問題仍亟待解決,即將出現(xiàn)的5G將使得更多設(shè)備能夠聯(lián)網(wǎng)互通,使得這些設(shè)備對終端智能的要求更加明確和豐富。

結(jié)語:終端AI芯片落地新戰(zhàn)在即

從清微智能身上,我們看到更加新穎的一種芯片團(tuán)隊組合,他們不僅擁有來自學(xué)術(shù)大牛帶隊研發(fā)的前沿創(chuàng)新架構(gòu),還擁有產(chǎn)業(yè)經(jīng)驗豐富的工程師們。兩強(qiáng)結(jié)合之下,清微智能既擁有高性能+極低功耗的芯片,又能快速推進(jìn)產(chǎn)品完成變現(xiàn)。

近一兩年,一批新玩家涌入終端AI芯片市場,但撇除那些為了實現(xiàn)垂直化整合或優(yōu)化自身整體方案的AI算法公司、設(shè)備供應(yīng)商等跨界玩家,市場機(jī)會逐漸聚攏在少數(shù)擁有創(chuàng)新架構(gòu)的玩家身上。

終端AI芯片的落地之戰(zhàn)才剛剛開始,技術(shù)路徑、覆蓋場景、落地速度、生態(tài)擴(kuò)張等因素都有可能將這些玩家拉開差距,市場將檢驗出誰是能打持久戰(zhàn)的企業(yè)。