智東西(公眾號:zhidxcom)
文 | 白鴿
3月9日,由智東西主辦,極果和AWE聯(lián)合舉辦的中國首場AI芯片峰會在上海浦東成功舉辦。本次大會共吸引近萬名觀眾參加,到場人數(shù)比預(yù)計翻了3倍。即使是下午場,依然爆滿,有的觀眾寧愿站著也要聽完全場。在大會現(xiàn)場,近40位人工智能及AI芯片業(yè)界翹楚共聚一堂,系統(tǒng)地探討了AI芯片在2018年的技術(shù)前景和產(chǎn)業(yè)趨勢。
在特邀演講嘉賓中,英特爾中國研究院認(rèn)知計算實(shí)驗(yàn)室主任陳玉榮博士以《發(fā)掘AI芯片能力 提升認(rèn)知計算新高度》為主題進(jìn)行演講,系統(tǒng)闡述英特爾在認(rèn)知計算、情感識別、人臉分析技術(shù)以及軟硬件結(jié)合等方面的成果。以下是由智東西為您整理的陳玉榮博士大會演講干貨。
一、認(rèn)知計算
開場,陳玉榮博士就詳細(xì)的闡述了何為認(rèn)知計算。他表示,認(rèn)知計算是一套計算機(jī)技術(shù),用以模擬人類感知、智能和解決問題的能力。
認(rèn)知計算如金字塔結(jié)構(gòu)一樣,具有多個層次。其最底層則是用過各種傳感器進(jìn)行感知,如麥克風(fēng)、攝像頭以及其它傳感器等,然后基于對感知數(shù)據(jù)的識別,包括對聲音、語音等音頻信號的識別;對物體、手勢、人臉等視覺的識別;以及其他的傳感信號,如位置、生物特征等的識別。
在識別基礎(chǔ)上就是對多模態(tài)語義的理解,包括對各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的理解,如文本、語音、視覺、情感等。最后,到最頂層才是基于理解的認(rèn)知,包括對上下文語境的認(rèn)知,以及對自然人機(jī)交互、計劃與行動、類人記憶、適應(yīng)用戶的需求和愿望等的認(rèn)知。
事實(shí)上,認(rèn)知計算的發(fā)展和應(yīng)用是一個過程,它是機(jī)器學(xué)習(xí)算法和傳統(tǒng)知識工程擴(kuò)展結(jié)合的結(jié)果,其總體目標(biāo)是提高個人和組織的生產(chǎn)力、創(chuàng)造力。
二、深度學(xué)習(xí)的部署難題及解決方案
近年來,認(rèn)知計算所取得的突破仍停留在識別的層次上。得益于深度學(xué)習(xí)的快速發(fā)展,目前計算機(jī)已經(jīng)能夠在圖像識別,語音識別等領(lǐng)域達(dá)到或超過人的平均水平。
深度學(xué)習(xí)也被廣泛應(yīng)用到其他的領(lǐng)域,如醫(yī)療診斷里的腫瘤監(jiān)測、投資分析里面的文檔分類、智能交互的語音助手、工業(yè)應(yīng)用里的產(chǎn)品缺陷監(jiān)測、生物工程當(dāng)中的基因測序等。但深度學(xué)習(xí)也存在挑戰(zhàn),如需要用大量標(biāo)注數(shù)據(jù)、計算資源來進(jìn)行訓(xùn)練,這是深度學(xué)習(xí)的訓(xùn)練挑戰(zhàn),但陳玉榮博士所要闡述的則是深度學(xué)習(xí)的部署挑戰(zhàn)。
以視覺識別為例,為了提高識別準(zhǔn)確率,目前主流的設(shè)計方法有兩種,其一是將卷積神經(jīng)網(wǎng)絡(luò)設(shè)計的越來越深。其二,卷積神經(jīng)網(wǎng)絡(luò)可以設(shè)計的不那么深,但一定要足夠?qū)挕J褂眠@兩種方法就會帶來一個問題,即目前主流的模型參數(shù)通常是上千萬、上億甚至更多,這就導(dǎo)致計算空間、存儲空間的復(fù)雜性非常大,這樣就很難將其部署在計算和存儲資源受限的嵌入式、邊緣設(shè)備上。
為了解決上述挑戰(zhàn),除了進(jìn)行有針對性的高效網(wǎng)絡(luò)設(shè)計以外,另一個主要的辦法就是進(jìn)行DNN模型壓縮。
英特爾在此方向上提出了一套低精度的深度壓縮解決方案,它可以將DNN的權(quán)重參數(shù)和激活值表述成低精度的二進(jìn)制表示,并且,可以實(shí)現(xiàn)百倍級的無損壓縮,這樣就為深度學(xué)習(xí)推斷在硬件和軟件上的加速奠定了基礎(chǔ)。
該解決方案共包括了三個關(guān)鍵模塊:
1、優(yōu)化DNN結(jié)構(gòu)的動態(tài)網(wǎng)絡(luò)手術(shù)算法DNS。它可以將任意的DNN模型變成疏松的DNN模型,但是不會損失模型的識別準(zhǔn)確率。
2.漸進(jìn)網(wǎng)絡(luò)量化技術(shù)INQ,它可以將給定的DNN模型權(quán)重參數(shù)變成低精度的二進(jìn)制表示,同樣保證不會降低模型的識別準(zhǔn)確率。
3.多尺度的編碼量化MLQ,它可以把DNN模型的激活值變成給定位框的低精度表示,同樣不會降低模型的識別準(zhǔn)確率。
通過把這三個技術(shù)結(jié)合起來,就形成了一套完整的、低精度的深度壓縮解決方案。
接下來,陳玉榮博士詳細(xì)闡述了INQ技術(shù)原理。他表示,INQ技術(shù)通過三個創(chuàng)新的操作,即參數(shù)劃分、分組量化、重訓(xùn)練,從而使得整個量化過程變成一個漸進(jìn)式的操作過程,同時保證不會降低模型的識別準(zhǔn)確率。INQ是第一個無損的DNN量化壓縮的解決方案,它沒有對任何網(wǎng)絡(luò)模型類型進(jìn)行假設(shè),這意味著,它不僅可以用在卷積網(wǎng)絡(luò)模型CNN上,也還可以用在其他網(wǎng)絡(luò)模型上。
此外,因其是二進(jìn)制表示,所以通過INQ技術(shù)與量化的模型可以使大部分的乘法操作變成簡單的一位操作,同時采用專門的硬件就可以實(shí)現(xiàn)很高的加速。另外,量化技術(shù)是基于預(yù)訓(xùn)練模型的,也就是說不需要從頭開始訓(xùn)練,那么這樣量化的效率很高。
通過對主流的DNN模型進(jìn)行實(shí)驗(yàn),在5比特量化的結(jié)果顯示其量化模型的準(zhǔn)確率不但沒有降低反而有所增加,在超低精度,也就是在2/3比特的量化結(jié)果也顯示其識別準(zhǔn)確率非常接近全精度的參考模型。
三、促進(jìn)深度學(xué)習(xí)推斷硬件加速
針對深度學(xué)習(xí),英特爾提供了多種技術(shù)解決方案,涵蓋了從數(shù)據(jù)中心到邊緣端的訓(xùn)練和推斷。
通過將低精度深度壓縮技術(shù)與英特爾的低功耗硬件結(jié)合,就可以為霧計算、邊緣計算提供深度學(xué)習(xí)推斷的硬件加速能力。例如,通過采用FPGA(現(xiàn)場可編程門列)友好的DNN設(shè)計,并結(jié)合低精度深度壓縮技術(shù),就可以在霧計算應(yīng)用場景提供更快的速度、更近的延遲和能耗以及更高的吞吐量。
英特爾最新的Movidius超級功耗視覺處理單元Myriad X?VPU已經(jīng)具備了神經(jīng)網(wǎng)絡(luò)計算加速的引擎——NCE,將來把它與壓縮技術(shù)結(jié)合,就可以實(shí)現(xiàn)低精度的DNN計算。這樣,就可以進(jìn)一步提高在邊緣計算上DNN的計算速度和吞吐量。
此外,英特爾還研發(fā)出其他芯片,能夠支持?jǐn)?shù)據(jù)中心和邊緣端的各種AI計算。如英特爾凌動、酷睿和至強(qiáng)處理器就可以對諸如機(jī)器學(xué)習(xí)、認(rèn)知推理等通用AI的算法進(jìn)行計算,如果算力不夠,還可以用FPGA進(jìn)行靈活加速。
在每種CPU的基礎(chǔ)之上,英特爾還會提供廣泛的加速器組合,以便滿足不同用戶的需求。如英特爾的Nervana神經(jīng)網(wǎng)絡(luò)處理器,就是專門針對深度學(xué)習(xí)設(shè)計,它可以對高強(qiáng)度的深度學(xué)習(xí)訓(xùn)練和推斷進(jìn)行加速。另外針對視覺、語音、音頻以及自動駕駛等方面的處理,還有專門的英特爾的Movidius VPU、GNA以及Mobileye EyeQ芯片來進(jìn)行專門加速。
然而,光有芯片是不夠的,為此,英特爾還提供了端到端的AI全棧解決方案。其中包括多種計算、存儲網(wǎng)絡(luò)硬件平臺;多種軟件工具、函數(shù)庫;優(yōu)化的開源框架以及各種人工智能平臺。
未來,英特爾研究院也在進(jìn)行其他領(lǐng)域的研究,包括先進(jìn)算法、神經(jīng)擬態(tài)芯片、自主系統(tǒng)、量子計算。在今年的CES上,英特爾研究院發(fā)布了代號Loihi神經(jīng)擬態(tài)芯片,以及代號為Tangle Lake的具有49個量子比特的超導(dǎo)量子測試芯片。
四、軟硬協(xié)同提升對“人”的認(rèn)知
英特爾人臉分析研究始于2011年,其中共經(jīng)歷了三個階段。早期采用比較傳統(tǒng)的算法實(shí)現(xiàn)了人臉檢測識別、微笑檢測、性別年齡識別等簡單功能。之后結(jié)合英特爾架構(gòu)進(jìn)行軟硬件協(xié)同設(shè)計,采用更高效的人臉檢測識別算法,實(shí)現(xiàn)更完整的功能,包括人臉關(guān)鍵點(diǎn)檢測跟蹤、動態(tài)人臉表情識別等。目前,英特爾最新人臉分析技術(shù)則是利用了基于深度學(xué)習(xí)的高效網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。在實(shí)際應(yīng)用場景中,其功耗很低。
此外,英特爾還實(shí)現(xiàn)了三維人臉分析,包括三維人臉建模和增強(qiáng)。陳玉榮博士介紹,他們研發(fā)的先進(jìn)的2D人臉技術(shù)已經(jīng)被集成到英特爾軟硬件當(dāng)中,如英特爾的集成顯卡、實(shí)感技術(shù)SDK等,進(jìn)一步提高了英特爾用戶的視覺體驗(yàn)。
在基于2D人臉分析技術(shù)上,英特爾還開發(fā)了一套3D人臉分析技術(shù),通過該技術(shù),使用普通的筆記本電腦就可以實(shí)現(xiàn)實(shí)時的三維人臉建模、跟蹤和增強(qiáng)。在會上,陳玉榮博士演示了用參數(shù)化表示的三維人臉形變模型,它可以用來模擬任何人的相貌、臉形、表情變化等。這項(xiàng)技術(shù)可以廣泛用在虛擬現(xiàn)實(shí)、游戲場景當(dāng)中,從而進(jìn)一步提升用戶的沉浸式體驗(yàn)。
除對人臉分析之外,對情感的計算也是認(rèn)知計算的重要方面。
對于人類來說,聲音、表情是表達(dá)情感的最主要的方式。英特爾通過對情感識別算法的研究,在2015年就提出了基于人工定義特征的人臉表情識別算法,并基于算法研發(fā)出了一套音視頻情感解決方案。該方案在2015年舉辦的非受限的音視頻情感識別挑戰(zhàn)賽EmotiW2015中獲得第一名。
2016年,英特爾研發(fā)出了全新的深度神經(jīng)網(wǎng)絡(luò)算法HoloNet,其速度很快,在普通的CPU上運(yùn)行速度可達(dá)百幀每秒。這樣可以滿足機(jī)器人、智能家居、在線教育應(yīng)用場景的使用需求。2017年,英特爾又提出了全新聚合監(jiān)督的情感識別算法,該算法取得了單模型比HoloNet高5.5%的識別率,通過多模型的融合在去年比賽當(dāng)中再次獲得第一名。





