智東西(公眾號:zhidxcom)
文 | Lina

3月9日,由智東西主辦,極果和AWE聯(lián)合舉辦的中國首場AI芯片峰會在上海浦東成功舉辦。本次大會共吸引近萬名觀眾參加,到場人數(shù)比預計翻了3倍。即使是下午場,依然爆滿,有的觀眾寧愿站著也要聽完全場。在大會現(xiàn)場,近40位人工智能及AI芯片業(yè)界翹楚共聚一堂,系統(tǒng)地探討了AI芯片在2018年的技術(shù)前景和產(chǎn)業(yè)趨勢。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

作為GTIC 2018大會的開場主旨演講嘉賓、AI芯片學術(shù)圈的代表人物,清華大學微納電子系主任、微電子所所長魏少軍教授發(fā)表了主題為《AI芯片發(fā)展需要應用和架構(gòu)創(chuàng)新雙輪驅(qū)動》的演講,從四大角度剖析了當今AI芯片所面臨的挑戰(zhàn)、可能的解法、對AI應用與芯片架構(gòu)的思考等,并分享了清華微電子所打造的Thinker系列AI芯片的歷程。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

以下為魏少軍教授演講的要點精析,文后將附上魏少軍教授演講全文速記+PPT。

一、應用和架構(gòu)創(chuàng)新是AI芯片的必經(jīng)之路

目前,AI芯片發(fā)展面臨著兩個現(xiàn)實的問題:一是人工智能新算法層出不窮、尚未固定;二是現(xiàn)在一個算法對應一個應用,沒有一個算法能夠覆蓋所有應用,也沒有出現(xiàn)一個殺手級的AI應用。因此相對應的,我們現(xiàn)在打造AI芯片也需要解決兩大要素,第一要這款芯片要適應算法的演進,第二要做一個創(chuàng)新的芯片架構(gòu),使其能夠適應所有的應用。

沿循著打造AI芯片的兩大要素思考下來,一種新型的芯片技術(shù)被推到了聚光燈下——“軟件定義芯片”,也稱可重構(gòu)計算。魏少軍老師帶領的清華微電子所團隊在10年前就已經(jīng)開展了這方面的研究。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

“軟件定義芯片”顧名思義就是讓芯片根據(jù)軟件進行適應與調(diào)整,這是一項專用芯片架構(gòu)設計上的創(chuàng)新,簡單來說就是將軟件通過不同的管道輸送到硬件中來執(zhí)行功能,使得芯片能夠?qū)崟r地根據(jù)軟件/產(chǎn)品的需求改變功能,實現(xiàn)更加靈活的芯片設計。硬件跟著軟件不斷變化,既能適應算法的演進,又能適應多個不同應用。

去年的時候,由美國國防部先進計劃署(DARPA)推動的電子產(chǎn)業(yè)振興計劃(ERI)針對后摩爾定律(post-Moore’s-law)時代的新材料、架構(gòu)與設計流程,其中一個課題就是軟件定義硬件(software define hardware)。

二、打造超低功耗AI芯片Thinker系列

前年,一個偶然的機會,依照可重構(gòu)計算芯片的框架,魏少軍教授團隊中的尹首一副教授帶隊設計研發(fā)了一款代號為Thinker 1的可重構(gòu)混合神經(jīng)網(wǎng)絡計算芯片。這款芯片不僅可以動態(tài)地調(diào)整計算和內(nèi)存需求,使得芯片能夠支持人臉識別和語音識別的神經(jīng)網(wǎng)絡應用,而且芯片的功耗非常小。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

▲清華大學微電子所提供的Thinker芯片的顯微照片

Thinker 1不僅在AI性能與算法通用性上取得了突破性的進展,還獲得了學術(shù)界的重要認可,在2017 ACM/IEEE ISLPED國際低功耗電子學與設計會議上,Thinker1獲得了設計競賽獎,這是中國大陸單位首次以第一完成單位獲得此獎項。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

Thinker 1是一塊實驗性質(zhì)的驗證芯片,隨后,可重構(gòu)計算團隊又打造了兩款Thinker系列芯片,分別為Thinker 2人臉識別芯片,能夠做到超低功耗的6ms人臉識別;以及Thinker S語音識別芯片功耗則更低,只有0.3毫瓦。這系列芯片在國際上廣受好評,獲得了眾多獎項。

三、AI芯片2-3年內(nèi)出現(xiàn)先烈

在演講的最后,魏少軍教授分享了幾項總結(jié)與思考:

1、應用領域的確立是AI領域的確立前提,但是AI的殺手級應用還沒有出現(xiàn),因此AI發(fā)展有很長的路要走。

2、未來能否出現(xiàn)像通用CPU這樣獨立存在的通用AI處理器?如果存在的話,它的架構(gòu)是什么樣,如果不存在,如今的AI芯片公司又該何去何從?

3、2到3年內(nèi),AI芯片行業(yè)將會碰到一個低潮,今天的一部分、甚至大部分的創(chuàng)業(yè)者成為技術(shù)變革的先烈。

附:以下為魏少軍教授演講《AI芯片發(fā)展需要應用和架構(gòu)創(chuàng)新雙輪驅(qū)動》全文速記

魏少軍:大家上午好,感謝主辦方給我個機會介紹我們的工作。主持人說我們是做人工智能芯片,錯了,我是做芯片設計的,研究芯片的設計和理論。兩年前我們用前些年的研究成果嘗試做了一些AI芯片,結(jié)果效果不錯。后來我們在國際上連續(xù)發(fā)表了一些有影響力的論文,有些結(jié)果被一些引用,突然發(fā)現(xiàn)我自己成了AI芯片的專家,其實不是。今天我跟大家做一些溝通,主要希望提出一些可能跟在座的大佬們不太一樣的觀點,供大家批判和產(chǎn)生共鳴。我觀點中如果有冒犯在座各位,請大家務必原諒。既然是雙輪驅(qū)動,那就不是一個事情,我們今天談四個方面的內(nèi)容。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

一、集成電路芯片是實現(xiàn)人工智能的當然載體。AI其實在50年代出現(xiàn)過,經(jīng)過30年的發(fā)展后轉(zhuǎn)移到機器學習、再經(jīng)過30年發(fā)展到了深度學習?,F(xiàn)在看深度學習是人工智能的主要內(nèi)容,但其實深度學習只是人工智能一個窄面,之所以深度學習作為了主要內(nèi)容,一個原因就是前年和去年AlphaGo下棋贏了人類高手。而在這個標志事件之前,早在2011年就進行過一個游戲比賽,其實比AlphaGo更有代表性,當然可能不一定大家同意我的觀點。(2011年,IBM公司的Watson計算機參加綜藝節(jié)目危險邊緣Jeopardy,前兩輪與對手打平,而在最后一輪中,Watson打敗了最高獎金得主布拉德·魯特爾和連勝紀錄保持者肯·詹寧斯。)我們仔細分析兩者的比賽的過程,大家會發(fā)現(xiàn),(這場比賽)高于AlphaGo,只是它不夠時尚而已。

中文有時候比較寬泛一些,“智能”包含“智慧”和“能力”,我們多數(shù)智慧的東西不是能力。人工智能這個詞有問題,不清楚,英文叫人工智慧(Artificial Intelligence),不講人工智能兩者結(jié)合在一起。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

芯片是實現(xiàn)AI的當然載體,無論是CPU、GPU、還是CPU加FPGA,或者其它出現(xiàn)的多個芯片平臺,所有這些東西都離不開芯片。所以講一句話,無芯片不AI,做AI一定要有芯片,芯片是不可或缺的基本內(nèi)容。

既然人工智能芯片如此重要,那么怎么實現(xiàn)它?這里面我可能跟在場的嘉賓觀點不太一樣。我們先說AI面臨兩個現(xiàn)實的問題:第一、算法仍在不斷演進,新算法層出不窮;第二、一種算法對應一種應用,沒有統(tǒng)一的算法。(對于芯片來說)你希望找到一個架構(gòu)能夠適應所有算法,而不是一個應用做一個芯片。

現(xiàn)在的應用復雜程度不一樣,但無一例外都使用的是一個專用的神經(jīng)網(wǎng)絡,在這樣的情況,我們需要在芯片當中實現(xiàn)一個具備深度學習能力的引擎。我們今天的深度學習需要的計算量和參數(shù)量是非常大的數(shù)字。以前我們很少的運算量就可以完成一些小工作,參數(shù)有10萬個就很多了;但是到了2017年,我們做到17層的神經(jīng)網(wǎng)絡做每秒196億次的運算,有1.38億個參數(shù)。我們需要一個好的計算引擎,沒有好的計算引擎我們完成不了這些運算工作。

二、在這個情況下,我們看看AI芯片需要什么樣的計算要素?它第一要適應算法的演進,第二我們要做一個架構(gòu)適應所有的應用,就是架構(gòu)的可變性,高效的架構(gòu)變換能力。此外我們還要關注計算量和計算能效。計算能效要求是多少?大概每瓦10 Tflops,即每秒完成10萬億次的運算。并且某些應用功耗需要低于1mW,有些應用需要識別速度大于25fps、而且芯片體積小,達到低成本進入家電和消費電子,配在裝備上,同時開發(fā)需要簡易,一個人開發(fā)芯片設計難度很大。因此,我們需要探索架構(gòu)上的創(chuàng)新。

接著我們談到,應用和架構(gòu)創(chuàng)新是發(fā)展應用創(chuàng)新的必由之路。

今天的AI應用涵蓋了所有方面,無行業(yè)不AI,包括人臉識別、語音識別、機器翻譯等等。我們看到屏幕上已經(jīng)做到了即時的傳譯、無人駕駛、智能陪伴、能源、農(nóng)業(yè)、或者生產(chǎn),似乎AI涵蓋了我們生活各個方面,這是給我們一個很重要的印象。但是我想問幾個問題:哪些應用需要 AI?我們希望AI幫忙解決什么問題?什么是AI的“殺手級”應用?什么樣的AI應用是我們每天都需要的?……我覺得這些問題到今天為止都沒有答案,有些東西好像是AI,但是實際上并不是AI。

我給大家說一個笑話,今年是我本命年,我想買一條紅圍巾。我在網(wǎng)上搜了一下沒買,然后在我的手機上的各種文件中不斷出現(xiàn)紅圍巾的廣告,讓我感覺非常煩。它具備AI的性能,但是這個AI不是我需要的幫助。回想幾年以前,(你在)買一個臺燈之后,網(wǎng)頁上就不斷出現(xiàn)臺燈的廣告,今天的AI還沒有達到我們所需要的程度。

三、應用和架構(gòu)創(chuàng)新是發(fā)展人工智能芯片的必由之路。做應用確實很難。我們做芯片的人一直想架構(gòu)是什么,架構(gòu)創(chuàng)新很重要,從感知、傳輸?shù)街虚g的處理,一直到后面的傳輸和執(zhí)行,都不開的基本架構(gòu)。反之大家知道這是一個傳感器,通過執(zhí)行器,傳輸中間有很發(fā)散的網(wǎng)絡,基本的邏輯在這里。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

智慧處理的根本架構(gòu)是什么?我們不知道。因為我們不知道人怎么想問題,大概是什么樣的結(jié)構(gòu),只能按照系統(tǒng)、軟件、處理器、存儲這么來模仿。毫無疑問我們碰到的都是多輸入、多輸出的系統(tǒng)、多任務、高度并行化的運行系統(tǒng),

聽著很有道理,但是我通過一個簡單人類處理事情的流程舉例,我們碰到一個事情,這個事情很多特征,比如我第一個看到這個人,我看看他長什么樣子,我認識不認識他?我不認識他、沒見過他怎么辦,我要認識一下。我們握手交換一下名片,看你是在哪個單位、什么地方、加深一下印象。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

也有可能我們第一次見過,沒有交換名片,我們認識的時候就知道又見面了。在這個過程我們不斷重復這個內(nèi)容,有可能在中間出現(xiàn)偏差我不認識他,我要認識這個人,就需要把我的知識重新提升一下,這個不斷重復的過程涉及大量內(nèi)容,需要大量計算。

計算無處不在,計算本身是我們架構(gòu)基本前提,沒有好的計算量不要提,GPU因為有很好的計算量,別人趕不上它。但是由于計算非常豐富,我們不知道人腦怎么完全計算,因此我們只好通過這種我們知道的方式,構(gòu)建一個所謂能夠具備智慧處理能力的芯片,一個是智能的軟件和硬件。

智能軟件包含這幾方面的內(nèi)容:形成知識能力、組織能力、思維推理能力。這些東西不是芯片做的,是軟件做的。我們可以看到芯片更多地是提供計算的平臺、多任務并行的能力、極高的能效、和靈活高效的存儲與實時動態(tài)能力。因此我們經(jīng)常說,實現(xiàn)智能的核心其實是軟件不是芯片,芯片不過是支撐智能的基礎而已。我們要改變一些思路,就是我們做芯片的人、特別是做AI芯片的人,要把軟件放在足夠高的位置來看。

因此我們希望在這種情況下,硬件可以跟著軟件不斷變化,也就是所謂“軟件定義芯片”的概念。(如果你說)芯片不能被軟件定義,那你是做不好。這個概念我們在10年提出來了,但是陽春白雪,知道的人不多。由美國國防部先進計劃署(DARPA)推動的電子產(chǎn)業(yè)振興計劃(ERI)針對后摩爾定律(post-Moore’s-law)時代的新材料、架構(gòu)與設計流程,在科技領域?qū)で笸黄?,每一個方向上設置2個課題,去年其中一個課題就是軟件定義硬件(software define hardware)的概念,我把它中間一段話摘出來:打造可實時重新配置的軟件和硬件,使其具備ASIC的性能表現(xiàn),但不必在數(shù)據(jù)密集計算中犧牲可編程性。也就是說讓硬件的功能和架構(gòu)跟著軟件實時變化,而所謂的實時所謂的即時指的是運行300~1000納秒內(nèi)。我只能笑一笑,這個工作我們10年前就已經(jīng)在做,走在美國同行的前面。

大家說,軟件定義芯片也沒有很奇怪,F(xiàn)PGA早就可以做了。其實FPGA也不行。第一就是細粒度,由于要實現(xiàn)比特級的運算,運算顆粒度必須為細粒度。FPGA顆粒度是細力度,所以配置信息量非常大,需要幾兆到十幾兆字節(jié),需要十幾毫秒甚至更長時間。同時一旦配置完畢,不可更改。如果要改變FPGA的功能,只能下電或在線重新載入配置信息。FPGA的芯片面積效率很低,只有5%,千萬面積的FPGA實現(xiàn)幾十萬,能量效率很低,而且功耗很大。同時FPGA需要非常先進的工藝,且需對工藝進行特別調(diào)整,應用者還必須具備電路設計知識和經(jīng)驗。最后就是FPGA成本非常高。

FPGA可以用來做一個簡單的驗證系統(tǒng),但是實用系統(tǒng)?對不起恐怕很難,所以我們說FPGA無法承擔軟件定義芯片(Software defines Chip,SdC)的任務。那么什么樣的系統(tǒng)可以完成SdC?

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

我們從架構(gòu)上去考慮,如果我們像右邊這樣,給出一個和軟件完全一致的硬件結(jié)構(gòu),沒有考慮硬件本身的開銷,這樣的計算效率一定是最高,毋庸置疑??绍浖梢詿o窮大,硬件總是有邊界的。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

但如果我們把軟件分成若干塊,一塊一塊搬過去,第一塊運行完了以后,執(zhí)行第二個模塊,然后第三個模塊搬過去,回來計算第四個、第五個、第六完成這樣。這要求我們的硬件結(jié)構(gòu)和功能必須是動態(tài)的,隨時可以改變的。這就是軟件定義芯片的基本概念。

至于工作難點則是怎么很快的實現(xiàn)它?我們過去10年當中的努力就是解決這個問題,圖里的計算架構(gòu)是非常經(jīng)典的架構(gòu),我們可以看到這兩者一個是所謂控制單元劃分的內(nèi)容,逐步送進去執(zhí)行,要求根據(jù)要求配置計算單位并且完成執(zhí)行。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

問題是,要出現(xiàn)完全可重構(gòu)的數(shù)據(jù)通道和可完成變成的控制單位,這樣做到可變化的。這與傳統(tǒng)結(jié)構(gòu)是有差別,我們拿經(jīng)典的計算模式做了一個比較,它是弓形的,可傳播計算是函性的。經(jīng)典架構(gòu)當中,軟件硬件不變,而在我們現(xiàn)在的架構(gòu)當中,硬件和軟件都在做動態(tài)的選擇性的改變,經(jīng)典架構(gòu)用高度復用的方式,降低它的成本,而在我們這邊是冗余應用。

至于我們是不是改變的計算模式,很遺憾告訴大家,我們還是在馮諾伊曼架構(gòu)當中。有些人我說我們改變了模式,我做出了新型的計算架構(gòu),其實我說,你沒有弄明白。

在這樣的架構(gòu)之下,我們實現(xiàn)AI芯片的時候,可以把硬件按照AI的算法來不停的變換,以達到最佳的計算效率,大家可以看到最下面這塊,我們從AI的應用定義采用深度神經(jīng)網(wǎng)絡,再來決定硬件的功能,這樣的結(jié)構(gòu)我們認為是一個最佳的方式。(兩年前)我們在無意當中決定嘗試一下,構(gòu)建一個AI芯片叫做“思考者(Thinker)”。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

大家可以看到左邊有一個陣列,有兩種PE,一種是通用的,一個是超級的,代表不同的計算內(nèi)容,包括卷積的計算,還有全理解的計算,還有池化等等。通過定義的方式,這塊芯片把每個PE方式進行隨時定義,再傳輸?shù)酵鶃砭W(wǎng)絡運算/我們還可以把陣列上的眾多的PE,通過定義的方式不斷滴改變不同的層面的計算內(nèi)容,也可以大大提升系統(tǒng)的能效。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

在過去2、3年當中,我們(延循著軟件定義芯片的技術(shù))做出了AI芯片,在去年的ACM上做了相關的介紹,Thinker S也在MIT得到了很好的報道。Thinker 2做人臉識別的只需要6個毫秒,功耗極低,Thinker S的功耗則只有0.3個毫瓦。這塊芯片獲得了很多專利、(發(fā)表了)很多的論文、并且得到多個獎項。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

我把跟AI的相關的內(nèi)容都用紅線畫出來了,基本在曲線的第一個風波上。我們現(xiàn)在的AI太熱了,有時媒體也起了不太好的作用。

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018

最后,我想總結(jié)一下,提幾個問題:1、應用領域的確立是AI領域的確立前提,但是AI的殺手級應用還沒有出現(xiàn),因此我們說AI的發(fā)展有很長的路要走。2、能否出現(xiàn)像通用CPU這樣獨立存在的通用AI處理器?如果存在的話,它的架構(gòu)是什么樣,如果不存在,我們今天的已滿足特定應用的芯片恐怕只能做IP核了,我們AI公司何去何從呢?這些問題留個企業(yè)家們思考??赡艽蠹也煌馕业挠^點,但是2到3年內(nèi)(AI芯片行業(yè))一定會碰到一個低潮,今天的一部分、甚至大部分的創(chuàng)業(yè)者成為技術(shù)變革的先烈。對不起。(觀眾笑)但是毫無疑問,這將是AI芯片發(fā)展中,最令人欽佩、也最令人動容的偉大事件。謝謝大家!

清華魏少軍:剖析AI芯片兩大技術(shù)痛點 3年內(nèi)將現(xiàn)出局者 | GTIC 2018