芯東西(公眾號(hào):aichip001)
作者 | 李水青
編輯 | 心緣

當(dāng)下,人工智能產(chǎn)業(yè)發(fā)展正在進(jìn)入“大模型”階段,1700億參數(shù)的超大規(guī)模深度學(xué)習(xí)模型GPT-3,指引整個(gè)人工智能產(chǎn)業(yè)尋找一條新的可行之路,縮短我們與通用智能的距離。但與此同時(shí),海量的數(shù)據(jù)和超大算力需求,讓大模型的產(chǎn)業(yè)化落地面臨巨大的算力挑戰(zhàn)。

在摩爾定律逼近物理極限的情況下,中國(guó)AI芯片創(chuàng)業(yè)大軍并非無計(jì)可施,而是涌現(xiàn)出一大批革新者,用底層技術(shù)創(chuàng)新挑戰(zhàn)既有的行業(yè)壟斷龍頭。

創(chuàng)立于2018年的云端AI芯片公司墨芯人工智能就是其中一個(gè)代表。

誕生于硅谷,總部位于深圳,這家公司推出多款基于自研稀疏計(jì)算芯片的AI計(jì)算卡,運(yùn)行ResNet-50算力超90000fps。相較于當(dāng)前國(guó)際大廠主流推理卡單卡只能支持百億參數(shù)級(jí)別的模型,據(jù)稱,其可以支持千億參數(shù)級(jí)別的模型,這意味著讓擁有1700億參數(shù)的GPT-3大模型跑在單張計(jì)算卡上。

深扒團(tuán)隊(duì)背景,創(chuàng)始人兼CEO王維曾在美國(guó)高通和英特爾擔(dān)任架構(gòu)師,是英特爾5-10代CPU處理器的核心成員,參與開發(fā)量產(chǎn)超50億片芯片,同時(shí)他也有過硅谷芯片公司創(chuàng)業(yè)經(jīng)歷;首席科學(xué)家嚴(yán)恩勖是卡內(nèi)基梅隆大學(xué)擁有40多篇AI頂會(huì)成果的機(jī)器學(xué)習(xí)博士。

起點(diǎn)高,沖得快,是很多業(yè)內(nèi)人對(duì)墨芯人工智能的印象。

那么這家公司到底有什么核心競(jìng)爭(zhēng)力?背后又有什么樣的創(chuàng)業(yè)故事?縱觀當(dāng)下的AI芯片產(chǎn)業(yè)化落地潮和價(jià)值檢驗(yàn)窗口,墨芯能否持續(xù)將技術(shù)成果轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值?

近日,墨芯創(chuàng)始人兼CEO王維與智東西進(jìn)行了線上對(duì)話,回顧了四年創(chuàng)業(yè)關(guān)鍵節(jié)點(diǎn),并對(duì)這些問題進(jìn)行深入探討。

今年8月26日下午,王維將出席在深圳舉辦的GTIC 2022全球AI芯片峰會(huì)·云端AI芯片專題論壇,并發(fā)表主題為《面向AI未來的稀疏化計(jì)算》的演講。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對(duì)話墨芯CEO王維

一、單卡支持大模型,運(yùn)行ResNet-50算力超90000fps

2022年的元旦夜,王維和幾個(gè)核心測(cè)試人員在實(shí)驗(yàn)室,剛剛拿到首顆芯片Antoum的回片。4年努力和艱辛到了驗(yàn)證時(shí)刻,王維和同事們立刻將所有軟件跑上去,上電的那一剎那,整個(gè)芯片驅(qū)動(dòng)程序就剎那間跑通了。

他們當(dāng)晚連夜把ResNet-50跑通,發(fā)現(xiàn)性能都順利達(dá)到了當(dāng)初設(shè)計(jì)的目標(biāo)?!斑@款全球首款高達(dá)32倍稀疏率的AI計(jì)算芯片,在算力、功耗、能效比——云端芯片的三大核心技術(shù)點(diǎn)上,Antoum都做到了突破性創(chuàng)新?!蓖蹙S對(duì)智東西說。

這是王維創(chuàng)業(yè)四年里最興奮和有成就感的時(shí)刻。

所謂稀疏化計(jì)算,是一種以人腦得到靈感的模型壓縮方法。簡(jiǎn)單來說,就是通過底層創(chuàng)新、軟硬協(xié)同設(shè)計(jì),讓神經(jīng)網(wǎng)絡(luò)模型消減冗余,以提高計(jì)算效率。

僅僅在流片成功4個(gè)月后,今年4月,墨芯就推出首款基于Antoum芯片的S4計(jì)算卡。在第三方浪潮服務(wù)器上,S4運(yùn)行多個(gè)主流AI模型,實(shí)測(cè)性能是國(guó)際大廠主流AI推理卡T4的6倍。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對(duì)話墨芯CEO王維

▲基于Antoum芯片的S4計(jì)算卡

近年來新興的NLP模型——T5,曾被稱為“全新NLP SOTA預(yù)訓(xùn)練模型”,以其高參數(shù)量,讓許多計(jì)算卡“望而卻步”。S4在單機(jī)單卡環(huán)境下就能運(yùn)行T5-8B模型,算力穩(wěn)定在190sps左右。S4運(yùn)行T5時(shí)內(nèi)存占比只有約7.8%,讓人對(duì)它能夠支持的模型參數(shù)具有很大想象空間。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對(duì)話墨芯CEO王維

相較于當(dāng)前國(guó)際大廠主流推理卡單卡只能支持百億參數(shù)級(jí)別的模型,S4計(jì)算卡可以支持千億參數(shù)級(jí)別的模型。而隨著S4性能得到驗(yàn)證,更大尺寸的S30也迅速推出,適用于能效比、功耗更高的場(chǎng)景。

單卡跑通AI大模型!硅谷20年芯片老兵創(chuàng)業(yè),對(duì)話墨芯CEO王維

▲基于Antoum芯片的S30計(jì)算卡

王維向我們舉了一個(gè)例子,GPT-3模型是擁有1700多億參數(shù)的大模型代表,如果放在GPU上去做推理的話,需要內(nèi)存量是要幾百G,也就是需要很多張80G的GPU,且會(huì)有明顯時(shí)延;但通過稀疏化路徑,用一張墨芯S30計(jì)算卡,就可以跑通GPT-3,并且計(jì)算速度還變快了很多。

墨芯正通過打造這一套芯片和軟硬件產(chǎn)品,去推動(dòng)深度學(xué)習(xí)更高算力、更大規(guī)模、更低計(jì)算成本的方向去發(fā)展。

就在近日,第三方實(shí)測(cè)數(shù)據(jù)顯示,墨芯S4計(jì)算卡運(yùn)行ResNet-50,算力達(dá)33197fps,S30計(jì)算卡運(yùn)行ResNet-50算力超90000fps。

墨芯已成為非盈利性機(jī)器學(xué)習(xí)開放組織MLCommons會(huì)員,后者由谷歌、英偉達(dá)、英特爾、Facebook、浪潮等全球AI領(lǐng)軍企業(yè)創(chuàng)建,是業(yè)內(nèi)權(quán)威基準(zhǔn)測(cè)試MLPerf的監(jiān)管者,9月將公布其首批稀疏化計(jì)算卡S4和S30的性能測(cè)試結(jié)果,有望代表國(guó)產(chǎn)AI芯片達(dá)成一個(gè)新里程碑。

二、主攻稀疏化計(jì)算,在云端AI芯片賽道獨(dú)辟蹊徑

縱觀全球云端AI芯片創(chuàng)業(yè)大軍,如同過獨(dú)木橋般競(jìng)爭(zhēng)激烈。

一個(gè)創(chuàng)業(yè)公司想要從行業(yè)壟斷龍頭口中搶占市場(chǎng)蛋糕,想在各顯神通的AI芯片創(chuàng)企中殺出一條血路,就一定要有來自底層技術(shù)的顛覆性創(chuàng)新,而不能是微量的差異化和創(chuàng)新點(diǎn)。王維認(rèn)為,這個(gè)技術(shù)差異化或者性能提升至少需要10倍。

稀疏化計(jì)算技術(shù)在王維看來是一條能實(shí)現(xiàn)10倍顛覆性創(chuàng)新的路徑。

“(稀疏化計(jì)算)技術(shù)差異化達(dá)到了一個(gè)數(shù)量級(jí),當(dāng)時(shí)我們就可以在算法層面上做到接近20倍的稀疏率,模型精度不改變,這是一個(gè)足夠顛覆性的技術(shù)特點(diǎn)?!蓖蹙S說,“同時(shí),稀疏計(jì)算無需再造一個(gè)生態(tài),它和現(xiàn)在所有的AI訓(xùn)練、推理生態(tài)兼容,因此市場(chǎng)化落地可以確定?!?/strong>

事實(shí)也正如王維所料,市場(chǎng)幾乎不需要他去重新教育。其接觸了很多行業(yè)的頭部客戶,本身有較強(qiáng)的AI算法和人才,所以都十分認(rèn)可稀疏化計(jì)算在深度學(xué)習(xí)推理、訓(xùn)練的潛力和發(fā)展空間。

令客戶好奇的是,墨芯把稀疏化做到什么程度了?產(chǎn)品的完整性如何?是不是到可用甚至易用、通用的程度了啊?這個(gè)里面的技術(shù)差異性有沒有足夠大,讓我足夠有興趣,去選擇國(guó)際大廠之外的第二供應(yīng)商?這些是更加重要的問題。

而這,實(shí)際上也是當(dāng)下云端AI芯片產(chǎn)業(yè)發(fā)展至今,走向規(guī)?;涞氐淖畲筇魬?zhàn)之一。

在墨芯創(chuàng)業(yè)之時(shí),各路玩家都在求索突破摩爾定律極限的新路。業(yè)內(nèi)已經(jīng)有一些顯性路徑,比如通過存算一體設(shè)計(jì),在底層硬件層面做優(yōu)化。而從稀疏化算法,是從上層AI算法切入做芯片優(yōu)化的另一路徑。無論是那條技術(shù)路徑,除了要向客戶證明其產(chǎn)品差異化,還要證明其技術(shù)完整度及TCO(總擁有成本)。

而在眾多技術(shù)路徑中,稀疏化計(jì)算在當(dāng)時(shí)可謂人跡罕至。包括英偉達(dá)、英特爾等大芯片廠都還未有推出相關(guān)產(chǎn)品,而是在這兩年才有相關(guān)進(jìn)展。

這也決定了墨芯在研發(fā)與落地過程中幾乎沒有同類玩家可以參考,挑戰(zhàn)重重。

三、硅谷20年芯片老兵+算法大牛創(chuàng)業(yè),打造算法定義計(jì)算平臺(tái)

如何在毫無參考的情況下實(shí)現(xiàn)底層創(chuàng)新突破?

“很顯然,你需要有頂級(jí)的算法科學(xué)家,對(duì)于稀疏化計(jì)算這一套理論有很強(qiáng)的突破性和創(chuàng)新性,因?yàn)檫@個(gè)地方是最核心的創(chuàng)新源、創(chuàng)新點(diǎn)。”

王維告訴我們,令他有底氣的是,墨芯從早期團(tuán)隊(duì)設(shè)置就兼顧了算法、架構(gòu)、芯片設(shè)計(jì)的頂尖人才。

2018年冬天,王維從美國(guó)硅谷飛往卡內(nèi)基梅隆大學(xué),與正在讀博士的校友嚴(yán)恩勖聊了兩天兩晚,當(dāng)即拍板基于稀疏算法做AI芯片創(chuàng)業(yè)。嚴(yán)恩勖是神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)稀疏算法發(fā)明者,曾在Google和Microsoft Research擔(dān)任研究員,在國(guó)際頂級(jí)人工智能期刊論文發(fā)表40余篇。

彼時(shí),1700億參數(shù)的GPT-3大模型還沒有誕生,但關(guān)于通用人工智能發(fā)展的潮水已在業(yè)內(nèi)暗流涌動(dòng)。大模型意味著巨量數(shù)據(jù)和算力需求。時(shí)任英特爾芯片架構(gòu)師的王維看到了其中的創(chuàng)業(yè)機(jī)會(huì)。

就在與嚴(yán)恩勖會(huì)面的幾個(gè)月前后,王維找來了硅谷20多年的好友。這兩位好友分別是有20年以上SoC芯片設(shè)計(jì)和團(tuán)隊(duì)管理經(jīng)驗(yàn)的蘆勇,他曾任SK Hynix芯片設(shè)計(jì)總監(jiān)和Marvell資深芯片設(shè)計(jì)經(jīng)理;以及,擁有18年DSP、CPU處理器以及硬件加速器學(xué)術(shù)及產(chǎn)業(yè)經(jīng)驗(yàn)的肖志斌,他曾是阿里達(dá)摩院的核心架構(gòu)師和研究員。

在半導(dǎo)體圈摸爬滾打20多年,王維、蘆勇和肖志斌深知半導(dǎo)體是一個(gè)成熟行業(yè)。

在這一行業(yè),如果要尋求機(jī)會(huì)的話,一定需要一個(gè)爆發(fā)點(diǎn)的應(yīng)用產(chǎn)生。就如同過去20年,PC、移動(dòng)互聯(lián)網(wǎng)手機(jī)的興起,為半導(dǎo)體行業(yè)帶來的巨大空間一樣?,F(xiàn)在,人工智能正在帶來新的大趨勢(shì)、大機(jī)會(huì)、大市場(chǎng)。

2018年8月,墨芯人工智能(Moffett AI)正式在硅谷創(chuàng)立。

墨芯取自其英文名Moffett的諧音,這是其創(chuàng)業(yè)起源卡內(nèi)基梅隆大學(xué)硅谷校區(qū)的地名;同時(shí),墨芯也有“墨子芯片”之意,致敬中國(guó)古代偉大的科學(xué)家墨子。

經(jīng)過全面系統(tǒng)化分析推演之后,王維和幾位創(chuàng)始人已經(jīng)一步步明確執(zhí)行了其設(shè)立的目標(biāo)——打造一個(gè)優(yōu)秀的算法定義計(jì)算平臺(tái),支持前沿的稀疏化計(jì)算框架。

四、兩年悶聲研發(fā),一次流片成功,首顆芯片即量產(chǎn)

看好國(guó)內(nèi)的創(chuàng)業(yè)大環(huán)境和市場(chǎng),墨芯人工智能于2019年5月在深圳建立總部。

而此時(shí),墨芯也正式完成研發(fā)首顆芯片的前期籌備。盡管團(tuán)隊(duì)都是經(jīng)驗(yàn)豐富的芯片老兵,但由于稀疏化計(jì)算在國(guó)內(nèi)外都沒有先例參考,墨芯的芯片真正完成研發(fā)轉(zhuǎn)去流片,已經(jīng)是兩年后2021年5月。在這兩年里,墨芯除了拿下了來自基石、真格基金、深圳天使母基金、凱旋創(chuàng)投、將門創(chuàng)投領(lǐng)投、浪潮和智慧互聯(lián)產(chǎn)業(yè)基金等戰(zhàn)略投資的三輪合計(jì)數(shù)億元的融資,大多數(shù)時(shí)候沒有更多消息流出。

AI和大數(shù)據(jù)帶來的時(shí)代的變量,已經(jīng)改變了半導(dǎo)體設(shè)計(jì)思路,悶聲做研發(fā)的墨芯是這一進(jìn)程的親歷者。

墨芯選擇“算法創(chuàng)新,定義芯片架構(gòu)”的策略,這與傳統(tǒng)芯片公司只攻底層的設(shè)計(jì)思路不同。簡(jiǎn)單來說,這一方法是通過理解創(chuàng)新算法的突破,用這些新算法的突破來定義軟件架構(gòu),再往下定義硬件架構(gòu)。

當(dāng)下,市面上已有同行也在打造算法定義硬件或算法芯片化產(chǎn)品,但與基于特定場(chǎng)景做算法芯片化的做法不同,墨芯更注重應(yīng)對(duì)通用性、易用性的基礎(chǔ)算力需求。聚焦數(shù)據(jù)中心AI算力需求的通用性,其在大數(shù)據(jù)里提取核心特征,為應(yīng)用場(chǎng)景做決策和判斷。

“我們是一次流片成功,第一顆芯片就是量產(chǎn)芯片?!蓖蹙S告訴智東西,“這件事情的考驗(yàn),完全在于芯片團(tuán)隊(duì),它是否有足夠的經(jīng)驗(yàn)和能力,能夠承擔(dān)得起一個(gè)這么大一塊芯片,一次流片成功。我相信我的團(tuán)隊(duì)很好的、非常出色的完成了這個(gè)任務(wù)。”

五、流片半年已有多家客戶,構(gòu)建生態(tài)發(fā)力三大市場(chǎng)

2022年被認(rèn)為是中國(guó)AI芯片產(chǎn)業(yè)化落地元年。四年磨一劍,墨芯也正開啟稀疏化創(chuàng)新技術(shù)路徑的產(chǎn)業(yè)化推廣。

今年7月,王維已經(jīng)談下了幾家客戶。流片成功僅半年,在互聯(lián)網(wǎng)市場(chǎng),墨芯已在一些頭部互聯(lián)網(wǎng)公司進(jìn)入適配階段;在行業(yè)市場(chǎng),墨芯也與生命科學(xué)領(lǐng)域部企業(yè)項(xiàng)目落地。

在未來一個(gè)階段中,墨芯將圍繞互聯(lián)網(wǎng)、泛政府行業(yè)及垂直行業(yè)三大方向進(jìn)行市場(chǎng)推廣。在定價(jià)上,墨芯不會(huì)采取低價(jià)策略,而是將整個(gè)算力服務(wù)器的TCO(總擁有成本)達(dá)到現(xiàn)有主流產(chǎn)品的1/2,甚至1/3。

在王維看來,稀疏化計(jì)算是一個(gè)通用的、正前沿的發(fā)展方向,它在技術(shù)層面上沒有什么局限性?,F(xiàn)在最大的挑戰(zhàn)是關(guān)于稀疏化的計(jì)算生態(tài)。只有生態(tài)完備,這些產(chǎn)品能夠更快速的讓各個(gè)行業(yè)的用戶快速使用起來、熟悉起來。

因此,墨芯面對(duì)的下一步更大的挑戰(zhàn)是如何未來去建立一個(gè)生態(tài)同盟的合作關(guān)系。

在算法生態(tài)方面,由于墨芯是從算法創(chuàng)新,與當(dāng)下主流算法框架高度兼容,已通過眾多SDK布局TensorFlow、PyTorch等主流框架接口,讓客戶在使用時(shí)好像“仍然是在用原來的平臺(tái)一樣”。

在硬件生態(tài)上,墨芯也與市面上主流服務(wù)器廠商展開合作,比如而在一個(gè)月前,墨芯剛剛與浪潮信息簽訂元腦戰(zhàn)略合作協(xié)議,通過加入計(jì)算生態(tài)進(jìn)行市場(chǎng)推廣。而后,墨芯也將與其他服務(wù)器提供商以及運(yùn)營(yíng)商開放生態(tài)合作。

結(jié)語:AI芯片產(chǎn)業(yè)化驗(yàn)證期,考驗(yàn)創(chuàng)企多兵種作戰(zhàn)力

當(dāng)下,隨著摩爾定律逼近物理極限,中國(guó)AI芯片創(chuàng)業(yè)也進(jìn)入產(chǎn)業(yè)化驗(yàn)證期。AI芯片創(chuàng)業(yè)大軍中涌現(xiàn)出不同技術(shù)流派的玩家,他們中既有幾十年經(jīng)驗(yàn)的芯片老兵,又有學(xué)術(shù)成果豐碩的AI算法后浪。這展現(xiàn)出中國(guó)產(chǎn)業(yè)發(fā)展至今的人才蓄水池的汩汩活力,是中國(guó)攻克芯片卡脖子難關(guān)的動(dòng)力之源。

墨芯人工智能是這批創(chuàng)業(yè)大軍中的一支多兵種作戰(zhàn)隊(duì)伍,硅谷20年芯片老兵與AI算法科學(xué)家共同構(gòu)建的團(tuán)隊(duì)基因,讓這支隊(duì)伍在技術(shù)路線選擇上也獨(dú)辟蹊徑。稀疏化計(jì)算路徑,作為AI算法領(lǐng)域認(rèn)可的一大發(fā)展趨勢(shì),率先被這家芯片創(chuàng)企實(shí)現(xiàn)產(chǎn)品驗(yàn)證。下一步,生態(tài)能否快速建立,產(chǎn)品能否快速推廣落地,是其面臨的新課題。