芯東西(公眾號(hào):aichip001)
文 | 心緣
面對(duì)巨頭環(huán)伺的云端AI芯片戰(zhàn)場(chǎng),一家中國(guó)AI芯片創(chuàng)企剛剛吹響沖鋒的號(hào)角。
就在昨日,燧原科技官宣了其首款云端訓(xùn)練芯片邃思DTU、云端訓(xùn)練加速卡云燧T10及計(jì)算及編程平臺(tái)馭算,云燧T10單卡單精度算力達(dá)到20TFLOPS,放在全球云端訓(xùn)練芯片中比較也絲毫不落下風(fēng)。

技術(shù)難、成本高、風(fēng)險(xiǎn)大、回報(bào)周期漫長(zhǎng)等因素宛如一座座高山,將許多對(duì)造芯心向往之的創(chuàng)業(yè)者拒在云端訓(xùn)練芯片的門外。燧原科技創(chuàng)始人卻毫不猶豫地選擇先攻克云端訓(xùn)練方向,而且從啟動(dòng)研發(fā)到開始量產(chǎn)首款云端訓(xùn)練芯片只用了短短20個(gè)月。
這家不足兩歲的AI芯片創(chuàng)企,憑什么直攻這一AI芯片界難度最高的領(lǐng)域?它的創(chuàng)業(yè)團(tuán)隊(duì)有怎么樣的技術(shù)基因,能否支撐起云端訓(xùn)練產(chǎn)品的研發(fā)需求?面對(duì)強(qiáng)手如林的國(guó)際戰(zhàn)場(chǎng),它有哪些差異化打法?
通過與燧原科技創(chuàng)始人兼CEO趙立東、燧原科技創(chuàng)始人兼COO張亞林深入溝通,芯東西一步步還原燧原科技首款云端芯片背后的技術(shù)底牌,兩位創(chuàng)始人也向我們系統(tǒng)展示了燧原的業(yè)務(wù)部署和落地策略。
一、AMD老兵創(chuàng)業(yè),曾領(lǐng)導(dǎo)研發(fā)XBOX ONE和小霸王游戲機(jī)主芯片
燧原科技的兩位創(chuàng)始人趙立東和張亞林在AMD工作時(shí),就曾是配合默契的老搭檔。
2008年1月,張亞林剛加入AMD,趙立東是他的直屬老板。兩個(gè)人合作了大約五年,趙立東負(fù)責(zé)整個(gè)團(tuán)隊(duì)的構(gòu)建、項(xiàng)目爭(zhēng)取,張亞林做執(zhí)行和芯片的產(chǎn)出。

▲燧原科技COO張亞林
風(fēng)靡全球的家用游戲機(jī)微軟XBOX ONE系列,采用的主芯片即是由張亞林在AMD上海研發(fā)中心領(lǐng)導(dǎo)研發(fā)。
據(jù)張亞林介紹,游戲機(jī)芯片設(shè)計(jì)與云端芯片設(shè)計(jì)有共通之初,都是大芯片,而大芯片設(shè)計(jì)有一套嚴(yán)格的方法學(xué),芯片越大,整個(gè)設(shè)計(jì)難度也會(huì)呈指數(shù)級(jí)上升。
以微軟XBOX ONE主芯片為例,它既要跑操作系統(tǒng),又要能跑游戲,是一塊由CPU+GPU結(jié)合的APU,設(shè)計(jì)難度非常高。
挑戰(zhàn)不止在設(shè)計(jì)本身,還有芯片工程化問題。
像XBOX ONE這樣一年需量產(chǎn)幾千萬(wàn)臺(tái)的游戲主機(jī),要求大芯片能盡快量產(chǎn)。這也是國(guó)產(chǎn)大芯片企業(yè)行路艱難的核心原因之一。
經(jīng)過多個(gè)世界級(jí)芯片項(xiàng)目的磨礪,趙立東和張亞林都積累了深厚的芯片設(shè)計(jì)和工程化經(jīng)驗(yàn)。

▲燧原科技CEO趙立東
2014年末,兩人的同事關(guān)系暫時(shí)畫上句點(diǎn)。趙立東跳槽到紫光通信科技集團(tuán)任副總裁,張亞林仍然留在AMD。
“我和立東在AMD有一個(gè)約定,”張亞林回憶道,“希望為中國(guó)做一些中國(guó)人的本土化項(xiàng)目?!?/p>
2016年,機(jī)會(huì)來(lái)了。老牌國(guó)產(chǎn)游戲機(jī)品牌小霸王在中山重新崛起,交給AMD大筆費(fèi)用來(lái)做中國(guó)自主品牌的游戲機(jī)項(xiàng)目,這個(gè)項(xiàng)目幾經(jīng)輾轉(zhuǎn)到了張亞林手中,目標(biāo)是造出一顆超大型芯片,使小霸王游戲機(jī)的性能超過當(dāng)時(shí)最先進(jìn)的XBOX ONE的50%。
“我覺得,那是我留在AMD的最后一個(gè)夢(mèng)想?!边@一項(xiàng)目在2017年9月整體收尾,張亞林選擇離開,與時(shí)任紫光集團(tuán)副總裁的趙立東再次會(huì)合,投身于另一個(gè)頗具挑戰(zhàn)性的領(lǐng)域——云端AI芯片。
二、政策支持,騰訊投資,人才技術(shù)均已就緒
當(dāng)他們選擇創(chuàng)立燧原科技并定下云端AI芯片方向時(shí),云端數(shù)據(jù)中心中的國(guó)產(chǎn)化AI芯片尚如一片荒原。
AI的發(fā)展是由模型算法研究推及云端終端的部署,如果上游的云端訓(xùn)練模型受到國(guó)外的掣肘,那么整個(gè)AI發(fā)展都會(huì)被限制。
秉持著讓中國(guó)擁有更多自主前瞻性模型的初心,近20年的芯片研發(fā)經(jīng)驗(yàn)積淀,以及長(zhǎng)期就職于外企而日漸濃厚的家國(guó)情懷,促使兩位燧原創(chuàng)始人決定在云端芯片高舉高打。
在張亞林看來(lái),芯片工程化、市場(chǎng)應(yīng)用與算法的整合、軟硬件加生態(tài)的全棧式設(shè)計(jì)能力,成為阻礙中國(guó)云端芯片快速成長(zhǎng)的三座大山。
畢竟,單獨(dú)做出一顆能拿出來(lái)看的芯片,和整個(gè)市場(chǎng)都能用的軟硬件解決方案,中間還隔有相當(dāng)?shù)木嚯x。
不過這一距離在兩位燧原創(chuàng)始人眼中,并非是難以跨越的鴻溝。憑借此前在業(yè)界積累的口碑,他們快速在新賽道上集結(jié)了各種對(duì)創(chuàng)業(yè)有利的因素。
人才和技術(shù)方面,中國(guó)集成電路產(chǎn)業(yè)經(jīng)過近20年的發(fā)展,芯片設(shè)計(jì)人才和技術(shù)儲(chǔ)備均已成熟,足以研發(fā)大芯片。如今燧原207名成員中,研發(fā)團(tuán)隊(duì)占90%,來(lái)自全球30多家公司,平均工作年限10年以上,有豐厚的技術(shù)沉淀。
政策和資金方面,燧原也獲得了上海市自由貿(mào)易試驗(yàn)區(qū)臨港新片區(qū)及多家投資機(jī)構(gòu)的大力支持。燧原分別在2018年7月和2019年5月完成超3億人民幣的融資,前者由騰訊戰(zhàn)略領(lǐng)投,后者由紅點(diǎn)領(lǐng)投。

有趣的是,作為國(guó)內(nèi)AI界的投資大戶,騰訊向提供資金支持的AI企業(yè)多聚焦于算法、軟件與應(yīng)用層面,鮮少關(guān)乎芯片研發(fā)。
市場(chǎng)機(jī)會(huì)、應(yīng)用空間、人才紅利、數(shù)據(jù)資源、人才儲(chǔ)備、技術(shù)儲(chǔ)備、政策引領(lǐng)、資本支持等使能引擎均已就緒,共同驅(qū)動(dòng)燧原云端芯片在AI和集成電路交叉賽道上駛向前方。
三、如何實(shí)現(xiàn)最強(qiáng)單精度算力?燧原的三大核心技術(shù)優(yōu)勢(shì)
底層硬件的加速效率、性價(jià)比、能效比、可擴(kuò)展性、易用性,以及是否可以有定制化、差異化,直接關(guān)乎整體業(yè)務(wù)的好壞。因此拿出有足夠硬核的芯片產(chǎn)品是任何一家AI芯片創(chuàng)企的首要任務(wù)。
昨天,燧原推出核心產(chǎn)品云燧T10,內(nèi)嵌云端AI高性能通用訓(xùn)練芯片邃思、搭載了計(jì)算及編程平臺(tái)“馭算”,覆蓋硬件與軟件。

▲燧原首款云端訓(xùn)練芯片邃思
從公布的算力和測(cè)試指標(biāo)來(lái)看,燧原已初步證明了自身的技術(shù)實(shí)力。
邃思芯片采用格羅方德12nm FinFET工藝和2.5D高級(jí)封裝技術(shù),基于可重構(gòu)芯片設(shè)計(jì)理念,具有高度并行化的特點(diǎn),可實(shí)現(xiàn)通用可編程,并且能適配現(xiàn)有及未來(lái)可能的數(shù)學(xué)運(yùn)算,適用于圖像、數(shù)據(jù)流、語(yǔ)音等各種訓(xùn)練場(chǎng)景。
云燧T10單精度(FP32)算力達(dá)到20TFLOPS,半精度及混合精度(BF16/FP16)算力達(dá)80TFLOPS,在ResNet-50模型上每秒處理幀數(shù)為518fps,單位能耗下性能比達(dá)2.3fps/W。
這些成績(jī)即便放到全球云端AI芯片領(lǐng)域來(lái)看也可圈可點(diǎn)。另外燧原還計(jì)劃在明年推進(jìn)多卡互聯(lián)的Benchmark測(cè)試。

張亞林認(rèn)為,燧原科技在技術(shù)方面有三大核心優(yōu)勢(shì)。
其一,燧原推出的是覆蓋軟硬件和系統(tǒng)的全棧式解決方案。
其二,燧原在整個(gè)芯片研發(fā)過程中,融入大量專門針對(duì)AI加速的設(shè)計(jì),并拋棄傳統(tǒng)設(shè)計(jì)與AI不相關(guān)的東西,致使整個(gè)AI軟硬件系統(tǒng)性價(jià)比得到極大提升。
盡管趙立東和張亞林都擁有豐富的CPU/GPU/APU相關(guān)研發(fā)背景,但他們打造的邃思芯片,在架構(gòu)上沒有借鑒任何GPU設(shè)計(jì)經(jīng)驗(yàn),而是從無(wú)到有的設(shè)計(jì)了一套單獨(dú)指令集和處理器,拋棄了以前所有的歷史包袱。
邃思芯片的計(jì)算核心包含32個(gè)通用可擴(kuò)展神經(jīng)元處理器(SIP),每8個(gè)SIP組合成1個(gè)可擴(kuò)展智能計(jì)算群(SIC)。SIC間通過HBM實(shí)現(xiàn)高速互聯(lián),通過片上調(diào)度算法,數(shù)據(jù)在搬遷中完成計(jì)算,從而最大化SIP利用率。
其三,燧原走的是全團(tuán)隊(duì)開發(fā)模式,在后續(xù)與客戶的對(duì)接過程中,在本土化方面可提供最快速的響應(yīng)和技術(shù)支持。

此外在互聯(lián)方面,燧原自研200GB雙向ESL(Enflame Smart Link,燧原片間互聯(lián))技術(shù),可實(shí)現(xiàn)芯片與芯片間、板卡與板卡間的高速互聯(lián),在成本和算力拓展上均有較大優(yōu)勢(shì),在1024節(jié)點(diǎn)集群規(guī)模下,其訓(xùn)練線性度加速比達(dá)86%。
軟件是提升芯片易用性的重要工具,燧原對(duì)軟件及工具鏈同樣做了充分布局,打造了計(jì)算及編程平臺(tái)馭算。

一方面,考慮到現(xiàn)有AI生態(tài),馭算完全支持TensorFlow,下一階段將支持PyTorch、MXNet、ONNX等主流深度學(xué)習(xí)框架。上層客戶用這些框架做開發(fā)時(shí),可以很快適配到燧原的軟硬件上。
另一方面,面向深度開發(fā)者,馭算也提供完整的開源工具鏈、SDK和軟件函數(shù)庫(kù),使得對(duì)底層硬件資源有更多需求的開發(fā)者能與燧原合作定制甚至改動(dòng)部分函數(shù)庫(kù),從而實(shí)現(xiàn)硬件更為有效的加速。
四、聚焦三大業(yè)務(wù)方向,定制化合作滿足差異化需求
從2019年起,全球AI芯片的核心話題已經(jīng)從“拼性能”轉(zhuǎn)移向“拼落地”,不僅要求有好的算力和效能,還要在落地具體業(yè)務(wù)場(chǎng)景時(shí),能夠盡可能的挖掘這些性能。
當(dāng)前燧原的業(yè)務(wù)主要聚焦在三大方向:一是包括公有云、私有云、混合云的云服務(wù)商,二是金融、保險(xiǎn)、醫(yī)療、互聯(lián)網(wǎng)等領(lǐng)域有很強(qiáng)模型訓(xùn)練需求的行業(yè)客戶;三是AI超算中心和智慧城市。
經(jīng)由對(duì)規(guī)模、性能、成本的綜合考量,燧原為大中小型數(shù)據(jù)中心提供單節(jié)點(diǎn)模式(標(biāo)準(zhǔn)PCIe卡)、單機(jī)柜模式(整個(gè)機(jī)柜)、集群模式(ESL高速片間互連)3種互聯(lián)方案,以滿足不同客戶對(duì)深度學(xué)習(xí)的訓(xùn)練需求。

▲包括8個(gè)云燧T11(OAM模組)的AI訓(xùn)練Box,通過OCP標(biāo)準(zhǔn)專用接口與CPU服務(wù)器相連
在首批客戶的選擇上,燧原也非常審慎。
張亞林表示,燧原當(dāng)前尋求的,是如何更有效地與有強(qiáng)相關(guān)性的合作伙伴產(chǎn)生互補(bǔ)效應(yīng)。
燧原希望在中國(guó)找到志同道合的第一批客戶,來(lái)優(yōu)先將更高性價(jià)比的AI訓(xùn)練解決方案落地到這些客戶的業(yè)務(wù)場(chǎng)景,通過深入定制化合作,滿足客戶的差異化需求,從而產(chǎn)生更多前瞻性的AI算法,打破壟斷局面,加速AI算法的產(chǎn)生與落地。
在同客戶接觸時(shí),燧原不急于立刻開展業(yè)務(wù),而是先從客戶現(xiàn)有的業(yè)務(wù)模型當(dāng)中進(jìn)行泛化、抽取,以降低軟件遷移成本。
除了云端訓(xùn)練產(chǎn)品外,燧原也有云端推理產(chǎn)品線。張亞林透露,打通從訓(xùn)練模型產(chǎn)生到推理模型部署的整個(gè)環(huán)節(jié),是燧原在未來(lái)三年要構(gòu)建的全生態(tài)終極目標(biāo)。
不過燧原暫時(shí)還沒有入局終端芯片的規(guī)劃。張亞林認(rèn)為,云端的難度主要在技術(shù)和生態(tài)壁壘,而終端的難度則在于在細(xì)分市場(chǎng)找到定位,市場(chǎng)碎片化、算法碎片化問題導(dǎo)致一款終端芯片很難打通用市場(chǎng),至少要幾十萬(wàn)片的出貨量才能補(bǔ)足前期開發(fā)投入的成本。
趙立東也提到,作為一家初創(chuàng)公司,燧原首先將有限的資源聚焦在一個(gè)點(diǎn)上,把這個(gè)“冰”破開,再橫向鋪開,這個(gè)市場(chǎng)就變得更加水到渠成。

▲燧原科技首款云端AI訓(xùn)練加速卡云燧T10
截至現(xiàn)在,燧原科技已建設(shè)頂級(jí)工程化團(tuán)隊(duì),完成產(chǎn)品研發(fā)和量產(chǎn),實(shí)現(xiàn)產(chǎn)品熱啟動(dòng),開啟首個(gè)AI訓(xùn)練平臺(tái)的商業(yè)化落地。
下一步,燧原將繼續(xù)打造擁有高能效比、高利用率、高性價(jià)比的芯片,吸收軟件遷移成本,并逐步完善市場(chǎng)銷售、服務(wù)支持體系建設(shè),不斷豐富產(chǎn)品解決方案,打造對(duì)用戶更友好易用的軟件工具,并持續(xù)引進(jìn)高端人才,尋求建立廣泛的開源軟件生態(tài)系統(tǒng)聯(lián)盟。
另外,張亞林也希望能從研發(fā)、產(chǎn)品定義、花銷、客戶支持,創(chuàng)造一個(gè)多維度穩(wěn)定平衡的健康財(cái)務(wù)結(jié)構(gòu),將未來(lái)主動(dòng)權(quán)掌握在自己的手中。
結(jié)語(yǔ):明年AI芯片繼續(xù)拼落地
2019年被稱為AI芯片落地元年,張亞林相信,落地同樣也會(huì)是2020年的關(guān)鍵詞。
他表示,燧原希望能為做出達(dá)到世界水平的國(guó)產(chǎn)化芯片和軟硬件系統(tǒng),并且有信心明年上半年打破AI商業(yè)落地的魔咒。
燧原在云端AI芯片領(lǐng)域的一些思考,對(duì)于其他芯片設(shè)計(jì)創(chuàng)企同樣有借鑒意義。正如魏少軍教授所言,芯片不是搭草臺(tái)班子就能做好的,不僅要有硬核技術(shù)實(shí)力、工程化能力和團(tuán)隊(duì)完整性,還要思考怎樣才是對(duì)的方法、時(shí)機(jī)、方向、產(chǎn)品和客戶。
打破國(guó)外在云端芯片市場(chǎng)的壟斷絕非易事,但至少燧原已經(jīng)邁出了充滿勇氣的第一步。我們也期待更多中國(guó)芯能夠邁過技術(shù)和落地的一道道難關(guān),經(jīng)受住時(shí)間和市場(chǎng)的考驗(yàn)。