智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 云鵬

智東西4月18日報道,今日,字節(jié)跳動旗下火山引擎宣布自研DPU(Data Processing Unit)成功應(yīng)用,已部署上萬臺DPU服務(wù)器,成為業(yè)界少數(shù)幾家具備自研DPU能力的云廠商。

火山引擎宣布推出三款基于自研DPU的計算實例,分別基于NVIDIA GPU、Intel CPU、AMD CPU,其中NVIDIA GPU計算實例相較上一代實現(xiàn)3倍性能提升。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

同時,火山引擎還推出了新版機器學(xué)習(xí)平臺,上線模型效果對比等服務(wù),平臺支持單任務(wù)GPU萬卡集群大模型訓(xùn)練、微秒級延遲網(wǎng)絡(luò);推出智能推薦-高速訓(xùn)練引擎,據(jù)稱支持100GB-1TB超大模型高速訓(xùn)練。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

當(dāng)下正值大模型掀起AI時代的新浪潮,火山引擎試圖從算力、平臺等各層面為客戶提供必要的“入場券”。

火山引擎總裁譚待談道,國內(nèi)有數(shù)十家做大模型的企業(yè),大多已經(jīng)在火山引擎云上,包括MiniMax、智譜AI、毫末智行、昆侖萬維等知名企業(yè)。比如MiniMax據(jù)稱是首家在公有云上實現(xiàn)千卡訓(xùn)練的公司,于2022年與火山引擎合作推進大模型常態(tài)化訓(xùn)練,并推出了超大規(guī)模推理平臺,據(jù)稱支撐單日過億次調(diào)用。今日,金山辦公WPS AI宣布將嵌入全線協(xié)同辦公產(chǎn)品,WPS AI采用的正是MiniMax大模型。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

可以看到,“火山引擎+MiniMax+WPS”這樣的國內(nèi)大模型實踐,正在開辟有別于“微軟+OpenAI+Office”的大模型落地新通路。

會上,智東西與部分媒體對火山引擎總裁譚待、字節(jié)跳動副總裁楊震原進行的采訪。

當(dāng)智東西問到火山引擎圍繞生成式AI在IaaS、PaaS、SaaS領(lǐng)域有什么樣的布局時,譚待稱,就像記者提到的AWS等云廠商選擇與第三方合作(如推出生成式AI平臺支持企業(yè)調(diào)用第三方大模型),火山引擎也是這個思路?;鹕揭姹旧聿蛔龃竽P?,而是服務(wù)于大模型創(chuàng)業(yè)公司,共同開展對外服務(wù)。

火山引擎是字節(jié)跳動于2021年6月推出的云服務(wù)業(yè)務(wù)板塊,至今逐漸完善了IaaS+PaaS+SaaS云服務(wù)體系。敏捷迭代、數(shù)據(jù)驅(qū)動、體驗創(chuàng)新是火山引擎的核心戰(zhàn)略點,圍繞這些要素本次火山引擎還推出了分布式云原生平臺、混合云veStack、火山引擎管理駕駛艙Plus、云游戲、創(chuàng)意互動Vlog等不同層面新品。

會上,火山引擎宣布與字節(jié)跳動國內(nèi)業(yè)務(wù)并池?;趦?nèi)外統(tǒng)一的云原生基礎(chǔ)架構(gòu),抖音等業(yè)務(wù)的空閑計算資源可極速調(diào)度給火山引擎客戶使用,據(jù)稱離線業(yè)務(wù)資源分鐘級調(diào)度10萬核CPU,在線業(yè)務(wù)資源也可潮汐復(fù)用,彈性計算搶占式實例的價格最高可優(yōu)惠80%以上。

一、自研DPU落地超萬片,計算實例3倍性能提升

天下武功,唯快不破。面向企業(yè)敏捷迭代的算力需求,譚待宣布,火山引擎DPU目前已成功應(yīng)用,在字節(jié)內(nèi)部已部署上萬臺DPU服務(wù)器。

譚待解讀道,火山引擎DPU全面加速計算、存儲、網(wǎng)絡(luò)云化,能實現(xiàn)計算“0”損耗、網(wǎng)絡(luò)性能提升4倍、存儲性能提升1倍。2022年7月,火山引擎?zhèn)鞒鰧PU板卡項目命名為“氦卡”,英文名為HeCard,據(jù)稱對標阿里云自研的CIPU。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

不到一年時間之后,今天,火山引擎宣布推出三款基于自研DPU的計算實例,包括:

1、NVIDIA GPU計算實例,據(jù)稱相較上一代實現(xiàn)3倍性能提升。

2、Intel CPU計算實例,據(jù)稱整機性能提升超93%,單核性能提升超13%,小規(guī)模(小于12核ECS實例)性能提升超6倍。

3、AMD CPU計算實例,據(jù)稱整機性能提升超138%,單核性能提高超39%,小規(guī)格性能提升達10倍。

多云融合是市場的另一大趨勢,但云的分布式挑戰(zhàn)廣泛存在。

為此,火山引擎推出了一系列新產(chǎn)品,包括:

1、推出分布式云原生平臺,基于超20萬節(jié)點、千萬級核支持超大規(guī)模驗證,提供一致云原生體驗,支持低成本多云應(yīng)用遷移。

2、推出多云CDN平臺,據(jù)稱能促進綜合成本降低10%,運維人力減少50%,遇到故障支持秒級切換。

3、推出混合云veStack,通過功能及架構(gòu)演進,支持汽車、政府、能源等客戶的混合云需求。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

譚待說,企業(yè)需要在數(shù)字化時代快速開發(fā)、快速迭代,那就需要選擇上云,做好多云策略,進而基于云上智能進行創(chuàng)新。

會上,晶泰科技聯(lián)合創(chuàng)始人兼CEO馬健圍繞《云上自動化智能化藥物研發(fā)》主題,分享了基于火山引擎服務(wù)的智能化藥物研發(fā)實踐。

二、支持萬卡多模態(tài)大模型訓(xùn)練,推出智能推薦高速訓(xùn)練引擎

譚待緊接著談到了近期熱門的大模型。國內(nèi)知名企業(yè)如毫末智行、MiniMax、智譜AI、昆侖萬維等都在火山引擎支持下進行多模態(tài)大模型訓(xùn)練迭代,覆蓋智能駕駛、科研、金融等多個領(lǐng)域。

為了支持通用智能時代的企業(yè)創(chuàng)新,本次火山引擎在智能方面釋放了兩大更新:

1、推出智能推薦-高速訓(xùn)練引擎,軟硬一體支持100GB-1TB超大模型高速訓(xùn)練,高可用、可集成,助企業(yè)降本增效。

2、升級火山引擎機器學(xué)習(xí)平臺,發(fā)布模型效果對比服務(wù),支持單任務(wù)GPU萬卡集群大模型訓(xùn)練、微秒級延遲網(wǎng)絡(luò)。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

多模態(tài)大模型創(chuàng)業(yè)公司如何實現(xiàn)敏捷迭代?包括知名大模型企業(yè)MiniMax、自動駕駛企業(yè)毫末智能及字節(jié)自有的抖音平臺的相關(guān)負責(zé)人帶來了實踐分享,背后都離不開火山引擎提供的服務(wù)。

MiniMax聯(lián)合創(chuàng)始人楊斌談到了自研大模型的思考與實踐,團隊自2020年底創(chuàng)業(yè)之初考慮的就是技術(shù)如何啟用、產(chǎn)品如何構(gòu)建和算力從哪里來的問題,應(yīng)該是第一家在公有云上實現(xiàn)千卡訓(xùn)練的公司,去年與火山引擎合作做千卡以上的常態(tài)化訓(xùn)練,并推出了超大規(guī)模推理平臺,據(jù)稱支撐單日過億次調(diào)用,實現(xiàn)了技術(shù)與產(chǎn)品的迭代閉環(huán)。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

字節(jié)跳動副總裁楊震原帶來了抖音的機器學(xué)習(xí)實踐,他認為,數(shù)字化時代更需要定量明確目標,機器學(xué)習(xí)能找到更優(yōu)解,這在抖音的效果廣告、店鋪選品、優(yōu)惠券發(fā)放、運力調(diào)度、自動駕駛等方面都有驗證。但用好機器學(xué)習(xí)也面臨復(fù)雜和昂貴兩大問題,為此抖音采用了火山引擎推出的一站式云原生機器學(xué)習(xí)平臺,讓訓(xùn)練快速跑起來。

楊震原認為,業(yè)務(wù)創(chuàng)新需要試錯,試錯要大膽、敏捷,但試錯也一定要控制成本。通過潮汐、混部等方式,火山引擎實現(xiàn)資源的高利用率和極低成本。以抖音推薦系統(tǒng)為例,工程師用15個月的樣本訓(xùn)練某個模型,5小時就能完成訓(xùn)練,成本只有5000元。火爆全網(wǎng)的抖音“AI繪畫”特效,從啟動到上線只用一周多時間,模型由一名算法工程師完成訓(xùn)練。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

毫末智行定位于自動駕駛?cè)斯ぶ悄芗夹g(shù),目前已推出全球首個自動駕駛生成式大模型DriveGPT(雪湖·海若)。毫末智行CEO顧維灝認為,我們可以將自動駕駛分為1.0硬件驅(qū)動、2.0軟件驅(qū)動、3.0數(shù)據(jù)驅(qū)動三個時代,為此公司建立了數(shù)據(jù)、算法、車端、云端的閉環(huán),并推出了DriveGPT,背后離不開火山引擎專門打造的智算中心提供67億億次/秒的高性能運算,以及2T/秒的高性能存儲及800G/秒的網(wǎng)絡(luò)服務(wù)。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

三、推出三款數(shù)據(jù)驅(qū)動新品,助力平安銀行等數(shù)字化轉(zhuǎn)型

在數(shù)據(jù)驅(qū)動方面,本次,火山引擎推出三款新品:

1、火山引擎LAS,助力企業(yè)構(gòu)建Serverless智能湖倉。據(jù)稱其性能為開源Spark的270%,開源Presto的260%,支持Serverless全托管,比傳統(tǒng)方案降低綜合成本30%以上。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

2、火山引擎Serverless流式計算Flink,基于字節(jié)跳動超100億級QPS實踐,穩(wěn)定性提升超50%,同樣支持Serverless化并支持批流一體等多模態(tài)計算。

3、 火山引擎管理駕駛艙Plus,支持0代碼搭建,實時觀測戰(zhàn)略目標達成進度,支持小程序、APP等多端覆蓋的移動化在線。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

會上,平安銀行行長特別助理蔣新發(fā)以《智能化銀行3.0,零售轉(zhuǎn)型新篇章》問題,分享了基于火山引擎數(shù)據(jù)驅(qū)動服務(wù)的智能銀行實踐。

四、聚焦體驗創(chuàng)新,上線6款音視頻產(chǎn)品及企業(yè)級服務(wù)

視頻正朝著更高清、更互動、更沉浸方向發(fā)展,比如火山引擎在2022年助力了提升世界杯用戶體驗,累計直播觀看達106億人次。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

本次,火山引擎帶來六款音視頻方面的產(chǎn)品及全新升級,包括推出火山引擎云游戲、創(chuàng)意互動Vlog、AR互動營銷方案、RTC-WTN音視頻服務(wù),升級數(shù)字人產(chǎn)品、音視頻云端一體veVOS服務(wù)。

除了用戶體驗,火山引擎還帶來了企業(yè)用戶體驗提升產(chǎn)品更新。火山引擎升級企業(yè)數(shù)字化辦公IT基礎(chǔ)設(shè)施一飛連,據(jù)稱支持身份、網(wǎng)絡(luò)、終端一站式IT管理,以及云、網(wǎng)、端一站式辦公組網(wǎng),體系化保證辦公安全。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

根據(jù)官方數(shù)據(jù),飛連已覆蓋超100萬臺終端設(shè)備,比如小米公司就通過這一服務(wù)支持員工數(shù)字化辦公,提高效率和安全。

此外在生態(tài)方面,火山引擎本次還推出了“生意云”,打造生意增長一站式數(shù)字化解決方案。

字節(jié)參戰(zhàn)!火山引擎推出大模型訓(xùn)練云平臺,自研DPU實例性能提升3倍

結(jié)語:云上智能,火山引擎突圍的關(guān)鍵一戰(zhàn)

當(dāng)下,大模型正推動新一波AI浪潮,推動云計算服務(wù)的范式發(fā)生變化。本次,火山引擎在例行春季發(fā)布會上透露了其在自研DPU、計算實例、AI PaaS 平臺、數(shù)據(jù)智能PaaS平臺及應(yīng)用創(chuàng)新等方面的進展,其中有一大部分都契合了當(dāng)下的通用智能趨勢,展現(xiàn)了這家基于強大抖音等集團主業(yè)務(wù)的云廠商的快速發(fā)展的實力。

智能無疑是火山引擎突圍成云大廠“新貴”的關(guān)鍵一城。2021年脫胎于字節(jié)跳動布局IaaS+PaaS+SaaS完整云服務(wù)體系,2022年開始提供“產(chǎn)品+場景”的解決方案,并陸續(xù)推出數(shù)智平臺VeDI等高技術(shù)PaaS服務(wù)平臺,今年,火山引擎的關(guān)注點也快速聚焦自身擅長的智能領(lǐng)域,有望為云廠商格局帶來重大影響。