芯東西(公眾號(hào):aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西2月25日?qǐng)?bào)道,2月24日,英特爾宣布向美國(guó)AI芯片獨(dú)角獸SambaNova的超過(guò)3.5億美元(約合人民幣24億元)E輪戰(zhàn)略融資注資,具體金額未披露。

同時(shí),SambaNova推出其第五代AI芯片SN50,號(hào)稱這是“唯一一款能夠提供智能體AI所需速度和吞吐量的芯片”,最高速度達(dá)同類芯片的5倍,經(jīng)多芯互連可支持的單模型參數(shù)規(guī)模達(dá)10萬(wàn)億、上下文長(zhǎng)度達(dá)1000萬(wàn)個(gè)token。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

據(jù)SambaNova披露,與Blackwell B200 GPU相比,SN50的最大速度是其5倍,智能體推理的吞吐量是其3倍以上,這在Meta的Llama 3.3 70B等一系列模型上得到充分體現(xiàn)。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

據(jù)外媒報(bào)道,在此之前,英特爾曾討論過(guò)以約16億美元(約合人民幣110億元)收購(gòu)SambaNova,但談判最終破裂。不過(guò)雙方均未回應(yīng)過(guò)此事。

SambaNova由多位斯坦福大學(xué)教授在2017年創(chuàng)立,在2021年融資后估值達(dá)到50億美元(約合人民幣344億元)。其董事長(zhǎng)是英特爾CEO陳立武。英特爾曾多次投資SambaNova。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

在最新公告中,SambaNova與英特爾宣布達(dá)成了一項(xiàng)多年戰(zhàn)略合作計(jì)劃,旨在提供高性能、高性價(jià)比的AI推理解決方案,打造下一代異構(gòu)AI數(shù)據(jù)中心,整合英特爾至強(qiáng)處理器、英特爾GPU、英特爾網(wǎng)絡(luò)和存儲(chǔ)及SambaNova系統(tǒng),以釋放數(shù)十億美元的推理市場(chǎng)機(jī)遇。

消息公布后,英特爾在美東時(shí)間周二股價(jià)漲超5%。

一、5倍算力、4倍網(wǎng)絡(luò)帶寬,能支撐10萬(wàn)億參數(shù)大模型

SN50芯片基于SambaNova的可重構(gòu)數(shù)據(jù)流單元(RDU)架構(gòu),超低延遲可提供實(shí)時(shí)響應(yīng),能支持數(shù)千個(gè)并發(fā)AI會(huì)話,并通過(guò)更高的硬件利用率降低了每個(gè)token的成本。

每塊芯片的算力提高到第四代SN40L的5倍,網(wǎng)絡(luò)帶寬提高至4倍。

SambaRack SN50將16塊SN50芯片組合在一起,可運(yùn)行多達(dá)10萬(wàn)億個(gè)參數(shù)1000萬(wàn)個(gè)token的超大模型。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

互連的SambaRack可通過(guò)每秒數(shù)TB的互連速度連接多達(dá)256塊芯片,從而縮短首次token生成時(shí)間,并支持更大的批處理規(guī)模,因此可以部署具有更高吞吐量和響應(yīng)速度的模型。

SambaRack的功耗平均僅需20kW,可在現(xiàn)有的風(fēng)冷數(shù)據(jù)中心中運(yùn)行。這為運(yùn)行g(shù)pt-oss等模型的推理服務(wù)提供商帶來(lái)了總擁有成本(TCO)優(yōu)勢(shì),其節(jié)能效果是B200 GPU的8倍。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

SN50將于2026年下半年開(kāi)始發(fā)貨。軟銀集團(tuán)將成為首家在日本下一代AI數(shù)據(jù)中心部署SN50的客戶。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

二、基于數(shù)據(jù)流、三層內(nèi)存架構(gòu),跑大模型時(shí)更快更高能效

SambaNova團(tuán)隊(duì)認(rèn)為,智能體需要智能、預(yù)測(cè)性和彈性的基礎(chǔ)架構(gòu),要實(shí)現(xiàn)可行智能體,硬件必須能夠即時(shí)適應(yīng)突發(fā)性工作負(fù)載,在專家模型之間無(wú)延遲切換。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

GPU擅長(zhǎng)AI模型訓(xùn)練,但AI推理是數(shù)據(jù)移動(dòng)和內(nèi)存優(yōu)化方面的挑戰(zhàn),需要不同的架構(gòu)方法。

為了執(zhí)行AI推理,GPU必須多次冗余地調(diào)用片外內(nèi)存,每次內(nèi)存調(diào)用都會(huì)增加處理延遲并消耗能量,會(huì)導(dǎo)致高功耗問(wèn)題。

在GPU上部署多個(gè)模型的標(biāo)準(zhǔn)方法是將模型加載到高帶寬內(nèi)存(HBM)中,但GPU HBM資源稀缺且成本高昂。

當(dāng)工作負(fù)載需要一個(gè)未加載的模型時(shí),系統(tǒng)必須卸載當(dāng)前模型并獲取新模型,這個(gè)過(guò)程通常以秒為單位。即便使用vLLM的1級(jí)睡眠模式,喚醒一個(gè)小型模型也需要0.1到0.8秒。

對(duì)于智能體所需的大型推理模型而言,這種喚醒時(shí)間會(huì)造成3到6秒的延遲。對(duì)于執(zhí)行涉及5個(gè)不同模型的10步推理過(guò)程的AI智能體來(lái)說(shuō),這些延遲累積起來(lái)會(huì)達(dá)到30秒,導(dǎo)致實(shí)時(shí)智能體工作流程無(wú)法使用。

SambaNova的RDU正是為解決這一問(wèn)題而設(shè)計(jì)的。

RDU將給定AI模型的計(jì)算圖映射到處理器上數(shù)據(jù)傳輸?shù)淖钣行窂?。這種方法消除了冗余的內(nèi)存調(diào)用,可顯著降低延遲和功耗。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

與受限于單卡HBM容量的GPU不同,SN50 RDU采用獨(dú)特的三層內(nèi)存架構(gòu),結(jié)合了片上SRAM、海量HBM和超高速SRAM。

這種分層結(jié)構(gòu)使芯片能承載最大的模型,支持在毫秒級(jí)時(shí)間內(nèi)運(yùn)行和切換多個(gè)模型。

此外,借助SN50,輸入token可緩存在內(nèi)存中,從而減少預(yù)填充處理時(shí)間和請(qǐng)求的首token獲取時(shí)間(TTFT)。

又一大算力AI芯片發(fā)布!比B200快3倍,剛?cè)谫Y24億元

結(jié)合這些優(yōu)勢(shì),其內(nèi)存架構(gòu)非常適合作為智能體的緩存,能夠更高效地處理任務(wù)。

SambaNova還在SambaStack上推出了由RDU支持的可配置模型包,與傳統(tǒng)的GPU架構(gòu)和vLLM等推理框架相比,這些模型包的切換速度更快。

三、與英特爾聯(lián)手,加速推出AI云平臺(tái)

作為多年戰(zhàn)略合作的一部分,英特爾計(jì)劃對(duì)SambaNova進(jìn)行戰(zhàn)略投資,以加速推出基于英特爾技術(shù)的AI云平臺(tái)。

此次合作預(yù)計(jì)將涵蓋三個(gè)關(guān)鍵領(lǐng)域:

(1)AI云擴(kuò)展:SambaNova正在擴(kuò)展其垂直整合的AI云平臺(tái),該平臺(tái)基于英特爾至強(qiáng)處理器構(gòu)建,并針對(duì)大語(yǔ)言模型和多模態(tài)模型進(jìn)行了優(yōu)化。該平臺(tái)將提供低延遲、高吞吐量的AI服務(wù),并由參考架構(gòu)、部署藍(lán)圖以及與系統(tǒng)集成商和軟件供應(yīng)商的合作關(guān)系提供支持。

(2)集成AI基礎(chǔ)設(shè)施:將SambaNova的系統(tǒng)與英特爾的CPU、加速器和網(wǎng)絡(luò)技術(shù)相結(jié)合,為推理、代碼生成、多模態(tài)應(yīng)用和智能體工作流提供可擴(kuò)展的、可用于生產(chǎn)的推理能力。

(3)市場(chǎng)推廣執(zhí)行:通過(guò)英特爾的全球企業(yè)、云和合作伙伴渠道進(jìn)行聯(lián)合銷售和聯(lián)合營(yíng)銷,以加速AI生態(tài)系統(tǒng)的普及。

據(jù)英特爾披露,此次合作是對(duì)英特爾現(xiàn)有數(shù)據(jù)中心GPU投入的補(bǔ)充,并不會(huì)改變其在AI領(lǐng)域的競(jìng)爭(zhēng)戰(zhàn)略,英特爾將繼續(xù)加大對(duì)GPU知識(shí)產(chǎn)權(quán)、架構(gòu)、產(chǎn)品、軟件和系統(tǒng)的投資,并強(qiáng)化其從邊緣到云端AI戰(zhàn)略路線圖。

結(jié)語(yǔ):AI推理市場(chǎng)迎來(lái)新組合

隨著AI推理蓬勃發(fā)展,科技公司們都在尋求更高速度和效率、更低企業(yè)級(jí)AI部署成本的AI硬件基礎(chǔ)設(shè)施方案。

許多云端AI芯片創(chuàng)企都將自家產(chǎn)品的賣(mài)點(diǎn)放在了高能效上,既順應(yīng)AI推理需求旺盛的趨勢(shì),又能避開(kāi)英偉達(dá)強(qiáng)于AI訓(xùn)練的鋒芒。

通過(guò)合作,SambaNova可以借助英特爾的全球影響力擴(kuò)大其AI處理器的規(guī)模,英特爾也增強(qiáng)了在AI推理領(lǐng)域的綜合實(shí)力。這將為日趨多元化的AI推理市場(chǎng)提供一個(gè)有競(jìng)爭(zhēng)力的選擇。