芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
200億美元。
這是英偉達買下AI芯片獨角獸Groq團隊和非獨家技術(shù)授權(quán)后,最先被市場記住的數(shù)字。它超過了此前英偉達任何一筆并購交易的金額。
Groq主攻的是其特有的LPU芯片技術(shù),一種用軟件定義硬件的可重構(gòu)數(shù)據(jù)流架構(gòu),加之Groq由谷歌TPU初始研發(fā)團隊創(chuàng)辦,于是也被一些業(yè)內(nèi)人士稱作“進階版TPU”。
經(jīng)過多天發(fā)酵,此事的核心關(guān)注點已經(jīng)轉(zhuǎn)移。英偉達的選擇,使「非GPU」賽道新型技術(shù)路徑受到高度關(guān)注。類似技術(shù)路線的代表企業(yè),還包括Intel正在收購的美國的SambaNova、剛剛完成數(shù)十億融資的中國的清微智能等。
在公司主體未被收購的前提下,200億美元這個天價數(shù)字值得被反復(fù)咀嚼:
英偉達究竟在為一種怎樣的技術(shù)能力付費?
一、花掉近1/3現(xiàn)金儲備,英偉達在下一盤多大的棋?
答案是AI推理。
在對外表態(tài)保持克制的同時,英偉達CEO黃仁勛發(fā)送了一封致員工郵件。郵件后來被媒體獲取,其中明確提到,英偉達計劃將Groq的低延遲處理器集成進NVIDIA AI Factory架構(gòu),服務(wù)于更廣泛的AI推理與實時工作負載。
隨著模型進入規(guī)?;渴痣A段,AI算力消耗形態(tài)發(fā)生變化。服務(wù)于大量終端用戶的推理請求持續(xù)膨脹,對并行吞吐能力提出更高要求,延遲是否穩(wěn)定、能效是否可控、單位算力能承載多少并發(fā),逐漸成為影響整體成本的關(guān)鍵因素。
擅長并行計算但具有高能耗特點的GPU,未必是滿足長期推理需求的最佳高效路線。
在英偉達接洽前,Groq并沒有尋求出售,剛剛完成多輪數(shù)億美元融資。交易額達200億美元的消息,最早來自其主要投資方Disruptive。該機構(gòu)CEO Alex Davis透露。
英偉達預(yù)計2025年年底現(xiàn)金儲備可能超過700億美元。斥資200億美元收購Groq的人才和技術(shù)授權(quán),相當于要花掉接近1/3的現(xiàn)金儲備。
那么英偉達為何如此看好Groq團隊?
這得益于Groq手里的三張王牌:沙特市場、大模型推理、可重構(gòu)架構(gòu)。
在推理戰(zhàn)場,英偉達對龐大的主權(quán)AI市場虎視眈眈,遍地土豪的沙特無疑是“必征之地”。而Groq在2025年2月宣布已獲得來自沙特阿拉伯15億美元的投資承諾,用于擴大基于LPU的AI推理基礎(chǔ)設(shè)施。更早之前,Groq在2024年12月建成沙特阿拉伯最大的推理集群。
據(jù)外媒透露,被英偉達遞出橄欖枝時,Groq并未處于出售壓力之下。在2025年9月完成新一輪7.5億美元融資后,Groq的投后估值達到約69億美元,2025年營收目標為5億美元,主要來自大模型推理服務(wù)和基礎(chǔ)設(shè)施大單。
而這些核心業(yè)務(wù)的底層硬件,就是一種面向推理負載設(shè)計、采用可編程流式架構(gòu)的新型LPU芯片。
二、彌補GPU短板,走出差異化技術(shù)路徑
Groq將芯片設(shè)計重點放在極致的推理性能優(yōu)化。資料顯示,該芯片在int8精度下峰值算力達到750TOPS,運行萬億參數(shù)的月之暗面Kimi K2模型可實時生成token。
這主要通過TSP架構(gòu)、極致確定性、采用SRAM來實現(xiàn)。該芯片取消了指令分發(fā)、分支預(yù)測、緩存控制等硬件邏輯,編譯器將每個執(zhí)行步驟精確到最小執(zhí)行周期,實現(xiàn)時鐘級確定性。相比GPU通常采用的外部HBM,它采用的SRAM訪問速度更快。
而它最核心TSP(Tensor Streaming Processor)架構(gòu),從底層芯片設(shè)計邏輯來看,就是一種軟件定義硬件的可重構(gòu)架構(gòu)。
不同于遵循馮·諾依曼架構(gòu)(指令驅(qū)動數(shù)據(jù))的GPU,可重構(gòu)數(shù)據(jù)流是一種支持芯片內(nèi)部及芯片間的流水線式流程,無需等待計算或內(nèi)存資源,可以彌補GPU架構(gòu)的短板,已在持續(xù)運行的推理場景中體現(xiàn)出系統(tǒng)工程優(yōu)勢。
這可能就是英偉達選擇通過技術(shù)和團隊引入,將Groq經(jīng)驗嵌入自身平臺的直接原因。
英偉達、英特爾陸續(xù)押注,以及后續(xù)可以預(yù)見的巨量研發(fā)投入,主流AI芯片三大技術(shù)流派至此形成:
GPU:擅長暴力并行計算,生態(tài)最強,是大模型訓練和通用計算任務(wù)的首選,但做推理任務(wù)時難避高能耗的劣勢。代表企業(yè)有英偉達、摩爾線程等。
ASIC/DSA:專用芯片、領(lǐng)域特定架構(gòu)路線,硬件路徑是固定的,專為AI運算的矩陣乘法極致優(yōu)化,但在處理非矩陣類運算時性能會大幅下降。代表企業(yè)有谷歌、寒武紀、昆侖芯等。
可重構(gòu):根據(jù)數(shù)據(jù)流動態(tài)重構(gòu)計算路徑,能夠適應(yīng)多元化的算法,隨時調(diào)整電路連接方式,相比GPU可大幅減少能耗,相比靜態(tài)ASIC又保留了對模型演進的適配能力。代表企業(yè)有SambaNova、Groq以及清微智能等。
在可重構(gòu)的實現(xiàn)方法上,Groq團隊硬件邏輯是靜態(tài)、固定的,全靠編譯器來實現(xiàn)邏輯上的重構(gòu),這種方法會犧牲一定的通用性。
更經(jīng)典的做法則是依靠硬件內(nèi)部的可編程交換矩陣,來動態(tài)或半靜態(tài)地改變處理單元之間的物理連接。這樣一來,硬件就像會變身的“算力樂高”,能根據(jù)算法動態(tài)重構(gòu)計算陣列和互連拓撲,實現(xiàn)更高的通用性。
如今Groq大部分成員歸入英偉達,SambaNova屢傳被英特爾洽談收購。可重構(gòu)作為第三大AI芯片主流賽道,已被國際芯片巨頭們虎視眈眈。國產(chǎn)可重構(gòu)AI芯片頭部企業(yè)的清微智能,則已啟動IPO籌備。
三、開啟全新資本周期,國產(chǎn)AI芯片迎來第三種解法
2025年12月,清微智能宣布完成超20億元C輪融資,并已啟動上市籌備相關(guān)工作,目標打造國內(nèi)“非GPU”新型架構(gòu)芯片領(lǐng)域首個上市標桿企業(yè)。
當前,中國AI芯片市場呈現(xiàn)多元架構(gòu)并起的格局,上市公司多為GPU或ASIC企業(yè)。清微智能作為全球最早實現(xiàn)可重構(gòu)計算商用的企業(yè)之一,其IPO具有破局意義。
在先進制程工藝受限的背景下,可重構(gòu)芯片通過架構(gòu)創(chuàng)新?lián)Q取性能的國產(chǎn)替代方案,是中國實現(xiàn)算力自給的重要方向之一。而清微智能研發(fā)的芯片代表了目前中國在可重構(gòu)計算領(lǐng)域的最前沿。
清微智能今年推出下一代芯片,性能還將大幅提升,其可重構(gòu)數(shù)據(jù)流架構(gòu)具備3D擴展的天然優(yōu)勢,能夠與3D芯片、晶圓級芯片技術(shù)等前沿集成技術(shù)結(jié)合,形成清晰且可持續(xù)的升級迭代路徑。
面向大規(guī)模擴展,為可重構(gòu)架構(gòu)設(shè)計的高效數(shù)據(jù)互連技術(shù)TSM-LINK支持多芯片點對點直連,能夠?qū)崿F(xiàn)數(shù)據(jù)高效傳輸,規(guī)避傳統(tǒng)交換機架構(gòu)存在的帶寬瓶頸與通信延遲問題。
針對長期生態(tài)建設(shè),清微智能持續(xù)推進軟件棧適配與工具鏈建設(shè),以降低開發(fā)與遷移成本。
中國擁有豐富的端側(cè)AI應(yīng)用場景,許多場景都對功能、延時極其敏感,這為可重構(gòu)芯片提供了優(yōu)質(zhì)的練兵場。
可重構(gòu)芯片憑借高能效優(yōu)勢,既符合低碳目標的國情所需,又能夠消解單一架構(gòu)遇阻的風險。此類企業(yè)走向IPO,將有助于鼓勵更多企業(yè)探索底層創(chuàng)新技術(shù),為國家算力主權(quán)發(fā)展出更多條可持續(xù)發(fā)展的生命線。
結(jié)語:英偉達200億美元高價,拉高了可重構(gòu)賽道的稀缺性
隨著大模型應(yīng)用重心向“快”和“便宜”轉(zhuǎn)移,可重構(gòu)芯片的高能效、低延遲等特性,正好迎合了爆發(fā)式增長的AI商業(yè)化普及潮。
而英偉達為Groq掏出的200億美元高價,某種程度上提供了可重構(gòu)這類新架構(gòu)的技術(shù)估值,讓業(yè)界意識到AI計算路線勝負未定、軟件定義硬件將是接下來的重要技術(shù)發(fā)展方向。這一領(lǐng)域的國內(nèi)頭部企業(yè),在資本市場的稀缺性也在2026年被進一步放大。
