智東西(公眾號(hào):zhidxcom)
編譯 | 金碧輝
編輯 | 程茜
智東西6月17日消息,美國(guó)AI芯片創(chuàng)企Groq昨天宣布,其已正式成為Hugging Face Hub支持的推理服務(wù)提供商,推理服務(wù)已無(wú)縫集成至Hugging Face的JS和Python客戶端SDK,開(kāi)發(fā)者可便捷地將各類(lèi)模型與優(yōu)選服務(wù)提供商對(duì)接使用。
開(kāi)源平臺(tái)Hugging Face目前托管超50萬(wàn)個(gè)AI模型,月活躍開(kāi)發(fā)者突破300萬(wàn),已成為全球最大的開(kāi)源AI模型社區(qū)。Groq作為首家高速推理供應(yīng)商正式接入該平臺(tái)后,開(kāi)發(fā)者僅需三行代碼,便可直接在Hugging Face Playground或API中一鍵調(diào)用Groq服務(wù),賬單統(tǒng)一結(jié)算至平臺(tái)賬戶。
此舉使金融科技、工業(yè)研發(fā)等領(lǐng)域的AI原型驗(yàn)證周期縮短50%,為開(kāi)發(fā)者提供了低門(mén)檻高性能工具鏈支持。
一、131K上下文獨(dú)家支持,Groq推理服務(wù)集成至Hugging Face
▲獨(dú)立基準(zhǔn)測(cè)試公司Artificial Analysis關(guān)于Qwen3 32B的相關(guān)驗(yàn)證信息
阿里巴巴Qwen3 32B是一款參數(shù)規(guī)模達(dá)328億的大語(yǔ)言模型,專(zhuān)為復(fù)雜推理與高效對(duì)話優(yōu)化,支持超100種語(yǔ)言及方言。
通過(guò)Groq創(chuàng)新的語(yǔ)言處理單元(LPU)架構(gòu),Qwen3 32B+Groq組合首次實(shí)現(xiàn)131k完整上下文窗口支持。
成本方面,Groq為Qwen3 32B提供的按需定價(jià)為:輸入tokens 0.29美元(約合人民幣2.08元)/百萬(wàn)、輸出tokens 0.59美元(約合人民幣4.24元)/百萬(wàn)。
在Groq平臺(tái),Qwen3 32B模型支持特有的“思考/非思考”雙模式動(dòng)態(tài)切換機(jī)制,可根據(jù)推理任務(wù)的復(fù)雜度自動(dòng)適配最優(yōu)運(yùn)行模式。
三、基礎(chǔ)設(shè)施與用戶增長(zhǎng),Groq盈利前夜的兩大難題
據(jù)外媒VentureBeat昨日?qǐng)?bào)道,Groq的上述舉措堪稱(chēng)其向亞馬遜云服務(wù)(AWS)、谷歌云等現(xiàn)有云服務(wù)提供商發(fā)起挑戰(zhàn)的關(guān)鍵一步。但當(dāng)前Groq也面臨諸多挑戰(zhàn),其基礎(chǔ)設(shè)施雖已覆蓋美國(guó)、加拿大及中東地區(qū),但與AWS在全球布局的28個(gè)地理區(qū)域、谷歌云的26個(gè)區(qū)域相比,物理節(jié)點(diǎn)數(shù)量仍存在顯著差距。
Groq自研LPU芯片單系統(tǒng)部署成本達(dá)1144萬(wàn)美元(折合人民幣約8200萬(wàn)元),若按當(dāng)2000萬(wàn)token/s的處理速度推算,單臺(tái)LPU系統(tǒng)每日可處理172.8億token,僅能產(chǎn)生約500美元收入(折合人民幣約3587.3元),需連續(xù)運(yùn)營(yíng)63年才能覆蓋硬件成本。
結(jié)語(yǔ):Groq推理速度碾壓GPU十倍,模型訓(xùn)練依賴(lài)與基建瓶頸待解
Groq憑借LPU架構(gòu)的確定性計(jì)算優(yōu)勢(shì),從第三方機(jī)構(gòu)Artificial Analysis的驗(yàn)證基準(zhǔn)測(cè)試結(jié)果透露,實(shí)時(shí)推理場(chǎng)景中實(shí)現(xiàn)較GPU十倍的速度碾壓,為長(zhǎng)文本分析、跨國(guó)多語(yǔ)種應(yīng)用創(chuàng)造新可能。
研究公司Grand View Research今年6月透露,受各行各業(yè)AI應(yīng)用部署不斷增加的推動(dòng),到2030年,全球AI推理芯片市場(chǎng)規(guī)模將達(dá)1549億美元(折合人民幣約為1.11萬(wàn)億元)。然而,Groq芯片僅限推理場(chǎng)景,模型訓(xùn)練仍需依賴(lài)英偉達(dá)GPU,在一定程度上增加了開(kāi)發(fā)者與企業(yè)用戶的使用成本和技術(shù)風(fēng)險(xiǎn)。同時(shí)Groq的基礎(chǔ)設(shè)施擴(kuò)張速度能否匹配Hugging Face帶來(lái)的流量爆發(fā)仍是未知數(shù)。
如果Groq的基礎(chǔ)設(shè)施無(wú)法滿足用戶增長(zhǎng)的需求,可能會(huì)導(dǎo)致服務(wù)質(zhì)量下降,影響用戶滿意度和口碑。
來(lái)源:Groq官網(wǎng)、VentureBeat