智東西(公眾號(hào):zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

算力,正成為大模型時(shí)代名符其實(shí)的“新石油”。

上周三,國(guó)際能源署發(fā)布的報(bào)告為這一觀點(diǎn)提供了有力佐證。2025年,全球數(shù)據(jù)中心的投資預(yù)計(jì)將達(dá)到約5800億,遠(yuǎn)超今年5400億美元的全球石油供應(yīng)投資額。這一400億美元的投資差額,折射出市場(chǎng)對(duì)AI發(fā)展?jié)摿Φ恼J(rèn)可。

越來(lái)越多的企業(yè)開始意識(shí)到,算力不僅是支撐AI模型訓(xùn)練和推理的基礎(chǔ)資源,更是推動(dòng)產(chǎn)業(yè)創(chuàng)新與智能化升級(jí)的核心要素。傳統(tǒng)的基礎(chǔ)設(shè)施體系在模型規(guī)模爆炸式增長(zhǎng)、推理需求多樣化以及實(shí)時(shí)性要求更高的趨勢(shì)下,已逐漸顯露瓶頸。伴隨應(yīng)用場(chǎng)景的不斷豐富與技術(shù)體系的快速迭代,以算力為核心的AI Infra(AI基礎(chǔ)設(shè)施)體系必須順勢(shì)升級(jí)。

正是在這一大背景下,百度在剛剛落幕的百度世界大會(huì)上,系統(tǒng)展示了其在AI Infra上的最新探索。

從今年上半年點(diǎn)亮的昆侖芯P800三萬(wàn)卡集群,到支撐萬(wàn)卡集群實(shí)現(xiàn)98%有效訓(xùn)練時(shí)長(zhǎng)的百舸平臺(tái),再到會(huì)上最新發(fā)布的昆侖芯最新一代產(chǎn)品、天池256/天池512超節(jié)點(diǎn)。百度已構(gòu)建起一個(gè)覆蓋芯片、集群到平臺(tái)的全棧式、規(guī)模化AI Infra解決方案。

在競(jìng)爭(zhēng)日益激烈的AI云戰(zhàn)場(chǎng)上,誰(shuí)能率先構(gòu)建起穩(wěn)定、可擴(kuò)展、成本可控的全棧AI Infra體系,誰(shuí)就有望在未來(lái)的競(jìng)爭(zhēng)中占據(jù)更主動(dòng)的戰(zhàn)略高地。而百度在本屆百度世界大會(huì)展示的全棧AI Infra能力,或許正是其在下一輪AI云競(jìng)爭(zhēng)中亮出的底牌。

一、AI云建設(shè)熱潮持續(xù),全棧能力成關(guān)鍵競(jìng)爭(zhēng)力

構(gòu)建覆蓋芯片、集群、平臺(tái)等領(lǐng)域的全棧AI Infra能力,正在成為AI行業(yè)頭部玩家競(jìng)相投入的核心方向。

在海外市場(chǎng),這一趨勢(shì)尤為明顯。谷歌依托長(zhǎng)期發(fā)展的TPU(張量處理單元),形成了以TPU為核心的高度定制化AI算力體系,使其在大模型訓(xùn)練與推理服務(wù)中形成獨(dú)特的技術(shù)優(yōu)勢(shì)。

亞馬遜AWS多年來(lái)持續(xù)押注自研芯片,并與其云服務(wù)深度綁定,以實(shí)現(xiàn)更高能效比和更低成本。

模型廠商OpenAI的動(dòng)作同樣具有標(biāo)志性,他們聯(lián)手博通自研AI加速器,還布局獨(dú)立AI云服務(wù)業(yè)務(wù)。這不僅是為了提升未來(lái)模型迭代效率,更是為了減少對(duì)外部算力供應(yīng)鏈的依賴,確保核心競(jìng)爭(zhēng)力的可持續(xù)性。

與此同時(shí),作為全球AI產(chǎn)業(yè)鏈最關(guān)鍵的算力供應(yīng)商之一,英偉達(dá)也在不斷構(gòu)建自己的AI能力版圖。除了不斷提升GPU性能外,英偉達(dá)還深入高速互聯(lián)等關(guān)鍵領(lǐng)域,并向云端延伸,推出NIM推理微服務(wù)等。英偉達(dá)越來(lái)越像一家完整的AI基礎(chǔ)設(shè)施公司,而不僅僅是芯片供應(yīng)商。

這些案例共同指向一個(gè)明確趨勢(shì):AI云競(jìng)爭(zhēng)的本質(zhì)正在從單一算力供應(yīng),轉(zhuǎn)向?qū)Φ讓佑布?、系統(tǒng)架構(gòu)、編譯優(yōu)化、算力調(diào)度、模型服務(wù)等全鏈路的深度整合。在這一全棧體系中,芯片提供底層算力支撐,并需與云端的系統(tǒng)設(shè)計(jì)、模型框架和軟件生態(tài)保持緊密協(xié)同。上下層在架構(gòu)、調(diào)度與優(yōu)化上的合力,才能讓AI云體系在性能、資源利用和擴(kuò)展性上實(shí)現(xiàn)更優(yōu)的整體表現(xiàn)。

視角轉(zhuǎn)向國(guó)內(nèi),百度是國(guó)內(nèi)較早開啟自研AI芯片的廠商之一。早在2011年,昆侖芯團(tuán)隊(duì)便啟動(dòng)了FPGA AI加速器項(xiàng)目,是國(guó)內(nèi)最早源?真實(shí)業(yè)務(wù)場(chǎng)景的AI芯?研發(fā)團(tuán)隊(duì),2018年,百度正式啟動(dòng)昆侖芯研發(fā),并完成了3次迭代。

不僅如此,百度還是國(guó)內(nèi)最早提出AI云概念的廠商之一。早在2020年,百度智能云便開啟了“云智一體”戰(zhàn)略,將云計(jì)算和AI緊密融合。根據(jù)IDC今年發(fā)布的《中國(guó)AI公有云服務(wù)市場(chǎng)份額,2024》報(bào)告,去年,中國(guó)AI公有云服務(wù)市場(chǎng)規(guī)模達(dá)195.9億元,百度智能云以24.6%的市場(chǎng)份額位居第一,連續(xù)六年、累計(jì)十次蟬聯(lián)中國(guó)AI公有云市場(chǎng)冠軍。

AI云狂飆持續(xù),百度亮出了全棧 AI Infra底牌

憑借從芯片、集群到平臺(tái)的全棧布局,百度不僅在算力供給上建立了堅(jiān)實(shí)優(yōu)勢(shì),也在AI云服務(wù)中形成了獨(dú)特的競(jìng)爭(zhēng)壁壘。

二、新架構(gòu)新應(yīng)用層出不窮,百度AI Infra能力如何持續(xù)演進(jìn)?

然而,在快速變化的AI領(lǐng)域,沒有玩家能在固守現(xiàn)有技術(shù)和模式的情況下持續(xù)領(lǐng)先。隨著新模型架構(gòu)和應(yīng)用不斷涌現(xiàn),算力需求和系統(tǒng)復(fù)雜性呈指數(shù)級(jí)增長(zhǎng),傳統(tǒng)技術(shù)和算力體系很容易被更靈活、高效、全?;母?jìng)爭(zhēng)者超越。

百度世界大會(huì)分論壇上,昆侖芯認(rèn)為在大模型“新應(yīng)用”的背景下,越來(lái)越多“非計(jì)算任務(wù)”正被“計(jì)算化”,很多AI Agent或應(yīng)用就是把以前非計(jì)算的任務(wù)用計(jì)算實(shí)現(xiàn)。

當(dāng)前涌現(xiàn)的大量新應(yīng)用正在改變傳統(tǒng)任務(wù)的執(zhí)行方式,從AI編程、智能搜索,到具備規(guī)劃能力Al Agent,過(guò)去依賴人工決策與操作的任務(wù),如今正逐步交由機(jī)器自動(dòng)完成。以往用戶需耗費(fèi)大量時(shí)間檢索、比較與判斷,而現(xiàn)在僅需Agent消耗數(shù)萬(wàn)至十萬(wàn)級(jí)Token即可自動(dòng)實(shí)現(xiàn)。隨著Agent商業(yè)化的加速,應(yīng)用生態(tài)規(guī)模迅速擴(kuò)大,最直觀的體現(xiàn)是Token消耗量的激增。

未來(lái),Token將像水電一樣,作為不可或缺的基礎(chǔ)要素,深度融入社會(huì)生活的各個(gè)領(lǐng)域。百度智能云混合云部總經(jīng)理杜海認(rèn)為,未來(lái)的算力需求短期內(nèi)可能達(dá)到現(xiàn)有推理算力幾十倍甚至百倍的規(guī)模。面對(duì)這些挑戰(zhàn),國(guó)產(chǎn)AI Infra該如何升級(jí)?

芯片層面,在百度世界大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖亮出了昆侖芯未來(lái)五年的路線圖。今年,昆侖芯已實(shí)現(xiàn)單集群三萬(wàn)卡點(diǎn)亮,并發(fā)布了百度天池32超節(jié)點(diǎn)和64超節(jié)點(diǎn);2026年-2027年,兩款昆侖芯新品和百度天池256超節(jié)點(diǎn)、百度天池512超節(jié)點(diǎn)都將陸續(xù)上市。

上述硬件的優(yōu)化方向,與當(dāng)前AI模型的演進(jìn)路徑高度契合。本次發(fā)布的昆侖芯新品重點(diǎn)面向大規(guī)模推理以及超大規(guī)模多模態(tài)訓(xùn)練與推理場(chǎng)景進(jìn)行優(yōu)化,而這些正是當(dāng)下大模型發(fā)展的關(guān)鍵方向。天池超節(jié)點(diǎn)則專門針對(duì)大規(guī)模訓(xùn)推場(chǎng)景。

天池256超節(jié)點(diǎn)相比其今年4月發(fā)布的超節(jié)點(diǎn)方案,卡間互聯(lián)總帶寬提升4倍,主流大模型推理任務(wù)單卡tokens吞吐提升3.5倍。天池512超節(jié)點(diǎn)最高支持512卡極速互聯(lián),卡間互聯(lián)總帶寬提升1倍,單節(jié)點(diǎn)可完成萬(wàn)億參數(shù)模型訓(xùn)練。

AI云狂飆持續(xù),百度亮出了全棧 AI Infra底牌

然而,光憑硬件本身,也支撐大規(guī)模AI訓(xùn)練需求,配套的計(jì)算平臺(tái)、供應(yīng)鏈和團(tuán)隊(duì)都需要同步優(yōu)化,以滿足新架構(gòu)、新應(yīng)用帶來(lái)的新需求。

百度已經(jīng)在打造三萬(wàn)卡集群的過(guò)程中,深刻把握到萬(wàn)卡級(jí)AI Infra的復(fù)雜性。杜海稱,這一系統(tǒng)性工程不僅要解決由服務(wù)器、光模塊到機(jī)房節(jié)奏在內(nèi)的超大規(guī)模供應(yīng)鏈協(xié)同,還需依托研發(fā)、運(yùn)維和調(diào)度體系的全鏈路協(xié)作與技術(shù)優(yōu)化,確保集群能力的線性提升、穩(wěn)定性和故障自愈能力。

百度智能云AI計(jì)算首席科學(xué)家王雁鵬認(rèn)為,訓(xùn)練和推理的差異,使硬件穩(wěn)定性成為首要挑戰(zhàn)。推理可以容忍單機(jī)故障,但訓(xùn)練往往涉及上萬(wàn)塊GPU的同步計(jì)算。王雁鵬指出:“如果百卡訓(xùn)練的有效計(jì)算時(shí)間是99%,擴(kuò)展到萬(wàn)卡,有效訓(xùn)練時(shí)間可能歸零。”為此,百度智能云建立了全面的故障檢測(cè)體系,通過(guò)通信庫(kù)實(shí)現(xiàn)對(duì)慢節(jié)點(diǎn)和故障卡的精準(zhǔn)定位。

從百卡擴(kuò)展到千卡乃至萬(wàn)卡,網(wǎng)絡(luò)拓?fù)?、任?wù)調(diào)度和通信策略都需要相應(yīng)變化。百度智能云的思路是結(jié)合自身芯片和網(wǎng)絡(luò)特點(diǎn),進(jìn)行軟硬件協(xié)同優(yōu)化。他們提出了XPU驅(qū)動(dòng)的通信模式,實(shí)現(xiàn)跳過(guò)CPU的高效XPU直通通信,并通過(guò)多平面高算出的網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的通信策略實(shí)現(xiàn)萬(wàn)卡帶寬有效性達(dá)95%,幾乎接近理想線性擴(kuò)展。

隨著AI模型架構(gòu)不斷迭代,國(guó)產(chǎn)AI芯片的生態(tài)也面臨更高要求。英偉達(dá)顯卡的CUDA生態(tài)支持百種模型架構(gòu),形成了國(guó)產(chǎn)算力追趕路上難以繞開的“護(hù)城河”。王雁鵬認(rèn)為,國(guó)產(chǎn)算力若要在大模型時(shí)代迎頭趕上,必須建立高泛化算子體系,在小規(guī)模驗(yàn)證中確保大規(guī)模訓(xùn)練的精度和性能,最終保證算子覆蓋度和正確性。

此外,隨著上千億、萬(wàn)億參數(shù)的MoE模型出現(xiàn),以及多模態(tài)模型(視覺、語(yǔ)音等)的引入,系統(tǒng)通信占比上升、顯存壓力增大、負(fù)載高度異構(gòu)。面對(duì)這些挑戰(zhàn),百度智能云團(tuán)隊(duì)通過(guò)分層存儲(chǔ)等方式,讓國(guó)產(chǎn)集群運(yùn)行MoE模型的效率接近GPU集群。而異構(gòu)并行通信策略則將多模態(tài)模型算力利用率提升至50%左右,與傳統(tǒng)的稠密模型類似。

百度在百舸平臺(tái)上將上述一整套能力進(jìn)行了整合。用戶可以通過(guò)百舸平臺(tái)以標(biāo)準(zhǔn)化、產(chǎn)品化的方式,使用國(guó)產(chǎn)優(yōu)質(zhì)算力和上述各種技術(shù)手段,建設(shè)高效的基礎(chǔ)設(shè)施、提升模型訓(xùn)練效果,并加速推理性能。

三、自研算力基座支撐文心訓(xùn)推,獲行業(yè)頭部企業(yè)采用

這套全棧AI Infra能力,已經(jīng)廣泛應(yīng)用在百度的內(nèi)部業(yè)務(wù)中。經(jīng)過(guò)十余年技術(shù)積累和三次迭代,百度的國(guó)產(chǎn)化算力底座如今不僅能穩(wěn)定支持搜索、推薦等百度核心業(yè)務(wù),還逐步成為承載百度?模型訓(xùn)練與推理的核心算力引擎。

例如,Qianfan 70B VL、Qianfan 30B-A3B-VL這兩款主打OCR全場(chǎng)景識(shí)別和復(fù)雜版面文檔理解兩大能力的SOTA級(jí)模型,正是在5000卡的昆侖芯集群上,利用百度的全棧AI Infra能力訓(xùn)練而來(lái)的。支持“無(wú)限時(shí)長(zhǎng)”生成的百度蒸汽機(jī)視頻生成模型,是全球首個(gè)中文音視頻一體化生成模型,發(fā)布時(shí)在權(quán)威榜單VBench-12V上位列全球第一。這一模型,是在6000卡的昆侖芯集群上煉成的。

AI云狂飆持續(xù),百度亮出了全棧 AI Infra底牌

▲百度蒸汽機(jī)生成了今年百度世界大會(huì)的開場(chǎng)視頻

除了支持百度內(nèi)部業(yè)務(wù)之外,百度智能云已經(jīng)基于百舸平臺(tái)和昆侖芯,對(duì)外規(guī)?;峁┧懔Ψ?wù)?;凇鞍俣劝亵碅I計(jì)算平臺(tái)+昆侖芯P800”構(gòu)建的國(guó)產(chǎn)萬(wàn)卡集群,率先成為首家通過(guò)信通院《面向大規(guī)模智算服務(wù)集群的穩(wěn)定運(yùn)行能力要求》測(cè)評(píng)的國(guó)產(chǎn)萬(wàn)卡級(jí)別集群,且在基礎(chǔ)設(shè)施、集群調(diào)度、模型訓(xùn)練保障等核心測(cè)評(píng)維度上,獲得最高等級(jí)“五星級(jí)”。

在算力規(guī)模化應(yīng)用的過(guò)程中,硬件是基礎(chǔ),但遠(yuǎn)非全部。百度百舸作為軟硬一體、全棧優(yōu)化的計(jì)算平臺(tái),通過(guò)整合AI基礎(chǔ)設(shè)施、資源管理、工程與模型訓(xùn)推加速等關(guān)鍵服務(wù),幫助企業(yè)解決“有硬件卻用不好”的痛點(diǎn),充分釋放算力的潛能,將其轉(zhuǎn)化為真實(shí)場(chǎng)景中的生產(chǎn)力。

百舸平臺(tái)不僅適用于昆侖芯,也能幫助廣大企業(yè)根據(jù)自身需求打造穩(wěn)定、可靠的算力底座。分論壇上,北京人形機(jī)器人創(chuàng)新中心大模型負(fù)責(zé)人鞠笑竹分享了團(tuán)隊(duì)在百舸平臺(tái)上開發(fā)機(jī)器人大模型的經(jīng)歷。雙方合作最初圍繞數(shù)據(jù)展開,隨后擴(kuò)展到VLM等多類大模型的訓(xùn)練,覆蓋數(shù)據(jù)與算力的全鏈條支持。在構(gòu)建并開源RoboMind數(shù)據(jù)集的過(guò)程中,創(chuàng)新中心基于百舸平臺(tái)完成了模型訓(xùn)練與真機(jī)部署測(cè)試,形成“數(shù)據(jù)—訓(xùn)練—驗(yàn)證”的完整閉環(huán)。

同時(shí),百舸的算力環(huán)境不僅加速了“慧思開物具身智能平臺(tái)”的研發(fā),還支撐創(chuàng)新中心成功訓(xùn)練了72B的開源具身多模態(tài)大模型Pelican-VL 1.0,整體訓(xùn)練效率得到顯著提升。Pelican-VL 1.0可幫助人形機(jī)器人更好地感知空間與時(shí)間,實(shí)現(xiàn)自然的具身交互,并在訓(xùn)練過(guò)程中實(shí)現(xiàn)自我糾錯(cuò)與持續(xù)迭代,在多項(xiàng)基準(zhǔn)測(cè)試中達(dá)到國(guó)際領(lǐng)先水平。

鞠笑竹表示,Pelican-VL在基線基礎(chǔ)上性能提升20.3%,超過(guò)同級(jí)別開源模型10.6%,成為開源具身性能最好的大腦模型。

AI云狂飆持續(xù),百度亮出了全棧 AI Infra底牌

▲Pelican-VL開源鏈接:pelican-vl.github.io

從某種意義上來(lái)說(shuō),百舸平臺(tái)讓創(chuàng)新中心可以專注科學(xué)探索本身,而無(wú)需擔(dān)憂算力基礎(chǔ)設(shè)施這一老大難問題。百度智能云也是首家全面適配RDT、π0和GR00T N1.5三大主流開源具身VLA模型的云廠商。通過(guò)針對(duì)性的訓(xùn)推工程優(yōu)化,世界模型的推理性能可提升超過(guò)36%、訓(xùn)練加速20%以上;視覺語(yǔ)言模型(VLM)訓(xùn)練則提超40%。

除此之外,百度智能云還幫助招商銀行、國(guó)家電網(wǎng)、中國(guó)鋼研、同濟(jì)大學(xué)、北京大學(xué)等頭部機(jī)構(gòu)與企業(yè)實(shí)現(xiàn)國(guó)產(chǎn)算力的規(guī)?;渴穑蔀楸姸?業(yè)智能化轉(zhuǎn)型的底層算力支撐。

結(jié)語(yǔ):上下游整合成大勢(shì)所趨,百度搶先交卷全棧方案

在百度世界大會(huì)的分論壇上,百度智能云混合云部總經(jīng)理杜海分享了一個(gè)頗為有趣且深刻的觀察:與傳統(tǒng)CPU時(shí)代“層層標(biāo)準(zhǔn)化、相互獨(dú)立”的技術(shù)結(jié)構(gòu)不同,當(dāng)下的大模型體系從芯片、云基礎(chǔ)設(shè)施、框架到模型與應(yīng)用之間存在極強(qiáng)的耦合度——不同廠商的芯片在設(shè)計(jì)模式、指令和調(diào)用方式上差異巨大,要想充分發(fā)揮性能,算子、框架乃至模型本身都必須深度感知底層拓?fù)洹?/p>

這意味著AI產(chǎn)業(yè)正在形成從應(yīng)用到模型、框架、云基礎(chǔ)設(shè)施再到芯片的端到端垂直結(jié)構(gòu),各領(lǐng)域的頭部公司為了掌控能力和效率,不可避免地走向上下游深度整合。在新一輪AI云競(jìng)爭(zhēng)全面打響之時(shí),全棧AI Infra能力的建設(shè),不再是一種可選項(xiàng),而是面向未來(lái)競(jìng)爭(zhēng)的“必答題”。百度,已經(jīng)率先交出了自己的答卷。