芯東西(公眾號(hào):aichip001)
作者 |? 陳駿達(dá)
編輯 |? 漠影

在新一輪AI技術(shù)浪潮中,基礎(chǔ)設(shè)施正成為外界關(guān)注的焦點(diǎn)。隨著基礎(chǔ)模型規(guī)模從千億級(jí)邁向萬億級(jí),訓(xùn)練與推理的計(jì)算和通信需求迅速攀升,傳統(tǒng)的算力堆疊模式已難以支撐。

超大規(guī)模AI模型催生出新的基礎(chǔ)設(shè)施范式——超節(jié)點(diǎn)。這一概念突破了傳統(tǒng)服務(wù)器的形態(tài),由數(shù)十至數(shù)百個(gè)加速器組成,通過超高帶寬、超低延遲的Scale-up網(wǎng)絡(luò)連接,形成一個(gè)統(tǒng)一的資源池。

在國(guó)產(chǎn)高端算力供應(yīng)受限的大背景下,超節(jié)點(diǎn)已逐漸成為支撐大模型訓(xùn)練和推理的關(guān)鍵架構(gòu),互聯(lián)則被視作其中的核心環(huán)節(jié)。如何在超節(jié)點(diǎn)架構(gòu)中實(shí)現(xiàn)高效互聯(lián),成為技術(shù)界與產(chǎn)業(yè)界共同探討的焦點(diǎn)議題。

昨日,在AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)解決方案提供商奇異摩爾與中國(guó)信息通訊研究院華東分院共同舉辦的Networking for AI生態(tài)沙龍上,多家企業(yè)分享了國(guó)產(chǎn)AI從技術(shù)突破到生態(tài)構(gòu)建的整體進(jìn)展,而超節(jié)點(diǎn)的互聯(lián),成為會(huì)上的重點(diǎn)議題之一。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點(diǎn)迎關(guān)鍵拼圖,國(guó)產(chǎn)化閉環(huán)近了?

在計(jì)算、網(wǎng)絡(luò)兩個(gè)領(lǐng)域均有一定積累的奇異摩爾,想用芯粒來解決超節(jié)點(diǎn)的互聯(lián)挑戰(zhàn)。其打造的高帶寬、多語(yǔ)義支持的通用IO芯粒,或許代表著一種面向未來的AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施思路。

一、互聯(lián)成算力破局關(guān)鍵,芯粒方案緣何成為新引擎

過去數(shù)年,AI模型的可用性持續(xù)提升,帶動(dòng)企業(yè)AI推理需求迅速增長(zhǎng)。與訓(xùn)練階段的一次性計(jì)算不同,每次推理都需要調(diào)用數(shù)十億甚至百億級(jí)參數(shù),對(duì)算力資源形成持續(xù)高壓。

在實(shí)時(shí)交互場(chǎng)景中,模型不僅需要“算得準(zhǔn)”,還必須“算得快”,毫秒級(jí)的延遲和高并發(fā)吞吐直接影響用戶體驗(yàn)和系統(tǒng)效率。

在支撐上述新一代AI模型和應(yīng)用的超節(jié)點(diǎn)中,互聯(lián)幾乎與算力本身同等重要。

高速互聯(lián)保證模型參數(shù)在不同芯片之間的快速交換,是并行訓(xùn)練和推理的前提;大規(guī)模集群擴(kuò)展離不開高帶寬、低擁塞的網(wǎng)絡(luò),否則再多的GPU也難以形成合力;通信延遲則直接影響模型響應(yīng)速度。

互聯(lián)的重要性,也反映在AI基礎(chǔ)設(shè)施投資趨勢(shì)中。過去,互聯(lián)技術(shù)在算力中心投資額中的占比不足5%,如今已逐漸增加到15%-20%,未來還可能持續(xù)上升。

在探索互聯(lián)技術(shù)未來發(fā)展方向的過程中,將IO芯粒從核心計(jì)算單元中分離出來,已成為一大技術(shù)趨勢(shì),并獲得多家領(lǐng)先廠商采用,有望成為超節(jié)點(diǎn)擴(kuò)展到千卡規(guī)模的重要技術(shù)路徑之一。

華為昇騰910的Side IO Die設(shè)計(jì)正是這一趨勢(shì)的實(shí)踐,它將密集計(jì)算與高速接口分工,有效提升系統(tǒng)吞吐量和制造良率。

英偉達(dá)下一代Rubin架構(gòu)則采用多制程節(jié)點(diǎn)芯粒設(shè)計(jì),不僅分離I/O,還讓計(jì)算單元實(shí)現(xiàn)模塊化。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點(diǎn)迎關(guān)鍵拼圖,國(guó)產(chǎn)化閉環(huán)近了?

作為國(guó)內(nèi)罕見的AI網(wǎng)絡(luò)互聯(lián)領(lǐng)域全棧供應(yīng)商,奇異摩爾對(duì)這一技術(shù)路徑的探索同樣值得關(guān)注。

成立于2021年初的奇異摩爾,在芯粒技術(shù)方面積累深厚,早期通過中科創(chuàng)星構(gòu)建產(chǎn)業(yè)資源網(wǎng)絡(luò),與半導(dǎo)體產(chǎn)業(yè)上下游合作伙伴建立深度協(xié)作關(guān)系。

奇異摩爾最早從片內(nèi)互聯(lián)切入,其自研的IOD互聯(lián)芯粒3D Base Die(與復(fù)旦大學(xué)合作存算一體芯片)曾入選ISSCC 2025會(huì)議,獲得這一被譽(yù)為芯片界“奧林匹克”的頂級(jí)會(huì)議認(rèn)可。伴隨AI浪潮的興起,奇異摩爾在持續(xù)深耕片內(nèi)互聯(lián)的同時(shí),也組建了專注于高性能RDMA網(wǎng)絡(luò)技術(shù)的專業(yè)團(tuán)隊(duì)。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點(diǎn)迎關(guān)鍵拼圖,國(guó)產(chǎn)化閉環(huán)近了?

▲奇異摩爾首席網(wǎng)絡(luò)技術(shù)專家葉棟

這家擁有計(jì)算與網(wǎng)絡(luò)雙重背景的企業(yè),已全面布局Scale-out、Scale-up和Scale-inside三大方向。其首創(chuàng)的超節(jié)點(diǎn)GPU片間互聯(lián)芯粒產(chǎn)品解決方案Kiwi G2G IOD,在計(jì)算Die與IO Die解耦技術(shù)路徑下,尤其值得關(guān)注。

二、互聯(lián)芯粒G2G IOD技術(shù)細(xì)節(jié)全揭秘,如何賦能AI超節(jié)點(diǎn)

何為超節(jié)點(diǎn)芯粒?這是一款專為xPU(含GPU)等加速器之間的Scale-Up網(wǎng)絡(luò)互聯(lián)而設(shè)計(jì)的超節(jié)點(diǎn)互聯(lián)芯粒。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點(diǎn)迎關(guān)鍵拼圖,國(guó)產(chǎn)化閉環(huán)近了?

在G2G(GPU互聯(lián))領(lǐng)域,廠商們普遍面臨四大難題,奇異摩爾的G2G IOD正是對(duì)這些痛點(diǎn)的直接回應(yīng)。

帶寬瓶頸

對(duì)超大規(guī)模AI模型而言,訓(xùn)練、推理和多模態(tài)數(shù)據(jù)交換本質(zhì)上是數(shù)據(jù)密集型工作,只有TB級(jí)帶寬才能避免算力閑置、模型同步延遲、用戶體驗(yàn)卡頓,讓超節(jié)點(diǎn)真正發(fā)揮作用。

Kiwi G2G IOD支持TB級(jí)帶寬與高并發(fā)數(shù)據(jù)傳輸,給大模型的訓(xùn)練和推理提供持續(xù)穩(wěn)定的高效互聯(lián)支撐。

拓?fù)鋽U(kuò)展性

超節(jié)點(diǎn)由數(shù)十甚至上百塊GPU/xPU構(gòu)成,不同的訓(xùn)練任務(wù)和部署場(chǎng)景對(duì)網(wǎng)絡(luò)結(jié)構(gòu)有不同要求:有些任務(wù)適合全互聯(lián)(Full Mesh),有些適合脊葉(Spine-Leaf)結(jié)構(gòu)。G2G IOD便兼容全互聯(lián)、脊葉等多種網(wǎng)絡(luò)結(jié)構(gòu),避免在每次擴(kuò)展或任務(wù)切換時(shí)重新設(shè)計(jì)網(wǎng)絡(luò)的需求。

多語(yǔ)義需求

GPU互聯(lián)領(lǐng)域長(zhǎng)期存在兩種語(yǔ)義分野:消息語(yǔ)義與內(nèi)存語(yǔ)義。

消息語(yǔ)義適合大塊數(shù)據(jù)傳輸,通常通過RDMA(遠(yuǎn)程直接內(nèi)存訪問)來完成。內(nèi)存語(yǔ)義則更適合小粒度操作。GPU之間可以像訪問本地內(nèi)存一樣,直接對(duì)另一顆GPU的內(nèi)存進(jìn)行操作。

過去的產(chǎn)業(yè)格局中,英偉達(dá)NVLink以私有協(xié)議走內(nèi)存語(yǔ)義路線,而華為、Intel等廠商更多采用消息語(yǔ)義方案。

然而,單純依賴消息語(yǔ)義,在傳輸大塊數(shù)據(jù)時(shí)效率很高,但在處理小數(shù)據(jù)時(shí)會(huì)面臨巨大開銷。單純依賴內(nèi)存語(yǔ)義,雖能高效處理小規(guī)模訪問,卻在面對(duì)大數(shù)據(jù)搬移時(shí)效率下降。

因此,一個(gè)理想的Scale-up互聯(lián)架構(gòu),必須同時(shí)支持兩種語(yǔ)義。G2G IOD同時(shí)支持消息語(yǔ)義和內(nèi)存語(yǔ)義,這種“雙?!痹O(shè)計(jì),才能真正兼顧性能與靈活性。

協(xié)議通用性

當(dāng)前Scale-up協(xié)議從簡(jiǎn)單P2P接口演進(jìn)為復(fù)雜協(xié)議,通用協(xié)議仍在標(biāo)準(zhǔn)化過程中。

G2G IOD本身基于奇異摩爾獨(dú)創(chuàng)的HPDE可編程架構(gòu),能支持不同的協(xié)議包括SUE、OISA、ETH-X,和未來其他主流協(xié)議,從而滿足不同廠商不同場(chǎng)景的需求,在生態(tài)百花齊放的Scale-up系統(tǒng)中支持多協(xié)議類型及其升級(jí),從而降低持續(xù)研發(fā)難度和開發(fā)成本。

G2G IOD的優(yōu)勢(shì)不僅體現(xiàn)在性能,更在于芯粒架構(gòu)帶來的戰(zhàn)略價(jià)值。

芯粒范式賦予系統(tǒng)架構(gòu)師對(duì)性能、功耗、面積和成本(PPAC)四個(gè)維度進(jìn)行解耦和獨(dú)立優(yōu)化的能力,從而顯著提升系統(tǒng)設(shè)計(jì)的靈活性,并降低研發(fā)門檻。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點(diǎn)迎關(guān)鍵拼圖,國(guó)產(chǎn)化閉環(huán)近了?

▲GPU互聯(lián)芯粒與GPU集成I/O通信IP的區(qū)別

一方面,越來越大的超節(jié)點(diǎn)域所帶來的網(wǎng)絡(luò)流控、IO功能對(duì)于xPU企業(yè)的研發(fā)提出復(fù)雜性挑戰(zhàn)。而解耦的互聯(lián)芯粒無需在設(shè)計(jì)階段就確定采用何種Scale-Up協(xié)議,同時(shí)也大幅降低了研發(fā)難度和成本,可節(jié)省數(shù)億元的研發(fā)投入。

另一方面,基于奇異摩爾的HPDE高性能可編程架構(gòu),G2G芯粒支持通過用戶友好的編程配置或產(chǎn)品升級(jí)來適配更新的算法和協(xié)議類型,有利于實(shí)現(xiàn)快速迭代與升級(jí),進(jìn)一步降低持續(xù)研發(fā)的難度和開發(fā)成本。

此外,該范式還支持開放生態(tài),可復(fù)用現(xiàn)有的網(wǎng)絡(luò)交換機(jī),無需專門研發(fā)專用交換機(jī),有助于構(gòu)建更加開放和具備競(jìng)爭(zhēng)力的 Scale-Up生態(tài)系統(tǒng)。

在工藝體系方面,芯粒設(shè)計(jì)是應(yīng)對(duì)后摩爾時(shí)代挑戰(zhàn)、特別是先進(jìn)制程節(jié)點(diǎn)下成本與物理限制的重要戰(zhàn)略轉(zhuǎn)型。其關(guān)鍵優(yōu)勢(shì)在于支持異構(gòu)集成,即不同制程節(jié)點(diǎn)的芯片可分別優(yōu)化后組合集成。

其中,成熟制程的應(yīng)用有助于提升良率、降低非經(jīng)常性工程(NRE)成本,而計(jì)算單元仍可采用最先進(jìn)制程,從而實(shí)現(xiàn)整體異構(gòu)集成所帶來的成本優(yōu)化。

G2G IOD并非一款單點(diǎn)產(chǎn)品,而是開放生態(tài)的一部分??梢哉f,這款芯粒既是超級(jí)節(jié)點(diǎn)互聯(lián)的性能解法,也是國(guó)產(chǎn)AI算力基礎(chǔ)設(shè)施走向開放化和規(guī)?;囊淮侮P(guān)鍵嘗試。

三、擁抱開放生態(tài),多套方案回應(yīng)AI時(shí)代算力變革

在當(dāng)前的AI加速計(jì)算領(lǐng)域,奇異摩爾推出的超節(jié)點(diǎn)互聯(lián)解決方案是行業(yè)內(nèi)目前唯一一種基于芯粒架構(gòu)并構(gòu)建于開放生態(tài)之上的互聯(lián)方案。

奇異摩爾積極投身于全球及國(guó)內(nèi)主流開放標(biāo)準(zhǔn)生態(tài)的建設(shè),全面參與了UEC、UALINK、OISA、ETH-X等多個(gè)關(guān)鍵產(chǎn)業(yè)聯(lián)盟。

其中,與中國(guó)移動(dòng)共同構(gòu)建OISA(全向智感互聯(lián))生態(tài)是其戰(zhàn)略重點(diǎn)之一。自O(shè)ISA 1.0階段起,奇異摩爾便深度跟進(jìn)該技術(shù)體系的演進(jìn)。

在2025年中國(guó)算力大會(huì)上,奇異摩爾作為核心合作伙伴,與中國(guó)移動(dòng)等產(chǎn)業(yè)伙伴共同啟動(dòng)了OISA生態(tài)共建戰(zhàn)略合作,并見證了性能大幅增強(qiáng)的OISA 2.0協(xié)議的發(fā)布。

中國(guó)移動(dòng)研究院技術(shù)經(jīng)理李鍇在活動(dòng)演講中談道,“作為OISA體系的積極踐行者,奇異摩爾深度投身生態(tài)建設(shè),在協(xié)議及IO芯粒的標(biāo)準(zhǔn)制定與產(chǎn)品研發(fā)中全力推進(jìn)生態(tài)適配,為《OISA全向智感互聯(lián)IO芯粒技術(shù)白皮書》的編撰貢獻(xiàn)了關(guān)鍵力量?!?/p>

奇異摩爾作為一家全棧AI網(wǎng)絡(luò)互聯(lián)企業(yè),還在Scale-out超級(jí)網(wǎng)卡SuperNIC和Scale-inside D2D方面有產(chǎn)品布局。

互聯(lián)技術(shù)站上“C位”,AI超節(jié)點(diǎn)迎關(guān)鍵拼圖,國(guó)產(chǎn)化閉環(huán)近了?

在Scale-out方向,為應(yīng)對(duì)網(wǎng)絡(luò)面臨的帶寬、延遲、海量節(jié)點(diǎn)流控和成本控制等多重挑戰(zhàn),業(yè)界提出了UEC(Ultra Ethernet Consortium,超級(jí)以太網(wǎng)聯(lián)盟)技術(shù)路線,為下一代RDMA提供方向。

奇異摩爾在研的Kiwi SNIC超級(jí)智能網(wǎng)卡內(nèi)置高性能RDMA引擎,提供高達(dá)800G帶寬,并支持亂序處理、多徑傳輸和選擇性重傳,顯著提升大規(guī)模網(wǎng)絡(luò)的數(shù)據(jù)傳輸效率和可靠性。

在Scale-Inside方向,奇異摩爾的片內(nèi)互聯(lián)方案,基于UCIe的D2D IP及Central IO Die及3D Base Die系列,可賦能AI芯片/高性能芯片的算力提升,進(jìn)一步提升AI網(wǎng)絡(luò)的單計(jì)算卡算力。

結(jié)語(yǔ):國(guó)產(chǎn)AI算力閉環(huán),初步成型

在昨日落幕的生態(tài)沙龍活動(dòng)上,我們看到越來越多企業(yè)正覆蓋從算力芯片到算法模型再到算力服務(wù)的全鏈條環(huán)節(jié),展現(xiàn)了國(guó)產(chǎn)AI從技術(shù)突破到生態(tài)構(gòu)建的整體進(jìn)展,國(guó)產(chǎn)算力閉環(huán)正在持續(xù)完善。

奇異摩爾這樣的企業(yè)專注于互聯(lián)解決方案,構(gòu)建了從芯片內(nèi)部到超算集群的完整閉環(huán),不僅解決了傳輸性能、協(xié)議兼容性和部署成本等核心難題,更以開放標(biāo)準(zhǔn)和靈活架構(gòu)推動(dòng)了國(guó)產(chǎn)算力生態(tài)的持續(xù)迭代與升級(jí)。

新華三則發(fā)布了全新H3C UniPoD系列超節(jié)點(diǎn),支持高性能Scale-up互聯(lián),可實(shí)現(xiàn)單機(jī)柜多卡GPU的高速互聯(lián)與資源協(xié)同,滿足大模型訓(xùn)練和推理需求。該系列同時(shí)支持靈活交付模式,助力企業(yè)快速構(gòu)建業(yè)務(wù)和全棧能力。

此外,財(cái)躍星辰、騰訊云、沐曦、中科創(chuàng)星、無問芯穹、后摩智能、中昊芯英等企業(yè)也分享了他們?cè)诖蛟靽?guó)產(chǎn)AI技術(shù)體系上的探索。

在會(huì)上,中國(guó)信通院華東分院總工程師陳俊琰指出,未來,智能算力產(chǎn)業(yè)的高質(zhì)量發(fā)展需要強(qiáng)化技術(shù)創(chuàng)新協(xié)同,突破核心瓶頸;完善算力調(diào)度體系,提升配置效率;深化場(chǎng)景融合應(yīng)用,賦能實(shí)體經(jīng)濟(jì)。

中科創(chuàng)星董事總經(jīng)理盧小保認(rèn)為,AI算力正由單體智能往群體智能發(fā)展,Scaling Law下,互聯(lián)的作用越來越凸顯,成了延續(xù)摩爾定率、不斷提升算力密度的核心解決路徑。在國(guó)內(nèi)先進(jìn)工藝受限的情況下,互聯(lián)更是具備特殊價(jià)值,讓國(guó)內(nèi)算力產(chǎn)業(yè)可以以規(guī)模和成本換性能,實(shí)現(xiàn)算力自立。

業(yè)內(nèi)投資專家曾指出:“未來三年,誰能把國(guó)產(chǎn)算力高效‘連’起來,誰就能贏得AI基礎(chǔ)設(shè)施的賽點(diǎn)?!被ヂ?lián),這個(gè)曾經(jīng)被忽視的技術(shù)角落,正成為國(guó)產(chǎn)AI算力能否真正實(shí)現(xiàn)閉環(huán)的關(guān)鍵一戰(zhàn)。