智東西(公眾號:zhidxcom)
作者 | 陳駿達(dá)
編輯 | 漠影

在上周舉辦的中國家電及消費(fèi)電子博覽會(AWE)上,一項以OCS(光路交換)重塑智算網(wǎng)絡(luò)架構(gòu)的最新成果,宣告落地。

上海儀電聯(lián)合曦智科技、壁仞科技、中興通訊發(fā)布了“光躍超節(jié)點128卡商用版”,實現(xiàn)長期穩(wěn)定訓(xùn)練狀態(tài),帶動模型訓(xùn)練性能顯著提升,傳輸延遲相較傳統(tǒng)電交換降低90%以上。

該超節(jié)點以曦智科技全球首創(chuàng)的硅光OCS光交換芯為核心,最初在去年7月的WAIC大會上發(fā)布,僅用半年多時間,便實現(xiàn)從概念驗證到實際商用的跨越。這也是國內(nèi)首個端到端OCS批量部署方案。

此外,這一方案成功了適配階躍星辰、DeepSeek等多個國產(chǎn)大模型,驗證了其成為高性價比、高能效國產(chǎn)算力解決方案的潛力。

面對大模型訓(xùn)練中傳統(tǒng)電交換網(wǎng)絡(luò)日益嚴(yán)峻的功耗和延遲困境,擁有低功耗、低延遲和調(diào)度靈活性的OCS技術(shù),正成為突破算力效能天花板的關(guān)鍵抓手。

一、 傳統(tǒng)電路交換網(wǎng)絡(luò)功耗問題難解,OCS如何成為AI時代的“破壁者”?

首先要承認(rèn)一個事實,當(dāng)前在數(shù)據(jù)中心中,傳統(tǒng)的電分組交換(Packet Switch)仍然是主流。這主要是因為其技術(shù)成熟、生態(tài)完善。

從原理上來看,在交換數(shù)據(jù)時,電分組交換機(jī)首先將來自光纖鏈路的光信號通過光模塊轉(zhuǎn)換為電信號,然后在交換芯片中對數(shù)據(jù)包進(jìn)行解析與轉(zhuǎn)發(fā),最后再通過光模塊將電信號重新轉(zhuǎn)換為光信號并發(fā)送。

整個過程依賴“光-電-光”(O-E-O)的轉(zhuǎn)換與電子交換芯片完成數(shù)據(jù)處理,光模塊把光信號轉(zhuǎn)換為電信號,由交換芯片完成讀取、緩存與路由,再通過光模塊重新轉(zhuǎn)回光信號繼續(xù)發(fā)送。

可以把它理解為一個繁忙的鐵路貨運(yùn)站。當(dāng)滿載數(shù)據(jù)的列車到達(dá)時,必須進(jìn)站停車,將貨物卸下、分揀、重新編組到另一列車上,再發(fā)車出站。列車在站內(nèi)的每一次停頓、裝卸設(shè)備的持續(xù)運(yùn)轉(zhuǎn),都帶來更高的延遲與能耗。

在谷歌與英偉達(dá)的側(cè)翼,中國玩家正用“光速”鋪設(shè)一條算力快車道

以此類網(wǎng)絡(luò)中常見的400G光模塊(光電轉(zhuǎn)換器件)為例,其功耗大約為10W左右,傳輸1比特(bit)數(shù)據(jù)所消耗的能量大約為25皮焦耳(pJ)。再加上交換機(jī)內(nèi)部負(fù)責(zé)處理信號的SerDes芯片本身的功耗,總能耗可輕松超過30 pJ/bit。更先進(jìn)的800G模塊雖然在能效上有所提升,但單位能耗仍維持在15–20 pJ/bit的量級。

在超大規(guī)模數(shù)據(jù)中心中,這種能耗將迅速累積,不僅顯著增加運(yùn)營成本,也給散熱和系統(tǒng)設(shè)計帶來巨大壓力。

這正是OCS(Optical Circuit Switch)能發(fā)揮價值的場景。

OCS可以在物理層直接改變光信號的傳播路徑。當(dāng)數(shù)據(jù)流到達(dá)交換節(jié)點時,無需像電交換那樣經(jīng)歷復(fù)雜切換過程,只需要調(diào)整方向,就能把光信號直接引導(dǎo)到目標(biāo)鏈路上,從而建立一條端到端的光通路。

它更像是在鐵路網(wǎng)絡(luò)中部署了一套智能道岔系統(tǒng)。光列車無需進(jìn)站停車,直接切換軌道方向,保持高速直通狀態(tài)。雖然維持這個“道岔”系統(tǒng)的運(yùn)行仍需要能量,但與O-E-O轉(zhuǎn)換相比,其能耗降低了幾個數(shù)量級,理論上能做到fj/bit(1000fj=1pj)量級。

除了能耗與延遲之外,OCS還在帶寬、可靠性、兼容性方面具有優(yōu)勢。它不受電子交換芯片端口速率和SerDes速率的限制,可更輕松地支持高帶寬的數(shù)據(jù)傳輸;也不依賴于特定的數(shù)據(jù)傳輸協(xié)議,可無縫兼容不同廠商使用的互連協(xié)議,消除生態(tài)鎖閉風(fēng)險。

同時,OCS可以在物理層快速重新建立光路。當(dāng)某條鏈路或設(shè)備出現(xiàn)故障時,網(wǎng)絡(luò)能夠在幾秒內(nèi)通過重新配置光通路繞過故障路徑,從而提高網(wǎng)絡(luò)的整體穩(wěn)定性和容錯能力。

二、OCS技術(shù)路線分立,中國玩家探索現(xiàn)實可行方案

OCS的優(yōu)勢明顯,但其技術(shù)門檻高、涉及多學(xué)科交叉。不同廠商和研究機(jī)構(gòu)正基于各自的技術(shù)積累與產(chǎn)業(yè)生態(tài)進(jìn)行探索:有的延續(xù)傳統(tǒng)光通信中的MEMS光開關(guān)路徑,有的嘗試基于硅光波導(dǎo)實現(xiàn)高度集成化的光交換,還有一些方案則采用液晶、壓電陶瓷等光學(xué)調(diào)控技術(shù)。

在這些技術(shù)路徑中,MEMS(微機(jī)電系統(tǒng))OCS是目前相對成熟的一類方案。該方案通過微型可動反射鏡陣列改變光束傳播方向,實現(xiàn)端口之間的光路重構(gòu)。

谷歌是全球范圍內(nèi)唯一完成OCS大規(guī)模量產(chǎn)部署的公司,已有10年左右的研發(fā)經(jīng)驗,其方案基于MEMS。結(jié)合谷歌開發(fā)的全棧軟件,這一方案極大提高了TPU訓(xùn)練集群的數(shù)據(jù)交換效率。

在谷歌與英偉達(dá)的側(cè)翼,中國玩家正用“光速”鋪設(shè)一條算力快車道

▲谷歌的MEMS光交換方案

MEMS方案的優(yōu)勢在于端口規(guī)模大、光學(xué)性能穩(wěn)定;但其也存在一定局限,例如機(jī)械結(jié)構(gòu)帶來的切換速度限制(目前為毫秒級)、器件體積較大以及系統(tǒng)封裝復(fù)雜度較高、價格昂貴等。

另一條備受關(guān)注的路線是硅光(Silicon Photonics)OCS。該方案利用硅基波導(dǎo)等器件在芯片上實現(xiàn)光信號的路由與切換。相比MEMS依賴微機(jī)械結(jié)構(gòu)的方式,硅光方案沒有機(jī)械運(yùn)動,切換速度可達(dá)微秒甚至納秒級。

在谷歌與英偉達(dá)的側(cè)翼,中國玩家正用“光速”鋪設(shè)一條算力快車道

一些初創(chuàng)公司正在推動硅光OCS的發(fā)展,例如國內(nèi)的曦智科技等企業(yè)。曦智打造了全球首創(chuàng)的基于硅光子技術(shù)的OCS光交換芯片,相關(guān)研究論文被國際通信網(wǎng)絡(luò)領(lǐng)域頂級會議SIGCOMM 2025接收。

硅光OCS還能夠依托成熟的CMOS制造工藝實現(xiàn)規(guī)?;a(chǎn),并具備更好的集成度和潛在的成本優(yōu)勢。但在光損耗控制以及熱串?dāng)_問題等方面,還有優(yōu)化空間。

除了MEMS和硅光之外,OCS領(lǐng)域還存在一些其他技術(shù)路線,例如基于液晶材料調(diào)控光路的方案,以及利用壓電陶瓷驅(qū)動光學(xué)結(jié)構(gòu)改變傳播路徑的方案等。這些技術(shù)各有特點,在切換速度、穩(wěn)定性或成本方面提供了不同的工程權(quán)衡。

總體而言,OCS領(lǐng)域正處于“多路線并行探索”的階段,各種技術(shù)在端口規(guī)模、切換速度、能效與可制造性之間不斷尋找平衡,尚未出現(xiàn)絕對主導(dǎo)路線,未來很可能會在不同應(yīng)用場景中形成多種技術(shù)并存的格局。

而結(jié)合國內(nèi)當(dāng)前的發(fā)展階段與技術(shù)環(huán)境,依托成熟半導(dǎo)體制造體系的硅光路線,在產(chǎn)業(yè)鏈協(xié)同和規(guī)?;圃旆矫婢邆湟欢ìF(xiàn)實優(yōu)勢,也因此成為曦智等國內(nèi)企業(yè)重點探索的方向之一。

三、硬件落地先行、軟件生態(tài)跟進(jìn),OCS不再是“選答題”

在智東西與曦智科技CEO沈亦晨的溝通中,我們了解到,過去半年,曦智科技從軟件和硬件兩個方面雙管齊下,推動光互連光交換超節(jié)點的商用落地。

研發(fā)過程中,團(tuán)隊面臨了巨大的工程挑戰(zhàn)。比如,在初期他們遇到了光信號連接不穩(wěn)定、傳輸切換不如理論預(yù)期順暢等問題。為了解決這些問題,曦智科技聯(lián)合GPU廠商和服務(wù)器廠商,組建了龐大的技術(shù)團(tuán)隊,通過大量的調(diào)優(yōu),最終實現(xiàn)了穩(wěn)定部署的質(zhì)變。

此外,曦智開發(fā)了光交換相關(guān)的配套軟件,并與GPU和服務(wù)器廠商等生態(tài)伙伴一道完善配套軟件生態(tài)。

對于“銅退光進(jìn)”的演進(jìn),業(yè)界已經(jīng)形成了基本共識。2025年底,市場調(diào)研公司Cignal AI發(fā)布了最新的OCS市場報告,這份報告的核心是:隨著超大規(guī)模數(shù)據(jù)中心和AI算力中心部署,OCS的角色從驗證逐漸過渡到大規(guī)模試點與商用,其部署范圍擴(kuò)展至谷歌以外的更多廠商、更多應(yīng)用場景,OCS的總市場規(guī)模到2029年將至少達(dá)到25億美元

英偉達(dá)這樣的頭部玩家正在用行動投票。本月,英偉達(dá)分別向Lumentum(MEMS路徑)和Coherent(液晶路徑)這兩家專注于OCS技術(shù)的企業(yè)投資了20億美元,并簽署了多年數(shù)十億美元的采購承諾和未來產(chǎn)能優(yōu)先獲取權(quán),體現(xiàn)出其對OCS的長期看好。

我們也與沈亦晨聊到了英偉達(dá)在OCS賽道的這一大動作。沈亦晨稱:“2-3年前,曦智便做出判斷,未來數(shù)據(jù)中心30%的芯片都會是光芯片,英偉達(dá)也一定會全面擁抱光芯片?!边@次英偉達(dá)的押注,其實是因為光芯片即將在其產(chǎn)品中“快速起量”,因此需對供應(yīng)鏈進(jìn)行提前布局。

至于不同技術(shù)路徑的選擇,沈亦晨保持了開放的態(tài)度。在他看來,不同OCS技術(shù)路徑雖有具體指標(biāo)的差異,但核心功能共性高達(dá)80%-90%現(xiàn)階段的首要任務(wù)是將光交換集群從概念變?yōu)楝F(xiàn)實,落地部署大規(guī)模光互連光交換集群。

此外,硬件落地是軟件優(yōu)化的前提。只有先擁有一套實體的光交換集群,軟件和系統(tǒng)才能針對其特性進(jìn)行優(yōu)化。從“電交換”改為“光交換”是軟件層面最重要的變革環(huán)節(jié),在光交換體系內(nèi)部,后續(xù)對軟件層面的優(yōu)化屬于“邊際收益(marginal gain)”。

沈亦晨類比道:“與其現(xiàn)在糾結(jié)于用哪一種技術(shù)路線的電機(jī),不如先讓一輛電動車上路。車能上路,配套設(shè)施自然就會建起來?!?/p>

結(jié)語:數(shù)據(jù)中心網(wǎng)絡(luò)“以光換電”,中國方案搶占技術(shù)高地

OCS技術(shù)正以前所未有的方式重塑AI算力基礎(chǔ)設(shè)施。它不僅在能耗、延遲和帶寬上帶來質(zhì)的飛躍,也為下一代超大規(guī)模大模型的訓(xùn)練、推理和廣泛落地,提供了堅實支撐。

而在OCS加速落地的進(jìn)程中,以曦智科技為代表的中國企業(yè),正憑借硅光OCS芯片、光躍超節(jié)點等創(chuàng)新實踐,探索一條自主可控、兼具高性能與高能效的國產(chǎn)算力路線。

沈亦晨透露,未來,除了在訓(xùn)練側(cè)支撐千卡、萬卡級別集群之外,曦智也計劃擴(kuò)展128卡商用版本超節(jié)點在推理側(cè)的應(yīng)用。而在今年的WAIC大會上,曦智將會公開下一代光交換集群的方案。