智東西(公眾號:zhidxcom)
作者 | 江宇
編輯 | 漠影
智東西5月16日消息,今日舉行的“逐光向新·智領(lǐng)未來”華為云AI峰會上,人工智能基礎(chǔ)設(shè)施的最新發(fā)展趨勢與行業(yè)應(yīng)用實(shí)踐成為與會專家學(xué)者和產(chǎn)業(yè)代表共同探討的焦點(diǎn)。會上,華為云重點(diǎn)介紹了其最新的CloudMatrix 384超節(jié)點(diǎn)架構(gòu)技術(shù)。
值得關(guān)注的是,華為云在會上還宣布了一項(xiàng)技術(shù)進(jìn)展,將于今年第三季度推出名為“朝推夜訓(xùn)”的靈活調(diào)度策略。該策略旨在白天進(jìn)行模型推理,并在夜間等閑時(shí)進(jìn)行模型訓(xùn)練,預(yù)計(jì)可將算力資源利用率提升30%以上。
一、華為云再談CloudMatrix 384,發(fā)力新一代AI基礎(chǔ)設(shè)施
華為云副總裁黃瑾在致辭中提到,自2024年1月1日起截止到目前,華為云在保障運(yùn)行安全方面保持了穩(wěn)定記錄。他指出,“未來十年將是見證智能世界從無到有的關(guān)鍵時(shí)期?!?/p>
他談道,隨著AI模型復(fù)雜性的提升,集群網(wǎng)絡(luò)通信面臨挑戰(zhàn),而CloudMatrix超節(jié)點(diǎn)架構(gòu)旨在通過創(chuàng)新架構(gòu)應(yīng)對這一問題。該架構(gòu)通過高速總線互聯(lián)和超大NPU點(diǎn)到點(diǎn)互聯(lián)帶寬,實(shí)現(xiàn)了全局內(nèi)存的統(tǒng)一編址和統(tǒng)一通訊協(xié)議,從而打破了傳統(tǒng)算力瓶頸。
他指出,華為云CloudMatrix 384超節(jié)點(diǎn)具備MoE親和、以網(wǎng)強(qiáng)算、以存強(qiáng)算、長穩(wěn)可靠、朝推夜訓(xùn)、即開即用六大領(lǐng)先技術(shù)優(yōu)勢,以適應(yīng)新一代AI基礎(chǔ)設(shè)施的需求。
同時(shí),黃瑾強(qiáng)調(diào)Scaling Law依然有效,持續(xù)提升算力將驅(qū)動更智能、更強(qiáng)大的AI模型。他認(rèn)為,AI已成為最具影響力的通用技術(shù)。據(jù)介紹,CloudMatrix 384在多節(jié)點(diǎn)并行計(jì)算的效率、網(wǎng)絡(luò)互聯(lián)帶寬以及內(nèi)存帶寬等方面展現(xiàn)出一定的技術(shù)優(yōu)勢。
此外,華為云還探索了如“1卡1專家推理”等新型計(jì)算模式,據(jù)稱該模式通過為每個專家模型分配專用計(jì)算資源,能夠顯著提升MoE(Mixture of Experts)等特定類型AI任務(wù)的推理效率,例如在Deepseek R1千億MoE模型上實(shí)現(xiàn)了高達(dá)3倍的吞吐量提升。
其Scale-out網(wǎng)絡(luò)設(shè)計(jì)目標(biāo)是支持高達(dá)12.8萬張卡的集群進(jìn)行無阻塞交換,這被認(rèn)為是CloudMatrix 384的關(guān)鍵技術(shù)核心。

二、硅基流動攜手華為云,深化AI應(yīng)用合作
硅基流動聯(lián)合創(chuàng)始人兼首席產(chǎn)品官胡健也發(fā)布了演講。據(jù)他觀察,開源模型在AI應(yīng)用領(lǐng)域的重要性日益提升,并且性能也在不斷進(jìn)步。
胡健談道,硅基流動正與華為云緊密合作,并在技術(shù)上取得顯著進(jìn)展。雙方聯(lián)合攻關(guān),針對DeepSeek-R1模型的部署采用了大規(guī)模專家并行方案。
通過實(shí)施多專家負(fù)載均衡和極致通信優(yōu)化策略,有效提升了模型的吞吐量和性能。實(shí)驗(yàn)數(shù)據(jù)顯示,在保障單用戶20TPS水平的前提下,單卡解碼吞吐率已突破1920 Tokens/s。
據(jù)了解,硅基流動是國內(nèi)首家向DeepSeek提供API的公司。借此機(jī)會,硅基流動的用戶數(shù)量實(shí)現(xiàn)了顯著增長,達(dá)到了之前的十倍。而近日,硅基流動DeepSeek-R1&V3推理服務(wù)也正式上架華為云云商店KooGallery。

三、AI數(shù)據(jù)中心運(yùn)維挑戰(zhàn)與行業(yè)應(yīng)用洞察
華為云數(shù)據(jù)中心全球DC運(yùn)維首席專家謝峰則深入探討了AI數(shù)據(jù)中心所面臨的獨(dú)特挑戰(zhàn),包括超大規(guī)模光鏈路的波動性、高功率密度帶來的供電穩(wěn)定需求,以及超高密液冷散熱的問題。

他還介紹,華為云數(shù)據(jù)中心通過產(chǎn)品化實(shí)現(xiàn)了快速交付、低成本和低PUE。同時(shí),數(shù)據(jù)中心在鋰電預(yù)測、液冷預(yù)測等智能化方面進(jìn)行實(shí)踐,著力構(gòu)建綠色低碳、穩(wěn)定可靠、安全可信的云數(shù)據(jù)中心。
他還分享了CloudMatrix 384超節(jié)點(diǎn)數(shù)據(jù)中心在利用數(shù)據(jù)分析進(jìn)行設(shè)備狀態(tài)預(yù)測方面的進(jìn)展,特別提到了在鋰電預(yù)測的應(yīng)用,通過擴(kuò)展數(shù)據(jù)集范圍,CloudMatrix 384的預(yù)測準(zhǔn)確率從最初的40%已提升至97%。

AI正帶來巨大的產(chǎn)值,并重塑各行業(yè)的生產(chǎn)方式,保險(xiǎn)行業(yè)也在經(jīng)歷從人治向數(shù)據(jù)化治理的轉(zhuǎn)型。大家保險(xiǎn)信息科技部總經(jīng)理郝曉波指出,保險(xiǎn)行業(yè)的AI化轉(zhuǎn)型是數(shù)字化轉(zhuǎn)型的自然延伸,敏捷化的AI戰(zhàn)略可能更適合傳統(tǒng)行業(yè)。
大家保險(xiǎn)正借助華為云的算力及AI平臺,構(gòu)建企業(yè)級AI中臺和業(yè)務(wù)應(yīng)用,覆蓋智能營銷、風(fēng)控投資等業(yè)務(wù)環(huán)節(jié),以期推動保險(xiǎn)業(yè)務(wù)的增長。
德勤中國合伙人劉曉羽則表示,德勤中國利用基于華為昇騰云和DeepSeek構(gòu)建的AI平臺和工具,為客戶提供面向特定業(yè)務(wù)場景的AI咨詢和解決方案服務(wù),預(yù)期將實(shí)現(xiàn)策略性的降本增效。
本次華為云AI峰會分享了AI基礎(chǔ)設(shè)施建設(shè)的最新進(jìn)展,并就AI技術(shù)發(fā)展趨勢和應(yīng)用實(shí)踐進(jìn)行了探討。各位專家學(xué)者的分享,也為理解未來AI技術(shù)發(fā)展趨勢和行業(yè)應(yīng)用的落地提供了具體的思路和借鑒。