芯東西(公眾號:aichip001)
編輯 |? GACS 2024

2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業(yè)媒體芯東西和硬科技知識分享社區(qū)智猩猩發(fā)起舉辦。在9月6日的主會場數(shù)據中心AI芯片專場上,浪潮信息開放加速計算產品負責人Stephen Feng以《多元開放系統(tǒng)激發(fā)生成式AI創(chuàng)新活力》為題發(fā)表演講。

Stephen Feng分享道,大模型發(fā)展和AIGC應用的創(chuàng)新離不開開源模型和硬件開放。且隨著大模型參數(shù)規(guī)模增加,生成式AI的發(fā)展面臨四大挑戰(zhàn):集群擴展性不足、芯片功耗高、集群部署難、系統(tǒng)可靠性低四大挑戰(zhàn)。

針對生成式AI面臨的幾大挑戰(zhàn),Stephen Feng提出了他的解決思路,即:

1、單機維度考慮更大的超節(jié)點互聯(lián),集群維度采用更強、更開放的網絡交換機,解決集群擴展性不足。

2、整機維度做到極致的能效設計,提前布局液冷,解決芯片功耗高的問題。

3、進行算力的統(tǒng)一池化管理加快硬件部署,通過端到端的開發(fā)平臺實現(xiàn)應用的快速部署。

4、建立標準監(jiān)控管理規(guī)范,加速先進算力的上線部署,實現(xiàn)GPU快速迭代和部署;具備自適應分布式訓練系統(tǒng)實現(xiàn)故障時的快速定位和斷點續(xù)訓。

浪潮信息Stephen Feng:應對生成式AI發(fā)展四大挑戰(zhàn),以應用為導向以系統(tǒng)為核心解題丨GACS 2024▲浪潮信息開放加速計算產品負責人Stephen Feng

以下是Stephen Feng演講內容的完整整理:

一、開源模型成創(chuàng)新動力,硬件開放推動完善AI算力生態(tài)

激發(fā)創(chuàng)新活力的核心就是開源開放。

我們首先來回顧大模型的發(fā)展歷程,在過去的幾年間不管是基于上層的應用還是底層技術的進步,開源模型的能力可以與閉源模型能力相媲美。

在今年Meta發(fā)布了Llama 3,是一個405B的大模型,而它的能力達到了世界領先的水平。在國內,像通義千問、百川和浪潮信息的“源2.0-M32”也是開源模型。

在去年全球發(fā)布的大模型中,2/3以上的大模型都是開源模型,而且80%以上的大模型都選擇了開源的框架做相應的開發(fā)。開源模型的總下載量已經超過3億次,并且已經衍生了超過3萬多個新模型。

綜上所述,開源模型成為創(chuàng)新的動力。

除了大模型,在硬件層面,硬件開放也是完善AI算力生態(tài)非常重要的特征。在應用的發(fā)展可以看到,大模型的發(fā)展也為AI芯片產業(yè)帶來了多樣化的需求特征。在最初,高端AI芯片存在硬件接口、互聯(lián)規(guī)范不統(tǒng)一等問題,導致其在整機適配兼容時容易出現(xiàn)很多問題,投入非常大。

2019年浪潮信息在OCP峰會上展示了全球第一塊UBB,由此拉開了OAM整體序幕;2020年,我們發(fā)布了第一款參考系統(tǒng)MX1,基于此系統(tǒng),推動相應的上游芯片廠商在大模型芯片上的開發(fā)和落地;2021年和2022年,基于OAM1.0規(guī)范做了基于Gen4液冷和風冷服務器。在此服務器上推動完善整個OAM的產品生態(tài)。在去年,所發(fā)布的《開放加速規(guī)范AI服務器設計指南》,給新興的AI芯片創(chuàng)新提供堅實的系統(tǒng)平臺支撐,加速多元算力產業(yè)發(fā)展。

去年基于Gen4 1.5的規(guī)范發(fā)布了全新Gen5 OAM服務器,并在這個產品上跟業(yè)界20多款高端AI芯片得到相關的適配。明年我們會基于OAM2.0繼續(xù)發(fā)布相關的參考設計,持續(xù)引領高端AI芯片的設計以及其與我們的整機系統(tǒng)兼容。

整體來看,OAM的開放標準在硬件層面正加速推動硬件設計與先進算力的部署。這一標準可以幫助AI芯片大幅縮短OAM加速卡研發(fā)和系統(tǒng)適配周期,節(jié)省超過6個月以上的研發(fā)時間與上千萬的投入成本,有效縮短硬件開發(fā)和產業(yè)賦能周期。

從以上兩個角度來看,不管在模型的開源,還是硬件的開放上,大模型的發(fā)展和AIGC的應用,其整體的迭代離不開開源和開放。今天重點基于開放來分享這個主題。

二、大模型參數(shù)量和所需算力大幅增加,生成式AI發(fā)展面臨四大挑戰(zhàn)

回顧大模型的發(fā)展歷程,深度學習大模型起源于二十世紀八九十年代,最初大模型整體的發(fā)展速度以及迭代速度是較慢的。

2017年Google發(fā)布了一篇文章《Attention Is All You Need》,提出了Transformer架構。Transformer架構發(fā)展之后,加速了大模型迭代的速度。尤其在2022年ChatGPT發(fā)布,把大模型應用推上頂峰。國內外大模型層出不窮,Sora大模型再次出現(xiàn),又讓多模態(tài)大模型得到了激烈討論。

大模型從簡單的深度學習模型到現(xiàn)在大語言模型或者多模態(tài)大模型,還有今年火熱的混合專家模型。最近幾年因為大模型的迭代速度在飛速提升。我們觀察到,當前大模型的參數(shù)量和所需算力的增長速度已經遠遠超過了摩爾定律的發(fā)展速度。

大模型未來的發(fā)展趨勢:參數(shù)量更大,往混合專家、長訓練模型以及多模態(tài)大模型去發(fā)展,并行訓練會引入新的范式。

傳統(tǒng)的大語言模型就是Tensor并行、數(shù)據并行和流水線并行,到混合專家模型之后引入了專家并行,長訓練模型引入序列并行。引入新的并行模式,像專家并行和序列并行,所需要的通信量會大幅度增加。

在大模型訓練過程中,對于通信速度要求是比較高的。引入新的訓練范式之后,對整機的需求是什么?一方面需要更大的GPU Domain,不能局限于單機8卡的整機系統(tǒng),需要更大GPU Domain滿足大模型發(fā)展所需要互聯(lián)的速度。另外,需要更大的互聯(lián)帶寬,大模型的發(fā)展遵循Scaling Law,參數(shù)量大幅度增加,所需要的算力也在大幅度增加。此前訓練一個模型需要的可能是百卡、千卡集群就可以了。

而當前以及未來大模型的發(fā)展,需要的集群即是萬卡起步甚至十萬卡的level。

再到服務端也就是推理側。我們總結來看的話,大模型在推理的過程中首先會有first token,整體是一個算力敏感型,再往后的token都是一些顯存敏感型。隨著模型的參數(shù)量大幅度增加,像Llama 3總體的參數(shù)量達到4050億,未來的推理其實從單卡推理向多卡推理演進,還有向量數(shù)據庫等推理模型新范式,所引發(fā)的對CPU、互聯(lián)、整體的顯存帶寬都有了更高的挑戰(zhàn)。

基于上述特征,總結未來生成式AI發(fā)展所面臨的巨大挑戰(zhàn)。

大模型的發(fā)展在遵循Scaling Law,模型的參數(shù)量、訓練的時長和訓練的數(shù)據集都在持續(xù)增加。未來訓練一個全新的基礎大模型,萬卡已經成為新起點,于整機的擴展性提出新的要求。

另外,AI芯片功耗在大幅度提升,從兩年前的400W到現(xiàn)在的700W,明年更會達到1200W。短短三年間,GPU芯片的功耗已經提升了三倍左右。一些新的產品形態(tài),像英偉達推出的Oberon架構單機功耗超過120kW。因為芯片算力的提升以及單機柜功耗的提升,會給整體基礎設施帶來新的變革。在單機維度上需要解掉這么多GPU功耗的散熱,投入是非常大的。

另外,未來數(shù)據中心基礎設施的建設上,我們也要考慮一些新的部署模式,如何快速部署單機柜還能滿足這么大功率十分重要。

基于GPU發(fā)展的功耗提升現(xiàn)狀下,總結未來大模型的發(fā)展,到最后都是能源的爭奪。我們如何在單機維度、集群維度能夠實現(xiàn)更高、更優(yōu)的能耗是十分重要的。

集群部署難。在大模型集群的部署上除了硬件上包含CPU、GPU、網絡、存儲等設備,還涉及上層軟件和硬件設備的問題。我們如何快速地將這些基礎設施進行部署,再到業(yè)務層將這些相關的算力能夠轉化成應用,這是十分重要的。

Llama 3在60多天的訓練過程中,故障400多次,平均1天有7次的故障。80%的故障都是發(fā)生在硬件的故障,60%是GPU的故障,剩下是軟件適配的故障。如何在模型的訓練當中保證它的可靠性、穩(wěn)定性,是大模型能夠迅速迭代的一個重要因素。

三、考慮更大Domain解決集群擴展性不足,監(jiān)控管理標準化提高模型穩(wěn)定性

基于以上的挑戰(zhàn)之下,可以有以應用為導向,以系統(tǒng)為核心的應用之道,具體為以下四個方面:

1、針對集群擴展性不足,我們在單機維度要考慮更大的超節(jié)點互聯(lián),要做到超級互聯(lián)方案去實現(xiàn)千卡集群的Scale-up。在集群維度還要考慮采用更強的網絡交換機去做到更多的萬卡甚至十萬卡的GPU Scale-out。

在單機維度,我們會推出創(chuàng)新的OAM互聯(lián)方案來滿足萬億模型通信需求。一方面會推出基于OAM2.0的多機互聯(lián)方案標準,相比此前直聯(lián)的拓撲OAM,P2P帶寬提升7倍左右,實現(xiàn)更大OAM的Domain,支持八千張以上的加速卡超級互聯(lián)。我們也會基于交換拓撲推出OAM的超節(jié)點互聯(lián)方案,是一個完全解耦的整機柜形態(tài);并基于此拓撲形成OAM整機柜標準,解決擴展性不足并加速OAM的算力迭代。

在集群層面,浪潮信息推出X400超級AI以太網交換機,也是完全開放的產品。專門為AI大模型設計,是國內首款基于Spectrum-4打造的產品,最高吞吐達到51.2T,超級AI以太網交換機與傳統(tǒng)的以太網交換機最大的不同就是采用交換機和智能網卡整體的調度解決方案,在交換機上實現(xiàn)對網絡包細粒度的路由調度,在網卡側提供保序服務,實現(xiàn)交換機和網卡更加緊密耦合的配合?;诖朔桨?,我們能夠實現(xiàn)16K計算節(jié)點,10萬+以上的加速卡互聯(lián),滿足GPU之間的互聯(lián)通信需求。同時,帶寬的利用率高達95%以上。

2、針對計算芯片,一方面在整機維度做到極致的能效設計,把整機的能效做到最優(yōu),把性能發(fā)揮到極致。另外,提前布局液冷,浪潮信息一直是ALL IN液冷的策略,單機柜成本非常高,整機柜交付的模式,基于開放、快速交付的液冷整機柜交付形態(tài)去滿足計算芯片功耗高帶來的挑戰(zhàn)。

針對GPU功耗的飛速發(fā)展,在單機維度采用極限的設計,去實現(xiàn)極致的效能。我們在面向全球最大的AI服務器用戶的工程實踐當中總結了設計方案,不斷突破單機算力密度和單機的性能。NVLink服務器我們已經做了四代,OAM服務器已經做了三代的產品,整體服務器上通過全鏈路仿真、分區(qū)的散熱調控去實現(xiàn)了極致的散熱和最佳的性能。在保障產品極致性能的同時,把整體的能效發(fā)揮到最優(yōu)。

另外一方面,首創(chuàng)像風扇的智能聽音診斷技術,通過相關的智能診斷去保障大模型訓練過程中總體的功耗和噪音的極致優(yōu)化。在液冷方面,剛才提到我們ALL IN液冷戰(zhàn)略,很早布局液冷,包含冷板式散熱、浸沒式等液冷方面的技術。

在基礎設施層面,通過開放液冷技術標準推動液冷加速普及。一方面制定相關的液冷技術標準,推動液冷的加速普及。打造標準接口的液冷組件,滿足單機的Scale-up。基于以往的數(shù)據風冷機房改造,通過風液式CDU,實現(xiàn)一天零改造快速落地和部署?;诶滏湹募軜嫺镄峦瞥鰡螜C柜120千瓦的整機柜形態(tài),滿足未來更大的超節(jié)點互聯(lián)方案,實現(xiàn)快速落地部署?;A設施維度,通過開放的生態(tài),建立預制化可擴展、可生長的數(shù)據中心交付形態(tài),來加快算力的部署。

3、在整機維度,把GPU的監(jiān)控管理標準化加速迭代。并在訓練過程中基于自適應的分布式訓練系統(tǒng),保障訓練的穩(wěn)定。

穩(wěn)定性是高效完成大模型發(fā)展的必備條件。

一方面我們對整體的監(jiān)控管理標準化,從OAM的固件管理規(guī)范,定義了管理的標準,包括從數(shù)據的更新頻率、異常數(shù)據處理,還有等級的數(shù)據處理機制以及整機預告警、分區(qū)分層診斷機制,我們都去定義了相應的標準,加速不同GPU芯片在整機系統(tǒng)的兼容。另外,我們基于OpenBMC開放了管理平臺,原生架構兼容了像AI服務器、通用服務器、專業(yè)服務器、存儲服務器等多元異構的計算平臺。通過模塊化的解耦實現(xiàn)Arm、x86、CPU等以及GPU、ASIC等加速卡的兼容,能夠實現(xiàn)快速迭代。

另一方面,在模型訓練過程中,如何在監(jiān)控層面,有效應對訓練中出現(xiàn)的故障等突發(fā)情況?我們通過AIStation人工智能開發(fā)平臺,構建自適應分布式訓練系統(tǒng)。一方面可以實現(xiàn)多租戶資源的管理,去提高集群資源的利用率和降低集群管理的復雜度。另外一方面,當出現(xiàn)斷點的時候,能夠通過在訓練池中快速地拉通備機,實現(xiàn)快速恢復訓練和訓練的自愈,保障大模型在訓練過程中長時間、高效的穩(wěn)定運行。通過AIStation能夠將故障的處理時間縮短90%以上。

4、最后,在模型的部署落地上,通過“元腦企智”EPAI加速大模型業(yè)務部署和應用創(chuàng)新,為企業(yè)AI大模型的落地應用提供高可用,以及安全端到端的開發(fā)平臺,提供相應的像數(shù)據準備、知識檢索、模型微調和訓練,以及應用框架的系列工具支持調度多元算力和多模算法,幫助企業(yè)高效地部署生成式AI應用。

綜上所述,浪潮信息始終堅持以應用為導向,以系統(tǒng)為核心,通過開源開放的系統(tǒng)激發(fā)生成式AI創(chuàng)新活力。在硬件開放方面,通過建立OAM(開放加速模塊)規(guī)范,加速先進算力的上線部署,支撐大模型及AI應用的迭代加速。在軟件開放方面,通過大模型開發(fā)平臺“元腦企智”EPAI,為企業(yè)打造全流程應用開發(fā)支撐平臺;通過AIStation人工智能開發(fā)平臺,提供穩(wěn)定的保障系統(tǒng),實現(xiàn)從模型開發(fā)、訓練、部署、測試、發(fā)布、服務的全流程一站式高效交付。我們始終秉承開放包容的生態(tài),加速生成式AI的快速發(fā)展。