10月起,智猩猩芯片與算力教研組全新策劃推出「智猩猩智算集群公開課」,聚焦集群構建、互聯(lián)網(wǎng)絡、算力調度、存儲等關鍵技術。

目前,「智猩猩智算集群公開課」前四期已順利完結。騰訊專有云首席架構師方天戟、矩向科技CEO黃朝波、云脈芯聯(lián)產品總監(jiān)孫偉、益思芯科技解決方案副總裁唐杰四位主講人,分別以《智算集群技術概述》、《智算中心融合算力調度》、《智算集群網(wǎng)絡互連技術創(chuàng)新應用與展望》、《智算中心 AI Scale-Up 網(wǎng)絡技術》為主題,進行了直播講解。

12月4日19:30,智猩猩智算集群公開課第5期將開講,由中國移動研究院網(wǎng)絡與IT技術研究所技術經(jīng)理李鍇主講,主題為《OISA構建開放高性能GPU卡間互聯(lián)體系》。

大模型的爆發(fā),對智能算力的需求指數(shù)級提升,集群規(guī)模邁入萬卡、十萬卡級別。大模型的訓練嚴重依賴集群內GPU之間頻繁的數(shù)據(jù)交互,帶來的龐大的通信開銷導致集群的有效算力無法隨GPU數(shù)量增加而線性增長,這也意味著互聯(lián)性能將是決定集群規(guī)模擴展和性能提升的關鍵所在。

智算集群互聯(lián)體系的構建需要GPU芯片、交換機、網(wǎng)卡、網(wǎng)絡協(xié)議等軟硬件的緊密結合,技術體系復雜,難度極高。

為了應對GPU卡間互聯(lián)的帶寬和時延要求,中國移動聯(lián)合產業(yè)合作伙伴共同發(fā)布OISA協(xié)議,旨在打造一個高效、智能、靈活開放的GPU卡間互聯(lián)體系。OISA采用全向連接設計,能夠確保大規(guī)模GPU之間的對等通信;同時,引入智能感知設計,通過定義流量感知標簽,并結合流控和重傳機制,優(yōu)化數(shù)據(jù)傳輸效率。在協(xié)議層面,OISA采用統(tǒng)一報文格式、多語義融合、多層次流控和重傳以及集合通信加速等四大關鍵技術,能夠實現(xiàn)高速、低時延、無損和高可靠的GPU通信。

本次公開課,李鎧老師首先會介紹智算及GPU卡間互聯(lián)的發(fā)展背景,并進一步分析為什么要重塑GPU卡間互聯(lián)體系。之后,李鎧老師將著重講解如何利用OISA協(xié)議實現(xiàn)高效的GPU卡間互聯(lián),并分享當前OISA的最新進展及下一步計劃。

公開課預告:OISA構建開放高性能GPU卡間互聯(lián)體系|中國移動研究院李鍇主講

公開課內容

主題:OISA構建開放高性能GPU卡間互聯(lián)體系
提綱:
1、智算及GPU卡間互聯(lián)背景
2、為什么要重塑GPU卡間互聯(lián)體系
3、如何通過OISA實現(xiàn)高效互聯(lián)能力
4、當前OISA進展及下一步計劃

主講人

李鍇,中國移動研究院網(wǎng)絡與IT技術研究所技術經(jīng)理,主要職責集中在構建通用和智能算力技術體系、NFV網(wǎng)絡基礎設施以及先進計算等關鍵領域。致力于解決數(shù)據(jù)中心內部處理器、加速器、存儲器等核心組件之間的效率提升問題,特別強調通過采用開放的互聯(lián)技術來提高智算中心GPU卡間的數(shù)據(jù)傳輸效率和性能。以推動新型智算中心的創(chuàng)新,實現(xiàn)更高效、更靈活的數(shù)據(jù)處理。

直播時間

12月4日19:30-20:30