智東西(公眾號(hào):zhidxcom
作者?|?香草
編輯?|?李水青

智東西9月5日?qǐng)?bào)道,今日,騰訊云在騰訊全球數(shù)字生態(tài)大會(huì)上發(fā)布AI Infra(AI基礎(chǔ)設(shè)施)品牌“騰訊云智算”,將旗下高性能計(jì)算HCC、星脈網(wǎng)絡(luò)、AIGC云存儲(chǔ)等單項(xiàng)產(chǎn)品能力整合,提供集算存網(wǎng)一體的高性能智算底座。

騰訊云智算目前已服務(wù)了90%的國內(nèi)大模型頭部用戶,包括百川智能、智譜AI等。據(jù)騰訊公司副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬介紹,騰訊云的集群千卡單日故障數(shù)是行業(yè)水平的1/3,數(shù)據(jù)讀寫效率是業(yè)界10倍,千卡集群通信時(shí)間是業(yè)界一半。

在大會(huì)之前,智東西與少數(shù)媒體對(duì)話了騰訊云副總裁、云計(jì)算資深技術(shù)專家沙開波,深入交流了智算產(chǎn)業(yè)的市場(chǎng)趨勢(shì)、技術(shù)難點(diǎn)等。

談及AI對(duì)云計(jì)算的影響,沙開波認(rèn)為長期來看,生成式AI的發(fā)展是具有確定性的,大模型對(duì)智算產(chǎn)業(yè)來說是一塊很大的增量,未來一定會(huì)有一個(gè)比較大的爆發(fā)節(jié)點(diǎn)。

之所以選擇在這時(shí)成立騰訊云智算的品牌,也與客戶需求有很大的關(guān)系。另一方面,大模型計(jì)算、推理等場(chǎng)景對(duì)云基礎(chǔ)設(shè)施提出高要求,騰訊云作為解決方案提供方需要不斷打磨產(chǎn)品能力,從而更好地支持這一類客戶的業(yè)務(wù)需求。

一、集算存網(wǎng)一體,從設(shè)備上架到啟動(dòng)訓(xùn)練僅1

整體來看,騰訊云智算是一個(gè)集算、存、網(wǎng)于一體的高性能智算底座,整合了騰訊云高性能計(jì)算HCC、高性能網(wǎng)絡(luò)IHN星脈、高性能云存儲(chǔ)、加速框架、容器、向量數(shù)據(jù)庫、智算套件等產(chǎn)品,提供性能領(lǐng)先、多芯兼容、靈活部署的智算產(chǎn)品能力。

互聯(lián)網(wǎng)企業(yè)、大模型廠商、本地智算IDC、金融企業(yè)等是騰訊云智算現(xiàn)階段的主要客戶,具體到場(chǎng)景中除了公有云,還有私有云、專有云的一些應(yīng)用,其中大模型廠商是最主要的客戶之一。

騰訊云智算在訓(xùn)練啟動(dòng)時(shí)效上大幅提升,從設(shè)備到位到開始訓(xùn)練,相較業(yè)界平均的30天時(shí)間縮小到僅1天。

在集群穩(wěn)定性方面,騰訊云智算千卡單日故障卡數(shù)0.08,只有業(yè)界的1/6;數(shù)據(jù)讀寫效率上,Checkpoint聚合寫入的峰值性達(dá)到業(yè)界10倍以上,1分鐘就能完成萬卡Checkpoint讀寫;網(wǎng)絡(luò)交換效率方面,通過服務(wù)器、網(wǎng)絡(luò)端、交換機(jī)和通訊庫的整體自研優(yōu)化,千卡集群的通信時(shí)間占比為6%,是業(yè)界平均時(shí)間占比12%的一半。

千卡集群每年降本2000萬!騰訊云推出AI Infra品牌,副總裁解讀智算產(chǎn)業(yè)趨勢(shì)

▲騰訊云智算訓(xùn)練效率

隨著市面上的大模型參數(shù)不斷增長,從百億、千億,逐漸擴(kuò)展到萬億,模型訓(xùn)練對(duì)底層算力集群的要求也不斷提升。騰訊云是如何破解集群升級(jí)難點(diǎn)的?

沙開波談道,大規(guī)模計(jì)算集群的打造也是騰訊云智算產(chǎn)品矩陣最想解決的問題。其中,HCC高性能計(jì)算產(chǎn)品是專門用于高性能、穩(wěn)定、大規(guī)模計(jì)算集群的構(gòu)建,而如何將GPU等算力高效利用起來,則用到星脈網(wǎng)絡(luò)來提供卡之間的高效互聯(lián),模型訓(xùn)練過程中的Checkpoints高效讀寫對(duì)應(yīng)的是高性能存儲(chǔ)產(chǎn)品。

基于這些產(chǎn)品整體構(gòu)建的計(jì)算存儲(chǔ)網(wǎng)絡(luò)全棧解決方案,才能幫助客戶實(shí)現(xiàn)大規(guī)模集群的高效利用。

二、4天訓(xùn)完萬億參數(shù)模型,網(wǎng)絡(luò)故障5分鐘解決

具體來看騰訊云智算的產(chǎn)品矩陣,包括高性能計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)產(chǎn)品,加速框架、向量數(shù)據(jù)庫以及智算套件等。

千卡集群每年降本2000萬!騰訊云推出AI Infra品牌,副總裁解讀智算產(chǎn)業(yè)趨勢(shì)

▲騰訊云智算解決方案

騰訊云HCC高性能計(jì)算集群發(fā)布于去年4月,是行業(yè)最早發(fā)布的面向大模型訓(xùn)練、推理的算力集群。

HCC底層采用騰訊云自研星星海服務(wù)器,可以提供3.2T的超高互聯(lián)帶寬,算力性能比上一代提升3倍。萬億參數(shù)的混元NLP大模型訓(xùn)練,最快4天就能訓(xùn)練完成。在穩(wěn)定性方面,HCC千卡單日故障卡數(shù)為0.08,無中斷訓(xùn)練時(shí)長達(dá)到300小時(shí),是業(yè)界平均市場(chǎng)50小時(shí)的6倍。

騰訊云星脈網(wǎng)絡(luò)是其自研的高性能計(jì)算網(wǎng)絡(luò)IHN,支持超10萬卡大規(guī)模組網(wǎng)、多型號(hào)異構(gòu)GPU接入,網(wǎng)絡(luò)通信效率比上一代提升60%,大模型訓(xùn)練效率提升20%。

星脈網(wǎng)絡(luò)具備高效的故障處理能力,在萬卡集群下,網(wǎng)絡(luò)故障可實(shí)現(xiàn)1分鐘發(fā)現(xiàn),3分鐘定位,5分鐘解決。

據(jù)沙開波介紹,這是因?yàn)樾敲}網(wǎng)絡(luò)通過一些流量和拓?fù)涞淖詣?dòng)感知,進(jìn)行流量替換中心的調(diào)度,從而提升整個(gè)網(wǎng)絡(luò)的吞吐,并在發(fā)現(xiàn)故障的時(shí)候迅速定位到是哪個(gè)鏈路出的問題,對(duì)鏈路進(jìn)行調(diào)度、異常處理,讓整個(gè)訓(xùn)練可以不中斷或者少中斷。

騰訊云的AIGC云存儲(chǔ)解決方案包括CFS Turbo、對(duì)象存儲(chǔ)COS、數(shù)據(jù)加速器GooseFS以及數(shù)據(jù)處理CI等,針對(duì)AI大模型數(shù)據(jù)采集清洗、訓(xùn)練、推理、數(shù)據(jù)智理全流程,提供全面高效的云存儲(chǔ)支持,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率提升一倍。

三、千卡集群每年降本2000萬,助力傳統(tǒng)企業(yè)AI轉(zhuǎn)型

目前,騰訊云智算可以靈活地支持公有云、私有云以及分布式云的輸出,成為了國內(nèi)90%頭部大模型廠商的選擇,也幫助一大批IDC廠商實(shí)現(xiàn)了AIDC轉(zhuǎn)型。

沙開波解讀了騰訊云智算具體的落地案例,公有云的一些大模型的客戶在使用其完整的智算解決方案后,一個(gè)千卡集群每年的成本相比過去傳統(tǒng)的方式可以降低2000萬。

例如某社區(qū)電商的企業(yè),在評(píng)論分析、圖像分類等OCR、CV業(yè)務(wù)上應(yīng)用騰訊云智算解決方案,在去年下半年從海外的芯片更換成了騰訊云公有云上的國產(chǎn)芯片。在主要業(yè)務(wù)指標(biāo)不變的前提下,只用了21天就完成了替換,其中兩周左右用來適配模型,一周左右改造推理框架,對(duì)不同芯片的適配非常高效靈活。

千卡集群每年降本2000萬!騰訊云推出AI Infra品牌,副總裁解讀智算產(chǎn)業(yè)趨勢(shì)

▲騰訊云智算客戶價(jià)值

在私有云的落地上,騰訊云智算主要的客戶是傳統(tǒng)的IDC公司,它們?cè)揪哂袡C(jī)房、硬件、網(wǎng)絡(luò)優(yōu)勢(shì),但是缺少云、軟件解決方案。

具體案例是,某傳統(tǒng)IDC企業(yè)通過與騰訊云智算合作,組建新一代具備AI Infra基礎(chǔ)能力的智算平臺(tái),并通過租戶、計(jì)費(fèi)管理等能力,為終端用戶提供一站式自主用云服務(wù),實(shí)現(xiàn)到AIDC的轉(zhuǎn)型。該客戶還獲得了今年的可信云大會(huì)用戶最佳實(shí)踐獎(jiǎng)。

四、談智算產(chǎn)業(yè)五大趨勢(shì),保持兼容、開放、公私一體

縱觀整個(gè)智算產(chǎn)業(yè),正處于快速發(fā)展的階段,從產(chǎn)業(yè)規(guī)模、應(yīng)用場(chǎng)景到技術(shù)創(chuàng)新都在不斷拓展。沙開波與我們分享了騰訊云對(duì)未來趨勢(shì)的看法,主要有五個(gè)層面。

首先是大模型的規(guī)模仍在持續(xù)增加,這對(duì)AI Infra要求也越來越高,需要更大的算力集群,如何在更大集群下確保穩(wěn)定性、應(yīng)用性可以滿足要求是主要命題。

其次是多芯的能力。多芯一方面來源于供給端的挑戰(zhàn),需要AI Infra產(chǎn)品去適配各種芯片的能力,比如金融等行業(yè)的一些央國企會(huì)有國產(chǎn)化訴求,需要云廠商去兼容、適配國產(chǎn)化的芯片。

第三是現(xiàn)在整體AI應(yīng)用,處于一個(gè)快速發(fā)展的階段,在應(yīng)用落地層面仍處于前期,未來可能會(huì)越來越快。從這個(gè)角度看,未來的推理比重可能也會(huì)逐步增加。

第四是AI場(chǎng)景變得越來越廣泛,很多行業(yè)還在探索的階段。從騰訊云智算和很多客戶的交流中,可以看出他們?cè)谶@方面都有很強(qiáng)的訴求,未來肯定會(huì)有一些創(chuàng)新的業(yè)務(wù)應(yīng)用落地。

最后是對(duì)數(shù)據(jù)安全的需求強(qiáng)烈。對(duì)很多國內(nèi)企業(yè)來說,用于訓(xùn)練推理的業(yè)務(wù)數(shù)據(jù),只能在自己的機(jī)房里面完成,這對(duì)產(chǎn)品能力的部署提出比較多訴求。

談及騰訊云智算的整體戰(zhàn)略目標(biāo),沙開波稱騰訊云從ChatGPT出現(xiàn)后就一直在打磨產(chǎn)品,在原來的通用計(jì)算、云上去演進(jìn),讓原有的云基礎(chǔ)設(shè)施能更加滿足大模型時(shí)代對(duì)訓(xùn)練、推理場(chǎng)景的訴求。

此次發(fā)布騰訊云智算品牌,主要還是出于把過去一系列的工作組合起來,變成一個(gè)整體解決方案對(duì)外提供,向行業(yè)傳遞更準(zhǔn)確、更完整的信息。

相較其他友商,騰訊云智算品牌的主要戰(zhàn)略是整體的兼容性、開放性,以及公私一體。

結(jié)語:生成式AI推動(dòng)智算產(chǎn)業(yè)飛速發(fā)展

憑借集算存網(wǎng)一體的高性能智算底座,騰訊云智算整合了多項(xiàng)優(yōu)勢(shì)產(chǎn)品,展現(xiàn)了在智算領(lǐng)域的技術(shù)能力和潛力。

隨著生成式AI的持續(xù)發(fā)展,智算產(chǎn)業(yè)也許會(huì)乘著這股大模型的風(fēng)“起飛”。騰訊云智算以其兼容性、開放性以及公私一體的戰(zhàn)略,不僅靈活地支持公有云、私有云以及分布式云的輸出,同時(shí)也成為了國內(nèi)大量大模型廠商的選擇,幫助一大批IDC廠商實(shí)現(xiàn)向AIDC的轉(zhuǎn)型。