智東西(公眾號:zhidxcom)
文 | Lina

6月15日,智東西等數(shù)家媒體受到百度邀請,前往其位于山西省陽泉市的云計(jì)算中心進(jìn)行參觀走訪,介紹了有關(guān)百度陽泉云計(jì)算中心的整理運(yùn)營狀況、從供電到散熱的眾多節(jié)能技術(shù)、各類百度自研的服務(wù)器(“北極”、“冰山”、“鯤鵬”、“X-Man”等)以及百度是如何使用人工智能對該中心進(jìn)行預(yù)測與調(diào)控,做到智能控制、智能運(yùn)行。

值得一提的是,山西陽泉正是百度創(chuàng)始人李彥宏的家鄉(xiāng)。陽泉云計(jì)算中心位于陽泉經(jīng)濟(jì)開發(fā)區(qū)東區(qū),從室內(nèi)坐大巴需要約20分鐘到達(dá)。

一、自報(bào)家門:8大機(jī)房、12萬平米、16萬臺服務(wù)器

根據(jù)工作人員介紹,百度陽泉云計(jì)算中心從2012年8月19日奠基開工(當(dāng)時(shí)項(xiàng)目計(jì)劃投資47.08億元)2014年開始投入使用,截止至筆者發(fā)稿日已經(jīng)安全工作了1082天了。當(dāng)初計(jì)劃了四期工程,8個(gè)機(jī)房模組,目前已經(jīng)完成了三期6個(gè)機(jī)房的投運(yùn),最后一期也在緊張建設(shè),即將投入使用。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

陽泉云計(jì)算中心建筑面積有12萬平米,擁有400+項(xiàng)專利技術(shù),設(shè)計(jì)容納16萬臺服務(wù)器,是目前為止是亞洲建成投運(yùn)的最大數(shù)據(jù)中心之一,也是百度在全國幾十個(gè)大型數(shù)據(jù)中心中規(guī)模最龐大的一個(gè)。

同時(shí),陽泉云計(jì)算中心按照T3+標(biāo)準(zhǔn)設(shè)計(jì)建照,可用性為99.99%+——這句話是什么意思呢?那就是全年不可用時(shí)間不能超過52分鐘。年均PUE1.11(數(shù)值越接近1,能效比越高)。而且,雖然位于煤炭大省山西,但陽泉云計(jì)算中心的清潔能源使用比例非常高,目前使用太陽能、風(fēng)能等清潔能源的占比達(dá)到了20%。

二、進(jìn)門感嘆:人真少

從大門進(jìn)去,首先要過安檢并進(jìn)行登記,陽泉云計(jì)算中心的安全等級比較高。首先映入眼簾的是位于園區(qū)中心的一棟橢圓柱形建筑,這就是陽泉云計(jì)算中心的ECC監(jiān)控中心,外圍環(huán)繞著編號為D01-D08的8座方形建筑,這就是上文提到的8個(gè)機(jī)房模組。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

在園區(qū)里走著,一個(gè)最大也是最明顯的感覺就是——沒人。由于數(shù)據(jù)中心全部采用先進(jìn)的自動(dòng)化、智能化控制技術(shù),需要巡視、維護(hù)、調(diào)控人員極少,每個(gè)班組2-3人就可以完成2個(gè)模組約3萬平米7*24小時(shí)運(yùn)營。因此諾大一個(gè)12萬平米的園區(qū)建筑里,基本上很難看到人。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

進(jìn)入中間大樓的ECC監(jiān)控中心后,可以看到這是一棟寬敞明亮的4層建筑,以黃白色調(diào)為主,在百度帶領(lǐng)大家參觀的其中一個(gè)控制室里,我們可以看到各個(gè)機(jī)房的實(shí)時(shí)參數(shù)、監(jiān)控視頻等信息,涉及機(jī)密這里就不上圖了~

三、重頭戲:機(jī)房參觀

好了,接下來就是本次參觀介紹的重頭戲,機(jī)房參觀。

在陽泉云計(jì)算中心安裝8個(gè)機(jī)房模組的服務(wù)器中,包括了各類百度自研的服務(wù)器:如“北極”、“冰山”、“鯤鵬”、“X-Man”等,其中90%以上都是“北極”整機(jī)柜服務(wù)器。

“北極”(天蝎)自研整機(jī)柜服務(wù)器——采用共享電源、共享風(fēng)扇架構(gòu),部件全部標(biāo)準(zhǔn)化、模塊化、一體化,支持40攝氏度環(huán)境溫度長期運(yùn)行??倱碛谐杀荆═CO)降低15%,交付效率提升20倍——這句話更直觀地?fù)Q算過來什么意思呢?那就是原先需要1個(gè)月上線的服務(wù)器,現(xiàn)在只需要1天。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

“冰山”自研高密度存儲服務(wù)器——?jiǎng)?chuàng)新的高密度存儲解決方案,支持儲存池化設(shè)計(jì)和分層存儲,單臺服務(wù)器可存儲180TB數(shù)據(jù),有力地支持了百度的私有云、公有云業(yè)務(wù)。

“鯤鵬”自研高溫服務(wù)器——業(yè)界首次規(guī)模商用的高溫服務(wù)器(一般服務(wù)器送風(fēng)溫度是22-24度,鯤鵬可以支持送風(fēng)溫度達(dá)到45度)同時(shí)具備耐腐蝕性,與IDC強(qiáng)耦合,徹底實(shí)現(xiàn)全自然新風(fēng)冷卻。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

“X-Man”自研AI服務(wù)器——業(yè)界首個(gè)基于PCIe Fabric架構(gòu)的16卡GPU服務(wù)器,兼容支持FPGA。支持異構(gòu)計(jì)算資源池化,可擴(kuò)展到64GPU以上,提供1000TOPS量級計(jì)算能力,能夠廣泛應(yīng)用于語音、圖像、NLP、搜索、無人車加速計(jì)算場景。

四、清潔供電與散熱節(jié)能

在供電方面,陽泉云計(jì)算中心去除傳統(tǒng)的UPS,首次采用 HVDC offline(高壓直流離線)技術(shù)、分布式鋰電池(BBS)供電技術(shù),把供電效率從90%提升到99.5%。陽泉云計(jì)算中心同時(shí)也是國內(nèi)首個(gè)采用太陽能光伏發(fā)電的數(shù)據(jù)中心,在頂樓鋪設(shè)太陽能光伏面板直接并網(wǎng)發(fā)電,直接給服務(wù)器使用,節(jié)能的同時(shí)還減少污染物排放。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

不過,利用太陽能光伏面板發(fā)電的電量占的還是用電量的少數(shù),陽泉云計(jì)算中心在2017年與電廠簽約的2600萬度風(fēng)力發(fā)電,使得清潔能源的占比達(dá)到20%。

在散熱方面,陽泉云計(jì)算中心96%的時(shí)間可以使用室外冷空氣實(shí)現(xiàn)免費(fèi)冷卻,換算過來一年里有14.6天才需要全部開冷水機(jī)組制冷,從而節(jié)省了大量的能源。

五、AI在云計(jì)算中心中的應(yīng)用

一方面,云計(jì)算是AI的底層能力之一,百度陽泉云計(jì)算中心所提供的計(jì)算能力可以為用戶提供AI-enable網(wǎng)絡(luò),其中包括基于cookie機(jī)器學(xué)習(xí)模型的IP地理定位、基于交互機(jī)日志的故障預(yù)測、業(yè)務(wù)網(wǎng)絡(luò)質(zhì)量的測量與感知、基于機(jī)器學(xué)習(xí)的攻擊流量監(jiān)測系統(tǒng)等等。

而另一方面,AI也被應(yīng)用在了云計(jì)算中心的智能控制、智能運(yùn)行上。通過采集環(huán)境參數(shù)、設(shè)備功耗、運(yùn)行模式、動(dòng)作狀態(tài)等參數(shù),再將它們使用AI算法進(jìn)行計(jì)算優(yōu)化(此處的AI包括HPC、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等,解決不同問題會(huì)用不同模型,但大部分訓(xùn)練都是用百度的PaddlePaddle開源平臺)。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率

通過百度的人工智能技術(shù),陽泉云計(jì)算中心如今做到智能預(yù)警、智能調(diào)度、智能運(yùn)維——而這也是上文提到的園區(qū)員工很少的原因之一。預(yù)警、調(diào)度、運(yùn)維包括許多方面,以下是工程師介紹的其中三點(diǎn):

1)自動(dòng)運(yùn)營:大幅縮短電力切換時(shí)間。當(dāng)突遇停電時(shí),傳統(tǒng)備用發(fā)電機(jī)電源切換要15分鐘,但現(xiàn)在通過電力監(jiān)控系統(tǒng)全自動(dòng)切換,可以達(dá)到分鐘級別的切換速度,最快只需要30秒。

2)智能調(diào)度。通常數(shù)據(jù)中心用電是有波動(dòng)的,服務(wù)器存在閑時(shí)忙時(shí),波峰波谷。為了提高服務(wù)器及機(jī)房的利用率,通過AI技術(shù)預(yù)測對在線業(yè)務(wù)需求進(jìn)行預(yù)測,通過在線業(yè)務(wù)及離線業(yè)務(wù)混布,閑時(shí)調(diào)度更多離線業(yè)務(wù),跑離線計(jì)算、訓(xùn)練模型。

3)智能預(yù)測:判斷網(wǎng)絡(luò)流量是否異常。用AI模型進(jìn)行計(jì)算、判斷某個(gè)流量到底是用戶的正常操作行為還是惡意攻擊流量。

結(jié)語:智能時(shí)代的基礎(chǔ)建設(shè)

在各類科技、IT主題的美劇中(比如《硅谷》),服務(wù)器機(jī)房一直是個(gè)被人拿來調(diào)侃的地方。就連今年蘋果的WWDC的開場視頻也拿一位剛?cè)肼毜目萍颊凶诜?wù)器機(jī)房里,無意中碰掉了供電插頭而引發(fā)一場動(dòng)亂的

當(dāng)下隨著人工智能與萬物互聯(lián)的普及,接入網(wǎng)絡(luò)的設(shè)備越來越多,數(shù)據(jù)計(jì)算量也越來越大,云服務(wù)、云計(jì)算已經(jīng)慢慢變成智能時(shí)代的下層建筑,成為如供水、供電、網(wǎng)絡(luò)通信等我們?nèi)粘I钪胁豢苫蛉钡幕A(chǔ)設(shè)施。

目前,無論是國外的亞馬遜云、微軟云、還是國內(nèi)的阿里云、百度云等等,都紛紛繼續(xù)著對云計(jì)算數(shù)據(jù)中心的投入建設(shè),如百度一般,不少公司都是從幾年前就開始布局建設(shè),在近年陸續(xù)投建使用,為企業(yè)的人工智能與萬物互聯(lián)提供云服務(wù)與云計(jì)算能力。

探秘百度陽泉云計(jì)算中心:8大機(jī)房模組、16萬臺服務(wù)器、20倍交付效率