「AI新青年講座」將邀請世界頂尖AI研究機構和大學的科研新青年,主講他們在計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進對人工智能前沿研究的理解,相應領域的專業(yè)知識也能夠得以積累加深。同時,通過與AI新青年的直接交流,大家在AI學習和應用AI的過程中遇到的問題,也能夠盡快解決。
有興趣分享學術成果的朋友,可以與智東西公開課教研團隊進行郵件(class@m.loveliyi.com)聯(lián)系。
深度推薦模型已經在電商、視頻、游戲等產業(yè)領域有廣泛應用。在實際生產使用中,深度推薦模型的性能需要滿足苛刻的服務延遲要求,并以此來滿足日益增長的模型服務請求與服務質量要求。然而,目前已有的模型服務框架由于以下三點挑戰(zhàn)導致其不能提供足夠高效的推薦模型推理服務:
1)冗余的數據傳輸與計算;
2)開銷無感知的算子調度;
3)算子啟動的高開銷。
為了應對上述挑戰(zhàn),阿里DeepRec項目組實習生、北京航空航天大學在讀博士游心等人提出了高性能深度推薦模型服務框架RecServe,從而支持結構化特征以及會話組運行時設計來避免冗余數據傳輸與計算的同時,應用GPU支持的多流并行方式來加速推薦模型服務過程。同時,他們也在會話組運行時設計中增加了開銷感知的算子調度器,并實現(xiàn)了基于關鍵路徑的算子調度策略來進一步加速推薦模型服務過程。
此外,海量的訓練數據對深度推薦模型的訓練性能提出了更高的要求。其中,深度推薦模型訓練中存在的未知張量形狀、并行執(zhí)行模式導致的不確定的算子執(zhí)行順序等現(xiàn)象,導致其內存分配請求的時機與大小都具有很強的動態(tài)性與不規(guī)則性。然而,目前沒有一個已有的內存分配器可以有效處理深度推薦模型帶來的動態(tài)性與不規(guī)則性,并在訓練過程中引入不合理的內存分配,從而導致高昂的頁錯誤處理開銷。
因此,游心博士等人提出了一種圖感知內存分配器GAMMA來實現(xiàn)可動態(tài)適配的圖感知內存分配策略。相較Tensorflow,GAMMA可以有效提升CPU、GPU上的端到端模型訓練性能,并降低CPU、GPU上的峰值內存占用。
12月12日晚7點,「AI新青年講座」第181講邀請到游心博士參與,主講《深度推薦模型的推理與訓練加速技術》。
講者
游心,北京航空航天大學在讀博士;師從楊海龍副教授;當前研究方向為高性能優(yōu)化、性能分析工具、編譯優(yōu)化;曾獲世界大學生超算競賽ASC17總決賽銀獎、ASC18總決賽一等獎,歐洲大學生超算競賽ISC17總決賽季軍,獲得第一屆開源科學軟件創(chuàng)意大賽二等獎、第二屆開源科學軟件創(chuàng)意大賽三等獎;以第一作者發(fā)表CCF A類頂會論文《ZeroSpy: Exploring Software Inefficiency with Redundant Zeros》(SC20)、《VClinic: A Portable and Efficient Framework for Fine-grained Value Profilers》(ASPLOS23),B類論文2篇,C類論文2篇,EI論文4篇,累計發(fā)表論文18篇;目前正在阿里DeepRec項目組實習。
第181講
主 題
《深度推薦模型的推理與訓練加速技術》
提 綱
1、深度推薦模型在實際業(yè)務部署中的挑戰(zhàn)
2、加速推理的多流并行及DeepRec框架
3、海量訓練數據對深度推薦模型的要求
4、動態(tài)適配的圖感知內存分配策略及訓練
直 播 信 息
直播時間:12月12日19:00
直播地點:智東西公開課知識店鋪
成果
DeepRec項目地址:https://github.com/alibaba/DeepRec