DeepSeek R1具有強大的推理能力,能夠通過多次推理和思考得出問題的最佳答案。但其中每一步推理和思考都會消耗大量的計算資源,進而提高了單次推理的算力成本。如何縮減DeepSeek R1的推理算力成本,降低私有化部署門檻,是全行業(yè)共同面臨的難題。
今年3月,清程極智聯(lián)合清華大學翟季冬教授團隊開源了大模型推理引擎赤兔(Chitu),率先實現(xiàn)了在非H卡設(shè)備運行原生FP8模型突破。實測數(shù)據(jù)顯示,使用赤兔引擎在H800集群上部署滿血版DeepSeek R1,相比于vLLM部署方案,能夠在減少50%的GPU使用量的同時,將輸出速度提升3.15倍。這意味著通過赤兔推理引擎,企業(yè)可以通過更少的硬件資源,實現(xiàn)更高的性能,大幅降低推理模型的私有化部署成本。
3月27日19點,智猩猩「DeepSeek大解讀」系列公開課第6期將開講,由清程極智聯(lián)合創(chuàng)始人唐適之博士主講,主題為《低成本DeepSeek R1推理挑戰(zhàn)與赤兔推理引擎實踐》。
本次公開課,唐適之博士首先會對DeepSeek R1與日益增長的算力需求進行分析,并探討有限硬件資源下的大模型推理取舍之道。之后,唐適之博士還會深入講解開源大模型推理引擎“赤兔”如何降低DeepSeek R1推理所需的硬件成本,尤其是在更廣泛GPU上的FP8數(shù)據(jù)類型的推理優(yōu)化實踐。

公開課內(nèi)容
主題:低成本 DeepSeek R1 推理挑戰(zhàn)與赤兔推理引擎實踐
提綱:
1、DeepSeek R1 與日益增長的算力需求
2、有限硬件資源下的大模型推理取舍
3、“赤兔”方案:更廣泛 GPU 上的 FP8 推理優(yōu)化
主講人
唐適之,清程極智聯(lián)合創(chuàng)始人,清華大學計算機專業(yè)學士、博士,負責清程極智并行訓練、推理框架、算子優(yōu)化等各類技術(shù)研發(fā)。唐適之曾獲全國信息學奧賽 NOI 金牌,曾為清華大學國際超算競賽 ASC/ISC/SC 三冠團隊成員,主要的學術(shù)研究領(lǐng)域包括編程語言、異構(gòu)計算等,代表工作為 FreeTensor 編程框架。
直播時間
3月27日19:00