DeepSeek通過軟硬件協(xié)同的的全棧優(yōu)化策略,在有限的硬件資源下實(shí)現(xiàn)了極致的性能提升。
比如利用FlashMLA技術(shù)針對多頭潛在注意力進(jìn)行優(yōu)化,能夠充分釋放GPU算力。此外,DeepSeek還通過底層編程語言PTX直接對硬件資源進(jìn)行調(diào)配,實(shí)現(xiàn)了寄存器分配、線程調(diào)度的細(xì)粒度優(yōu)化。在軟件層面,DeepSeek通過FP8混合精度訓(xùn)練、KV Cache緩存優(yōu)化、并行計(jì)算等技術(shù),進(jìn)一步提升了系統(tǒng)的整體效率。
DeepSeek的成功,充分證明了軟硬件協(xié)同優(yōu)化的巨大潛力,也為AI Infra的未來技術(shù)發(fā)展提供了新的思考方向和借鑒思路。
3月18日19點(diǎn),智猩猩「DeepSeek大解讀」系列公開課第5期將開講,由清華大學(xué)電子工程系博士后曾書霖主講,主題為《DeepSeek對軟硬件協(xié)同優(yōu)化的啟示與思考》。
曾書霖博士主要從事軟硬協(xié)同優(yōu)化研究和AI加速器設(shè)計(jì),實(shí)現(xiàn)了全球首個(gè)多模態(tài)大模型推理LPU IP,并首次在單卡FPGA上實(shí)現(xiàn)7B大模型和文生視頻的端到端推理,獲得了FPGA 2025最佳論文。
本次公開課,曾書霖博士首先會分享DeepSeek在軟硬件協(xié)同優(yōu)化方面的創(chuàng)新和思考,之后會圍繞大語言模型推理 IP FlightLLM、視頻生成大模型推理 IP FlightVGM,闡述團(tuán)隊(duì)基于FPGA的大模型軟硬件協(xié)同工作。最后,曾書霖博士還將深入講解面向智能終端的推理LPU IP設(shè)計(jì)。

公開課內(nèi)容
主題:DeepSeek對軟硬件協(xié)同優(yōu)化的啟示與思考
提綱:
1、從DeepSeek看軟硬件協(xié)同優(yōu)化
2、基于FPGA的大模型軟硬件協(xié)同
3、面向智能終端的推理LPU IP設(shè)計(jì)
主講人
曾書霖,清華大學(xué)電子工程系博士、博士后,博士期間主要從事軟硬協(xié)同優(yōu)化研究和AI加速器設(shè)計(jì),發(fā)表高水平國際會議/期刊論文20余篇。實(shí)現(xiàn)全球首個(gè)多模態(tài)大模型推理LPU IP,首次在單卡FPGA上實(shí)現(xiàn)7B大模型和文生視頻的端到端推理,獲FPGA 2025最佳論文。
直播時(shí)間
3月18日19:00-20:00