「AI新青年講座」由智東西公開課出品,致力于邀請青年學(xué)者,主講他們在生成式AI、LLM、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等人工智能領(lǐng)域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識也能夠得以積累加深。同時(shí),通過與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過程中遇到的問題,也能夠盡快解決。
7月起,AI 新青年講座開辟推出「大型語言模型專場」。阿卜杜拉國王科技大學(xué)在讀博士朱德堯、新加坡國立大學(xué)在讀博士薛復(fù)昭、美國威斯康星大學(xué)麥迪遜分校在讀博士柳昊天和加州大學(xué)伯克利分校人工智能實(shí)驗(yàn)室(BAIR)在讀博士張?zhí)炀鶎⑴c此次專場。
四位 AI 新青年將分別針對 MiniGPT-4、LLaMA、Gorilla,以及大型語言模型所面臨的 Token 危機(jī)進(jìn)行直播講解。
在大型語言模型(LLMs)的研究中,近期的研究強(qiáng)調(diào)了數(shù)據(jù)集大小在擴(kuò)展語言模型能力中的重要性。然而,在預(yù)訓(xùn)練期間,LLMs 對標(biāo)記的需求量十分巨大,并且網(wǎng)絡(luò)上的高質(zhì)量文本數(shù)據(jù)已接近 LLMs 的擴(kuò)展限制。為進(jìn)一步增強(qiáng) LLMs 的能力,一個(gè)簡單的方法是將預(yù)訓(xùn)練數(shù)據(jù)重復(fù)使用多個(gè) epoch。
新加坡國立大學(xué)的研究人員從實(shí)證角度探討了這一方法的三個(gè)關(guān)鍵方面。首先,他們研究了多次重復(fù)預(yù)訓(xùn)練數(shù)據(jù)可能帶來的后果,發(fā)現(xiàn)模型容易過擬合,從而導(dǎo)致多 epoch 的性能下降。其次,他們也分析了導(dǎo)致多 epoch 性能下降的關(guān)鍵因素,發(fā)現(xiàn)顯著的因素包括數(shù)據(jù)集大小、模型參數(shù)和訓(xùn)練目標(biāo),而數(shù)據(jù)集質(zhì)量和模型 FLOPs 的影響較小。
最后,他們探討了廣泛使用的正則化方法是否能夠緩解多次 epoch 下降。實(shí)驗(yàn)證明,大多數(shù)正則化技術(shù)并沒有顯著改進(jìn)性能,唯有 dropout 表現(xiàn)出了卓越的效果,但在擴(kuò)大模型規(guī)模時(shí)需要進(jìn)行謹(jǐn)慎調(diào)整。此外,他們還發(fā)現(xiàn)利用混合專家(MoE)能夠?qū)崿F(xiàn)對具有相近可訓(xùn)練參數(shù)的計(jì)算密集型密集型 LLMs 進(jìn)行具有成本效益和高效的超參數(shù)調(diào)整,這對更廣泛范圍上的高效 LLM 開發(fā)可能產(chǎn)生重要影響。
7月18日晚7點(diǎn),新加坡國立大學(xué)在讀博士薛復(fù)昭,將圍繞主題《大型語言模型的 Token 危機(jī)》向大家分享他們針對此問題的研究。
薛復(fù)昭首先將介紹重復(fù)使用預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行額外迭代影響是什么?進(jìn)而分析預(yù)訓(xùn)練大模型的性能下降原因,之后將講解降低多 epochs 影響的方法:正則化(Dropout ),以及基于混合專家(MoE)的超參數(shù)調(diào)整等。最后,他也將對 LLM 高效開發(fā)的未來進(jìn)行探討。
第二講
主 題
《大型語言模型的 Token 危機(jī)》
提 綱
1、大型語言模型訓(xùn)練中epoch次數(shù)設(shè)置問題
2、預(yù)訓(xùn)練大模型的性能下降原因分析
3、Dropout 及基于專家混合 MoE 的最佳超參數(shù)調(diào)整
4、對 LLM 高效開發(fā)的未來探討
主 講 人
薛復(fù)昭,新加坡國立大學(xué)在讀博士;師從新加坡國立大學(xué)(NUS)尤洋教授;碩士(研究型)畢業(yè)于南洋理工大學(xué)(NTU),師從Chng Eng-Siong和孫愛欣教授;目前主要研究方向?yàn)?Large Language Model Pre-training、Transformer Scaling 和 Conditional Computation;有幸與各個(gè)科技巨頭的杰出科學(xué)家合作,曾在Google Brain擔(dān)任學(xué)生研究員,受到Y(jié)i Tay和Mostafa Dehghani的指導(dǎo);目前在英偉達(dá)AI研究院實(shí)習(xí),導(dǎo)師為Jim Fan和Yuke Zhu。
直 播 時(shí) 間
7月18日19:00