「智猩猩AI新青年講座」由智猩猩出品,致力于邀請(qǐng)青年學(xué)者,主講他們?cè)谏墒紸I、LLM、AI Agent、CV等人工智能領(lǐng)域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑,將可以幫助大家增進(jìn)對(duì)人工智能前沿研究的理解,相應(yīng)領(lǐng)域的專業(yè)知識(shí)也能夠得以積累加深。同時(shí),通過(guò)與AI新青年的直接交流,大家在AI學(xué)習(xí)和應(yīng)用AI的過(guò)程中遇到的問(wèn)題,也能夠盡快解決。

「智猩猩AI新青年講座」現(xiàn)已完結(jié)254講,錯(cuò)過(guò)往期講座直播的朋友,可以點(diǎn)擊文章底部 “ 閱讀原文 ” 進(jìn)行回看!

近年來(lái)擴(kuò)散模型的快速發(fā)展,圖像生成、視頻生成、3D生成等任務(wù)取得了重大進(jìn)展。然而一個(gè)核心問(wèn)題也隨之浮現(xiàn):如何有效且高效地微調(diào)預(yù)訓(xùn)練的基礎(chǔ)擴(kuò)散模型,并將其應(yīng)用于新任務(wù)?,F(xiàn)有的微調(diào)方法可分為附加型微調(diào)方法(AFT)、重參數(shù)化微調(diào)方法(RFT)以及選擇性微調(diào)方法(SFT)。AFT和RFT方法都需要針對(duì)不同模型進(jìn)行特定設(shè)計(jì),以及根據(jù)具體任務(wù)調(diào)整隱藏維度或秩值。而SFT方法不僅引入了較高的延遲,還對(duì)參數(shù)選擇的超參數(shù)敏感,在效果和訓(xùn)練效率方面表現(xiàn)不佳。

針對(duì)上述問(wèn)題,上海交通大學(xué)在讀博士胡騰聯(lián)合騰訊優(yōu)圖實(shí)驗(yàn)室研究人員提出了一種新穎的高效微調(diào)方法SaRA(Sparse Low-Rank Adaptation),其專門為預(yù)訓(xùn)練擴(kuò)散模型設(shè)計(jì),現(xiàn)已開源。該方法是基于漸進(jìn)稀疏低秩適應(yīng)的高效微調(diào),利用基于核范數(shù)的低秩損失來(lái)有效防止模型過(guò)擬合,同時(shí)引入漸進(jìn)訓(xùn)練策略,以充分利用無(wú)效參數(shù),從而使模型在學(xué)習(xí)新知識(shí)的同時(shí)不影響其原有的泛化能力。

只需修改一行代碼即可實(shí)現(xiàn)高效微調(diào)!上海交大&騰訊開源擴(kuò)散模型微調(diào)方法SaRA | 智猩猩AI新青年講座預(yù)告
只需修改一行代碼即可實(shí)現(xiàn)高效微調(diào)!上海交大&騰訊開源擴(kuò)散模型微調(diào)方法SaRA | 智猩猩AI新青年講座預(yù)告

SaRA 的顯著特點(diǎn)是其引入了非結(jié)構(gòu)化反向傳播策略,這使得它在對(duì)擴(kuò)散模型微調(diào)過(guò)程中顯著減少了內(nèi)存消耗。通過(guò)將可訓(xùn)練參數(shù)分離為葉節(jié)點(diǎn),使得模型的所有參數(shù)梯度能夠流入少量的可訓(xùn)練參數(shù)中,避免了為整個(gè)參數(shù)矩陣保留梯度的需求,這大大簡(jiǎn)化了預(yù)訓(xùn)練模型微調(diào)的復(fù)雜性和工作量。

只需修改一行代碼即可實(shí)現(xiàn)高效微調(diào)!上海交大&騰訊開源擴(kuò)散模型微調(diào)方法SaRA | 智猩猩AI新青年講座預(yù)告

SaRA不僅實(shí)現(xiàn)了低內(nèi)存消耗,還實(shí)現(xiàn)了很好的代碼集成,只需要修改一行代碼即可實(shí)現(xiàn)高效的擴(kuò)散模型微調(diào)。結(jié)果表明,SaRA相較于其他微調(diào)方法能夠更好地學(xué)習(xí)到下游任務(wù)的知識(shí),并最大化維護(hù)模型的先驗(yàn)信息,其高效性、簡(jiǎn)便性和實(shí)用性,不僅解決了如何高效利用預(yù)訓(xùn)練擴(kuò)散模型中無(wú)效參數(shù)的問(wèn)題,還為未來(lái)在各種下游任務(wù)中應(yīng)用擴(kuò)散模型提供了新的可能性。

只需修改一行代碼即可實(shí)現(xiàn)高效微調(diào)!上海交大&騰訊開源擴(kuò)散模型微調(diào)方法SaRA | 智猩猩AI新青年講座預(yù)告

11月27日19點(diǎn),智猩猩邀請(qǐng)到論文一作、上海交通大學(xué)在讀博士胡騰參與「智猩猩AI新青年講座」255講,主講《擴(kuò)散模型高效微調(diào)方法SaRA與顯存占用優(yōu)化》。

主講人

胡騰

上海交通大學(xué)在讀博士

師從易冉助理教授,從事圖像、視頻等可視媒體的內(nèi)容生成研究,主要研究圖像、視頻可控生成。 入選首屆《中國(guó)電子學(xué)會(huì)-騰訊博士生科研激勵(lì)計(jì)劃》。目前以第一作者、學(xué)生第一作者、共同第一作者在CCF A類會(huì)議或期刊上發(fā)表高水平論文8篇,共計(jì)發(fā)表10篇高水平論文。

第255講

主 題
擴(kuò)散模型高效微調(diào)方法SaRA與顯存占用優(yōu)化
提 綱
1、現(xiàn)有擴(kuò)散模型微調(diào)方法及局限性
2、擴(kuò)散模型中無(wú)效參數(shù)分析及潛在有效性
3、基于無(wú)效參數(shù)重用的微調(diào)方法
4、通過(guò)非結(jié)構(gòu)化反向傳播降低微調(diào)顯存
5、基礎(chǔ)模型提升與下游任務(wù)微調(diào)

直 播 信 息

直播時(shí)間:11月27日19:00
直播地點(diǎn):智猩猩知識(shí)店鋪

成果

論文標(biāo)題
《SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-rank Adaptation》
論文鏈接
https://arxiv.org/pdf/2409.06633
項(xiàng)目網(wǎng)站
https://sjtuplayer.github.io/projects/SaRA/

報(bào)名方式

對(duì)本次講座感興趣朋友,可以掃描下方二維碼,添加小助手米婭進(jìn)行報(bào)名。已添加過(guò)米婭的老朋友,可以給米婭私信,發(fā)送“ANY255”即可報(bào)名。

我們會(huì)為審核通過(guò)的朋友推送直播鏈接。同時(shí),本次講座也組建了學(xué)習(xí)群,直播開始前會(huì)邀請(qǐng)審核通過(guò)的相關(guān)朋友入群交流。

只需修改一行代碼即可實(shí)現(xiàn)高效微調(diào)!上海交大&騰訊開源擴(kuò)散模型微調(diào)方法SaRA | 智猩猩AI新青年講座預(yù)告