「機器學(xué)習(xí)前沿講座」,是智東西公開課針對機器學(xué)習(xí)領(lǐng)域推出的一檔講座,聚焦于機器學(xué)習(xí)前沿領(lǐng)域研究成果與進展。目前第一季已經(jīng)完結(jié)15講,第二季正在進行,我們將持續(xù)邀請研究者、專家與資深開發(fā)者,為大家?guī)碇辈ブv解。
帶噪學(xué)習(xí)是指在訓(xùn)練數(shù)據(jù)的真實標(biāo)簽發(fā)生了標(biāo)記錯誤情況下,如何讓模型在訓(xùn)練時對錯誤標(biāo)簽魯棒。這個領(lǐng)域已經(jīng)發(fā)展了很多年,在深度學(xué)習(xí)的背景下,新的方法不斷出現(xiàn)。常見的帶噪學(xué)習(xí)算法有很多,有的是基于自步學(xué)習(xí)的策略在訓(xùn)練時動態(tài)剔除噪音樣本(MentorNet,?co-teaching,?co-teaching+?… ),有的是設(shè)計一個loss function,讓loss本身對標(biāo)簽數(shù)據(jù)魯棒(MAE,?GCE,?L_dmi…)。
基于loss的方法更容易提供理論的最優(yōu)性保證,比如可以證明在給定噪音標(biāo)簽分布下,designed loss在噪音分布下優(yōu)化的結(jié)果等價于cross entropy在干凈數(shù)據(jù)下優(yōu)化的結(jié)果。在建模label noise時,大多數(shù)網(wǎng)絡(luò)采用的都是random noise (symmetric or asymmetric),然而實際上在真實世界的數(shù)據(jù)集中,存在更多的是instance-dependent (feature-dependent) label noise,即特征相關(guān)的噪音標(biāo)簽。比如標(biāo)注人員容易把狼標(biāo)記為狼狗,但是不會輕易把狼標(biāo)記成桌子。如何讓模型對instance-dependent label noise 魯棒不僅在技術(shù)上存在著比較多的難題,在理論上也不好建模(和instance-independent相比)。
ICLR2021,加州大學(xué)圣克魯茲分校在讀博士朱兆偉等人在論文《Learning with Instance-Dependent Label Noise: A Sample Sieve Approach》中提出了一個instance-dependent label noise的解決方案,它可以提供最優(yōu)性的保證。自步學(xué)習(xí)+雙網(wǎng)絡(luò)互相學(xué)習(xí)(co-teaching)的策略對處理instance-dependent label noise的效果并不好,所以他們對loss進行了改進,加入了一個regularizer,這個regularizer起到一個推動器的作用,可以更好地將噪音樣本和干凈樣本在loss層面上分開從而篩選出干凈樣本。同時自步學(xué)習(xí)往往被批評需要pre-defined threshold來判斷樣本的type (noise or not), 他們針對這個問題又提出一個自適應(yīng)的動態(tài)閾值來保證篩選出干凈樣本純度的理論最優(yōu)。
2月23日上午10點,智東西公開課邀請到朱兆偉博士參與到「機器學(xué)習(xí)前沿講座第二季」第3講,帶來主題為《基于樣本篩選的帶噪學(xué)習(xí)研究》的直播講解。在本次的講解中,朱博將從標(biāo)簽噪聲對模型訓(xùn)練的影響和帶噪學(xué)習(xí)的定義及現(xiàn)有的一些方法出發(fā),深度講解他們在ICLR2021中提出的基于置信度的正則項設(shè)計和CORES方法。對帶噪學(xué)習(xí)和弱監(jiān)督感興趣的朋友可以關(guān)注學(xué)習(xí)呀。
朱兆偉是加州大學(xué)圣克魯茲分校在讀博士,研究興趣集中在弱監(jiān)督學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等領(lǐng)域相關(guān)的理論,比如,訓(xùn)練標(biāo)簽帶有人為標(biāo)注噪聲時如何設(shè)計損失函數(shù)去抵消噪聲影響,如何處理聯(lián)邦學(xué)習(xí)中低質(zhì)量、有系統(tǒng)誤差的本地訓(xùn)練集。他目前在ICLR,ACM Sigmetrics等會議和IEEE TWC,IEEE TPDS等期刊上發(fā)表多篇一作論文。
直播課介紹
課程主題
《基于樣本篩選的帶噪學(xué)習(xí)研究》
課程提綱
1、標(biāo)簽噪聲對模型訓(xùn)練的影響
2、帶噪學(xué)習(xí)研究方法
3、基于置信度的正則項設(shè)計
4、CORES:基于置信正則項的動態(tài)樣本篩選
講師介紹
朱兆偉,加州大學(xué)圣克魯茲分校在讀博士,研究興趣集中在弱監(jiān)督學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等領(lǐng)域相關(guān)的理論,比如,訓(xùn)練標(biāo)簽帶有人為標(biāo)注噪聲時如何設(shè)計損失函數(shù)去抵消噪聲影響,如何處理聯(lián)邦學(xué)習(xí)中低質(zhì)量、有系統(tǒng)誤差的本地訓(xùn)練集;目前在ICLR,ACM Sigmetrics等會議和IEEE TWC,IEEE TPDS等期刊上發(fā)表多篇一作論文。
直播信息
直播時間:2月23日10:00
直播地點:智東西公開課小程序
加入討論群
加入討論群,除了可以免費收看直播之外,還能認(rèn)識講師,與更多朋友一起學(xué)習(xí),并進行深度討論。
添加小助手曼曼(zhidxclass006)即可申請,備注“姓名-公司/學(xué)校/單位-職位/專業(yè)”的朋友將會優(yōu)先審核通過哦~