智東西(公眾號:zhidxcom)
編 | 王

智東西5月7日消息,ICLR在其官網(wǎng)公布了ICLR大會2019的兩篇最佳論文,這兩篇論文在ICLR大會共收到的大約1600份論文中脫穎而出,它們分別是,加拿大蒙特利爾算法學(xué)習(xí)研究院MILA發(fā)表的NLP深度學(xué)習(xí)模型論文和麻省理工學(xué)院計算機(jī)科學(xué)與AI實驗室CSAIL發(fā)表的神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)論文。

CSAIL的研究論文“彩票假設(shè):尋找稀疏、可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)”清楚的向我們展示了深度神經(jīng)網(wǎng)絡(luò)如何以更小的規(guī)模、更快的速度創(chuàng)建模型。

AI頂會ICLR優(yōu)秀論文出爐!MIT“彩票假設(shè)”論文讓神經(jīng)網(wǎng)絡(luò)參數(shù)瘦身90%

這篇論文的研究成果計劃在5月6日~9日新奧爾良舉行的國際學(xué)習(xí)代表大會ICLR上展示。

研究論文表明,深度神經(jīng)網(wǎng)絡(luò)能夠?qū)⒂?xùn)練網(wǎng)絡(luò)的參數(shù)個數(shù)減少90%以上,降低存儲要求,提高推理的計算性能。雖然網(wǎng)絡(luò)規(guī)模大幅減小,但它們能夠被訓(xùn)練做出同樣精確的預(yù)測,在某些情況下甚至比原始網(wǎng)絡(luò)更快。

那么到底什么是深度神經(jīng)網(wǎng)絡(luò)?這種網(wǎng)絡(luò)構(gòu)建的模型又能起到什么作用呢?接下來,請通過下文了解深度神經(jīng)網(wǎng)絡(luò)。

一、什么是深度神經(jīng)網(wǎng)絡(luò)?

深度神經(jīng)網(wǎng)絡(luò),以生物神經(jīng)元為模型的數(shù)學(xué)函數(shù)層,是一種多功能的AI體系結(jié)構(gòu),能夠執(zhí)行從自然語言處理到計算機(jī)視覺的各種任務(wù)。

深度神經(jīng)網(wǎng)絡(luò)通常非常大,需要相應(yīng)的大型語料庫,即使是最昂貴的專用硬件,對它們進(jìn)行訓(xùn)練也可能需要數(shù)天時間。

如果初始網(wǎng)絡(luò)不需要那么大,為什么不能在一開始就創(chuàng)建一個大小合適的網(wǎng)絡(luò)呢?針對這個疑問,論文合著者Jonathan Frankle博士表示,通過神經(jīng)網(wǎng)絡(luò),可以隨機(jī)初始化這個大型網(wǎng)絡(luò)結(jié)構(gòu),并在進(jìn)行大量數(shù)據(jù)進(jìn)行訓(xùn)練之后開始工作。

Jonathan Frankle說:“這種大型結(jié)構(gòu)就像買了一堆彩票,即使只有很少的幾張彩票能讓你變得富有,但我們?nèi)匀恍枰环N技術(shù),在沒有看到中獎號碼的情況下找到獲獎?wù)??!?/p>

二、深度神經(jīng)網(wǎng)絡(luò)如縮小規(guī)模?

AI頂會ICLR優(yōu)秀論文出爐!MIT“彩票假設(shè)”論文讓神經(jīng)網(wǎng)絡(luò)參數(shù)瘦身90%

研究人員縮小神經(jīng)網(wǎng)絡(luò)規(guī)模的方法包括消除這些功能(或神經(jīng)元)之間不必要的連接,以使其適應(yīng)功能較低的設(shè)備,這一過程通常稱為剪枝。(他們特別選擇了具有最低“權(quán)重”的連接,這表明它們是最不重要的。)

接下來,他們在不對連接進(jìn)行剪枝的情況下訓(xùn)練網(wǎng)絡(luò)并重置權(quán)重,在修剪其他連接后,他們確定了有多少連接可以被刪除而不影響模型的預(yù)測能力。

雖然剪枝后的系數(shù)架構(gòu)會使訓(xùn)練過程變得更難,但這也帶來一個好處,通過訓(xùn)練難度的增加提高性能。

Michael?Carbin和Jonathan Frankle在論文中表示,標(biāo)準(zhǔn)的剪枝技術(shù)可以自然地揭示子網(wǎng)絡(luò)的初始化使它們能夠有效地訓(xùn)練。

在一系列條件限制下,通過不同的網(wǎng)絡(luò)重復(fù)這一修剪過程數(shù)萬次之后,他們報告稱,他們發(fā)現(xiàn)的AI模型的規(guī)模不到完全連接的父網(wǎng)絡(luò)的10%至20%。

三、沒有最好只有更好的深度神經(jīng)網(wǎng)絡(luò)

論文合著者兼助理教授Michael Carbin表示,重新設(shè)置一個表現(xiàn)良好的網(wǎng)絡(luò)通常會帶來更好的結(jié)果,這表明無論我們第一次做什么,都不是最佳選擇,這些模型還有改進(jìn)的空間,可以學(xué)習(xí)如何改進(jìn)自己。

Michael?Carbin和Jonathan Frankle指出,他們在較小的數(shù)據(jù)集上進(jìn)行以視覺為中心的分類任務(wù),把探索為什么某些子網(wǎng)絡(luò)特別擅長學(xué)習(xí)和快速識別這些子網(wǎng)絡(luò)的方法留給了未來的工作。

他們認(rèn)為,深層神經(jīng)網(wǎng)絡(luò)的研究結(jié)果可能對遷移學(xué)習(xí)產(chǎn)生影響,遷移學(xué)習(xí)是一種為一項任務(wù)訓(xùn)練的網(wǎng)絡(luò)適應(yīng)另一項任務(wù)的技術(shù)。

結(jié)語:深度神經(jīng)網(wǎng)絡(luò)已與現(xiàn)代應(yīng)用深度融合

深度神經(jīng)網(wǎng)絡(luò)能夠提取更多的數(shù)據(jù)特征,獲取更好的學(xué)習(xí)效果。目前,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為許多AI應(yīng)用的基礎(chǔ),這項技術(shù)已經(jīng)應(yīng)用于語音識別、圖像識別、自然語言處理等領(lǐng)域。

借助AI模型解決復(fù)雜問題是現(xiàn)在研究領(lǐng)域的重點工作內(nèi)容,深度神經(jīng)網(wǎng)絡(luò)能夠大幅縮小這些模型的規(guī)模,將為AI技術(shù)帶來更方便、更快速的精準(zhǔn)運算。

論文鏈接:https://arxiv.org/abs/1803.03635

原文來自:VentureBeat