智東西(公眾號:zhidxcom)
編 |?王穎

導(dǎo)語:IBM提出分布式處理架構(gòu)ASR,將語音識別訓(xùn)練時間從一周縮短至11.5小時。

智東西4月11日消息,IBM將在5月的ICASSP會議上公布新型AI語音模型處理架構(gòu)ASR,大量縮短語音識別訓(xùn)練時間。

IBM在最新發(fā)表的論文《分布式深度學(xué)習(xí)自動語音識別策略》(Distributed Deep Learning Strategies for Automatic Speech Recognition)中提出了一種分布式處理架構(gòu)(ASR),該架構(gòu)可以在流行的開放源代碼基準測試(Switchboard)上將訓(xùn)練提速15倍,而且不會損失準確性。

論文的作者表示,ASR部署在包含多個顯卡的系統(tǒng)上,可以將培訓(xùn)時間總計從幾周減少到幾天。這項工作計劃于下個月在IEEE國際聲學(xué),語音和信號處理會議(ICASSP)會議上公布。

從7天到11.5小時 IBM新模型讓語音AI訓(xùn)練時間更短!

一、分布式深度學(xué)習(xí)加速算法

IBM團隊的解決方案需要提高批量大小,即可以一次處理的樣本數(shù)量,但不是不加選擇地處理,否則將對準確性產(chǎn)生負面影響。他們將批量大小增加到2560個,同時應(yīng)用一種稱為異步分散并行隨機梯度下降(ADPSGD)的分布式深度學(xué)習(xí)技術(shù)。

正如研究人員解釋的那樣,大多數(shù)深度學(xué)習(xí)模型要么采用同步優(yōu)化方法,這種方法受到慢系統(tǒng)的不成比例的影響;要么采用基于參數(shù)服務(wù)器(PS)的異步方法,這種方法往往導(dǎo)致模型不夠精確。 相比之下,IBM去年在論文中首次詳述的ADPSGD是異步和分散的,保證了模型準確性的基線水平,并為某些類型的優(yōu)化問題提供了加速。

在測試中,該論文的作者表示,ADPSGD縮短了ASR作業(yè)的運行時間,從單個V100圖形處理器上的一周縮短到32圖形處理器系統(tǒng)上的11.5小時。ADPSGD留給未來工作算法的時間,可以處理更大的批量和系統(tǒng)優(yōu)化更強大的硬件。

IBM研究人員張偉、崔曉東和Brian Kingsbury在博文中寫道:“在半天內(nèi)完成一項培訓(xùn)工作是可取的,因為它使研究人員能夠快速迭代開發(fā)新算法,也可以使開發(fā)人員快速調(diào)整現(xiàn)有模型以適應(yīng)他們的應(yīng)用,特別是在需要大量語音來實現(xiàn)穩(wěn)健性和可用性所需的高精度時的情況下?!?/p>

二、復(fù)雜模型訓(xùn)練更需縮短時間

機器學(xué)習(xí)訓(xùn)練中,需要克服的持續(xù)性的挑戰(zhàn),是可靠、強大且可概括的語音識別。傳統(tǒng)上,訓(xùn)練自然語言理解模型需要包含數(shù)千小時語音和數(shù)百萬(甚至數(shù)十億)字的語料庫,更不用說在合理的時間范圍內(nèi)處理它們的強大硬件了。

張偉、崔曉東和Brian Kingsbury介紹,訓(xùn)練像蘋果的Siri、谷歌智能助理和亞馬遜的Alexa那樣的自動語音識別系統(tǒng),需要復(fù)雜的編碼系統(tǒng)將語音轉(zhuǎn)換為深度學(xué)習(xí)系統(tǒng)和解碼系統(tǒng)能夠理解的功能,將輸出轉(zhuǎn)換成人類可讀的文本。更復(fù)雜模型系統(tǒng)使大規(guī)模訓(xùn)練更加困難。

論文發(fā)布會議鏈接:https://cmsworkshops.com/ICASSP2019/Papers/ViewPapers.asp?PaperNum=3910

原文來自:VentureBeat