智東西(公眾號:zhidxcom)
編 | 子佩

智東西10月23日消息,F(xiàn)acebook近期開源其M2M-100源代碼,這是首個可以不依賴英語數(shù)據(jù)而可以實現(xiàn)100個語言對互相翻譯的機器翻譯模型(如中文-法文互譯為一個語言對)。在訓練2200種語言對后,該單一多語言模型不僅與傳統(tǒng)的雙語模型性能相當,同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。

傳統(tǒng)機器翻譯算法通過為每種語言和每項任務(wù)構(gòu)建單獨的AI模型能夠同時處理多語翻譯,但由于依賴英語數(shù)據(jù)作為源語言和目標語言之間的中介,在語義準確性上可能有所折損。

為了實現(xiàn)多語言不依賴英語互譯,研究人員使用不同的挖掘策略構(gòu)建了首個真正的多對多翻譯數(shù)據(jù)集,再通過Fairscale等擴展技術(shù)建立具有150億個參數(shù)的通用翻譯模型,使M2M-100可以從大量語言數(shù)據(jù)庫中學習,并反映出更加多樣化的語言文字和詞法。

論文主頁:https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項目地址:https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

一、多種技術(shù)融合,反向?qū)ふ液A繑?shù)據(jù)

多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型,如此大量級的模型需要大量數(shù)據(jù)來訓練。由于小語種本身缺少可直接使用的大量數(shù)據(jù),再加上如果要實現(xiàn)多語言間任意方向高質(zhì)量翻譯,例如中文到法語和法語到中文,模型訓練所需要的數(shù)據(jù)量會隨語言對數(shù)量呈二次增長。

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

為此,F(xiàn)acebook在XLM-R,一種可以從單語數(shù)據(jù)中學習并以100種語言執(zhí)行任務(wù)的模型上,增添了新穎的語言識別技術(shù),用以從更多來源中挖掘更高質(zhì)量的數(shù)據(jù)。如可以對自然語言處理模型進行零樣本傳輸(one-shot transfer)的開放式源代碼工具包Language-Agnostic Sentence Representations、用于訓練翻譯模型的“十億規(guī)?!?bitext數(shù)據(jù)集CCMatrix以及跨語言Web文檔對的集合CCAligned。

除此之外,F(xiàn)acebook還使用反向翻譯(back-translation)來補充數(shù)據(jù)較少的語料數(shù)據(jù):如果目標是訓練一個中文到法文的翻譯模型,F(xiàn)acebook研究人員先訓練一個法文到中文的模型,再將所有沒被翻譯的單語數(shù)據(jù)譯成中文。在 M2M-100的開發(fā)過程中,反向翻譯得到的數(shù)據(jù)會被添加到挖掘的并行數(shù)據(jù)中。

在得到的數(shù)據(jù)中,M2M-100也有三大篩選標準:被廣泛使用的、不同語族的語言;已有評估標準數(shù)據(jù)的語言,以便更輕松地量化模型的性能;可以獨立存在的語言?;诖?,F(xiàn)acebook的M2M-100得到了100種不同語言超過75億個句子的數(shù)據(jù)集。

“多年來,人工智能研究人員一直在努力構(gòu)建一個單一的、跨語言的通用模型?!盕acebook的數(shù)據(jù)科學家Angela Fan在博客中寫道,“支持所有語言、方言的統(tǒng)一模型將幫助我們更好地為更多的人服務(wù),并為數(shù)十億人創(chuàng)造新的翻譯體驗。”

二、“橋接策略”構(gòu)建語群,節(jié)約算力最大化

但并不是100種語言對中任意一種都需要實現(xiàn)互譯,例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力,提出了“橋接策略”,即根據(jù)分類、地理和文化相似性將語言分為14個族。

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

因為生活在相同語族的國家和地區(qū)的人們會更加頻繁地交流,并從高質(zhì)量的翻譯中受益。例如,一個在印度地區(qū)生活的家庭可能日常會使用印度地區(qū)常用的語言,例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個語群之間可能存在的互譯需求,F(xiàn)acebook研究人員還確定了少數(shù)“過渡語言”,即每個語族中一到三種主要語言會作為橋梁轉(zhuǎn)化不同語群語言。例如,印地語、孟加拉語和泰米爾語會成為印度-雅利雅語群中的橋梁語言。

研究人員會為橋梁語言的所有可能組合挖掘訓練數(shù)據(jù),從而獲得上述數(shù)據(jù)集中的75億個句子。

三、154億參數(shù),只為模型容量最優(yōu)化

在解決了如何獲取數(shù)據(jù)和如何有效利用數(shù)據(jù)后,接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是:單一模型必須捕獲多種不同語言的多種文字信息,這時候就需要擴展模型的容量及添加特定語言參數(shù)用以處理更多語言數(shù)據(jù)。

Facebook?100種語言互譯模型源代碼公開!機器翻譯再也不用英語當媒介了?

M2M-100借助了Fairscale(一種用于大型模型訓練的PyTorch庫),來增加Transformer網(wǎng)絡(luò)中的層數(shù)以及每層的寬度。基于Zero優(yōu)化器、層內(nèi)模型并行性和管道模型并行性,研究人員建立通用的基礎(chǔ)架構(gòu)來容納無法在單個GPU安裝的大型模型,此外還引入了模型壓縮和深度自適應(yīng)模型,以用常規(guī)主干和一些語言特定參數(shù)集來共同訓練模型。

多種策略的組合使模型的容量增加了100倍,并能夠?qū)崿F(xiàn)Facebook聲稱的高精度語言服務(wù)。但僅將模型擴展到10億參數(shù)還不能滿足處理大量數(shù)據(jù)的需要,最后當將模型規(guī)模密集擴展到12億個參數(shù)時,才能得到所有語言方向上1.2BLEU的平均提升。

最后當模型參數(shù)達154億時,M2M-100可以針對最多的數(shù)據(jù)訓練額外的模型容量。 “通過將模型容量的密集縮放與特定語言參數(shù)(總計30億)相結(jié)合,我們已經(jīng)提供了一個相對完善的不依賴英語的互譯模型。”Fan說到。

結(jié)語:母語者質(zhì)量評估,消除“偏見”在路上

縱使Facebook的M2M-100模型已在很多方面進行了改進,但依舊存在很多問題亟待解決。

在測試階段,會有母語者對不涉及英語的20種語言對之間互譯質(zhì)量進行評估。母語者對譯文整體評價較高,但他們也指出M2M-100傾向于使用不符合語境的俚語逐詞翻譯,也會出現(xiàn)如缺少逗號等語法問題,可能會導致歧義。

除翻譯語義的問題之外,F(xiàn)acebook研究人員也承認,在翻譯模型中,確實出現(xiàn)了有關(guān)性別偏見、種族偏見的歧視性字眼,但現(xiàn)如今沒有任何一種機器學習算法能防止偏見的產(chǎn)生,且這個問題在數(shù)據(jù)量少的小語種模型中更加明顯。

Angela Fan也表示他們將進行更多的測試和評估,致力于使這個模型更加“公平公正”,但這個過程仍需要時間。

來源:VentureBeat、Facebook