欧美三级级99久久,熟女六十路老熟女交尾,欧美又爽又色又高潮视频

智東西（公眾號：zhidxcom）
編 | 子佩

智東西10月23日消息，F(xiàn)acebook近期開源其M2M-100源代碼，這是首個可以不依賴英語數(shù)據(jù)而可以實現(xiàn)100個語言對互相翻譯的機器翻譯模型（如中文-法文互譯為一個語言對）。在訓練2200種語言對后，該單一多語言模型不僅與傳統(tǒng)的雙語模型性能相當，同時也比以英語為中心的多語模型在機器翻譯評價指標BLEU上提高了10%。

傳統(tǒng)機器翻譯算法通過為每種語言和每項任務(wù)構(gòu)建單獨的AI模型能夠同時處理多語翻譯，但由于依賴英語數(shù)據(jù)作為源語言和目標語言之間的中介，在語義準確性上可能有所折損。

為了實現(xiàn)多語言不依賴英語互譯，研究人員使用不同的挖掘策略構(gòu)建了首個真正的多對多翻譯數(shù)據(jù)集，再通過Fairscale等擴展技術(shù)建立具有150億個參數(shù)的通用翻譯模型，使M2M-100可以從大量語言數(shù)據(jù)庫中學習，并反映出更加多樣化的語言文字和詞法。

論文主頁：https://ai.facebook.com/research/publications/beyond-english-centric-multilingual-machine-translation

項目地址：https://github.com/pytorch/fairseq/tree/master/examples/m2m_100

Facebook?100種語言互譯模型源代碼公開！機器翻譯再也不用英語當媒介了？

一、多種技術(shù)融合，反向?qū)ふ液Ａ繑?shù)據(jù)

多語言機器翻譯的目標是建立一個超7000種語言的一對一互譯模型，如此大量級的模型需要大量數(shù)據(jù)來訓練。由于小語種本身缺少可直接使用的大量數(shù)據(jù)，再加上如果要實現(xiàn)多語言間任意方向高質(zhì)量翻譯，例如中文到法語和法語到中文，模型訓練所需要的數(shù)據(jù)量會隨語言對數(shù)量呈二次增長。

Facebook?100種語言互譯模型源代碼公開！機器翻譯再也不用英語當媒介了？

為此，F(xiàn)acebook在XLM-R，一種可以從單語數(shù)據(jù)中學習并以100種語言執(zhí)行任務(wù)的模型上，增添了新穎的語言識別技術(shù)，用以從更多來源中挖掘更高質(zhì)量的數(shù)據(jù)。如可以對自然語言處理模型進行零樣本傳輸（one-shot transfer）的開放式源代碼工具包Language-Agnostic Sentence Representations、用于訓練翻譯模型的“十億規(guī)?！?bitext數(shù)據(jù)集CCMatrix以及跨語言Web文檔對的集合CCAligned。

除此之外，F(xiàn)acebook還使用反向翻譯（back-translation）來補充數(shù)據(jù)較少的語料數(shù)據(jù)：如果目標是訓練一個中文到法文的翻譯模型，F(xiàn)acebook研究人員先訓練一個法文到中文的模型，再將所有沒被翻譯的單語數(shù)據(jù)譯成中文。在 M2M-100的開發(fā)過程中，反向翻譯得到的數(shù)據(jù)會被添加到挖掘的并行數(shù)據(jù)中。

在得到的數(shù)據(jù)中，M2M-100也有三大篩選標準：被廣泛使用的、不同語族的語言；已有評估標準數(shù)據(jù)的語言，以便更輕松地量化模型的性能；可以獨立存在的語言?；诖?，F(xiàn)acebook的M2M-100得到了100種不同語言超過75億個句子的數(shù)據(jù)集。

“多年來，人工智能研究人員一直在努力構(gòu)建一個單一的、跨語言的通用模型?！盕acebook的數(shù)據(jù)科學家Angela Fan在博客中寫道，“支持所有語言、方言的統(tǒng)一模型將幫助我們更好地為更多的人服務(wù)，并為數(shù)十億人創(chuàng)造新的翻譯體驗。”

二、“橋接策略”構(gòu)建語群，節(jié)約算力最大化

但并不是100種語言對中任意一種都需要實現(xiàn)互譯，例如冰島語-尼泊爾語或僧伽羅語-爪哇語之間需要互譯的情況是很少見的。Facebook研究人員為了避免這些少見的互譯組合浪費算力，提出了“橋接策略”，即根據(jù)分類、地理和文化相似性將語言分為14個族。

Facebook?100種語言互譯模型源代碼公開！機器翻譯再也不用英語當媒介了？

因為生活在相同語族的國家和地區(qū)的人們會更加頻繁地交流，并從高質(zhì)量的翻譯中受益。例如，一個在印度地區(qū)生活的家庭可能日常會使用印度地區(qū)常用的語言，例如孟加拉語、北印度語、馬拉地語、尼泊爾語、泰米爾語和烏爾都語等。

為了滿足14個語群之間可能存在的互譯需求，F(xiàn)acebook研究人員還確定了少數(shù)“過渡語言”，即每個語族中一到三種主要語言會作為橋梁轉(zhuǎn)化不同語群語言。例如，印地語、孟加拉語和泰米爾語會成為印度－雅利雅語群中的橋梁語言。

研究人員會為橋梁語言的所有可能組合挖掘訓練數(shù)據(jù)，從而獲得上述數(shù)據(jù)集中的75億個句子。

三、154億參數(shù)，只為模型容量最優(yōu)化

在解決了如何獲取數(shù)據(jù)和如何有效利用數(shù)據(jù)后，接下來的一步就是搭建模型。而在模型組建中遇見的最大問題就是：單一模型必須捕獲多種不同語言的多種文字信息，這時候就需要擴展模型的容量及添加特定語言參數(shù)用以處理更多語言數(shù)據(jù)。

Facebook?100種語言互譯模型源代碼公開！機器翻譯再也不用英語當媒介了？

M2M-100借助了Fairscale（一種用于大型模型訓練的PyTorch庫），來增加Transformer網(wǎng)絡(luò)中的層數(shù)以及每層的寬度。基于Zero優(yōu)化器、層內(nèi)模型并行性和管道模型并行性，研究人員建立通用的基礎(chǔ)架構(gòu)來容納無法在單個GPU安裝的大型模型，此外還引入了模型壓縮和深度自適應(yīng)模型，以用常規(guī)主干和一些語言特定參數(shù)集來共同訓練模型。

多種策略的組合使模型的容量增加了100倍，并能夠?qū)崿F(xiàn)Facebook聲稱的高精度語言服務(wù)。但僅將模型擴展到10億參數(shù)還不能滿足處理大量數(shù)據(jù)的需要，最后當將模型規(guī)模密集擴展到12億個參數(shù)時，才能得到所有語言方向上1.2BLEU的平均提升。

最后當模型參數(shù)達154億時，M2M-100可以針對最多的數(shù)據(jù)訓練額外的模型容量。 “通過將模型容量的密集縮放與特定語言參數(shù)（總計30億）相結(jié)合，我們已經(jīng)提供了一個相對完善的不依賴英語的互譯模型。”Fan說到。

結(jié)語：母語者質(zhì)量評估，消除“偏見”在路上

縱使Facebook的M2M-100模型已在很多方面進行了改進，但依舊存在很多問題亟待解決。

在測試階段，會有母語者對不涉及英語的20種語言對之間互譯質(zhì)量進行評估。母語者對譯文整體評價較高，但他們也指出M2M-100傾向于使用不符合語境的俚語逐詞翻譯，也會出現(xiàn)如缺少逗號等語法問題，可能會導致歧義。

除翻譯語義的問題之外，F(xiàn)acebook研究人員也承認，在翻譯模型中，確實出現(xiàn)了有關(guān)性別偏見、種族偏見的歧視性字眼，但現(xiàn)如今沒有任何一種機器學習算法能防止偏見的產(chǎn)生，且這個問題在數(shù)據(jù)量少的小語種模型中更加明顯。

Angela Fan也表示他們將進行更多的測試和評估，致力于使這個模型更加“公平公正”，但這個過程仍需要時間。

來源：VentureBeat、Facebook

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、多種技術(shù)融合，反向?qū)ふ液Ａ繑?shù)據(jù)

二、“橋接策略”構(gòu)建語群，節(jié)約算力最大化

三、154億參數(shù)，只為模型容量最優(yōu)化

結(jié)語：母語者質(zhì)量評估，消除“偏見”在路上

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、多種技術(shù)融合，反向?qū)ふ液Ａ繑?shù)據(jù)

二、“橋接策略”構(gòu)建語群，節(jié)約算力最大化

三、154億參數(shù)，只為模型容量最優(yōu)化

結(jié)語：母語者質(zhì)量評估，消除“偏見”在路上

相關(guān)推薦

一、多種技術(shù)融合，反向?qū)ふ液Ａ繑?shù)據(jù)

二、“橋接策略”構(gòu)建語群，節(jié)約算力最大化

三、154億參數(shù)，只為模型容量最優(yōu)化