智東西(公眾號(hào):zhidxcom)
編 |?王穎

導(dǎo)語:Facebook研發(fā)出可以轉(zhuǎn)換歌聲的AI模型,能在5~30分鐘將一個(gè)歌手的聲音轉(zhuǎn)換成另一個(gè)歌手的聲音。

智東西4月17日消息,F(xiàn)acebook?AI研究院和以色列特拉維夫大學(xué)的科學(xué)家們發(fā)表了一篇關(guān)于轉(zhuǎn)換歌手歌聲的論文——《無監(jiān)督的歌聲轉(zhuǎn)換》(Unsupervised Singing Voice Conversion)。

這篇論文描述了一種可以直接將一個(gè)歌手的聲音轉(zhuǎn)換成另一個(gè)歌手聲音的系統(tǒng)。這個(gè)系統(tǒng)能夠?qū)σ郧皩?duì)未遇到過的,未分類、未注釋的數(shù)據(jù)執(zhí)行轉(zhuǎn)換。

研究小組稱,他們的模型僅用5到30分鐘就能學(xué)會(huì)歌手之間的轉(zhuǎn)換。

最快5分鐘偷“聲”換日!Facebook用AI玩起假唱

一、AI模型如何轉(zhuǎn)換歌聲?

這個(gè)AI模型分兩個(gè)階段進(jìn)行培訓(xùn)。首先對(duì)每個(gè)歌手的樣本分別應(yīng)用一個(gè)稱為softmax重構(gòu)損失的數(shù)學(xué)函數(shù)(將神經(jīng)網(wǎng)絡(luò)得到的多個(gè)值,進(jìn)行歸一化處理,使得到的值在[0,1]之間,讓結(jié)果變得可解釋。即可以將結(jié)果看作是概率,某個(gè)類別概率越大,將樣本歸為該類別的可能性也就越高)。

然后混合矢量嵌入(即數(shù)值表示)得到新歌手的樣本,訓(xùn)練歌手的樣本生成后再進(jìn)行反向翻譯步驟。

為了擴(kuò)充訓(xùn)練數(shù)據(jù)集,研究人員通過倒向播和改變相位來轉(zhuǎn)換音頻剪輯。這種方法將數(shù)據(jù)集的大小增加了四倍。第一次增加的數(shù)據(jù)創(chuàng)造出了一首胡言亂語的歌曲,但仍然可以識(shí)別為同一名歌手所演唱,第二次增加的數(shù)據(jù)創(chuàng)造了一個(gè)已無法辨認(rèn)歌手的新歌曲。

二、歌聲轉(zhuǎn)換無需大量訓(xùn)練數(shù)據(jù)

論文作者表示:“我們的方法不以文本或音符為條件,不需要各種歌手之間的平行訓(xùn)練數(shù)據(jù),提供了一定的靈活性以及其他聲音特征,可以讓我們有能力從自己聲音的某些局限中解放出來?!?/p>

研究人員介紹,他們的轉(zhuǎn)換方法建立在WaveNet的基礎(chǔ)上,這是一種谷歌開發(fā)的自動(dòng)編碼器(一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,它可以學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征,同時(shí)用學(xué)習(xí)到的新特征可以重構(gòu)出原始輸入數(shù)據(jù)),可以從音頻記錄的波形中生成模型。

它采用了反向翻譯,即將一個(gè)數(shù)據(jù)樣本轉(zhuǎn)換為目標(biāo)樣本(在這種情況下,一個(gè)歌手的聲音轉(zhuǎn)換為另一個(gè)),然后將其翻譯回來,如果與原文不匹配,則調(diào)整下一次嘗試。

此外,該研究小組的合成樣本,在不輸入歌手真實(shí)信息的情況下,能夠使用更接近源歌手的聲音信息,構(gòu)成一個(gè)“虛擬身份”。

三、歌聲轉(zhuǎn)換相似度獲好評(píng)

在實(shí)驗(yàn)中,研究小組收集了兩組公開的數(shù)據(jù)集——斯坦福大學(xué)的移動(dòng)表演數(shù)字檔案館(DAMP)語料庫和新加坡國立大學(xué)的成語和口語語料庫(NUS-48E)。

第一組中,他們隨機(jī)選擇了5名歌手演唱的10首歌(其中9首被他們用來訓(xùn)練AI系統(tǒng))。?第二組中,他們選擇了12名歌手,每名歌手有4首歌,所有這些歌曲都被用于訓(xùn)練系統(tǒng)。

接下來,他們讓人類評(píng)審員以1-5的評(píng)分標(biāo)準(zhǔn)來判斷生成的歌聲與目標(biāo)歌聲的相似性,并使用一個(gè)包含分類系統(tǒng)的自動(dòng)測(cè)試來更客觀地評(píng)估樣本的質(zhì)量。

評(píng)審員對(duì)轉(zhuǎn)換后的音頻平均打分約為4分(認(rèn)為質(zhì)量較好),而自動(dòng)測(cè)試發(fā)現(xiàn),所生成樣本的識(shí)別精度度幾乎與重建樣本的識(shí)別精度一樣高。

研究人員表示,未來AI歌聲轉(zhuǎn)換模型將可以在存在背景音樂的情況下執(zhí)行歌聲轉(zhuǎn)換。

結(jié)語:AI技術(shù)高速發(fā)展,不斷催生新技術(shù)、新產(chǎn)品誕生

自1956年AI的概念確立以來,人類一直在這個(gè)領(lǐng)域進(jìn)行不斷的探索。

如今,AI在基礎(chǔ)研究和技術(shù)產(chǎn)業(yè)方面都進(jìn)入了高速發(fā)展時(shí)期,也開始越來越多的應(yīng)用于日常生活和工作的各個(gè)方面。不斷出現(xiàn)的各種AI機(jī)器學(xué)習(xí)模型被應(yīng)用于醫(yī)療、建筑和藝術(shù)等各個(gè)領(lǐng)域。

AI正在作為新一輪產(chǎn)業(yè)革命的核心驅(qū)動(dòng)力,不斷催生新技術(shù)、新產(chǎn)品的誕生。

論文鏈接:https://arxiv.org/abs/1904.06590

原文來自:VentureBeat