智東西(公眾號:zhidxcom)
編譯 |? 孟強(qiáng)
編輯 |??云鵬

智東西7月24日消息,Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究論文,公開了該模型背后的技術(shù)細(xì)節(jié)。

Stable Audio Open是StabilityAI于今年6月推出的開源文本轉(zhuǎn)音頻模型,可免費(fèi)生成長達(dá)47秒的樣本和音效,還可生成44.1kHz高質(zhì)量立體聲音頻,并且能在消費(fèi)級GPU上運(yùn)行。除了免費(fèi)、開源,該模型還注重保護(hù)創(chuàng)作者版權(quán),在數(shù)據(jù)訓(xùn)練中盡力避免倫理道德問題。

論文透露,Stable?Audio?Open是StabilityAI于今年3月推出的商用Stable?Audio?2的變體模型,整體架構(gòu)保持一致,但在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上采取了調(diào)整,關(guān)鍵架構(gòu)由自動編碼器、基于T5的文本嵌入以及擴(kuò)散模型(DiT)構(gòu)成。

論文地址:https://arxiv.org/html/2407.14358v1

一、3個關(guān)鍵架構(gòu)提供支持,免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

Stable Audio Open引入了一種文本轉(zhuǎn)音頻模型,有3個主要架構(gòu):

  1. 自動編碼器:將波形數(shù)據(jù)壓縮到可管理的序列長度;
  2. 基于T5的文本嵌入;
  3. 基于transformer的擴(kuò)散模型(DiT):在自動編碼器的潛在空間中運(yùn)行。

自動編碼器是一種神經(jīng)網(wǎng)絡(luò)架構(gòu),由編碼器和解碼器組成,編碼器將輸入的數(shù)據(jù)壓縮成一個較小的潛在空間表示,解碼器則將這個潛在表示解壓還原。Stable Audio Open中的自動編碼器把音頻波形壓縮成一個較短的序列,以便后續(xù)處理。

火爆全球的AI音頻大模型,最新技術(shù)細(xì)節(jié)揭秘

T5(Text-to-Text Transfer Transformer)是一個由谷歌開發(fā)的自然語言處理模型,它可以將輸入的文本轉(zhuǎn)換為另一種文本表示。在Stable Audio Open中,T5模型將用戶輸入的文本轉(zhuǎn)換成文本嵌入(text embedding),以便于將文本信息融入到音頻生成過程中。

DiT(Diffusion Transformer)是一種擴(kuò)散模型,在自動編碼器的潛在空間中運(yùn)行,對編碼器壓縮后的數(shù)據(jù)進(jìn)行處理和優(yōu)化,確保解碼器能還原出連貫、高質(zhì)量的音頻。

火爆全球的AI音頻大模型,最新技術(shù)細(xì)節(jié)揭秘

作為Stable?Audio?2的變體模型,Stable?Audio?Open在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上進(jìn)行了調(diào)整。采取了完全不同的數(shù)據(jù)集,并且使用T5代替了CLAP(Contrastive Language-Audio Pretraining)。前者由谷歌開發(fā),專注于文本數(shù)據(jù),完成各種自然語言處理任務(wù),而后者由OpenAI研發(fā),即可處理語言數(shù)據(jù),也可處理音頻數(shù)據(jù)。

作為一個開源免費(fèi)的模型,Stable?Audio?Open無法生成連貫完整的曲目,也不會針對完整的曲目、旋律或人聲進(jìn)行優(yōu)化。

Stability AI稱,Stable Audio Open專注于音頻demo和音效制作,可免費(fèi)生成最長47秒的44.1kHz高質(zhì)量立體聲音頻。經(jīng)過專業(yè)訓(xùn)練后,該模型非常適合創(chuàng)建鼓點(diǎn)、樂器重復(fù)樂段、環(huán)境音、擬音錄音和其他用于音樂制作和聲音設(shè)計(jì)的音頻樣本。

此次開源版本還有一個關(guān)鍵優(yōu)勢,即用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對模型進(jìn)行微調(diào),這樣,用戶就可以用自己的鼓聲錄音來訓(xùn)練模型,用自己的風(fēng)格生成獨(dú)特的節(jié)奏。

二、訓(xùn)練過程著重保護(hù)版權(quán)

在生成式AI快速發(fā)展的背景下,人們對音樂行業(yè)使用人工智能的爭論日益激烈,特別是在版權(quán)問題上。Stability AI前音頻副總裁Ed Newton-Rex于2023年底離職,理由是他不同意Stability AI在訓(xùn)練模型時使用受版權(quán)保護(hù)的音頻,認(rèn)為此舉存違背倫理道德。他曾參與開發(fā)Stable Audio。

生成式AI的數(shù)據(jù)訓(xùn)練像是一個黑箱里進(jìn)行,除了開發(fā)商,誰也不知道訓(xùn)練所使用的數(shù)據(jù)是否受版權(quán)保護(hù)。Newton-Rex說:“許多價(jià)值數(shù)十億美元的科技公司在未經(jīng)許可的情況下,利用創(chuàng)作者的作品訓(xùn)練生成式人工智能模型,然后使用這些模型生成新內(nèi)容?!彼谝环夤_辭職信中表示,他不接受這種依靠侵犯創(chuàng)作者版權(quán)而牟利的行為。

Stability AI表示,為尊重創(chuàng)作者版權(quán),Stable Audio Open使用的數(shù)據(jù)集來自Freesound和免費(fèi)音樂檔案(FMA),所有使用的錄音均是CC(Creative Commons)許可下發(fā)布的音頻錄音。CC是一種版權(quán)許可機(jī)制,該機(jī)制允許創(chuàng)作者共享他們的作品,并規(guī)定他人如何使用這些作品。

火爆全球的AI音頻大模型,最新技術(shù)細(xì)節(jié)揭秘

為了確保避免使用任何受版權(quán)保護(hù)的材料,Stability AI稱通過使用音頻標(biāo)記器識別Freesound中的音樂樣本,并將識別出的樣本被發(fā)送到Audible Magic的內(nèi)容檢測公司,以確保從數(shù)據(jù)集中刪除潛在的受版權(quán)保護(hù)的音樂。

Stability AI表示:“這讓我們能夠創(chuàng)建一個開放的音頻模型,同時又能充分尊重創(chuàng)作者的權(quán)利?!?/p>

結(jié)語:開源、免費(fèi)模型讓文生音頻更普及

Stable Audio Open的推出展示了Stability AI在文本轉(zhuǎn)音頻模型領(lǐng)域的創(chuàng)新和進(jìn)步。雖然該模型在生成音頻長度和連貫性上存在一定的限制,但其優(yōu)點(diǎn)也顯而易見。它能免費(fèi)生成高質(zhì)量的44.1kHz立體聲音頻,并且能在消費(fèi)級GPU上運(yùn)行,降低了文生音頻的使用門檻。

同時,Stable Audio Open在開放音頻生成技術(shù)的同時,也為版權(quán)保護(hù)樹立了新標(biāo)桿。在今后,隨著技術(shù)的不斷進(jìn)步和道德規(guī)范的完善,Stable Audio Open有望在更多應(yīng)用場景中發(fā)揮其潛力,推動音頻生成技術(shù)的發(fā)展和普及。

目前,Stable Audio Open模型權(quán)重可在機(jī)器學(xué)習(xí)模型平臺Hugging Face上獲取。Stability AI鼓勵聲音設(shè)計(jì)師、音樂家、開發(fā)人員以及任何對音頻感興趣的人探索該模型的功能并提供反饋。

來源:Stability AI