天天干天天操天天干天天干,精品国精品国自产在国产,欧美啪啪啪啪啪啪啪啪

智東西（公眾號：zhidxcom）
編譯 |? 孟強(qiáng)
編輯 |??云鵬

智東西7月24日消息，Satbility AI于7月19日在Arxiv上分享了Stable Audio Open的研究論文，公開了該模型背后的技術(shù)細(xì)節(jié)。

Stable Audio Open是StabilityAI于今年6月推出的開源文本轉(zhuǎn)音頻模型，可免費(fèi)生成長達(dá)47秒的樣本和音效，還可生成44.1kHz高質(zhì)量立體聲音頻，并且能在消費(fèi)級GPU上運(yùn)行。除了免費(fèi)、開源，該模型還注重保護(hù)創(chuàng)作者版權(quán)，在數(shù)據(jù)訓(xùn)練中盡力避免倫理道德問題。

論文透露，Stable?Audio?Open是StabilityAI于今年3月推出的商用Stable?Audio?2的變體模型，整體架構(gòu)保持一致，但在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上采取了調(diào)整，關(guān)鍵架構(gòu)由自動編碼器、基于T5的文本嵌入以及擴(kuò)散模型（DiT）構(gòu)成。

論文地址：https://arxiv.org/html/2407.14358v1

一、3個關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

Stable Audio Open引入了一種文本轉(zhuǎn)音頻模型，有3個主要架構(gòu)：

自動編碼器：將波形數(shù)據(jù)壓縮到可管理的序列長度；
基于T5的文本嵌入；
基于transformer的擴(kuò)散模型(DiT)：在自動編碼器的潛在空間中運(yùn)行。

自動編碼器是一種神經(jīng)網(wǎng)絡(luò)架構(gòu)，由編碼器和解碼器組成，編碼器將輸入的數(shù)據(jù)壓縮成一個較小的潛在空間表示，解碼器則將這個潛在表示解壓還原。Stable Audio Open中的自動編碼器把音頻波形壓縮成一個較短的序列，以便后續(xù)處理。

火爆全球的AI音頻大模型，最新技術(shù)細(xì)節(jié)揭秘

T5（Text-to-Text Transfer Transformer）是一個由谷歌開發(fā)的自然語言處理模型，它可以將輸入的文本轉(zhuǎn)換為另一種文本表示。在Stable Audio Open中，T5模型將用戶輸入的文本轉(zhuǎn)換成文本嵌入（text embedding），以便于將文本信息融入到音頻生成過程中。

DiT（Diffusion Transformer）是一種擴(kuò)散模型，在自動編碼器的潛在空間中運(yùn)行，對編碼器壓縮后的數(shù)據(jù)進(jìn)行處理和優(yōu)化，確保解碼器能還原出連貫、高質(zhì)量的音頻。

火爆全球的AI音頻大模型，最新技術(shù)細(xì)節(jié)揭秘

作為Stable?Audio?2的變體模型，Stable?Audio?Open在訓(xùn)練數(shù)據(jù)的采用和部分架構(gòu)上進(jìn)行了調(diào)整。采取了完全不同的數(shù)據(jù)集，并且使用T5代替了CLAP（Contrastive Language-Audio Pretraining）。前者由谷歌開發(fā)，專注于文本數(shù)據(jù)，完成各種自然語言處理任務(wù)，而后者由OpenAI研發(fā)，即可處理語言數(shù)據(jù)，也可處理音頻數(shù)據(jù)。

作為一個開源免費(fèi)的模型，Stable?Audio?Open無法生成連貫完整的曲目，也不會針對完整的曲目、旋律或人聲進(jìn)行優(yōu)化。

Stability AI稱，Stable Audio Open專注于音頻demo和音效制作，可免費(fèi)生成最長47秒的44.1kHz高質(zhì)量立體聲音頻。經(jīng)過專業(yè)訓(xùn)練后，該模型非常適合創(chuàng)建鼓點(diǎn)、樂器重復(fù)樂段、環(huán)境音、擬音錄音和其他用于音樂制作和聲音設(shè)計(jì)的音頻樣本。

此次開源版本還有一個關(guān)鍵優(yōu)勢，即用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對模型進(jìn)行微調(diào)，這樣，用戶就可以用自己的鼓聲錄音來訓(xùn)練模型，用自己的風(fēng)格生成獨(dú)特的節(jié)奏。

二、訓(xùn)練過程著重保護(hù)版權(quán)

在生成式AI快速發(fā)展的背景下，人們對音樂行業(yè)使用人工智能的爭論日益激烈，特別是在版權(quán)問題上。Stability AI前音頻副總裁Ed Newton-Rex于2023年底離職，理由是他不同意Stability AI在訓(xùn)練模型時使用受版權(quán)保護(hù)的音頻，認(rèn)為此舉存違背倫理道德。他曾參與開發(fā)Stable Audio。

生成式AI的數(shù)據(jù)訓(xùn)練像是一個黑箱里進(jìn)行，除了開發(fā)商，誰也不知道訓(xùn)練所使用的數(shù)據(jù)是否受版權(quán)保護(hù)。Newton-Rex說：“許多價(jià)值數(shù)十億美元的科技公司在未經(jīng)許可的情況下，利用創(chuàng)作者的作品訓(xùn)練生成式人工智能模型，然后使用這些模型生成新內(nèi)容?！彼谝环夤_辭職信中表示，他不接受這種依靠侵犯創(chuàng)作者版權(quán)而牟利的行為。

Stability AI表示，為尊重創(chuàng)作者版權(quán)，Stable Audio Open使用的數(shù)據(jù)集來自Freesound和免費(fèi)音樂檔案(FMA)，所有使用的錄音均是CC（Creative Commons）許可下發(fā)布的音頻錄音。CC是一種版權(quán)許可機(jī)制，該機(jī)制允許創(chuàng)作者共享他們的作品，并規(guī)定他人如何使用這些作品。

火爆全球的AI音頻大模型，最新技術(shù)細(xì)節(jié)揭秘

為了確保避免使用任何受版權(quán)保護(hù)的材料，Stability AI稱通過使用音頻標(biāo)記器識別Freesound中的音樂樣本，并將識別出的樣本被發(fā)送到Audible Magic的內(nèi)容檢測公司，以確保從數(shù)據(jù)集中刪除潛在的受版權(quán)保護(hù)的音樂。

Stability AI表示：“這讓我們能夠創(chuàng)建一個開放的音頻模型，同時又能充分尊重創(chuàng)作者的權(quán)利?！?/p>

結(jié)語：開源、免費(fèi)模型讓文生音頻更普及

Stable Audio Open的推出展示了Stability AI在文本轉(zhuǎn)音頻模型領(lǐng)域的創(chuàng)新和進(jìn)步。雖然該模型在生成音頻長度和連貫性上存在一定的限制，但其優(yōu)點(diǎn)也顯而易見。它能免費(fèi)生成高質(zhì)量的44.1kHz立體聲音頻，并且能在消費(fèi)級GPU上運(yùn)行，降低了文生音頻的使用門檻。

同時，Stable Audio Open在開放音頻生成技術(shù)的同時，也為版權(quán)保護(hù)樹立了新標(biāo)桿。在今后，隨著技術(shù)的不斷進(jìn)步和道德規(guī)范的完善，Stable Audio Open有望在更多應(yīng)用場景中發(fā)揮其潛力，推動音頻生成技術(shù)的發(fā)展和普及。

目前，Stable Audio Open模型權(quán)重可在機(jī)器學(xué)習(xí)模型平臺Hugging Face上獲取。Stability AI鼓勵聲音設(shè)計(jì)師、音樂家、開發(fā)人員以及任何對音頻感興趣的人探索該模型的功能并提供反饋。

來源：Stability AI

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、3個關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

二、訓(xùn)練過程著重保護(hù)版權(quán)

結(jié)語：開源、免費(fèi)模型讓文生音頻更普及

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、3個關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

二、訓(xùn)練過程著重保護(hù)版權(quán)

結(jié)語：開源、免費(fèi)模型讓文生音頻更普及

相關(guān)推薦

一、3個關(guān)鍵架構(gòu)提供支持，免費(fèi)生成44.1kHz高質(zhì)量立體聲短音頻

結(jié)語：開源、免費(fèi)模型讓文生音頻更普及