智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)第二天的主會(huì)場(chǎng)AIGC應(yīng)用專場(chǎng)上,DeepMusic CEO劉曉光以《AIGC如何賦能音樂(lè)創(chuàng)作與制作》為題發(fā)表演講。

劉曉光系統(tǒng)性復(fù)盤了當(dāng)前音樂(lè)商業(yè)格局,包括不同音樂(lè)用戶群體的特征與主要使用產(chǎn)品、相關(guān)音樂(lè)公司的商業(yè)獲利模式。

他提到當(dāng)前音樂(lè)商業(yè)格局主要面向泛音樂(lè)愛(ài)好者的聽(tīng)歌度實(shí)踐用戶的唱歌消費(fèi)體驗(yàn),中間有1億以上活躍音樂(lè)人、音樂(lè)實(shí)踐者群體的需求尚未得到好的產(chǎn)品滿足;同時(shí)音樂(lè)制作流程長(zhǎng)、門檻高,這使得音樂(lè)AIGC技術(shù)有用武之地。

音樂(lè)創(chuàng)作與制作本身具備一定的專業(yè)性門檻,非專業(yè)人士很難借助音樂(lè)來(lái)表達(dá)自我,AIGC的發(fā)展為音樂(lè)創(chuàng)作帶來(lái)了另一種可能性。劉曉光不僅詳細(xì)回顧了音樂(lè)生產(chǎn)工具的40年演變歷程以及其中三個(gè)關(guān)鍵階段,并對(duì)近期多個(gè)爆款A(yù)I音樂(lè)生成產(chǎn)品進(jìn)行推演,解讀其背后采用的技術(shù)方案。

劉曉光深入講解了音頻模型、符號(hào)模型兩類AI音樂(lè)模型所涉及的工作原理、訓(xùn)練數(shù)據(jù)及算法技術(shù),并就跨平臺(tái)一站式AI音樂(lè)工作站“和弦派”的設(shè)計(jì)邏輯進(jìn)行分享。“和弦派”以更直觀的功能譜呈現(xiàn)音樂(lè)創(chuàng)作部分信息,解決音樂(lè)中歌詞、旋律、伴奏等不同模態(tài)之間溝通困難的問(wèn)題,實(shí)現(xiàn)跨PC、手機(jī)平臺(tái)的音樂(lè)創(chuàng)作、制作體驗(yàn)。

他認(rèn)為音樂(lè)產(chǎn)業(yè)明年就能實(shí)現(xiàn)自然語(yǔ)言生成高品質(zhì)伴奏的功能,只需上傳30秒人聲素材,就能生成用自己聲音演唱的歌曲。未來(lái),DeepMusic也會(huì)通過(guò)積累的精細(xì)化標(biāo)注數(shù)據(jù),實(shí)現(xiàn)對(duì)音頻模型的精細(xì)化控制。

以下為劉曉光的演講實(shí)錄:

我們公司專注于音樂(lè)AIGC技術(shù),因此,基于在此領(lǐng)域的專業(yè)認(rèn)知,我們將與大家探討以下幾個(gè)方面:行業(yè)現(xiàn)狀、AIGC對(duì)音樂(lè)行業(yè)的潛在影響、AIGC在音樂(lè)數(shù)據(jù)與技術(shù)方面的應(yīng)用,以及未來(lái)發(fā)展趨勢(shì)。

一、音樂(lè)商業(yè)格局:泛音樂(lè)愛(ài)好者月活達(dá)8億,頭部企業(yè)極度集中

我們先來(lái)了解一下音樂(lè)行業(yè)的整體情況。

音樂(lè)行業(yè)最外圈的群體是泛音樂(lè)愛(ài)好者,他們主要通過(guò)聽(tīng)歌來(lái)體驗(yàn)音樂(lè),使用的主要產(chǎn)品包括酷狗音樂(lè)、QQ音樂(lè)和網(wǎng)易云音樂(lè)等。根據(jù)上市公司的數(shù)據(jù)顯示,這一群體的月活躍用戶大約達(dá)到8億人。

泛音樂(lè)愛(ài)好者是音樂(lè)行業(yè)中最廣泛參與的群體之一。出于對(duì)音樂(lè)的興趣,部分聽(tīng)歌人會(huì)參與一些與音樂(lè)相關(guān)的實(shí)踐活動(dòng),例如,最淺的音樂(lè)實(shí)踐就是唱K和觀看音樂(lè)演出,主要使用全民K歌等產(chǎn)品。

中度實(shí)踐階段,我們通常會(huì)使用一些產(chǎn)品,例如蘋果系統(tǒng)預(yù)裝軟件酷樂(lè)隊(duì)和安卓應(yīng)用商店中的完美鋼琴。完美鋼琴在安卓應(yīng)用商店的下載量可能接近1億次,但其留存率卻相對(duì)較低。這表明,中度實(shí)踐用戶開(kāi)始對(duì)音樂(lè)產(chǎn)生需求,但目前市場(chǎng)上的產(chǎn)品并不能完全滿足他們的需求。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

接下來(lái)是深度實(shí)踐用戶,主要涵蓋15至30歲的年輕人和50歲以上的中老年人。其中,約15%的年輕人已經(jīng)參與音樂(lè)類興趣社團(tuán),而約15%的中老年人參與了中老年合唱團(tuán)等興趣社團(tuán)。這些用戶逐漸表現(xiàn)出創(chuàng)作的意愿,預(yù)計(jì)規(guī)模大約為2000萬(wàn)人。我們將這些積極從事音樂(lè)實(shí)踐的人群統(tǒng)稱為音樂(lè)實(shí)踐者。

從音樂(lè)實(shí)踐者進(jìn)一步升級(jí),則為音樂(lè)人。國(guó)內(nèi)音樂(lè)人總數(shù)約為100萬(wàn)。這一群體主要來(lái)自騰訊、網(wǎng)易以及抖音等平臺(tái),主要從事創(chuàng)作和表演活動(dòng)。作為音樂(lè)人,他們至少發(fā)布過(guò)1首原創(chuàng)作品。大多數(shù)音樂(lè)人并非經(jīng)過(guò)傳統(tǒng)的專業(yè)音樂(lè)教育培養(yǎng)而成,而是通過(guò)職業(yè)培訓(xùn)學(xué)校獲得技能,傳統(tǒng)音樂(lè)教育并不為數(shù)字音樂(lè)行業(yè)提供人才。

音樂(lè)人創(chuàng)作時(shí)使用的軟件很有意思,比如作詞用Word,作曲用錄音機(jī),我們可能也覺(jué)得用這些軟件制作音樂(lè)有些奇怪,我們清楚不可能用錄音機(jī)做出咱們平時(shí)聽(tīng)的高質(zhì)量音樂(lè)作品。

還有一個(gè)群體被稱為音樂(lè)制作人。這些人通常是從音樂(lè)人逐漸晉升而來(lái),他們需要經(jīng)過(guò)多年的制作經(jīng)驗(yàn)才能勝任。他們的主要任務(wù)是將音樂(lè)人提供的音樂(lè)錄音Demo進(jìn)行制作。在這個(gè)過(guò)程中,常見(jiàn)的音樂(lè)制作軟件包括雅馬哈公司的Cubase和蘋果公司的Logic Pro,它們是目前主流的音樂(lè)制作工具,通常運(yùn)行在個(gè)人電腦上。然而,這些軟件上手門檻極其高。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

音樂(lè)人群是這樣的,那商業(yè)是怎么發(fā)展的呢?

在這個(gè)領(lǐng)域,我們可以看到唱片公司、經(jīng)紀(jì)公司等行業(yè)參與者。他們的主要任務(wù)是簽約頭部音樂(lè)制作人,并從音樂(lè)人那里獲取原創(chuàng)歌曲,然后將這些歌曲制作并發(fā)布到主要的音樂(lè)平臺(tái),如騰訊音樂(lè)、網(wǎng)易云音樂(lè)等。

這些平臺(tái)是這個(gè)行業(yè)的甲方公司,其年收入約為500億人民幣。其中,約35%的收入來(lái)自會(huì)員費(fèi),即用戶每年支付的訂閱費(fèi)用,已經(jīng)超過(guò)億人;另外55%的收入則來(lái)自用戶產(chǎn)生的娛樂(lè)消費(fèi),還有10%來(lái)自廣告。

這500億的終端收入中,大約有100億會(huì)被分配給音樂(lè)創(chuàng)作者和唱片公司。而唱片公司則通過(guò)播放占比分成的方式來(lái)分配收入,即根據(jù)某首歌的播放量在中國(guó)整體音樂(lè)聽(tīng)眾中的占比來(lái)確定分成比例。

音樂(lè)產(chǎn)業(yè)是一個(gè)極度頭部集中的行業(yè),以周杰倫的播放占比為例,其歌曲在中國(guó)整體音樂(lè)市場(chǎng)中的占比為5.6%。這意味著大約每20個(gè)人中就有1個(gè)在聽(tīng)周杰倫的歌曲。

我認(rèn)為外圈的音樂(lè)商業(yè)是頭部集中的,商業(yè)模式已經(jīng)相對(duì)成熟或者問(wèn)題已經(jīng)基本得到解決。

二、AIGC打破音樂(lè)制作高成本限制,音頻模型引領(lǐng)音樂(lè)生產(chǎn)工具3.0時(shí)代

AIGC的主要目標(biāo)是解決音樂(lè)領(lǐng)域中的中間環(huán)節(jié)問(wèn)題。

我們注意到,在中級(jí)階段的音樂(lè)實(shí)踐者中,缺乏適合他們進(jìn)行交互式學(xué)習(xí)和成長(zhǎng)的優(yōu)質(zhì)產(chǎn)品。而對(duì)于深度實(shí)踐者,也缺乏能夠幫助他們提升技能的優(yōu)秀軟件。音樂(lè)人在創(chuàng)作音樂(lè)時(shí)使用Word和錄音機(jī)可能存在一些問(wèn)題。即使他們用這些工具創(chuàng)作出作品,交給音樂(lè)制作人后,仍需要大量的重復(fù)工作才能進(jìn)一步處理。

我們認(rèn)為,AIGC音樂(lè)領(lǐng)域的目標(biāo),實(shí)際上是服務(wù)大約全球總?cè)丝诘?0%的音樂(lè)實(shí)踐者

可以發(fā)現(xiàn),盡管中國(guó)可能有30%到40%的孩子在小學(xué)時(shí)學(xué)習(xí)音樂(lè),但為什么他們大后和音樂(lè)商業(yè)所需的人才不匹配呢?這是因?yàn)樵谖覀兊囊魳?lè)教育中,更注重的是基礎(chǔ)樂(lè)理知識(shí)、唱和聲、曲式分析以及器樂(lè)培訓(xùn)等,這些最終會(huì)讓學(xué)生變成演奏機(jī)器。

然而,在真正的音樂(lè)實(shí)踐、娛樂(lè)和商業(yè)環(huán)境中,所需的是作詞、作曲、編曲、錄音、演唱以及后期處理等音樂(lè)生產(chǎn)過(guò)程的技能。作詞和作曲相對(duì)容易理解,編曲稱作伴奏。

伴奏是指歌曲中的聲音,如鼓、吉他、貝斯等樂(lè)器。要想精通編曲,需要克服的門檻非常高。現(xiàn)在,如果我有音樂(lè)興趣,想要將其實(shí)現(xiàn)成一個(gè)成品,就會(huì)發(fā)現(xiàn),這個(gè)過(guò)程既困難又昂貴,而且進(jìn)展緩慢。

接下來(lái),我將分享一下音樂(lè)生產(chǎn)工具在過(guò)去40年中的演變。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

首先是2000年以前,即音樂(lè)生產(chǎn)工具1.0時(shí)代,幾乎所有的音樂(lè)制作都依賴硬件錄音,那時(shí)的音樂(lè)作品很有情調(diào),因?yàn)橹挥凶顚I(yè)的音樂(lè)人才有機(jī)會(huì)參與錄音過(guò)程。

第二個(gè)階段,音樂(lè)生產(chǎn)工具2.0時(shí)代。蘋果、雅馬哈、Avid幾家公司推出了一個(gè)軟件——數(shù)字音樂(lè)工作站,這種軟件在電腦上運(yùn)行,門檻極高,但功能卻十分強(qiáng)大,能夠模擬鋼琴、吉他等傳統(tǒng)樂(lè)器的聲音,在電腦上使用MIDI和采樣器。

MIDI是一種按時(shí)序記錄聲音高低的數(shù)字協(xié)議,比如我在3分零626秒彈奏了一個(gè)音符,它會(huì)記錄這個(gè)音符的音高和時(shí)刻。通過(guò)記錄一系列這樣的數(shù)據(jù),最終可以用電腦合成出完整的音樂(lè)作品。

進(jìn)入2.5時(shí)代,音樂(lè)產(chǎn)業(yè)經(jīng)歷了一次重大變革。騰訊音樂(lè)娛樂(lè)集團(tuán)推動(dòng)了音樂(lè)娛樂(lè)的商業(yè)化,使得這個(gè)行業(yè)的收入達(dá)到了500億,并讓音樂(lè)人真正能夠賺到錢。

與此同時(shí),音樂(lè)生產(chǎn)工具也逐漸實(shí)現(xiàn)了移動(dòng)化。例如,有一種工具可以在電腦和手機(jī)上使用,并且功能也變得越來(lái)越強(qiáng)大。同時(shí),可以利用AI生成數(shù)字化的信號(hào)。

正在到來(lái)的就是音樂(lè)生產(chǎn)工具3.0——音頻模型,這類工具類似于語(yǔ)音的TTS模型。

在音樂(lè)領(lǐng)域,AI的生產(chǎn)方向大致可以分為兩類:音頻方案音樂(lè)符號(hào)方案。

在音頻方案中,我們公司于2018年開(kāi)始專注于音樂(lè)AI。當(dāng)時(shí)音頻模型尚未成熟,基本上是通過(guò)將數(shù)以百萬(wàn)計(jì)的歌曲進(jìn)行標(biāo)記,并將自然語(yǔ)言模型與音頻模型對(duì)應(yīng)起來(lái),以便通過(guò)一些Prompt來(lái)生成音頻。

在那個(gè)時(shí)期,由于音頻模型尚未成熟,大多數(shù)AI公司致力于音樂(lè)符號(hào)方案。

音樂(lè)符號(hào)方案的核心思想是從我們平時(shí)聽(tīng)到的歌曲中提取音樂(lè)信息,包括歌詞、旋律、演唱方式、和弦進(jìn)程、使用的樂(lè)器以及樂(lè)器的音色等,然后對(duì)這些信息進(jìn)行數(shù)字化標(biāo)注。通過(guò)對(duì)這些音樂(lè)符號(hào)進(jìn)行訓(xùn)練,可以生成新的音樂(lè)符號(hào)。最后,通過(guò)傳統(tǒng)的音樂(lè)制作流程,將這些音樂(lè)符號(hào)渲染成音頻。

這個(gè)過(guò)程涉及到三個(gè)主要技術(shù)領(lǐng)域:首先是音樂(lè)信息提取技術(shù),通常用于聽(tīng)歌識(shí)曲等功能;其次是AI作詞、AI作曲、AI編曲等技術(shù),用于生成音樂(lè)符號(hào);最終,將符號(hào)轉(zhuǎn)化為音頻的過(guò)程,就是以往數(shù)字音樂(lè)工作站所做的工作。

三、推演爆款音樂(lè)生成產(chǎn)品的技術(shù)方案,打造一站式音樂(lè)工作站

最近大家可能注意到Suno和Udio等產(chǎn)品頻繁出現(xiàn)在屏幕上,但實(shí)際上技術(shù)突破來(lái)自于MusicLMMusicGen。

這兩者是最早能夠通過(guò)自然語(yǔ)言與音頻進(jìn)行對(duì)位,并逐幀生成音頻的技術(shù),這是一種顛覆性的進(jìn)展,首次出現(xiàn)在前年年底到去年年初。而后出現(xiàn)的Suno和Udio則采用了音頻方案,如網(wǎng)易天音,還有例如天工SkyMusic,他們采用的是符號(hào)方案。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

音頻方案和符號(hào)方案各有特點(diǎn)。音頻方案是端到端模型,使得生成的音樂(lè)聽(tīng)起來(lái)更貼近真實(shí)、完整,融合度更高。而符號(hào)模型則能夠控制生成內(nèi)容的各個(gè)方面。我們認(rèn)為未來(lái)這兩種模型會(huì)融合發(fā)展。

MusicLM和MusicGen大致能夠生成的自然語(yǔ)言Prompt背景音樂(lè)作品,會(huì)有一個(gè)顯著的前景旋律,這對(duì)于推斷它們的技術(shù)實(shí)現(xiàn)方式將會(huì)非常有幫助,能判斷出這些作品都是基于音頻方案生成的結(jié)果。符號(hào)方案生成的音頻聽(tīng)起來(lái)可能音質(zhì)更高,但伴奏和人聲的融合程度沒(méi)那么好,純BGM大概就是這種效果。

符號(hào)方案和音頻方案使用了不同的技術(shù)棧。

在我們的符號(hào)方案中,我們采用了領(lǐng)先的算法。我們使用一個(gè)標(biāo)注工具來(lái)處理數(shù)據(jù)。以大家耳熟能詳?shù)摹镀呃锵恪窞槔?,在我們的?biāo)注工具中,頂部的藍(lán)色波形代表音頻文件,我們需要標(biāo)注其中的關(guān)鍵樂(lè)理信息。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

首先,自動(dòng)識(shí)別出這些藍(lán)色線,將它們與上方的11、12、13小節(jié)線對(duì)齊;接下來(lái),標(biāo)注旋律、歌詞、和弦、段落以及調(diào)式等音樂(lè)中重要的樂(lè)理信息;一旦完成了這些標(biāo)注,就可以使用單模態(tài)生成旋律,生成旋律和歌詞的對(duì)位,或者根據(jù)輸入的歌詞生成伴奏和旋律。有了大量這樣的數(shù)據(jù),我們就可以開(kāi)發(fā)出生成式AI模型。

由于音頻方案的火爆產(chǎn)品并未公開(kāi)其具體實(shí)現(xiàn)方式,我們通過(guò)大量實(shí)驗(yàn)進(jìn)行推測(cè),和大家分享我們對(duì)AI和音樂(lè)結(jié)合的認(rèn)知。我們認(rèn)為這種生產(chǎn)方式顛覆了我們對(duì)智能技術(shù)的認(rèn)知。

最近,音頻模型產(chǎn)品火了起來(lái)。我們看到這些產(chǎn)品的體驗(yàn)大致是這樣的:輸入一段歌詞和一些Prompt,就能生成完整音樂(lè)。

根據(jù)我們的推斷,它的算法可能是這樣的:首先,有了一批音樂(lè)數(shù)據(jù),同時(shí)標(biāo)注了對(duì)應(yīng)的歌詞。這種數(shù)據(jù)在QQ音樂(lè)等平臺(tái)上都可以直接獲取。另外,現(xiàn)在已經(jīng)有一項(xiàng)成熟的技術(shù)叫做人聲伴奏分離,可以將音頻中的人聲和伴奏分離開(kāi)來(lái)。

現(xiàn)場(chǎng)演示的人聲里帶有和聲。在訓(xùn)練時(shí),我現(xiàn)在只看到前三行,大概是將音頻進(jìn)行切片,然后通過(guò)一個(gè)分離的BGM和其中標(biāo)注的歌詞來(lái)生成最終完整的音樂(lè)。這是模型大概的工作原理。

因此,我們最終看到的是,輸入一個(gè)Prompt,它會(huì)從一個(gè)BGM庫(kù)中找到與之最匹配的音頻片段,然后根據(jù)輸入的歌詞或者想要的樂(lè)器,在原始音頻上疊加一個(gè)人聲模型。它們對(duì)音樂(lè)的理解與我們不太一樣,它們將音樂(lè)理解為一個(gè)人聽(tīng)著伴奏,朗讀歌詞的TTS模型。整個(gè)過(guò)程是一個(gè)端到端的模型,所以在整個(gè)音樂(lè)中,伴奏和人聲的融合效果非常好。

四、一站式低門檻音樂(lè)創(chuàng)編軟件“和弦派”:解決可控性、兼容性、跨平臺(tái)三大挑戰(zhàn)

我剛剛分享了一下音樂(lè)行業(yè)的整體情況,以及音頻模型、符號(hào)模型等的大致工作原理?,F(xiàn)在我想分享一下我們自己的產(chǎn)品,叫做“和弦派”。它是一個(gè)移動(dòng)端一站式的低門檻音樂(lè)創(chuàng)編軟件,AI在其中發(fā)揮了很大的作用。我們希望通過(guò)這個(gè)產(chǎn)品解決幾個(gè)問(wèn)題。

第一,我們希望AI是可控的。但是在音樂(lè)中,我們重新定義了控制的方式。例如,我們現(xiàn)在談?wù)撊绾蚊枋鲆魳?lè)知識(shí),大多數(shù)人可能首先想到的是五線譜。然而,五線譜是兩百年前的產(chǎn)物,當(dāng)時(shí)還沒(méi)有留聲機(jī)。五線譜的目的是記錄音樂(lè)應(yīng)該如何演奏,而不是現(xiàn)在流行音樂(lè)中常見(jiàn)的記錄方式。我們希望音樂(lè)有一種更直觀的控制方式。

第二,過(guò)去我們?cè)趧?chuàng)作音樂(lè)時(shí),可能會(huì)用Word來(lái)寫歌詞,用錄音機(jī)來(lái)錄制曲子。我們希望能夠?qū)⑦@些功能整合到一個(gè)平臺(tái)上,實(shí)現(xiàn)一站式的音樂(lè)創(chuàng)作體驗(yàn)。另外,在制作人和音樂(lè)人這個(gè)行業(yè),每個(gè)人購(gòu)買的音源可能不同,這就導(dǎo)致了互相之間的工程文件無(wú)法兼容的問(wèn)題。我們希望能夠解決這個(gè)問(wèn)題,讓不同音源之間的工程文件能夠互相兼容。

第三,我們希望能夠在手機(jī)上完成創(chuàng)作音樂(lè)這件事情,而不是打開(kāi)電腦。然而,在手機(jī)上進(jìn)行音樂(lè)創(chuàng)作確實(shí)存在很大的困難。例如,在安卓系統(tǒng)下,實(shí)際上沒(méi)有一個(gè)很好的音頻引擎來(lái)支持這項(xiàng)開(kāi)發(fā)工作。因此,我們花了很多時(shí)間去開(kāi)發(fā)跨平臺(tái)的音頻引擎,以解決這個(gè)問(wèn)題。

我們的整體設(shè)計(jì)思路如下,這是音樂(lè)功能譜。首先,我們意識(shí)到這個(gè)產(chǎn)品并不是面向全人類的,而是針對(duì)人類中大約10%的用戶。功能譜基本上是音樂(lè)愛(ài)好者需要了解的內(nèi)容,其中包括段落和和弦,告訴樂(lè)手如何演奏;還包括旋律和歌詞,告訴歌手如何演唱。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

流行音樂(lè)并不那么復(fù)雜,通常只包含一個(gè)伴奏和一個(gè)人聲。人聲部分由數(shù)字表示,例如“Do、Re、Mi、Do、Re、Mi”,并附帶歌詞,以指導(dǎo)歌手的演唱。而剩下的段落和和弦則指導(dǎo)所有樂(lè)器如何演奏。簡(jiǎn)而言之,就是這兩部分構(gòu)成了音樂(lè)功能譜。

我們通過(guò)創(chuàng)作功能譜或者采用其他方法呈現(xiàn),創(chuàng)造了音樂(lè)。將功能譜轉(zhuǎn)化為聲音,這是音樂(lè)創(chuàng)作;將功能譜變成我們能聽(tīng)到的音樂(lè),這是音樂(lè)制作。這個(gè)過(guò)程最終形成了我們的產(chǎn)品——和弦派。

在和弦派中,我們提供了一個(gè)功能譜的編輯頁(yè)面。你可以隨意輸入和弦、旋律和歌詞。通過(guò)AI輔助編曲功能,你可以生成伴奏;通過(guò)AI的歌聲合成功能,你可以讓這些輸入內(nèi)容被演唱出來(lái)。

借助大量的詞、曲和和弦對(duì)位數(shù)據(jù),我們能實(shí)現(xiàn)旋律生成和弦、和弦生成旋律等功能。這意味著你可以輸入一段歌詞,我們就能為你生成一首完整的歌曲;或者,你哼唱一段旋律,我們能為你配上和弦和伴奏。這一切都可以在一個(gè)軟件中一站式完成。

針對(duì)不同的用戶,我們提供了各種交互式體驗(yàn)。例如,對(duì)于中度實(shí)踐用戶,基于大型語(yǔ)言模型的理解能力,能生成歌詞,并根據(jù)這些歌詞生成音樂(lè)的其他信息;對(duì)于深度實(shí)踐用戶,他們通常已經(jīng)理解了和弦的概念,但可能對(duì)和弦的具體細(xì)節(jié)不夠了解;對(duì)于更深度的音樂(lè)人,他們可以編輯所有的和弦,調(diào)整音高,并修改歌詞,以快速創(chuàng)建所需的BGM。

我們可以關(guān)閉吉他軌道,換成電吉他,并調(diào)整演奏方式,即使不懂吉他也能自由創(chuàng)作。我們已經(jīng)有許多用戶通過(guò)這種方式制作出了不錯(cuò)的作品,其中有些甚至深深打動(dòng)了我。

我們的整體產(chǎn)品都能在一個(gè)手機(jī)軟件里一站式輸出。我們堅(jiān)定地致力于移動(dòng)端產(chǎn)品,因?yàn)槲覀兿嘈旁S多00后和05后的孩子并不太習(xí)慣使用電腦。我們預(yù)見(jiàn)未來(lái)的音樂(lè)制作大部分流程都將在手機(jī)上完成。只有在最后需要進(jìn)行精細(xì)調(diào)整時(shí),才會(huì)轉(zhuǎn)移到電腦上進(jìn)行。

五、2025或?qū)崿F(xiàn)AI生成伴奏,上傳30秒人聲就能用自己聲音演唱歌曲

讓我們來(lái)談?wù)勎覀儗?duì)音樂(lè)產(chǎn)業(yè)未來(lái)發(fā)展的看法。

首先,我們認(rèn)為在音樂(lè)消費(fèi)端,AI和大數(shù)據(jù)等技術(shù)的發(fā)展不會(huì)帶來(lái)太大的變化。因?yàn)橐魳?lè)行業(yè)本身就是一個(gè)供大于求的行業(yè),AI的出現(xiàn)雖然提高了生產(chǎn)效率,但并不會(huì)對(duì)行業(yè)生態(tài)造成巨大的影響。然而,在音樂(lè)生產(chǎn)端,我們相信將會(huì)有越來(lái)越多的人參與其中,進(jìn)行實(shí)踐,從中獲得樂(lè)趣。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

新的音頻模型可以通過(guò)一個(gè)簡(jiǎn)單的Prompt生成出完整的BGM,而TTS模型可以生成完整的歌曲。接下來(lái),我們可以預(yù)見(jiàn),人們將能夠自己制作個(gè)性化的BGM,并在其上填寫歌詞。每一句歌詞都可以重新編輯,例如,如果覺(jué)得第二句不夠理想,就可以重新編寫。

與此同時(shí),音量調(diào)整也將變得更加靈活。我們相信,在今年年底,不止一家公司將推出這樣的產(chǎn)品。到那時(shí),音樂(lè)制作過(guò)程將變得更加普及化。音樂(lè)人們可能會(huì)首先選擇一個(gè)自己喜歡的BGM,然后利用語(yǔ)言模型為歌詞尋找靈感,并逐句進(jìn)行修改和嘗試。最終,他們可以按照傳統(tǒng)的錄音和音樂(lè)制作工作流程完成作品,并進(jìn)行發(fā)布。

明年大概就能實(shí)現(xiàn)自然語(yǔ)言生成伴奏的功能,而且音質(zhì)應(yīng)該也會(huì)相當(dāng)不錯(cuò)。你只需上傳大約30秒的人聲素材,就能夠用你自己的聲音來(lái)演唱歌曲。音質(zhì)會(huì)達(dá)到基本可用的水平。

到那時(shí),我們就可以摒棄傳統(tǒng)的錄音或者“MIDI+采樣器”的工作流程,轉(zhuǎn)而使用“BGM+歌詞”的輸入方式。我們只需要進(jìn)行簡(jiǎn)單的粗顆粒度修改,利用音頻模型調(diào)整音樂(lè),直到滿意為止,然后就可以直接發(fā)行作品。

DeepMusic劉曉光:深度解讀AIGC音樂(lè)創(chuàng)作技術(shù)原理,明年實(shí)現(xiàn)一鍵生成自唱歌曲丨GenAICon 2024

那時(shí)我們對(duì)于音樂(lè)制作工具的理解可能會(huì)回歸到我設(shè)定一首歌,包括前奏、間奏和副歌等部分,然后在其中輸入歌詞。我們可以將歌曲分割成不同的區(qū)域,并在每個(gè)區(qū)域選擇不同的樂(lè)器庫(kù)。用戶可以通過(guò)拖拽樂(lè)器到相應(yīng)的區(qū)域,并指示該樂(lè)器的演奏方式,最終就能夠生成整首音樂(lè)。

最終實(shí)現(xiàn)這樣的體驗(yàn),必然需要結(jié)合錄音、MIDI、采樣器以及音頻模型等技術(shù)。國(guó)內(nèi)在音頻模型方面可能會(huì)有一些差距,但我們堅(jiān)信,對(duì)于未來(lái)面向音樂(lè)人和音樂(lè)愛(ài)好者的產(chǎn)品,我們所做的積累毫無(wú)疑問(wèn)是有意義的。

以上是劉曉光演講內(nèi)容的完整整理。