12月5日-6日,由智東西與智猩猩聯(lián)合主辦的2024中國(guó)生成式AI大會(huì)(上海站)在上海圓滿舉行。在大會(huì)首日的主會(huì)場(chǎng)上,趣丸科技副總裁賈朔以《探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐》為題發(fā)表了演講。
賈朔認(rèn)為,2024年是AIGC音樂爆發(fā)元年,人工智能的創(chuàng)新發(fā)展大大降低了音樂創(chuàng)作門檻,音樂創(chuàng)作賽道終于迎來了“創(chuàng)作平權(quán)”時(shí)刻,普通用戶也能用低門檻的方式體驗(yàn)音樂創(chuàng)作的樂趣。
音樂生成之所以是被LLM浪潮覆蓋的最后一種模態(tài),成為漏網(wǎng)之魚,源自于音樂的特殊性——時(shí)間序列性、多層次結(jié)構(gòu)、情感一致性、評(píng)估主觀模糊性。
目前Diffusion in Transformer(DiT)成為大多數(shù)閉源的主流選擇,而國(guó)產(chǎn)AI音樂的歌聲自然度更是突破人耳識(shí)別閾值,效果比肩美國(guó)頭部模型。
賈朔分享了人與音樂的AI交互形式的變化,從文生音樂,到三鍵成曲,再到哼唱成曲。今年7月份,天譜樂全球首發(fā)多模態(tài)音樂生成模型,支持視頻成曲和圖片成曲功能,一鍵根據(jù)用戶視頻或圖片生成一首完整的音樂。
此外,賈朔在現(xiàn)場(chǎng)首次預(yù)告天譜樂的新功能——MidiRender,功能類比于一個(gè)精準(zhǔn)、可控音樂版的Control Net,專業(yè)的創(chuàng)作用戶可以輸入自己的音樂構(gòu)想,讓天譜樂AI根據(jù)這個(gè)原創(chuàng)音樂片段填充歌詞、完成編曲。
以下為賈朔的演講實(shí)錄:
一、2024年是AI音樂爆發(fā)元年,迎來“創(chuàng)作平權(quán)”時(shí)刻
2024年是一個(gè)重要的年份,音樂創(chuàng)作賽道終于迎來“創(chuàng)作平權(quán)”時(shí)刻。
文字、圖片、視頻這些模態(tài)的創(chuàng)作平權(quán)問題早在移動(dòng)互聯(lián)網(wǎng)時(shí)代已經(jīng)被解決。一個(gè)普通人想要?jiǎng)?chuàng)作這些,都可以輕松實(shí)現(xiàn)。因?yàn)橐苿?dòng)互聯(lián)網(wǎng)時(shí)代的一個(gè)主線任務(wù),就是不斷降低創(chuàng)作門檻,實(shí)現(xiàn)全民UGC內(nèi)容創(chuàng)作。
但是,音樂屬于移動(dòng)互聯(lián)網(wǎng)時(shí)代的一個(gè)漏網(wǎng)之魚。普通人想要用簡(jiǎn)單的操作在手機(jī)上完成低門檻音樂創(chuàng)作,是比較難的。到了2024年,AIGC到來的時(shí)代,這個(gè)任務(wù)終于要被完成了。

這里整理了各個(gè)模態(tài)成熟的時(shí)間線??梢詴?huì)看到這一波生成式人工智能的浪潮。有幾個(gè)標(biāo)志性的事件,比如說文本生成,代表事件像ChatGPT率先發(fā)布3.5版本,把文本生成,特別是基于transformer的交互對(duì)話把熱度給點(diǎn)燃了。緊隨其后是文生圖也在2023年前后成熟,普通人輸入一段簡(jiǎn)單的文字咒語,就可以輸出非常專業(yè)的圖片效果,甚至是近似照片的圖像。文生視頻是在2023年底到2024年年初,Sora的出現(xiàn)讓文生視頻率先進(jìn)入AIGC成熟的臨界點(diǎn)。反倒是音樂在這幾個(gè)主流模態(tài)里面,它是最后一個(gè)成熟的。
二、天然特殊性讓音樂生成需要克服四大難題
為什么音樂總是最后一個(gè)?它有哪些特殊性?我們天譜樂團(tuán)隊(duì)深耕這個(gè)行業(yè)很長(zhǎng)時(shí)間,對(duì)音樂生成有一些理解,主要反映在四個(gè)方面。
首先,它需要很強(qiáng)的“時(shí)間序列性”。一首音樂三分鐘,它的時(shí)間順序要遵循音樂上的規(guī)律跟結(jié)構(gòu)。如果結(jié)構(gòu)錯(cuò)了,人可以很容易識(shí)別出來它不自然,它不是人類生成的。
其次,是“多層次結(jié)構(gòu)”。大家如果平時(shí)聽音樂比較多的話,會(huì)留意到一首音樂的編曲里面,會(huì)有非常多的空間編排。比如說人聲可能是靠前或靠后,同時(shí)你的左側(cè)可能有一個(gè)架子鼓,右側(cè)有一個(gè)大提琴或小提琴,這些會(huì)帶來非常多的空間結(jié)構(gòu)信息,在生成領(lǐng)域它同樣需要解決和克服。

第三點(diǎn),情感一致性。眾所周知,音樂是用來統(tǒng)一情緒的一種工具。同時(shí),如果一個(gè)音樂作品80%的部分非常符合邏輯,但是唯獨(dú)有一兩個(gè)音稍微有點(diǎn)瑕疵,達(dá)不到人類對(duì)這個(gè)音樂的效果預(yù)期。人類就會(huì)瞬間識(shí)別出來。如果同樣的事情發(fā)生在文生圖,一些小瑕疵可能不會(huì)產(chǎn)生特別嚴(yán)重的問題。
第四點(diǎn),評(píng)價(jià)主觀模糊性。大家做大模型、做AIGC生成,經(jīng)常做一些跑分題庫(kù)去量化、評(píng)價(jià)一個(gè)模型效果好壞?但是在音樂領(lǐng)域,它的評(píng)價(jià)非常主觀。你問一個(gè)人這個(gè)音樂好不好,他會(huì)回答喜歡或者不喜歡。但是,對(duì)一個(gè)音樂的喜好評(píng)價(jià),并沒有太多建設(shè)性的反饋價(jià)值。同時(shí),這個(gè)評(píng)價(jià)有模糊性、主觀性,更多取決于個(gè)人的審美偏好,而非音樂質(zhì)量高低。
三、國(guó)產(chǎn)AI音樂歌聲自然度比肩美國(guó)頭部模型
在當(dāng)下這個(gè)時(shí)間節(jié)點(diǎn),做一個(gè)音樂生成大模型或產(chǎn)品的選擇空間并不大。音樂生成不像其它模態(tài)有成熟的開源方案。事實(shí)上,無論在國(guó)內(nèi)還是國(guó)外,基本都是閉源項(xiàng)目主導(dǎo),要么從預(yù)訓(xùn)練環(huán)節(jié)開始自己訓(xùn)練,要么直接套殼。
我們看到,在技術(shù)路線選擇上,今年有一個(gè)比較明顯的趨勢(shì),Diffusion in Transformer(DiT)成為大多數(shù)閉源的主流選擇。包括Suno CEO在一個(gè)公開分享中也提到,Transformer更適合處理時(shí)序結(jié)構(gòu)上的問題,而Diffusion更適合處理一些高維空間問題。
當(dāng)然,盡管大家的技術(shù)路線選擇一致,但是具體的架構(gòu)設(shè)計(jì)還是存在非常大的差異。例如造車必須有四個(gè)輪子,但是輪子應(yīng)該怎么設(shè)計(jì)大家各有不同。
今年除了搞技術(shù)的對(duì)音樂感興趣,音樂人也很關(guān)心。我們跟一些音樂人溝通,現(xiàn)在音樂生成效果這么好,什么問題導(dǎo)致他們無法使用這些AI工具。他們回答兩個(gè)點(diǎn),第一點(diǎn),人聲的自然度問題。舉個(gè)例子,在3D建模有一個(gè)很有名的效應(yīng),叫做恐怖谷效應(yīng)。即一個(gè)東西已經(jīng)有九分像,就差10%,但是人類可以很快識(shí)別出來,并且對(duì)它產(chǎn)生厭惡和反抗情緒。
為了攻克這個(gè)問題,天譜樂團(tuán)隊(duì)從模型結(jié)構(gòu)上調(diào)整了幾十版,實(shí)驗(yàn)上百次,最后我們認(rèn)為拿出了一個(gè)比較有競(jìng)爭(zhēng)力的結(jié)果。

我們拿天譜樂最新的版本跟音樂人交流,音樂人給了很高的評(píng)價(jià)。他們說AI音樂這個(gè)賽道仿佛到了圍棋遇到AlphaGo的時(shí)刻。同時(shí),我們也找了音樂高校學(xué)生,他們具備專業(yè)的音樂訓(xùn)練,可以比普通人給出更專業(yè)的評(píng)價(jià)。我們做了一個(gè)盲測(cè),用相同的Prompt測(cè)試了50條輸出音樂,讓音樂高校學(xué)生盲測(cè)給天譜樂和國(guó)內(nèi)外產(chǎn)品打分,最終結(jié)果是天譜樂AI最新2.2版本的中文人聲唱詞已經(jīng)達(dá)到一個(gè)新的天花板水平,歌聲自然度更是突破人耳識(shí)別閾值,效果比肩美國(guó)頭部模型。
▲天譜樂AI生成歌曲《堵》
四、首創(chuàng)圖頻生曲功能革新AI音樂交互形式
文生音樂是最適合的交互方式嗎?很多人覺得“搖歌”這個(gè)事情就像開盲盒,覺得“音樂效果不錯(cuò),但是跟我有什么關(guān)系呢?

針對(duì)這個(gè)命題,天譜樂團(tuán)隊(duì)做了一系列的探索,我們?cè)?023年推出“三鍵成曲”模式,用戶輸入三個(gè)音即可擴(kuò)寫形成一首完整歌曲。2024年天譜樂進(jìn)一步推出“哼唱成曲”,很多人在洗澡的時(shí)候會(huì)隨心哼唱一段,同樣可以擴(kuò)寫成歌曲。
當(dāng)然,這些可能都還不夠簡(jiǎn)單,怎樣才能讓音樂創(chuàng)作更簡(jiǎn)單呢?類似移動(dòng)互聯(lián)網(wǎng)時(shí)期的手機(jī)攝像頭就是最平權(quán)的輸入媒介,人人都能拿起手機(jī)拍一拍照。我們?cè)谙?,如果用戶旅游中拍了一張照片、一段視頻,天譜樂是否可以幫他生成一個(gè)完整的作品?
帶著這個(gè)想法,天譜樂首發(fā)了全球首個(gè)多模態(tài)音樂生成模型。這個(gè)模型可以理解畫面的內(nèi)容、情緒,從而自動(dòng)匹配最合適的歌曲。
▲天譜樂視頻生曲
五、AI如何為人類創(chuàng)造更大價(jià)值
2024年整個(gè)AI音樂賽道的門檻終于被徹底打下來了。圖片創(chuàng)作、視頻創(chuàng)作、音樂創(chuàng)作確實(shí)到了人類歷史最簡(jiǎn)單的一個(gè)時(shí)代。
前幾周我跟一個(gè)湖畔大學(xué)的老師交流,他提到一個(gè)新的問題:天譜樂這個(gè)AI音樂工具能幫助人類作曲家作出更好的音樂嗎?當(dāng)時(shí)我思考了很久,我們做這個(gè)模型目的是什么?只是讓更多人可以輕松創(chuàng)作出60分的音樂嗎?還是可以創(chuàng)造更大的價(jià)值,輔助人類不斷突破創(chuàng)意天花板,創(chuàng)作出更好的內(nèi)容呢?
我們發(fā)現(xiàn)市面上普遍的音樂生成大模型,除了人聲不好之外,很重要的問題是現(xiàn)在的AI不聽話,不按照作曲家、音樂人的意圖創(chuàng)作,AI過多地自由發(fā)揮。

所以基于這個(gè)思考,我們拿出了一個(gè)新功能,今天是第一次正式地對(duì)外亮相,天譜樂下一個(gè)版本會(huì)發(fā)布的一個(gè)叫MidiRender的功能。大概介紹一下這個(gè)功能。在文生圖領(lǐng)域有一個(gè)非常重要的發(fā)展節(jié)點(diǎn),就是Control Net的出現(xiàn),讓文生圖變得非??煽亍I音樂也需要類似的一個(gè)東西。第一步是核心的創(chuàng)意部分,我們還是希望人類作曲家來主導(dǎo),用樂器、編曲軟件都好,先去彈一段基礎(chǔ)的動(dòng)機(jī)旋律。第二步,在以前人類作曲家從創(chuàng)作一段動(dòng)機(jī)旋律到完成一首完整的創(chuàng)作,往往要花幾周甚至幾個(gè)月的時(shí)間。而現(xiàn)在,天譜樂AI完全有能力來加速完成這個(gè)動(dòng)作。大家聽DEMO可以感受到,最終出來的音樂跟最初人類作曲家的動(dòng)機(jī)旋律是完全匹配的。這也是我們認(rèn)為AI大模型作為工具,可以為藝術(shù)家服務(wù)的一個(gè)事情,而不是去搶奪創(chuàng)作主導(dǎo)權(quán)。
▲輸入音頻
▲生成結(jié)果
翻開人類歷史,人類可能真正擅長(zhǎng)的有兩件事情。第一件事情是犯重復(fù)的錯(cuò)誤,比如周期性的謎之自信,覺得可以創(chuàng)造出比自己更聰明的東西。第二件事情是人類非常擅長(zhǎng)制造工具。人類每一次制造一個(gè)新的工具,都在不斷拓展自己能力的外延,所以今天人類才徹底成為這個(gè)星球的霸主。所以我認(rèn)為技術(shù)最終還是要服務(wù)于人,技術(shù)的出現(xiàn)不是為了取代人類工作,而是幫助人類創(chuàng)造更美麗的東西。
以上是賈朔演講內(nèi)容的完整整理。