12月5日-6日，由智東西與智猩猩聯(lián)合主辦的2024中國(guó)生成式AI大會(huì)（上海站）在上海圓滿舉行。在大會(huì)首日的主會(huì)場(chǎng)上，趣丸科技副總裁賈朔以《探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐》為題發(fā)表了演講。

賈朔認(rèn)為，2024年是AIGC音樂爆發(fā)元年，人工智能的創(chuàng)新發(fā)展大大降低了音樂創(chuàng)作門檻，音樂創(chuàng)作賽道終于迎來了“創(chuàng)作平權(quán)”時(shí)刻，普通用戶也能用低門檻的方式體驗(yàn)音樂創(chuàng)作的樂趣。

音樂生成之所以是被LLM浪潮覆蓋的最后一種模態(tài)，成為漏網(wǎng)之魚，源自于音樂的特殊性——時(shí)間序列性、多層次結(jié)構(gòu)、情感一致性、評(píng)估主觀模糊性。

目前Diffusion in Transformer（DiT）成為大多數(shù)閉源的主流選擇，而國(guó)產(chǎn)AI音樂的歌聲自然度更是突破人耳識(shí)別閾值，效果比肩美國(guó)頭部模型。

賈朔分享了人與音樂的AI交互形式的變化，從文生音樂，到三鍵成曲，再到哼唱成曲。今年7月份，天譜樂全球首發(fā)多模態(tài)音樂生成模型，支持視頻成曲和圖片成曲功能，一鍵根據(jù)用戶視頻或圖片生成一首完整的音樂。

此外，賈朔在現(xiàn)場(chǎng)首次預(yù)告天譜樂的新功能——MidiRender，功能類比于一個(gè)精準(zhǔn)、可控音樂版的Control Net，專業(yè)的創(chuàng)作用戶可以輸入自己的音樂構(gòu)想，讓天譜樂AI根據(jù)這個(gè)原創(chuàng)音樂片段填充歌詞、完成編曲。

以下為賈朔的演講實(shí)錄：

一、2024年是AI音樂爆發(fā)元年，迎來“創(chuàng)作平權(quán)”時(shí)刻

2024年是一個(gè)重要的年份，音樂創(chuàng)作賽道終于迎來“創(chuàng)作平權(quán)”時(shí)刻。

文字、圖片、視頻這些模態(tài)的創(chuàng)作平權(quán)問題早在移動(dòng)互聯(lián)網(wǎng)時(shí)代已經(jīng)被解決。一個(gè)普通人想要?jiǎng)?chuàng)作這些，都可以輕松實(shí)現(xiàn)。因?yàn)橐苿?dòng)互聯(lián)網(wǎng)時(shí)代的一個(gè)主線任務(wù)，就是不斷降低創(chuàng)作門檻，實(shí)現(xiàn)全民UGC內(nèi)容創(chuàng)作。

但是，音樂屬于移動(dòng)互聯(lián)網(wǎng)時(shí)代的一個(gè)漏網(wǎng)之魚。普通人想要用簡(jiǎn)單的操作在手機(jī)上完成低門檻音樂創(chuàng)作，是比較難的。到了2024年，AIGC到來的時(shí)代，這個(gè)任務(wù)終于要被完成了。

趣丸科技賈朔：探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐

這里整理了各個(gè)模態(tài)成熟的時(shí)間線?？梢詴?huì)看到這一波生成式人工智能的浪潮。有幾個(gè)標(biāo)志性的事件，比如說文本生成，代表事件像ChatGPT率先發(fā)布3.5版本，把文本生成，特別是基于transformer的交互對(duì)話把熱度給點(diǎn)燃了。緊隨其后是文生圖也在2023年前后成熟，普通人輸入一段簡(jiǎn)單的文字咒語，就可以輸出非常專業(yè)的圖片效果，甚至是近似照片的圖像。文生視頻是在2023年底到2024年年初，Sora的出現(xiàn)讓文生視頻率先進(jìn)入AIGC成熟的臨界點(diǎn)。反倒是音樂在這幾個(gè)主流模態(tài)里面，它是最后一個(gè)成熟的。

二、天然特殊性讓音樂生成需要克服四大難題

為什么音樂總是最后一個(gè)？它有哪些特殊性？我們天譜樂團(tuán)隊(duì)深耕這個(gè)行業(yè)很長(zhǎng)時(shí)間，對(duì)音樂生成有一些理解，主要反映在四個(gè)方面。

首先，它需要很強(qiáng)的“時(shí)間序列性”。一首音樂三分鐘，它的時(shí)間順序要遵循音樂上的規(guī)律跟結(jié)構(gòu)。如果結(jié)構(gòu)錯(cuò)了，人可以很容易識(shí)別出來它不自然，它不是人類生成的。

其次，是“多層次結(jié)構(gòu)”。大家如果平時(shí)聽音樂比較多的話，會(huì)留意到一首音樂的編曲里面，會(huì)有非常多的空間編排。比如說人聲可能是靠前或靠后，同時(shí)你的左側(cè)可能有一個(gè)架子鼓，右側(cè)有一個(gè)大提琴或小提琴，這些會(huì)帶來非常多的空間結(jié)構(gòu)信息，在生成領(lǐng)域它同樣需要解決和克服。

趣丸科技賈朔：探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐

第三點(diǎn)，情感一致性。眾所周知，音樂是用來統(tǒng)一情緒的一種工具。同時(shí)，如果一個(gè)音樂作品80%的部分非常符合邏輯，但是唯獨(dú)有一兩個(gè)音稍微有點(diǎn)瑕疵，達(dá)不到人類對(duì)這個(gè)音樂的效果預(yù)期。人類就會(huì)瞬間識(shí)別出來。如果同樣的事情發(fā)生在文生圖，一些小瑕疵可能不會(huì)產(chǎn)生特別嚴(yán)重的問題。

第四點(diǎn)，評(píng)價(jià)主觀模糊性。大家做大模型、做AIGC生成，經(jīng)常做一些跑分題庫(kù)去量化、評(píng)價(jià)一個(gè)模型效果好壞？但是在音樂領(lǐng)域，它的評(píng)價(jià)非常主觀。你問一個(gè)人這個(gè)音樂好不好，他會(huì)回答喜歡或者不喜歡。但是，對(duì)一個(gè)音樂的喜好評(píng)價(jià)，并沒有太多建設(shè)性的反饋價(jià)值。同時(shí)，這個(gè)評(píng)價(jià)有模糊性、主觀性，更多取決于個(gè)人的審美偏好，而非音樂質(zhì)量高低。

三、國(guó)產(chǎn)AI音樂歌聲自然度比肩美國(guó)頭部模型

在當(dāng)下這個(gè)時(shí)間節(jié)點(diǎn)，做一個(gè)音樂生成大模型或產(chǎn)品的選擇空間并不大。音樂生成不像其它模態(tài)有成熟的開源方案。事實(shí)上，無論在國(guó)內(nèi)還是國(guó)外，基本都是閉源項(xiàng)目主導(dǎo)，要么從預(yù)訓(xùn)練環(huán)節(jié)開始自己訓(xùn)練，要么直接套殼。

我們看到，在技術(shù)路線選擇上，今年有一個(gè)比較明顯的趨勢(shì)，Diffusion in Transformer（DiT）成為大多數(shù)閉源的主流選擇。包括Suno CEO在一個(gè)公開分享中也提到，Transformer更適合處理時(shí)序結(jié)構(gòu)上的問題，而Diffusion更適合處理一些高維空間問題。

當(dāng)然，盡管大家的技術(shù)路線選擇一致，但是具體的架構(gòu)設(shè)計(jì)還是存在非常大的差異。例如造車必須有四個(gè)輪子，但是輪子應(yīng)該怎么設(shè)計(jì)大家各有不同。

今年除了搞技術(shù)的對(duì)音樂感興趣，音樂人也很關(guān)心。我們跟一些音樂人溝通，現(xiàn)在音樂生成效果這么好，什么問題導(dǎo)致他們無法使用這些AI工具。他們回答兩個(gè)點(diǎn)，第一點(diǎn)，人聲的自然度問題。舉個(gè)例子，在3D建模有一個(gè)很有名的效應(yīng)，叫做恐怖谷效應(yīng)。即一個(gè)東西已經(jīng)有九分像，就差10%，但是人類可以很快識(shí)別出來，并且對(duì)它產(chǎn)生厭惡和反抗情緒。

為了攻克這個(gè)問題，天譜樂團(tuán)隊(duì)從模型結(jié)構(gòu)上調(diào)整了幾十版，實(shí)驗(yàn)上百次，最后我們認(rèn)為拿出了一個(gè)比較有競(jìng)爭(zhēng)力的結(jié)果。

趣丸科技賈朔：探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐

我們拿天譜樂最新的版本跟音樂人交流，音樂人給了很高的評(píng)價(jià)。他們說AI音樂這個(gè)賽道仿佛到了圍棋遇到AlphaGo的時(shí)刻。同時(shí)，我們也找了音樂高校學(xué)生，他們具備專業(yè)的音樂訓(xùn)練，可以比普通人給出更專業(yè)的評(píng)價(jià)。我們做了一個(gè)盲測(cè)，用相同的Prompt測(cè)試了50條輸出音樂，讓音樂高校學(xué)生盲測(cè)給天譜樂和國(guó)內(nèi)外產(chǎn)品打分，最終結(jié)果是天譜樂AI最新2.2版本的中文人聲唱詞已經(jīng)達(dá)到一個(gè)新的天花板水平，歌聲自然度更是突破人耳識(shí)別閾值，效果比肩美國(guó)頭部模型。

▲天譜樂AI生成歌曲《堵》

四、首創(chuàng)圖頻生曲功能革新AI音樂交互形式

文生音樂是最適合的交互方式嗎？很多人覺得“搖歌”這個(gè)事情就像開盲盒，覺得“音樂效果不錯(cuò)，但是跟我有什么關(guān)系呢？

趣丸科技賈朔：探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐

針對(duì)這個(gè)命題，天譜樂團(tuán)隊(duì)做了一系列的探索，我們?cè)?023年推出“三鍵成曲”模式，用戶輸入三個(gè)音即可擴(kuò)寫形成一首完整歌曲。2024年天譜樂進(jìn)一步推出“哼唱成曲”，很多人在洗澡的時(shí)候會(huì)隨心哼唱一段，同樣可以擴(kuò)寫成歌曲。

當(dāng)然，這些可能都還不夠簡(jiǎn)單，怎樣才能讓音樂創(chuàng)作更簡(jiǎn)單呢？類似移動(dòng)互聯(lián)網(wǎng)時(shí)期的手機(jī)攝像頭就是最平權(quán)的輸入媒介，人人都能拿起手機(jī)拍一拍照。我們?cè)谙?，如果用戶旅游中拍了一張照片、一段視頻，天譜樂是否可以幫他生成一個(gè)完整的作品？

帶著這個(gè)想法，天譜樂首發(fā)了全球首個(gè)多模態(tài)音樂生成模型。這個(gè)模型可以理解畫面的內(nèi)容、情緒，從而自動(dòng)匹配最合適的歌曲。

▲天譜樂視頻生曲

五、AI如何為人類創(chuàng)造更大價(jià)值

2024年整個(gè)AI音樂賽道的門檻終于被徹底打下來了。圖片創(chuàng)作、視頻創(chuàng)作、音樂創(chuàng)作確實(shí)到了人類歷史最簡(jiǎn)單的一個(gè)時(shí)代。

前幾周我跟一個(gè)湖畔大學(xué)的老師交流，他提到一個(gè)新的問題：天譜樂這個(gè)AI音樂工具能幫助人類作曲家作出更好的音樂嗎？當(dāng)時(shí)我思考了很久，我們做這個(gè)模型目的是什么？只是讓更多人可以輕松創(chuàng)作出60分的音樂嗎？還是可以創(chuàng)造更大的價(jià)值，輔助人類不斷突破創(chuàng)意天花板，創(chuàng)作出更好的內(nèi)容呢？

我們發(fā)現(xiàn)市面上普遍的音樂生成大模型，除了人聲不好之外，很重要的問題是現(xiàn)在的AI不聽話，不按照作曲家、音樂人的意圖創(chuàng)作，AI過多地自由發(fā)揮。

趣丸科技賈朔：探索音樂創(chuàng)作的技術(shù)平權(quán)——AI音樂的創(chuàng)新實(shí)踐

所以基于這個(gè)思考，我們拿出了一個(gè)新功能，今天是第一次正式地對(duì)外亮相，天譜樂下一個(gè)版本會(huì)發(fā)布的一個(gè)叫MidiRender的功能。大概介紹一下這個(gè)功能。在文生圖領(lǐng)域有一個(gè)非常重要的發(fā)展節(jié)點(diǎn)，就是Control Net的出現(xiàn)，讓文生圖變得非?？煽亍I音樂也需要類似的一個(gè)東西。第一步是核心的創(chuàng)意部分，我們還是希望人類作曲家來主導(dǎo)，用樂器、編曲軟件都好，先去彈一段基礎(chǔ)的動(dòng)機(jī)旋律。第二步，在以前人類作曲家從創(chuàng)作一段動(dòng)機(jī)旋律到完成一首完整的創(chuàng)作，往往要花幾周甚至幾個(gè)月的時(shí)間。而現(xiàn)在，天譜樂AI完全有能力來加速完成這個(gè)動(dòng)作。大家聽DEMO可以感受到，最終出來的音樂跟最初人類作曲家的動(dòng)機(jī)旋律是完全匹配的。這也是我們認(rèn)為AI大模型作為工具，可以為藝術(shù)家服務(wù)的一個(gè)事情，而不是去搶奪創(chuàng)作主導(dǎo)權(quán)。

▲輸入音頻

▲生成結(jié)果

翻開人類歷史，人類可能真正擅長(zhǎng)的有兩件事情。第一件事情是犯重復(fù)的錯(cuò)誤，比如周期性的謎之自信，覺得可以創(chuàng)造出比自己更聰明的東西。第二件事情是人類非常擅長(zhǎng)制造工具。人類每一次制造一個(gè)新的工具，都在不斷拓展自己能力的外延，所以今天人類才徹底成為這個(gè)星球的霸主。所以我認(rèn)為技術(shù)最終還是要服務(wù)于人，技術(shù)的出現(xiàn)不是為了取代人類工作，而是幫助人類創(chuàng)造更美麗的東西。

以上是賈朔演講內(nèi)容的完整整理。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、2024年是AI音樂爆發(fā)元年，迎來“創(chuàng)作平權(quán)”時(shí)刻

二、天然特殊性讓音樂生成需要克服四大難題

三、國(guó)產(chǎn)AI音樂歌聲自然度比肩美國(guó)頭部模型

四、首創(chuàng)圖頻生曲功能革新AI音樂交互形式

五、AI如何為人類創(chuàng)造更大價(jià)值

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、2024年是AI音樂爆發(fā)元年，迎來“創(chuàng)作平權(quán)”時(shí)刻

二、天然特殊性讓音樂生成需要克服四大難題

三、國(guó)產(chǎn)AI音樂歌聲自然度比肩美國(guó)頭部模型

四、首創(chuàng)圖頻生曲功能革新AI音樂交互形式

五、AI如何為人類創(chuàng)造更大價(jià)值

相關(guān)推薦

一、2024年是AI音樂爆發(fā)元年，迎來“創(chuàng)作平權(quán)”時(shí)刻

二、天然特殊性讓音樂生成需要克服四大難題

三、國(guó)產(chǎn)AI音樂歌聲自然度比肩美國(guó)頭部模型

四、首創(chuàng)圖頻生曲功能革新AI音樂交互形式

五、AI如何為人類創(chuàng)造更大價(jià)值