智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

智東西5月6日報道,2024中國生成式AI大會于4月18-19日在北京舉行,在大會第二天的主會場AIGC應(yīng)用專場上,天圖萬境創(chuàng)始人圖拉古以《我們的AIGC,AIGC的我們》為題發(fā)表演講。

天圖萬境是中國視聽行業(yè)嘗試用AI工具做文本擴寫、圖像生成、數(shù)字人合成制作的先行者,比一些國際頂流AI工具的問世時間更早。圖拉古說,天圖萬境迄今已擁有中國視聽領(lǐng)域最專業(yè)的垂直AI大模型集群,并在今年與華為聯(lián)合推出Sora Opera,能給各式視頻配音。

圖拉古在演講中相當(dāng)敢說,金句頻出,分享了自己創(chuàng)業(yè)路上“血淋淋的經(jīng)驗和教訓(xùn)”,或者調(diào)侃創(chuàng)業(yè)者“不要起太早,容易看不到曙光,因為資本看不懂”,稱“追風(fēng)的人沒法飛起來”;或者吐槽自媒體用“炸裂”、“吊打”、“驚艷”等詞匯是瞎說,直言短期內(nèi)搞不定通用大模型,預(yù)測“大部分AI大模型創(chuàng)業(yè)公司在5年內(nèi)死去”。

在他看來,AI應(yīng)該是能夠給人們帶來溫暖、彌合世界的創(chuàng)作工具,而不是取代人類工作的“內(nèi)卷武器”。因此AI不能離開應(yīng)用談技術(shù),而是要建立到應(yīng)用端的完整產(chǎn)業(yè)鏈。天圖萬境從AI文本創(chuàng)作,到視頻生成,再到服務(wù)用戶的應(yīng)用端,打造了全產(chǎn)業(yè)鏈技術(shù)解決方案,且都早于國際巨頭發(fā)布了對應(yīng)產(chǎn)品,目前正在快速迭代中。

其聲音生成工具Sora Opera,可以自動感知、智能識別視頻畫面中的物理邏輯,精準配出風(fēng)格多變的音樂音效,為視頻增加聲音的魅力。還有聲音克隆工具SoundMax,不走傳統(tǒng)TTS路線,而是將輸入的人聲轉(zhuǎn)換成其他聲線。這樣的AI工具,不會讓配音演員失業(yè),而是讓他們在演繹不同角色時插上飛翔的創(chuàng)意翅膀。

以下為圖拉古的演講實錄:

首先介紹一下我自己,我是圖拉古,是一個“帽子”搜集大師,我有很多帽子,最喜歡前三個帽子,天圖萬境的創(chuàng)始人、中國導(dǎo)演、科研從業(yè)者。

我還有一個屬性,我是跨行業(yè)的從業(yè)者,而且在一線,我是以導(dǎo)演的身份拍攝了很多國際大片,也拍了很多國內(nèi)的片子。我從事計算機編程和AI,自己寫代碼。

第三個,我自己做電路設(shè)計,做電路繪畫,做生產(chǎn)。我是一個沉浸式愛好者,經(jīng)常玩各種劇本殺、密室逃脫。原來AI需要視聽行業(yè)的人參與進來,但是視聽行業(yè)的人又不知道該怎么開發(fā),我碰巧介于這之間,我的優(yōu)勢逐漸凸顯出來。

我分享的主題是:AIGC的我們,我們的AIGC。

一、比MidJourney更早探路圖像生成,但起太早容易看不到曙光

先說“AIGC的我們”。

有人說電影是一門綜合性藝術(shù),它從視聽技術(shù)到制造生產(chǎn)技術(shù),再到調(diào)度與管理能力,到故事與敘事,最主要的是情緒和心理學(xué)都很重要,本質(zhì)上講,是從文本到視頻這一件事。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

從文本到視頻在今天的時代很簡單,文本到視頻、文本到圖片,再到合成、剪輯、視頻發(fā)行,其中文本就是劇本,我們現(xiàn)在熟悉的軟件都可以做。

到今天為止,AI時代,文本生成有GPT,圖片有Stable Diffusion、Midjourney,合成有Wonder studio,剪輯Meta似乎在做,視頻Sora,發(fā)行還是老牌發(fā)行,世界的格局沒有變化,因為賺錢的地方?jīng)]有發(fā)生變化。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

前面都是技術(shù)在迭代,下一個時代將會產(chǎn)生產(chǎn)業(yè)的迭代,發(fā)行怎么變?這些年我們在這些領(lǐng)域做了什么工作?以及為什么說現(xiàn)在做AIGC的同行們都是“弟弟”。

第一個,文本。看這張圖,在輸入文字的位置添加新故事,加引導(dǎo)詞,輸入三個引導(dǎo)詞就可以自動生成一段故事,這是最早的AI擴寫。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

下面是用來整理語義分析的,分析人物關(guān)系的,分析時長的,再下面是分析故事情感節(jié)奏的,這只能用AI做,不然就會把“皇上急的像熱鍋上的螞蟻”,認為是一種動物而不是一種情緒。這是最早的文字生成。什么時候?2021年9月份。誰在做這件事?只有我們在做。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

第二個,圖片。這個大家都很熟悉了,放一個原始圖像,就可以看到實時可編輯的圖像,下方是參數(shù)拖拽區(qū)。左側(cè)是2021年5月份我們發(fā)布的產(chǎn)品,右側(cè)是2023年馬普所潘教授發(fā)布的,當(dāng)時震驚整個娛樂圈。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

上面是選擇模型、風(fēng)格的區(qū)域,選擇輸入風(fēng)格,輸入一張圖片,按照圖片風(fēng)格生成圖片。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

這里是輸入漢字的圖像實時生成,這在今天來看每個人都極其熟悉,甚至嗤之以鼻。但把時間往回倒一倒,Stable Diffusion是2022年7月份,Midjourney是2022年3月份,天圖是2021年9月份。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

我們以前做事不會在互聯(lián)網(wǎng)上留足跡,碰巧這件事情留下了足跡。右圖是跟聯(lián)想ThinkPad做的現(xiàn)場為期七天的實機演示。

第三個,合成制作。通過4張圖片重建一個我的數(shù)字人,通過一段視頻重建整個3D場景。我們還發(fā)布首條支持NeRF渲染的循環(huán)引擎管線,這是在2022年9月份。右側(cè)的大家也很熟悉,Luma AI,當(dāng)時全世界都很震驚,時間是2022年11月份,而我們在2022年9月份就發(fā)布了可以商用的產(chǎn)品。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

還有人體穩(wěn)定跟蹤,大家都很熟悉,還可以把鏡頭中的人物完美地擦掉,這兩者結(jié)合到一起,是Wonder studio,它是2023年3月份,天圖是2022年11月份。

這個案例非常明顯,做這么多,我們也沒有做PR,沒有被大家記住。我們有很深的感觸:不要起太早,容易看不到曙光,因為資本看不懂。

二、“他們看不懂,看不明白,也不愿意學(xué)習(xí)”

有一個很知名的專家問我,你連一個傳感器都沒有,怎么叫感知?我現(xiàn)在可以告訴他,這就叫感知,感知是通過智能來判別這個世界的。這是我得到的第一個經(jīng)驗,在創(chuàng)業(yè)的時候不要起太早,因為看不到曙光。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

第二個,他們看不懂,看不明白,并且也不愿意學(xué)習(xí)。“他們”不止指資本,也指創(chuàng)作身邊的每一個人,他們只能跟著潮流順著大勢而為。我想說一句話:“追風(fēng)的人是沒法飛起來的,因為風(fēng)箏是逆風(fēng)飛翔的。”我們要準確判斷下一個點在哪里,從現(xiàn)在開始往下一個點走。

第三個經(jīng)驗,投資絕大部分是FOM(afraid of missing),到今天為止,他們對這件事情看起來也是迷迷糊糊的,你去問投資機構(gòu),什么叫AIGC?他們只能說一個網(wǎng)上能查到的詞,沒有經(jīng)過仔細思考,沒有經(jīng)過認真對產(chǎn)業(yè)調(diào)研的人很難明白AIGC的明天在哪里,這就是血淋淋的經(jīng)驗和教訓(xùn)

三、自媒體用“炸裂”“吊打”是瞎說,大部分AI大模型公司在5年內(nèi)死去

下面說說我們在積累經(jīng)驗之后又做了什么事,現(xiàn)在逐漸被大家關(guān)注起來了。

資本眼中的AI大模型:以前100個人干活兒,通過AI自動化3個人干活兒,生成了各種各樣的利潤,裁員、財源。

一個公司瘋狂PR以后,被資本投了以后,創(chuàng)始人自己套殼,自己訓(xùn)練,結(jié)果一用自己的產(chǎn)品,這個東西不能用!這怎么辦?瘋狂地找,終于找到一個落地場景,然后跟媒體說,在這個場景我們可以做這件事,然后無限放大。

自媒體用的什么詞?“炸裂”、“吊打”、“驚艷”,這些詞能在這兒用嗎?這是瞎說。實際是什么樣的?這就是它們的實際情況,這是不可避免的問題,因為馬車在創(chuàng)造初期也不能一下子跑十公里,這是時代發(fā)展的必然結(jié)局。

我們現(xiàn)在的AI非常激進,仿佛進入了豐富且多元的生態(tài),但如果我們用一用這些產(chǎn)品會發(fā)現(xiàn),你的生氣指數(shù)會上漲。但是我們需要用發(fā)展的眼光去看待這件事情,十年以后的AI是什么樣?它一定是非常豐富且充滿了自動化的過程

我們還講過一句話,今天的各種企業(yè)在這個行業(yè)的PR中,仿佛要使用AI這種技術(shù)把整個人都替代掉,讓整個社會都工業(yè)化,其實換句話說,他們在制造“槍”然后來殺掉彼此。

AI的初心應(yīng)該是像《血戰(zhàn)鋼鋸嶺》一樣,我不帶槍,但是可以縫合這個世界,希望未來有更多做技術(shù)的人可以用這些技術(shù)來縫合這個世界,讓每個人、每個個體都能夠從中享受到AI帶來的快樂,這很重要。

人類的目光總是是很短淺的,他們想一口吃個胖子,所以在講大模型,大模型意味著一個輪船可以海上跑、天上飛、地道里面鉆,這叫大模型。但到頭來解決問題的還是專用模型,輪船只能在海上,飛機在天上,有一天我們希望有兩棲東西產(chǎn)生,但是現(xiàn)在這個時間點還不能擁有,此時此刻我們的生產(chǎn)力、物力、算法跟不上,需要等一等

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

大部分AI大模型創(chuàng)業(yè)公司會在5年內(nèi)死去,我看到這個行業(yè)的人沒有技術(shù)壁壘,也找不到應(yīng)用場景,解決不了真的問題,而且沒有錢繼續(xù)燒。此時此刻我把這個話放在這兒,再過5年后你們翻回來找這句話,如果發(fā)現(xiàn)這句話是錯的,請在評論下面罵我。

我們不應(yīng)該只談大模型而放棄專用模型,不能只練大腦不練肌肉。

四、打造視聽領(lǐng)域垂直AI大模型集群,聯(lián)手華為推出視頻配音工具Sora Opera

AI大模型在各行各業(yè)都有使用,我們應(yīng)該怎么發(fā)展?還是以我們的視聽行業(yè)為例,我們最早在布局這個產(chǎn)業(yè)的時候,別人說我們是騙子,因為他們不懂什么叫模型。

到今天為止,我們已經(jīng)擁有中國視聽領(lǐng)域里面最專業(yè)的垂直AI大模型集群,本來是垂直AI模型集群,但我的合伙人說你把“大”加上吧,不然別人聽不懂,所以我們叫AI大模型集群,會在北京國際電影節(jié)發(fā)布。

先講我們做了什么。Sora Opera,用了半年多了,今年跟華為聯(lián)合推出。什么是Sora Opera?它本來不叫這個名字,Sora出來之后,一些人建議說最好跟Sora有關(guān),我們就起這個名字Sora Opera,它可以給所有生成式視頻,所有手機拍的視頻進行配音。

天圖萬境圖拉古:大部分大模型公司5年內(nèi)死去,自媒體用“炸裂”“吊打”是瞎說丨GenAICon 2024

我們先來看圖片上這個小怪物,再來看猛犸象。在展示更多之前,我想說一下,人們仿佛在按照計算機的邏輯適應(yīng)計算機,比如你想需要一段好的文字或者視頻,必須要輸入適應(yīng)計算機的提示詞,這其實是反著發(fā)展的。有沒有一種途徑可以讓人不去輸入Prompt,直接點上傳下載?可以,我們的Sora Opera去除所有的Prompt,這意味著你的模型必須識別圖片類的信息。

我們來聽第一個、聽第二個。每一個故事都是壓著節(jié)奏,手碰花,花會響,不碰花,花不會響,我們按照時間一致性來理解這個事情,讓這個模型具備視聽領(lǐng)域里面的智能。它可以識別很多個電視里面的內(nèi)容,并且雜亂生成。它可以識別火車聲音從遠到近的效果,還有跳舞的小動物、自然環(huán)境。

未來哪里能用到?各家手機都在宣傳,“我家手機可以一鍵成片”,如果那個成片沒有音效,相當(dāng)于這個世界沒有聲音,只有視覺是不夠的。未來的所有領(lǐng)域都可以使用這樣的技術(shù)。

再說一個,SoundMax。聲音是人類獲得信息34%的主要因素。這個功能主要用來配音,用我的聲音模擬各種各樣的聲音,我們不走TTS的路線,TTS是輸入文字變成聲音,我們需要有人在后面來模擬千行百業(yè)的人。

我們先聽第一個人叫白小姐,第二個人的聲音是說書人,這兩個人都是我用手機錄的,現(xiàn)在我們聽聽經(jīng)過AI處理之后的兩個人。我們希望未來AI技術(shù)誕生以后讓每個個體都是超級個體,讓創(chuàng)作去中心化。

五、未來AI視聽的機會在哪兒?

最后再簡單說一說發(fā)行,未來的機會在哪里?

我們知道此時此刻是經(jīng)濟下行,1905年到1914年美國的變化恰如此時此刻這個時代所經(jīng)歷的變化。工具創(chuàng)新以Sora們?yōu)槔瑫霈F(xiàn)一個結(jié)果,過度電子化,因為生產(chǎn)內(nèi)容極其容易,網(wǎng)上線上本來就不缺內(nèi)容,又因為過度容易的生產(chǎn)工具導(dǎo)致內(nèi)容泛濫,就會出現(xiàn)過度電子化。

那么新業(yè)態(tài)在哪里?新工具誕生了,怎么沒有新業(yè)態(tài)?新業(yè)態(tài)可以這么理解,首先沖擊兩個不好的地方,第一是流媒體平臺,本來流媒體平臺就是有豐富的內(nèi)容,現(xiàn)在又沖過來一堆動態(tài)PPT,人們非常焦急,甚至?xí)〞r間去甄別哪個真哪個假。

第二個,電影院,每個用戶都有機會表達自我,關(guān)注我發(fā)了朋友圈誰給我點贊,電影院的敘事方式已經(jīng)不太適合當(dāng)下的觀眾。

第三個,游戲平臺,做游戲會越來越容易,容易的不是編程,容易的是設(shè)計,美術(shù)越來越容易,編程方面也會推進,所以AI會對它們有沖擊。

我簡單總結(jié)了一下,一切非真人互動和非真實體驗的企業(yè)和產(chǎn)業(yè)都會受到這波沖擊

新機會在哪里?第一個是XR產(chǎn)業(yè),第二個是線下娛樂產(chǎn)業(yè),未來巨大的機會在這個地方,我做了一個總結(jié)叫沉浸式產(chǎn)業(yè)

這個產(chǎn)業(yè)有幾個屬性:第一,高科技加持。這個產(chǎn)業(yè)必須有科技,不然這個產(chǎn)業(yè)沒法變革。第二,強社交屬性。經(jīng)濟下行,人們心理壓力會大,人們必須回歸到線下,并且見到真實的可確定性。第三,條件十分便宜,便宜到你喝一杯咖啡的價格就可以玩一個小時、兩個小時。

第四,模式可復(fù)制,全國各地可復(fù)制才能掙錢。第五,內(nèi)容更新快,每天有兩個新的內(nèi)容可以玩。最后,成本低,內(nèi)容快就代表著成本低,而這一切全部是AI和今天的電子工業(yè)給我們帶來的機會,沒有這兩個產(chǎn)業(yè)的出現(xiàn)就沒有這樣的機會。

我認為,未來AI視聽的機會在線下,而不在線上。至少今天的傳統(tǒng)互聯(lián)網(wǎng)應(yīng)該是沒什么機會了,不信可以看看,他們能做的就是投資,他們想真正研發(fā)出一款使用的產(chǎn)品太難了。

在線下可能會有哪些?今天不在這兒賣關(guān)子了,希望大家快來成為我的朋友,我們一起討論線下在哪里。

以上是圖拉古演講內(nèi)容的完整整理。