智東西(公眾號(hào):zhidxcom)
作者 | GenAICon 2024

2024中國(guó)生成式AI大會(huì)于4月18-19日在北京舉行,在大會(huì)首日的主會(huì)場(chǎng)開(kāi)幕式上,愛(ài)詩(shī)科技創(chuàng)始人兼CEO王長(zhǎng)虎博士以《AI視頻生成——用像素構(gòu)建星辰大海》為題發(fā)表演講。

王長(zhǎng)虎深耕計(jì)算機(jī)視覺(jué)與AI領(lǐng)域20年,曾任微軟亞洲研究院主管研究員,2017年初加入字節(jié)跳動(dòng),而后擔(dān)任字節(jié)跳動(dòng)AI Lab總監(jiān),從0到1支撐了抖音、TikTok等國(guó)民級(jí)視頻產(chǎn)品的建設(shè)與發(fā)展。2023年4月,他創(chuàng)辦AI視頻大模型創(chuàng)企愛(ài)詩(shī)科技。

愛(ài)詩(shī)科技在今年1月上線的海外版產(chǎn)品PixVerse,是當(dāng)前全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,國(guó)內(nèi)版(愛(ài)詩(shī)視頻大模型)也在今年3月上線內(nèi)測(cè)。上線88天,PixVerse達(dá)成了一千萬(wàn)次視頻生成量的里程碑。

今年2月,Sora橫空出世,點(diǎn)燃了大眾對(duì)視頻生成的熱情,也為深耕該領(lǐng)域的從業(yè)者帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn)。在技術(shù)層面上,Sora驗(yàn)證了DiT架構(gòu)在視頻生成中的Scaling Law(規(guī)模定律),并證實(shí)了這個(gè)方向的可行性。在王長(zhǎng)虎看來(lái),追趕Sora的窗口期在一年前,也就是愛(ài)詩(shī)科技成立的2023年。

過(guò)去一年,視頻大模型經(jīng)歷著量變到質(zhì)變。王長(zhǎng)虎認(rèn)為,中國(guó)在短視頻領(lǐng)域領(lǐng)先全球,同時(shí)短視頻也是最貼近用戶(hù)的內(nèi)容形態(tài)。目前視頻生成技術(shù)還沒(méi)有到ChatGPT時(shí)刻,他稱(chēng)自己有一支在全球AI視頻領(lǐng)域最能打硬仗、打勝仗的團(tuán)隊(duì),希望最大程度降低視頻創(chuàng)作門(mén)檻,實(shí)現(xiàn)技術(shù)普惠。

以下為王長(zhǎng)虎的演講實(shí)錄:

過(guò)去這一年,視頻生成領(lǐng)域進(jìn)展迅速,從無(wú)人問(wèn)津到眾所周知。今天借這個(gè)機(jī)會(huì),希望能跟大家聊一聊過(guò)去一年我的一些體會(huì)和淺見(jiàn)。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

大家應(yīng)該非常熟悉這個(gè)視頻了。今年大年初七凌晨,Sora橫空出世,進(jìn)一步激發(fā)了大眾對(duì)AI視頻生成的熱情。很多評(píng)論、解讀鋪天蓋地而來(lái),很多大V、大佬們也紛紛發(fā)言,包括馬斯克、周鴻祎以及各種媒體。

大年初七一大早,我被微信吵醒了,很多投資人、朋友、家人、同事紛紛發(fā)來(lái)問(wèn)候,好像又碰到那句話:“元芳你怎么看?”

當(dāng)時(shí)最令我開(kāi)心的是這條,我們公司一位優(yōu)秀的候選人第一時(shí)間給我發(fā)信息,說(shuō)“我要加入你們”,因?yàn)橐曨l生成這件事“太大了、太重要了,時(shí)不我待”。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

這是一張當(dāng)時(shí)在國(guó)外互聯(lián)網(wǎng)上廣為流傳圖片——一眾視頻生成模型膜拜“新王”Sora??吹竭@張圖后,我的心情很復(fù)雜。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

我們的產(chǎn)品叫PixVerse,很榮幸“跪”在了第一排,跟Runway、Pika、SVD等當(dāng)時(shí)最好的視頻生成產(chǎn)品放到一起,也是這張圖里面唯一一家中國(guó)公司。

但另一方面,我們前面有一個(gè)巨人,還需要進(jìn)一步超越它。

有人問(wèn)我,Sora出現(xiàn)之后你會(huì)不會(huì)焦慮?中美之間的視頻大模型差距會(huì)不會(huì)越來(lái)越大?愛(ài)詩(shī)作為創(chuàng)業(yè)公司,接下來(lái)路怎么走?

在我看來(lái),Sora的出現(xiàn)是2024年春節(jié)期間我收到的最好的禮物。

一、Sora驗(yàn)證了DiT架構(gòu),追趕Sora的窗口期在一年前

我們是在去年整個(gè)視頻生成行業(yè)還非常冷的時(shí)候,加入這個(gè)賽道的,并且在Sora出來(lái)之前,產(chǎn)品實(shí)測(cè)效果已經(jīng)走到全球視頻生成第一梯隊(duì)

這就像一個(gè)人在戈壁徒步,已經(jīng)走在最前面,需要繼續(xù)探索的時(shí)候,突然看到前面有一些腳印,那時(shí)候的感覺(jué)一定是非常開(kāi)心。

一方面,這驗(yàn)證了這個(gè)方向大概率是對(duì)的;另一方面,前面還有一個(gè)人能讓你繼續(xù)超越。因此,強(qiáng)大的對(duì)手是沙漠中的水源。

對(duì)于Sora的解讀非常多,我就不詳細(xì)展開(kāi)了。在我看來(lái),Sora最大的貢獻(xiàn)就是驗(yàn)證了DiT(Diffusion Transformer)在視頻生成中的Scaling Law(規(guī)模定律)

在基礎(chǔ)計(jì)算量的時(shí)候,AI生成的視頻慘不忍睹,隨著計(jì)算量加倍至32倍,生成視頻幾乎可以以假亂真,這更堅(jiān)定了我們做視頻生成的信心。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

毋庸置疑,Sora的出現(xiàn)推動(dòng)了整個(gè)行業(yè)的進(jìn)步和發(fā)展。但是很遺憾,至今為止我也沒(méi)有機(jī)會(huì)試一下Sora,我們想在座的絕大多數(shù)人都沒(méi)有試過(guò)。

當(dāng)前,Sora只是一場(chǎng)“賣(mài)家秀”,也特別期待有一天我們可以看到更多的“買(mǎi)家秀”。Sora出來(lái)之后,我們可以看到很多大廠、初創(chuàng)公司都去做視頻生成了,要超越Sora。

有人問(wèn)我,超越、追趕Sora的最佳窗口期是多長(zhǎng)時(shí)間?

在我看來(lái),追趕Sora的窗口期是在過(guò)去這一年,是在視頻生成行業(yè)很冷的那一年,是在Sora出來(lái)之前,整個(gè)業(yè)界對(duì)這個(gè)方向還不那么認(rèn)可的一年。

二、視頻生成去年不被看好,仍帶領(lǐng)抖音AI視頻團(tuán)隊(duì)All in

回到一年前,我們可以看一下這個(gè)行業(yè)有多冷。

一年前的今天,OpenAI、Anthropic分別獲得了100億美金、10億美金的融資,國(guó)內(nèi)的很多大語(yǔ)言模型創(chuàng)企也紛紛拿到第一桶金數(shù)億美金,更大的一筆錢(qián)還在融資計(jì)劃中。

再看視頻大模型。一年前,做視頻大模型的公司,一只手都可以數(shù)得出來(lái)。國(guó)外Runway已經(jīng)成立五年,拿到2億美元融資;Pika剛剛出現(xiàn),拿到2000萬(wàn)美金;愛(ài)詩(shī)拿到數(shù)百萬(wàn)美元融資。

視頻大模型和大語(yǔ)言模型相比,就像螞蟻和大象一樣。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

去年上半年,我們聊了一些投資人。一位行業(yè)大佬第一時(shí)間打錢(qián),成為了我們的天使領(lǐng)投,但更多投資人對(duì)這個(gè)方向可能看的還不是很清楚,也不是很認(rèn)可。我們得到一些非?,F(xiàn)實(shí)的建議,有人說(shuō)大模型在中國(guó)沒(méi)前途,還不如回家上班,或者建議盡快變現(xiàn)。

當(dāng)時(shí)確實(shí)有非常多的選擇,是繼續(xù)創(chuàng)業(yè)還是回家?如果創(chuàng)業(yè)選擇哪個(gè)賽道?是先做文生圖,還是先做文生視頻?

那時(shí)候,視頻生成沒(méi)有什么開(kāi)源模型,需要從頭去建設(shè),且生成質(zhì)量慘不忍睹。而AI圖片生成產(chǎn)品Midjourney已經(jīng)走出來(lái)了,每個(gè)月有數(shù)千萬(wàn)美元MRR(月度經(jīng)常性收入),有開(kāi)源模型,所以很多創(chuàng)業(yè)公司都去做文生圖。

如果選擇視頻生成,是做大模型還是做應(yīng)用層?當(dāng)時(shí)很多朋友找到我,說(shuō)可以一起做游戲、電商、廣告,能夠很快變現(xiàn)。

但是在我看來(lái),視頻是最重要、也是離用戶(hù)最近的一類(lèi)內(nèi)容。過(guò)去若干年,我們可以看到抖音、TikTok這樣的短視頻產(chǎn)品,已經(jīng)成為全球最重要、用戶(hù)量最大的國(guó)民級(jí)產(chǎn)品,無(wú)論是下載量還是使用時(shí)長(zhǎng)。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

我們都知道抖音、TikTok是中國(guó)團(tuán)隊(duì)做出來(lái)的,服務(wù)于全球。很有幸我和我的核心伙伴們從2017年開(kāi)始,從0到1支撐了抖音、TikTok這些產(chǎn)品背后的視頻AI。所以在AI視頻生成領(lǐng)域,我們是全球最能打硬仗、打勝仗的團(tuán)隊(duì),于是決定是All in AI視頻生成

三、給初創(chuàng)公司取個(gè)浪漫的名字,想用AI做最高級(jí)的內(nèi)容

去年這個(gè)時(shí)候,在Sora出來(lái)之前,引用張一鳴的說(shuō)法,這是一種“務(wù)實(shí)的浪漫”。我們沒(méi)有選擇最容易的事情,而是選擇當(dāng)時(shí)可能非主流、非共識(shí),但我們認(rèn)為是正確的事情。做視頻大模型是有生命力的,是面向未來(lái)的。

我們公司也取了一個(gè)有點(diǎn)浪漫的名字——愛(ài)詩(shī),“愛(ài)”是AI的意思,“詩(shī)”是可以流芳千古的、最高級(jí)的內(nèi)容,“愛(ài)詩(shī)”的意思是用AI做最高級(jí)的內(nèi)容。

去年4月份我們公司成立,7月份開(kāi)始訓(xùn)練大模型,經(jīng)過(guò)大約幾個(gè)月的時(shí)間,技術(shù)上已經(jīng)成為全球第一梯隊(duì)。今年1月份我們的產(chǎn)品PixVerse在海外上線,發(fā)展很快速。Sora出來(lái)之前,我們?cè)谀昵耙呀?jīng)拿到了數(shù)億元的第二輪融資。

這是去年8月,我們第一次訓(xùn)練好的一個(gè)完整模型生成的視頻,時(shí)間很短,動(dòng)作也很小,但是對(duì)我們來(lái)說(shuō)是一大步。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

有人問(wèn)我,大語(yǔ)言模型跟視頻大模型區(qū)別在什么地方?

在我看來(lái),語(yǔ)言和視覺(jué)是兩類(lèi)完全不同的內(nèi)容,語(yǔ)言是在人類(lèi)出現(xiàn)之后才出現(xiàn)的,是人類(lèi)文明的結(jié)晶,它已經(jīng)對(duì)信息做了高度抽象和概括;而視覺(jué)在人類(lèi)出現(xiàn)之前,山在那里、水在那里,它是更原始的東西。

當(dāng)大模型出現(xiàn)之后,人們對(duì)大模型的期待是模擬人腦,是新的硅基生命,是人內(nèi)部的東西。而視頻生成大模型出現(xiàn)之后,人們的期待是什么?是對(duì)世界進(jìn)行模擬、建模。

視頻生成本質(zhì)上是理解這個(gè)世界,然后做影像呈現(xiàn),這種呈現(xiàn)經(jīng)歷了從記錄到生成的演進(jìn)過(guò)程,這里我們列舉了三個(gè)影像記錄歷史中很重要的時(shí)刻。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

在三萬(wàn)多年前,人類(lèi)已經(jīng)在巖壁上去呈現(xiàn)自己看過(guò)的一些群獅奔跑的畫(huà)面;1826年,法國(guó)的攝影先驅(qū)制作了第一張可以長(zhǎng)期展現(xiàn)的照片;1872年,人類(lèi)歷史上第一個(gè)視頻出現(xiàn)了,它源于兩個(gè)美國(guó)人關(guān)于馬飛奔過(guò)程中蹄子是否同時(shí)騰空的探討。從視覺(jué)的呈現(xiàn)到視頻的生成看起來(lái)很遠(yuǎn),事實(shí)上離我們很近。

小時(shí)候過(guò)年,我的父親總會(huì)給我做各種各樣的燈,其中有一種燈叫“走馬燈”。我們要點(diǎn)燃蠟燭,蠟燭推動(dòng)熱氣上升,帶動(dòng)軸輪的轉(zhuǎn)動(dòng),軸輪上面會(huì)綁上一些剪紙,燭光通過(guò)剪紙映射到最外邊一層的屏上,走馬燈就呈現(xiàn)了這樣動(dòng)態(tài)的效果。右邊的連環(huán)畫(huà)是我很快樂(lè)的童年記憶,也是一種原始的“視頻生成”。

當(dāng)抖音、快手這樣的短視頻產(chǎn)品逐漸成為主流,越來(lái)越頻繁影響我們的生活的時(shí)候,我們可以看到視頻生成技術(shù)也逐漸出現(xiàn)了。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

最早期階段是檢索生成,即視頻里的每一個(gè)片段都是從海量數(shù)據(jù)中檢索而來(lái),不是純粹生成的,通過(guò)自動(dòng)或者人工方式拼接在一起,現(xiàn)在在短視頻平臺(tái)里面也可以看到這樣的視頻。

第二階段是部分生成,我們?cè)谕娑兑?、TikTok的時(shí)候會(huì)看到里面有很多特效,其中有一個(gè)特效“控雨”,用戶(hù)錄制視頻的時(shí)候用手掌可以控制雨讓它停掉,并且有一些微動(dòng)。這類(lèi)視頻總是有一個(gè)原始的視頻,在這個(gè)基礎(chǔ)上做一些局部生成,包括特效里面的美顏、動(dòng)漫風(fēng)、換個(gè)狗頭、加個(gè)貓耳朵都是這樣。

最后是我們現(xiàn)在提到的真正意義上的視頻生成,是憑空生成的。

視頻生成技術(shù)可以追溯到十年前,GAN(生成對(duì)抗網(wǎng)絡(luò))的出現(xiàn)開(kāi)始。之后的若干年,局部生成領(lǐng)域大放異彩,雖然有很多通用生成、文生視頻的技術(shù)出現(xiàn),但是效果也很差。

直到Diffusion擴(kuò)散模型的成功,2023年出現(xiàn)了非常多的文生視頻的技術(shù)、產(chǎn)品,有谷歌的VideoPoet、英偉達(dá)的Video LDM、Runway的GEN-2,還有Pika以及我們的PixVerse。

但是2024年Sora出現(xiàn),表明過(guò)去這一年無(wú)論是數(shù)據(jù)量、計(jì)算量還是參數(shù)量都有非常大的提升。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

這里我選了幾個(gè)模型,2023年7月份發(fā)布的AnimateDiff、2023年12月發(fā)布的VideoPoet以及2024年2月發(fā)布的Sora,其中關(guān)于Sora參數(shù)都是道聽(tīng)途說(shuō),有可能不準(zhǔn),也有可能比較保守。我們看到一年之內(nèi),這些參數(shù)都有巨大的提升,這也帶來(lái)了視頻生成產(chǎn)品的提升。

四、上線88天生成1000萬(wàn)次,PixVerse已解決多鏡頭一致性問(wèn)題

我們?cè)谌ツ?1月份初發(fā)布了PixVerse測(cè)試版,今年1月份正式發(fā)布了Web UI的版本,提供了文生視頻、圖生視頻以及我們首創(chuàng)的Character to Video,用戶(hù)只要上傳一張照片就可以成為視頻的主角,可以解決多鏡頭的一致性問(wèn)題。

最后一張視頻大家能看出是誰(shuí)嗎?這是我們開(kāi)發(fā)出這個(gè)模型之后生成的第一個(gè)視頻,我自拍一下輸進(jìn)去,讓它生成一個(gè)我在跑步的視頻,“他”的身材比我好多了。生成后我第一時(shí)間發(fā)到我們健身群里面,告訴大家我的“健身效果顯著”。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

現(xiàn)在已經(jīng)有很多的創(chuàng)作者用PixVerse替代攝像機(jī)、演員、布景來(lái)創(chuàng)作大片。中間一張圖是一個(gè)俄羅斯用戶(hù)在今年1月份創(chuàng)作的一個(gè)AI科幻片Last Mission,每個(gè)鏡頭都是PixVerse做的,這也是在海內(nèi)外有廣泛影響的影片。

很多國(guó)內(nèi)用戶(hù)也在用我們的產(chǎn)品。前段時(shí)間我們受邀到一個(gè)省級(jí)電視臺(tái)去交流,驚訝地發(fā)現(xiàn)有很多編導(dǎo)已經(jīng)在用PixVerse做AI視頻。他們也很驚訝這個(gè)產(chǎn)品團(tuán)隊(duì)居然就在在國(guó)內(nèi)。

下面這個(gè)視頻是國(guó)內(nèi)一個(gè)導(dǎo)演“閑人一坤”,利用PixVerse創(chuàng)作出來(lái)的中式奇幻片《山海奇鏡之劈波斬浪》,也是國(guó)內(nèi)播放量最大、影響力最大的AI視頻之一?!渡胶F骁R之劈波斬浪》已經(jīng)被快手平臺(tái)采購(gòu),據(jù)悉將在5月上線。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

PixVerse發(fā)布之后,我們跟創(chuàng)作者交流過(guò)程中,也遇到很多感人的瞬間。

這是國(guó)內(nèi)一個(gè)54歲的老大哥給我們發(fā)的一封郵件,他想申請(qǐng)加入我們的創(chuàng)作者計(jì)劃,說(shuō)他前些天戴著老花鏡花了一整天時(shí)間,用PixVerse和剪映做成第一條AI片子。他說(shuō),使用PixVerse的過(guò)程中讓他享受了創(chuàng)作的愉悅,并且跟我們分享了一些他的故事。這是意料之外的感動(dòng)。我們看到自己的產(chǎn)品不僅有導(dǎo)演、專(zhuān)業(yè)創(chuàng)作者用起來(lái),普通用戶(hù)也能受益。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

還有一位烏克蘭導(dǎo)演,因?yàn)楹暧^經(jīng)濟(jì)原因失業(yè)了。他用了PixVerse覺(jué)得非常棒,想為我們社區(qū)發(fā)展助力。他當(dāng)時(shí)創(chuàng)作了第一個(gè)關(guān)于香水的廣告大片,在海外很火,很多商家看到了,付費(fèi)讓他幫忙創(chuàng)作廣告,之后他又創(chuàng)作了一系列啤酒、鉆石等廣告,獲得了收入。這里面每個(gè)鏡頭都是通過(guò)PixVerse做出來(lái)的。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

前幾天我發(fā)了一個(gè)朋友圈,紀(jì)念我們一千萬(wàn)次視頻生成。我想每一個(gè)視頻背后都可能有一個(gè)故事,但這也只是我們的一小步,希望未來(lái)能夠服務(wù)于更多的用戶(hù)。

愛(ài)詩(shī)科技王長(zhǎng)虎:全球用戶(hù)量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品,是怎么煉成的?丨GenAICon 2024

現(xiàn)在視頻生成技術(shù)還沒(méi)有到ChatGPT時(shí)刻,還在快速發(fā)展過(guò)程中。但是我們已經(jīng)欣喜地看到專(zhuān)業(yè)創(chuàng)作者們,在應(yīng)用我們產(chǎn)品來(lái)替代鏡頭、演員、場(chǎng)景來(lái)生成大片,逐漸地去改變?cè)械囊曨l生產(chǎn)創(chuàng)作工作流,我們也期待未來(lái)有更多的行業(yè),游戲、動(dòng)漫、教育、影視等受益于視頻生成技術(shù)的發(fā)展。

當(dāng)然,我們也希望能夠在最大程度上降低使用的門(mén)檻,不僅創(chuàng)作者們能夠用起來(lái),每天玩抖音、玩TikTok的普通消費(fèi)者們也能夠用我們的產(chǎn)品,輕松地使用AI視頻生成產(chǎn)品將創(chuàng)意轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)。我們希望能夠做到技術(shù)普惠。

我們的產(chǎn)品名字叫PixVerse,Pix(Pixel)代表像素,Verse(Universe)代表宇宙。AI視頻生成,就是“用像素構(gòu)建星辰大海”。

以上是王長(zhǎng)虎演講內(nèi)容的完整整理。