智東西(公眾號(hào):zhidxcom)
編譯 |? 徐豫
編輯 |? 漠影

智東西8月22日消息,據(jù)VentureBeat 8月20日?qǐng)?bào)道,AI初創(chuàng)公司Hotshot的同名文生視頻模型“Hotshot”開(kāi)放公測(cè),用戶可以訪問(wèn)Hotshot.co官網(wǎng)使用該模型,現(xiàn)階段每人每天有兩次免費(fèi)創(chuàng)作機(jī)會(huì)。

Hotshot模型由4人小團(tuán)隊(duì)用數(shù)千塊GPU訓(xùn)練而成,可以生成10秒以內(nèi)不同主題的視頻,耗時(shí)短、清晰度高、操作界面簡(jiǎn)潔。與主流的AI文生視頻模型相比,Hotshot公測(cè)版兼顧視頻生成效率和穩(wěn)定性的同時(shí),視頻風(fēng)格更豐富,生態(tài)也更加開(kāi)放,可生成無(wú)水印視頻。

AI視頻生成狂卷!4人小團(tuán)隊(duì)造出Sora競(jìng)品,耗費(fèi)數(shù)千塊GPU,已開(kāi)放公測(cè)

▲可用Hotshot生成風(fēng)格多樣的視頻(圖源:Hotshot)

Hotshot成立于2023年,聯(lián)合創(chuàng)始人為Aakash Sastry、John Mullan和Duncan Crawbuck。這三位公司創(chuàng)始人已有11年的消費(fèi)級(jí)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn),并從Lachy Groom、Alexis Ohanian、SV Angel等人那里獲得了資金支持。

體驗(yàn)地址:https://hotshot.co/

一、最長(zhǎng)10秒,清晰度720p,可定制動(dòng)漫效果

Hotshot文生視頻模型是一款Transformer擴(kuò)散模型,其最新版本可根據(jù)文字描述生成一段最長(zhǎng)10秒、清晰度為720p的視頻。

例如,在Hotshot中輸入“柯基坐在學(xué)校教室里”,我們可以得到,兩只毛發(fā)分明順滑的柯基,身穿不同花色、樣式的衣服,坐在木色椅子上東張西望,柯基身后是寫有粉筆字的黑板,而黑板旁有一個(gè)陳列地球儀等教具的展示柜,整體拍攝視角不斷推進(jìn)的一段視頻。

AI視頻生成狂卷!4人小團(tuán)隊(duì)造出Sora競(jìng)品,耗費(fèi)數(shù)千塊GPU,已開(kāi)放公測(cè)

▲Hotshot根據(jù)文本“柯基坐在學(xué)校教室里”AI生成的視頻(圖源:Hotshot)

除了模擬真實(shí)的人物、場(chǎng)景、風(fēng)景,用戶還可以用Hotshot制作動(dòng)漫、逐幀動(dòng)畫、特效等風(fēng)格化視頻。

Hotshot生成的一段視頻中,一位金發(fā)年輕男子,身穿藍(lán)色襯衫和深色褲子,坐在客廳的黃色沙發(fā)上,玩著手持電子游戲,客廳布置了綠植、掛畫。視頻畫面配色鮮艷、筆觸粗獷,呈現(xiàn)出50年代的復(fù)古漫畫風(fēng)格。

AI視頻生成狂卷!4人小團(tuán)隊(duì)造出Sora競(jìng)品,耗費(fèi)數(shù)千塊GPU,已開(kāi)放公測(cè)

▲Hotshot可以風(fēng)格化處理視頻(圖源:Hotshot)

二、4個(gè)人耗時(shí)4個(gè)月,投入6億段素材,花費(fèi)幾千塊GPU

這樣一個(gè)“類Sora”的文生視頻模型,Hotshot僅靠團(tuán)隊(duì)4人,耗時(shí)4個(gè)月,便完成了該模型的訓(xùn)練工作。

據(jù)Hotshot介紹,最新版的文生視頻模型在訓(xùn)練中投入了6億段視頻及音頻素材、幾千塊GPU,高強(qiáng)度的模型訓(xùn)練常常導(dǎo)致NVIDIA H100 GPU出現(xiàn)故障,“機(jī)房差點(diǎn)著火”。為了讓模型不偏離預(yù)期方向,團(tuán)隊(duì)成員一個(gè)月都沒(méi)有休息,輪流監(jiān)控訓(xùn)練結(jié)果。

3位創(chuàng)始人和新成員Chaitu Aluru還開(kāi)發(fā)了一個(gè)新的自動(dòng)編碼器,在“空間”和“時(shí)間”上壓縮視頻內(nèi)容,而非折損視頻質(zhì)量和相關(guān)數(shù)據(jù),從而更高效地訓(xùn)練長(zhǎng)序列視頻。

三、過(guò)去一年多,Hotshot模型3次升級(jí)換代

Hotshot曾推出過(guò)AI文生圖應(yīng)用和兩代AI文生視頻模型,可惜未能激起較大的水花。

去年,Hotshot上線了同名消費(fèi)級(jí)AI文生圖應(yīng)用,用戶可以免費(fèi)用Hotshot生成和修改照片,但該應(yīng)用可能已被下架。

后續(xù)Hotshot推出了AI文生視頻模型Hotshot-XL,并開(kāi)源。該模型可以生成時(shí)長(zhǎng)1秒,幀率8fps的視頻。當(dāng)時(shí),Hotshot-XL的月活用戶超2萬(wàn)人次。Hotshot Act-One則是Hotshot-XL的升級(jí)版,拓展了AI視頻生成的時(shí)長(zhǎng)上限。Hotshot Act-One模型可制作時(shí)長(zhǎng)3秒,幀率同為8fps的視頻。

Hotshot聯(lián)合創(chuàng)始人Sastry在社交媒體X的帖子中寫道,Hotshot是“目前最先進(jìn)的公開(kāi)模型”,十多年以來(lái),我們首次能夠?yàn)橛脩籼峁皬?qiáng)大且新穎的”AI文生視頻功能,而這僅僅是一個(gè)開(kāi)始。

結(jié)語(yǔ):AI文生視頻模型很卷,但還沒(méi)有絕對(duì)的贏家

在Sastry看來(lái),未來(lái)一年內(nèi),YouTube將被多模態(tài)生成式AI作品“刷屏”,AI文生圖、文生視頻、文生音頻、圖生視頻等創(chuàng)作方式,將成為數(shù)字媒體上的常態(tài)。

市面上AI視頻生成模型和應(yīng)用的競(jìng)爭(zhēng)也愈發(fā)激烈。AI視頻創(chuàng)企Runway ML的Gen-3 Alpha Turbo、AI大模型獨(dú)角獸OpenAI尚未公開(kāi)的Sora、3D建模與視覺(jué)AI公司Luma的Dream Machine等AI視頻生成模型,以及AI視頻創(chuàng)企Pika Labs的Pika AI視頻生成應(yīng)用,都有著較高的關(guān)注度。

與競(jìng)爭(zhēng)對(duì)手相比,Hotshot雖然文本還原度較高、視頻生成速度較快,但現(xiàn)階段的視頻生成效果,在質(zhì)量、細(xì)節(jié)和分辨率上都差強(qiáng)人意。網(wǎng)友用Hotshot模型制作的視頻,不少存在手部、腿部重影,物品懸空、動(dòng)作邏輯錯(cuò)誤、說(shuō)話神態(tài)、口型單一等較為明顯的漏洞。

AI視頻生成狂卷!4人小團(tuán)隊(duì)造出Sora競(jìng)品,耗費(fèi)數(shù)千塊GPU,已開(kāi)放公測(cè)

▲馬腿出現(xiàn)重影(圖源:VentureBeat)

來(lái)源:VentureBeat、Hotshot X官方賬號(hào)