智東西(公眾號(hào):zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西12月18日?qǐng)?bào)道,今日,火山引擎在FORCE原動(dòng)力大會(huì)上正式發(fā)布豆包大模型1.8及音視頻創(chuàng)作模型Seedance 1.5 pro。評(píng)測(cè)數(shù)據(jù)顯示,豆包大模型在多模態(tài)理解、生成能力及Agent能力上,已躋身全球第一梯隊(duì)。

火山引擎總裁譚待稱,截至今年12月,豆包大模型日均token使用量突破50萬(wàn)億,較去年同期增長(zhǎng)超過(guò)10倍。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

目前其已有超過(guò)100家企業(yè)客戶累計(jì)token使用量超過(guò)1萬(wàn)億。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

Seedance 1.5 pro音視頻創(chuàng)作模型則實(shí)現(xiàn)了毫秒級(jí)的音畫同步輸出,支持多人多語(yǔ)言對(duì)話,口型對(duì)齊精準(zhǔn),而且生成的視頻可展現(xiàn)出影視級(jí)敘事張力。

會(huì)后,譚待在接受媒體采訪時(shí)進(jìn)一步分享了Seedance 1.5 pro的優(yōu)勢(shì),音畫同步要不僅是聲音和畫面同步,還要做到與語(yǔ)義的同步,這需要很好的視頻模型、大語(yǔ)言模型、語(yǔ)義模型作為基礎(chǔ),而豆包在這些領(lǐng)域均表現(xiàn)領(lǐng)先。

他透露,Seedance系列很快將上線“Draft樣片”功能,通讓預(yù)覽視頻更快,成本也更低。

一、豆包大模型1.8:更強(qiáng)Agent能力、升級(jí)多模態(tài)理解、更靈活上下文管理

作為豆包家族的最新旗艦?zāi)P?,豆包大模?.8(Doubao-Seed-1.8)面向多模態(tài)Agent場(chǎng)景進(jìn)行了定向優(yōu)化。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

其工具調(diào)用能力、復(fù)雜指令遵循能力及OS Agent能力均得到增強(qiáng),提升了模型在處理復(fù)雜任務(wù)時(shí)的規(guī)劃與執(zhí)行水平。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在視覺(jué)理解方面,豆包1.8的單次視頻理解幀數(shù)從640幀倍增至1280幀。模型支持以低幀率理解超長(zhǎng)視頻,并能調(diào)用工具對(duì)關(guān)鍵片段進(jìn)行高幀率理解。該能力可廣泛用于在線教育、產(chǎn)品質(zhì)檢等場(chǎng)景中。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

豆包1.8支持256K上下文,擁有更靈活的上下文管理,擅長(zhǎng)復(fù)雜多步任務(wù)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

二、多模態(tài)理解、GUI Agent、數(shù)學(xué)與推理評(píng)測(cè)分?jǐn)?shù)領(lǐng)先

在多項(xiàng)公開評(píng)測(cè)中,豆包1.8展現(xiàn)出具有競(jìng)爭(zhēng)力的全面表現(xiàn):在視覺(jué)推理、通用視覺(jué)問(wèn)答、空間理解及視頻理解等任務(wù)中,均獲得最佳或接近最佳成績(jī);在通用智能體測(cè)評(píng)集BrowserComp上表現(xiàn)全球領(lǐng)先;在數(shù)學(xué)與推理等基礎(chǔ)能力維度上,整體水平已接近全球頂尖的通用模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

具體來(lái)看,在數(shù)學(xué)、推理和知識(shí)理解等核心基礎(chǔ)能力維度上,豆包1.8的整體水平接近業(yè)界頂級(jí)通用模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

該模型在多項(xiàng)復(fù)雜指令基準(zhǔn)中保持了與業(yè)界領(lǐng)先模型接近的表現(xiàn)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

它還將能力驗(yàn)證擴(kuò)展至由真實(shí)專家定義、具有明確經(jīng)濟(jì)價(jià)值的應(yīng)用場(chǎng)景,包括教育輔導(dǎo)、客服問(wèn)答、信息處理、意圖識(shí)別、信息抽取以及多步驟復(fù)雜工作流等任務(wù)類型,驗(yàn)證了模型在真實(shí)使用環(huán)境中的適用性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

評(píng)測(cè)結(jié)果顯示,豆包1.8具備業(yè)界領(lǐng)先的GUI Agent能力,在電腦、網(wǎng)頁(yè)、移動(dòng)端三類環(huán)境中,均展現(xiàn)出在不同系統(tǒng)和界面中執(zhí)行多步任務(wù)的可靠性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

其搜索任務(wù)中表現(xiàn)同樣突出,在多組公開Agent搜索評(píng)測(cè)基準(zhǔn)中保持業(yè)界第一梯隊(duì)水平,比如在BrowseComp-en基準(zhǔn)測(cè)試中得分高達(dá)67.6,超過(guò)Gemini-3-Pro等其他頂級(jí)模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在Agentic Coding相關(guān)基準(zhǔn)測(cè)試中,豆包1.8展現(xiàn)出了面向真實(shí)軟件工程場(chǎng)景的穩(wěn)定能力,表明其具備在真實(shí)開發(fā)環(huán)境中持續(xù)推進(jìn)任務(wù)的Agent編程能力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

FinSearchComp和XpertBench的測(cè)評(píng)顯示,該模型在處理金融商業(yè)相關(guān)任務(wù)時(shí)相對(duì)穩(wěn)定和高效。該模型在WorldTravel多模態(tài)應(yīng)用任務(wù)中得分達(dá)47.2,表明它在處理旅行規(guī)劃、用戶需求分析等真實(shí)場(chǎng)景需求時(shí)具有可靠性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

此外,豆包1.8在多模態(tài)推理任務(wù)中超越了前代模型Seed1.5-VL,在大部分任務(wù)中接近目前最先進(jìn)的Gemini-3-Pro。

在被認(rèn)為難度極高的視覺(jué)推理測(cè)試ZeroBench中,豆包1.8獲得11.0的最高得分。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在通用視覺(jué)問(wèn)答任務(wù)中,該模型在VLMsAreBiased基準(zhǔn)測(cè)試中取得了62.0的分?jǐn)?shù),大幅領(lǐng)先其他模型。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

豆包1.8在2D及3D空間理解的多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)秀,在處理3D空間理解和復(fù)雜任務(wù)時(shí),特別是在動(dòng)態(tài)和復(fù)雜數(shù)據(jù)集上,表現(xiàn)出較好的適應(yīng)性和推理能力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在視頻理解領(lǐng)域,該模型表現(xiàn)出色,尤其在視頻推理、運(yùn)動(dòng)與感知、長(zhǎng)視頻理解等任務(wù)中展現(xiàn)出較強(qiáng)的適應(yīng)性。它在動(dòng)態(tài)場(chǎng)景和實(shí)時(shí)感知任務(wù)中也分?jǐn)?shù)領(lǐng)先,展現(xiàn)了模型在復(fù)雜感知任務(wù)中的能力,尤其是在處理實(shí)時(shí)信息時(shí)的高效性。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

豆包1.8在長(zhǎng)視頻理解任務(wù)中同樣表現(xiàn)突出。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在視頻處理中,它還實(shí)現(xiàn)了Token Efficiency的顯著提升,既帶來(lái)了更強(qiáng)的理解能力,又將提供更低延遲的實(shí)時(shí)視頻處理體驗(yàn)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

豆包1.8通過(guò)引入多種Thinking Modes,嵌入了動(dòng)態(tài)調(diào)節(jié)思考深度的能力。用戶可根據(jù)任務(wù)的不同需求,靈活調(diào)整模型的推理深度和計(jì)算負(fù)載。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

項(xiàng)目主頁(yè):https://seed.bytedance.com/seed1_8

部分為該模型研發(fā)構(gòu)建的評(píng)測(cè)數(shù)據(jù)集已開源,或?qū)⒃谖磥?lái)開源。

三、Seedance 1.5 pro:音畫高精同步,支持多人多語(yǔ)言對(duì)話

針對(duì)日益增長(zhǎng)的視頻創(chuàng)作需求,火山引擎推出了Seedance 1.5 pro音視頻創(chuàng)作模型。該模型不僅具備影視級(jí)的敘事張力,能夠精準(zhǔn)捕捉運(yùn)動(dòng)細(xì)節(jié)并細(xì)膩呈現(xiàn)人物情緒,更是展現(xiàn)出在音畫高精同步方面的技術(shù)實(shí)力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

Seedance 1.5 pro采用創(chuàng)新的原生音視頻聯(lián)合生成架構(gòu),支持環(huán)境音、背景音樂(lè)、人聲等多種元素,實(shí)現(xiàn)了毫秒級(jí)的音畫同步輸出。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)在對(duì)白處理上,模型支持多人多語(yǔ)言對(duì)話,口型對(duì)齊精準(zhǔn),覆蓋中文方言、英文及小語(yǔ)種,提升了視頻內(nèi)容的真實(shí)感與全球化創(chuàng)作潛力。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

該模型可生成具有影視級(jí)敘事張力的視頻效果。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

為進(jìn)一步降低創(chuàng)作門檻與成本,Seedance系列即將上線“Draft樣片”功能。創(chuàng)作者可先生成低分辨率樣片進(jìn)行預(yù)覽,其關(guān)鍵要素與最終成片高度一致,真正做到“預(yù)覽即所得”。

數(shù)據(jù)顯示,該功能可幫助創(chuàng)作者提升65%的整體效率,并減少60%的無(wú)效創(chuàng)作成本。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

目前,個(gè)人用戶已可在豆包、即夢(mèng)AI等平臺(tái)體驗(yàn)該模型。企業(yè)用戶則可從12月23日起,通過(guò)火山引擎API接入Seedance 1.5 pro模型服務(wù)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

四、升級(jí)AI云原生架構(gòu),構(gòu)建Agent規(guī)?;涞鼗?/strong>

譚待認(rèn)為,傳統(tǒng)的IT架構(gòu)已無(wú)法滿足Agent時(shí)代的需求,以模型為中心的AI云原生架構(gòu)正在形成,并圍繞Agent的開發(fā)與運(yùn)營(yíng)進(jìn)行重構(gòu)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在Agent開發(fā)層面,火山引擎全面升級(jí)了企業(yè)級(jí)AI Agent平臺(tái)——AgentKit。該平臺(tái)覆蓋了Agent從開發(fā)、部署到管控的全生命周期,旨在解決企業(yè)在Agent落地中面臨的身份權(quán)限管理、模型確定性及系統(tǒng)集成等核心挑戰(zhàn)。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

在Agent運(yùn)營(yíng)層面,火山引擎推出了HiAgent智能體工作站。該工作站通過(guò)構(gòu)建統(tǒng)一的企業(yè)AI任務(wù)調(diào)度中心、提供一系列開箱即用的通用智能體,以及支持個(gè)性化定制智能體應(yīng)用,幫助企業(yè)實(shí)現(xiàn)Agent的規(guī)?;芾砼c應(yīng)用。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

此外,為降低企業(yè)使用門檻,火山引擎推出了業(yè)內(nèi)首個(gè)“AI節(jié)省計(jì)劃”。該計(jì)劃覆蓋所有按量后付費(fèi)的大模型產(chǎn)品,通過(guò)階梯式折扣,幫助企業(yè)最高節(jié)省47%的成本。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

結(jié)語(yǔ):從模型到基礎(chǔ)設(shè)施升級(jí),推動(dòng)AI應(yīng)用向復(fù)雜Agent生態(tài)演進(jìn)

面向AI,火山引擎的AI云原生基礎(chǔ)設(shè)施持續(xù)進(jìn)化。

火山引擎發(fā)布豆包大模型1.8,多模態(tài)Agent能力進(jìn)入全球第一梯隊(duì)

譚待談道,通過(guò)從模型能力到基礎(chǔ)設(shè)施的全面革新,火山引擎正在推動(dòng)AI應(yīng)用從單一的模型調(diào)用向復(fù)雜的Agent智能體生態(tài)演進(jìn),加速AI能力在各行各業(yè)的深度落地。