智東西(公眾號(hào):zhidxcom)
作者 |? 陳駿達(dá)
編輯 |? 李水青

智東西3月31日?qǐng)?bào)道,昨天,阿里推出了最新一代全模態(tài)大模型Qwen3.5-Omni,這是一款能原生理解文本、圖片、音頻及音視頻輸入的模型,并能以文本和音頻兩種模態(tài)輸出。

阿里上一次更新Omni系列模型還是在去年9月。昨天上線的Qwen3.5-Omni系列包含Plus、Flash、Light三種尺寸,支持256k長(zhǎng)上下文超過(guò)10小時(shí)的音頻輸入,以及超過(guò)400秒的720P(1 FPS)音視頻輸入

千問(wèn)團(tuán)隊(duì)在技術(shù)博客中稱,215項(xiàng)音頻/音視頻的理解、推理和交互任務(wù)上,Qwen3.5-Omni-Plus取得了SOTA成績(jī)。這一模型的通用音頻理解、推理、識(shí)別、翻譯、對(duì)話超越了Gemini-3.1 Pro,音視頻理解能力總體達(dá)到Gemini-3.1 Pro水平。同時(shí),視覺(jué)和文本能力與同尺寸Qwen3.5模型持平。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

這些能力解鎖了不少有趣的用例,比如,你可以在realtime模式下拿著手機(jī)、打開(kāi)攝像頭,對(duì)著草圖向Qwen3.5-Omni分享你的開(kāi)發(fā)思路,而它能幫你生成對(duì)應(yīng)的代碼,實(shí)現(xiàn)“用嘴編程”,快速輸出原型設(shè)計(jì)。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

此外,Qwen3.5-Omni可以理解39種國(guó)內(nèi)方言和74種語(yǔ)言,并合成7種國(guó)內(nèi)方言和29種語(yǔ)言的音頻,在多語(yǔ)言支持上較上一代模型Qwen3-Omni有了明顯擴(kuò)展。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

我們?cè)囍瞄}南話與Qwen3.5-Omni聊了會(huì)兒天,它對(duì)閩南語(yǔ)的理解準(zhǔn)確,生成的語(yǔ)音也較為地道,不過(guò)仍然夾雜幾個(gè)普通話詞匯。從發(fā)送語(yǔ)音到返回音頻,Qwen3.5-Omni大概用了1-2秒,還調(diào)用了網(wǎng)絡(luò)搜索提供了正確的當(dāng)日天氣信息。

目前,Qwen3.5-Omni系列模型可在阿里云百煉上通過(guò)API調(diào)用的方式使用,并支持offline和realtime兩種調(diào)用模式。此外,用戶也可在chat.qwen.ai、Hugging Face和魔搭上體驗(yàn)這一模型。

這一模型的API調(diào)用價(jià)格采取階梯計(jì)費(fèi)模式,在常用的輸入≤128k場(chǎng)景下,其音頻輸入價(jià)格為4.96元/百萬(wàn)tokens,文本/圖片/視頻輸入價(jià)格為0.8元/百萬(wàn)tokens。模型的輸出價(jià)格為61.322元/百萬(wàn)tokens(文本+音頻),僅輸出文本時(shí)的價(jià)格為9.6元/百萬(wàn)tokens。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

模型發(fā)布后,智東西第一時(shí)間對(duì)Qwen3.5-Omni-Plus進(jìn)行了體驗(yàn)。這一模型在長(zhǎng)視頻理解、多模態(tài)指令遵循方面展現(xiàn)了不錯(cuò)的處理能力,同時(shí)其低延遲的實(shí)時(shí)交互與新增的語(yǔ)音控制功能,提升了交互體驗(yàn)。

Qwen3.5-Omni-Plus-Realtime:

https://help.aliyun.com/zh/model-studio/realtime

Qwen3.5-Omni-Plus:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus

魔搭離線Demo:

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo

魔搭實(shí)時(shí)Demo:?

https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

一、1分鐘看完50分鐘視頻,還能實(shí)現(xiàn)“用嘴編程”

在技術(shù)博客中,千問(wèn)團(tuán)隊(duì)稱,Qwen3.5-Omni-Plus的一大能力是音視頻描述(Caption)。結(jié)合提示詞要求,Qwen3.5-Omni-Plus可以生成劇本級(jí)的細(xì)粒度描述,并進(jìn)行自動(dòng)切片、時(shí)間戳打標(biāo)和人物與音頻關(guān)系的詳細(xì)介紹。

實(shí)測(cè)中,我們向Qwen3.5-Omni-Plus上傳了一集50分鐘左右的美劇《老友記》,并讓它按照系統(tǒng)提示詞的要求,輸出畫面內(nèi)容的準(zhǔn)確描述。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

Qwen3.5-Omni-Plus處理這集內(nèi)容大概用了1分鐘,速度還是較為理想的。它的描述完整覆蓋了視頻時(shí)間線,無(wú)跳躍或遺漏,符合“按時(shí)間描述”的核心要求。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

具體內(nèi)容上,它的描述抓住了核心劇情轉(zhuǎn)折點(diǎn),能識(shí)別重要人物關(guān)系和情緒變化,描述不是機(jī)械羅列,而是帶有輕微敘事感,效果比不少網(wǎng)盤中自動(dòng)生成的AI視頻摘要可讀性強(qiáng)很多。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

官方案例中,Qwen3.5-Omni-Plus收到了一段《舌尖上的中國(guó)》的切片,并對(duì)其進(jìn)行音視頻描述??梢钥吹剑琎wen3.5-Omni-Plus能按照畫面敘事和內(nèi)容自動(dòng)切分合適的時(shí)間節(jié)點(diǎn),對(duì)內(nèi)容的描述既包含了畫面,也包含了配音,結(jié)構(gòu)清晰、細(xì)節(jié)豐富。

結(jié)合更為復(fù)雜的提示詞,Qwen3.5-Omni-Plus還可用于審核類任務(wù),比如檢測(cè)游戲直播是否包含血腥暴力、危險(xiǎn)行為、言語(yǔ)與欺凌和其他不當(dāng)主題。

千問(wèn)團(tuán)隊(duì)還觀察到了全模態(tài)模型涌現(xiàn)出可以根據(jù)音視頻指令直接進(jìn)行編程的能力,他們稱之為“Audio-Visual Vibe Coding”。

實(shí)測(cè)中,我們上傳了一段錄屏,要求千問(wèn)根據(jù)其中的畫面和語(yǔ)音指令快速開(kāi)發(fā)一個(gè)社交媒體的原型。拿到視頻后,Qwen3.5-Omni-Plus很快就開(kāi)始編程,視頻內(nèi)容并未帶來(lái)明顯可感知的延遲。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

其生成的網(wǎng)頁(yè)效果如下,基本符合小紅書網(wǎng)頁(yè)版的布局特點(diǎn),各個(gè)界面的跳轉(zhuǎn)邏輯正確,手動(dòng)插入圖片后,應(yīng)該能達(dá)到80%的還原度。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

官方Demo中,千問(wèn)團(tuán)隊(duì)還展示了Qwen3.5-Omni-Plus根據(jù)草圖生成網(wǎng)頁(yè)的能力。用戶只需在紙上畫出簡(jiǎn)單的界面線框圖,拍照上傳并口述功能需求,模型便能理解設(shè)計(jì)意圖,直接輸出可運(yùn)行的前端代碼。

二、實(shí)時(shí)交互能力加強(qiáng),支持隨意打斷、語(yǔ)音克隆

除了基座能力的提升,Qwen3.5-Omni系列模型的交互能力也得到加強(qiáng)。

Qwen3.5-Omni如今支持了語(yǔ)義打斷,也就是說(shuō)用戶可以在模型“說(shuō)話”的時(shí)候隨意插話,補(bǔ)充信息,提供新指令等等。

這一交互體驗(yàn)基于Qwen3.5-Omni自動(dòng)識(shí)別turn-talking意圖能力,可避免附和和無(wú)意義背景音打斷,已在API已原生支持。

在官方Demo中,可以看到Qwen3.5-Omni不會(huì)被“嗯嗯”這些附和性的內(nèi)容打斷,而當(dāng)用戶確實(shí)提出問(wèn)題時(shí),模型可以及時(shí)停止此前的回復(fù)并生成新內(nèi)容。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

Qwen3.5-Omni原生支持了網(wǎng)絡(luò)搜索和復(fù)雜FunctionCall能力,模型可以自主判斷是否需要使用網(wǎng)絡(luò)搜索來(lái)回應(yīng)用戶的即時(shí)問(wèn)題。我們?cè)谖恼乱潦颊故镜姆窖詫?duì)話案例中,模型能搜索實(shí)時(shí)天氣信息,靠的就是這一能力。

端到端的語(yǔ)音控制和對(duì)話能力也已經(jīng)整合至Qwen3.5-Omni中。模型可以像人一樣遵循指令來(lái)對(duì)聲音的大小、語(yǔ)速、情緒進(jìn)行自由控制。

Qwen3.5-Omni支持音色克隆,用戶可以上傳音色來(lái)定制音色。官方Demo中,Qwen3.5-Omni能克隆說(shuō)話者的音色,然后將其轉(zhuǎn)換為不同的語(yǔ)言,實(shí)現(xiàn)交替?zhèn)髯g。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

三、延用Thinker-Talker分工架構(gòu),采用混合注意力機(jī)制

Qwen3.5-Omni系列模型是如何實(shí)現(xiàn)上述能力的?

Qwen3.5-Omni延續(xù)了上一代的Thinker-Talker分工架構(gòu)——Thinker負(fù)責(zé)理解,Talker負(fù)責(zé)表達(dá)。但這一次,兩者都改為Hybrid-Attention MoE(混合注意力MoE),提升了模型效率和性能。

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

Thinker負(fù)責(zé)接收視覺(jué)和音頻信號(hào),通過(guò)TMRoPE編碼位置信息,輸出文本。Hybrid-Attention讓它在處理10小時(shí)長(zhǎng)音頻、1小時(shí)視頻時(shí),依然能快速抓住重點(diǎn)。

Talker則接收Thinker的多模態(tài)輸出,進(jìn)行contextual語(yǔ)音生成。還使用RVQ編碼替代繁重的DiT運(yùn)算。

針對(duì)流式語(yǔ)音交互中由于文本與語(yǔ)音Token編碼效率差異導(dǎo)致的語(yǔ)音不穩(wěn)定性,如漏讀、誤讀或數(shù)字發(fā)音模糊等問(wèn)題,千問(wèn)團(tuán)隊(duì)使用了ARIA(自適應(yīng)速率交錯(cuò)對(duì)齊,Adaptive Rate Interleave Alignment)技術(shù)、動(dòng)態(tài)對(duì)齊文本與語(yǔ)音單元,可在保證實(shí)時(shí)性的前提下,提升語(yǔ)音合成的自然度與魯棒性。

Qwen3.5-Omni與Qwen3-Omni的詳細(xì)對(duì)比如下:

阿里最強(qiáng)全模態(tài)模型登場(chǎng)!實(shí)測(cè)看懂50分鐘《老友記》,全球評(píng)測(cè)215項(xiàng)SOTA

結(jié)語(yǔ):全模態(tài)能力或?qū)⒔怄i更多AI應(yīng)用場(chǎng)景

模型的全模態(tài)化已經(jīng)成為一大趨勢(shì)。從千問(wèn)的Omni系列模型再到谷歌的Gemini,未來(lái)的模型將不再僅僅是文本、圖像或音頻能力的簡(jiǎn)單疊加,而是具備統(tǒng)一的理解與生成架構(gòu),能夠像人類一樣自然地處理流式音視頻輸入。

隨著長(zhǎng)上下文處理、方言和多語(yǔ)言適配及低延遲響應(yīng)能力的不斷擴(kuò)展,大模型的全模態(tài)能力有望在內(nèi)容審核、智能客服、實(shí)時(shí)翻譯發(fā)揮更大作用,提供更為自然的交互體驗(yàn)。