智東西(公眾號(hào):zhidxcom)
作者 | 程茜
編輯 | 云鵬

智東西1月30日?qǐng)?bào)道,1月29日,商湯正式開(kāi)源多模態(tài)自主推理模型SenseNova-MARS-8B和SenseNova-MARS-32B。該系列模型在多模態(tài)搜索與推理的核心基準(zhǔn)測(cè)試中性能超越Gemini 3 Pro、GPT-5.2。

商湯指出,SenseNova-MARS是首個(gè)支持動(dòng)態(tài)視覺(jué)推理和圖文搜索深度融合的Agentic?VLM模型。

該框架能夠在多輪推理過(guò)程中主動(dòng)運(yùn)用圖像搜索、文本搜索和圖像裁剪工具,如通過(guò)放大、裁剪圖片尋找細(xì)節(jié),然后調(diào)用文本、圖片搜索工具查詢背景信息,且這一過(guò)程無(wú)需人工干預(yù)。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準(zhǔn)測(cè)試中,SenseNova-MARS取得開(kāi)源模型中的SOTA成績(jī)。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

商湯日日新SenseNova-MARS模型、代碼、數(shù)據(jù)集全開(kāi)源。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

GitHub地址:

https://github.com/OpenSenseNova/SenseNova-MARS

一、自動(dòng)放大圖片看細(xì)節(jié),調(diào)用外部工具進(jìn)行文字、圖片搜索

盡管視覺(jué)語(yǔ)言模型(VLM)能夠通過(guò)智能推理解決復(fù)雜任務(wù),但其主要局限于面向文本的思維鏈或孤立的工具調(diào)用。尤其是在需要協(xié)調(diào)外部工具(例如搜索和圖像裁剪)的知識(shí)密集型和視覺(jué)復(fù)雜場(chǎng)景中,它們無(wú)法展現(xiàn)出人類所需的熟練程度,無(wú)法將動(dòng)態(tài)工具操作與連續(xù)推理無(wú)縫銜接。

基于此,商湯研究團(tuán)隊(duì)推出了SenseNova-MARS。SenseNova-MARS能在生活和工作的場(chǎng)景,解決需要“多步驟推理+多工具協(xié)作”的問(wèn)題,如可以通過(guò)裁剪放大圖片的細(xì)節(jié)、進(jìn)行圖像搜索、進(jìn)行文本搜索。

下方模型需要完成識(shí)別賽車服微小Logo、查詢公司成立年份、匹配車手出生年月、計(jì)算差值的復(fù)雜任務(wù),SenseNova-MARS可自主調(diào)用圖像裁剪、文本/圖像搜索工具,無(wú)需人工干預(yù)完成解答。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

其還能從產(chǎn)品和行業(yè)峰會(huì)的照片中,如根據(jù)下面的汽車圖片識(shí)別出汽車品牌的標(biāo)志、確認(rèn)車型,然后結(jié)合文本和圖像搜索給出答案。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

SenseNova-MARS能從賽事照片中識(shí)別畫(huà)面中的Logo、人物等信息,追溯比賽或人員背景信息,快速補(bǔ)充重要細(xì)節(jié)。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

該模型還能處理超長(zhǎng)步驟的多模態(tài)推理,和超過(guò)三種工具調(diào)用,自動(dòng)裁剪分析細(xì)節(jié)、搜索相關(guān)研究數(shù)據(jù),快速驗(yàn)證假設(shè),得出關(guān)鍵判斷。例如根據(jù)下方圖片,其能快速抓取精準(zhǔn)信息,包括公司成立年份、人物出生年月等。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

二、搜索能力超Gemini-3-Pro、GPT-5.2,跨任務(wù)調(diào)用工具強(qiáng)過(guò)Qwen3-VL-8B

為了全面評(píng)估智能視覺(jué)學(xué)習(xí)模型(VLM)在復(fù)雜視覺(jué)任務(wù)上的性能,研究團(tuán)隊(duì)引入了HR-MMSearch基準(zhǔn)測(cè)試。

作為評(píng)估VLM智能體細(xì)粒度感知和搜索推理能力的基準(zhǔn)測(cè)試。該數(shù)據(jù)集包含305張4K分辨率的圖像,這些圖像來(lái)自8個(gè)不同的、具有高影響力的領(lǐng)域,涵蓋體育、休閑文化以及科學(xué)技術(shù)等。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

▲HR-MMSearch測(cè)試集的數(shù)據(jù)包含情況

實(shí)驗(yàn)表明,SenseNova-MARS在開(kāi)源搜索和細(xì)粒度圖像理解基準(zhǔn)測(cè)試中均表現(xiàn)較優(yōu)。在面向搜索的基準(zhǔn)測(cè)試中,SenseNova-MARS-32B在MMSearch和HR-MMSearch上的得分分別為74.3和54.4,超越了Gemini-3-Pro和GPT-5.2等專有模型。

在知識(shí)密集型MMSearch基準(zhǔn)測(cè)試中,SenseNova-MARS主要依賴圖像和文本搜索工具來(lái)獲取外部信息,對(duì)基于裁剪的感知依賴性極低。相比之下,在既需要高分辨率感知,也需要復(fù)雜的推理的HR-MMSearch測(cè)試中,SenseNova-MARS展現(xiàn)出更為均衡的工具使用,表明其能夠有效地整合局部視覺(jué)線索和外部知識(shí)。

與Qwen3-VL-8B相比,SenseNova-MARS-8B通過(guò)動(dòng)態(tài)地為每種任務(wù)場(chǎng)景選擇最有效的工具,展現(xiàn)出更強(qiáng)的跨任務(wù)適應(yīng)性。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

▲SenseNova-MARS-8B的自適應(yīng)工具使用行為

SenseNova-MARS-32B在六項(xiàng)基準(zhǔn)測(cè)試中與其他模型的整體性能對(duì)比顯示,MMSearch、HR-MMSearch和FVQA等搜索導(dǎo)向型基準(zhǔn)測(cè)試中,該模型超越了Gemini-3-Pro和GPT-5.2等專有模型。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

面向視覺(jué)理解,在V Bench和HR-Bench等高分辨率感知基準(zhǔn)測(cè)試中,SenseNova-MARS-32B性能優(yōu)于Qwen3-VL-235B-A22B等模型。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

三、系統(tǒng)框架+強(qiáng)化學(xué)習(xí),采用雙階段流水線并行訓(xùn)練策略

SenseNova-MARS基于Qwen2.5-VL-7B-Instruct,采用兩階段流水線進(jìn)行訓(xùn)練,先進(jìn)行系統(tǒng)框架訓(xùn)練(SFT),再進(jìn)行強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練。

第一階段,其針對(duì)跨模態(tài)搜索推理訓(xùn)練數(shù)據(jù)稀缺的痛點(diǎn),的提出了基于多模智能體的自動(dòng)化數(shù)據(jù)合成引擎,采用細(xì)粒度視覺(jué)錨點(diǎn)與多跳深度關(guān)聯(lián)檢索的機(jī)制,動(dòng)態(tài)挖掘并關(guān)聯(lián)跨網(wǎng)頁(yè)實(shí)體的邏輯,自動(dòng)化構(gòu)建高復(fù)雜度的多跳推理鏈路,同時(shí)引入閉環(huán)自洽性校驗(yàn)來(lái)去除幻覺(jué)數(shù)據(jù),構(gòu)造出具備嚴(yán)密邏輯鏈條與高知識(shí)密度的多跳搜索問(wèn)答數(shù)據(jù)。

其篩選的高難度案例中,每個(gè)案例都標(biāo)注了“該用什么工具、步驟是什么”,讓AI先學(xué)會(huì)基本的解題邏輯,確保AI一開(kāi)始就接觸真實(shí)復(fù)雜場(chǎng)景。

第二階段訓(xùn)練采用強(qiáng)化學(xué)習(xí),AI每做對(duì)一次決策,比如選對(duì)工具、步驟合理就會(huì)獲得獎(jiǎng)勵(lì),做錯(cuò)了就調(diào)整策略。

此外,為了避免AI“學(xué)偏”,研究團(tuán)隊(duì)還引入了BN-GSPO算法,讓模型在處理簡(jiǎn)單題和復(fù)雜題時(shí)都能保持穩(wěn)定進(jìn)步,不會(huì)出現(xiàn)“偏科”。

國(guó)產(chǎn)開(kāi)源模型卷贏Gemini 3 Pro、GPT-5.2,最強(qiáng)多模態(tài)推理大模型易主?

這種基于雙階段歸一化的機(jī)制可以平滑動(dòng)態(tài)工具調(diào)用返回分布多樣性帶來(lái)的優(yōu)化波動(dòng)并確保學(xué)習(xí)信號(hào)分布的一致性,從而解決跨模態(tài)多步多工具智能體訓(xùn)練過(guò)程中的收斂性難題。

經(jīng)過(guò)這樣的訓(xùn)練,AI不僅學(xué)會(huì)了用工具,還能知道在什么情況下應(yīng)該使用哪些工具,以及如何將不同工具的結(jié)果有機(jī)結(jié)合起來(lái)。

結(jié)語(yǔ):多模態(tài)AI能自主解題,或加速產(chǎn)業(yè)端AI應(yīng)用

商湯提出了新型的多模態(tài)智能推理與搜索模型,該模型能夠在多輪推理過(guò)程中主動(dòng)運(yùn)用圖像搜索、文本搜索和圖像裁剪工具,提升了AI從被動(dòng)響應(yīng)指令到主動(dòng)規(guī)劃步驟、調(diào)用工具解決復(fù)雜問(wèn)題的能力。

聚焦到真實(shí)的業(yè)務(wù)場(chǎng)景,在工業(yè)質(zhì)檢、金融風(fēng)控、傳媒內(nèi)容分析、賽事數(shù)據(jù)挖掘、科研輔助等領(lǐng)域,模型此前受限于看不清細(xì)節(jié)、不會(huì)查背景、無(wú)法處理復(fù)雜多步驟任務(wù)的落地痛點(diǎn)。SenseNova-MARS無(wú)需人工干預(yù)的閉環(huán)解題能力,或大幅提升產(chǎn)業(yè)端的AI應(yīng)用效率。