亚洲黄色成人自拍网站,国产看黄网站又黄又爽又色,手机在线观看日韩av

智東西（公眾號(hào)：zhidxcom）
作者 | 李水青
編輯 | 云鵬

智東西8月15日消息，今日晚間，阿里宣布推出首個(gè)開源多模態(tài)深度研究智能體（Deep Research Agent）——WebWatcher。

市面上的深度研究工具層出不窮，但大多只能圍繞文字進(jìn)行搜索。WebWatcher的核心創(chuàng)新點(diǎn)在于配備了增強(qiáng)的視覺語言推理能力，能夠圖文結(jié)合思考并調(diào)用多種工具，從而使研究結(jié)果更深入。

比如，當(dāng)用戶要分析一張圖片里的信息，WebWatcher能調(diào)用 “圖片搜索” 找相關(guān)圖和說明，用 “OCR” 提取圖片里的文字，用 “文字搜索” 查背景知識(shí)，用 “網(wǎng)頁訪問” 看具體網(wǎng)頁內(nèi)容，用 “代碼工具” 算數(shù)據(jù)等。

剛剛！阿里推出首個(gè)開源多模態(tài)深度研究Agent，四大VQA基準(zhǔn)測(cè)試趕超GPT-4o

▲WebWatcher運(yùn)行案例

實(shí)驗(yàn)結(jié)果表明，WebWatcher在四個(gè)具有挑戰(zhàn)性的VQA（視覺問答）基準(zhǔn)測(cè)試中全面領(lǐng)先于主流的開閉源多模態(tài)大模型：

其在Humanity’s Last Exam（HLE）-VL（復(fù)雜推理）、BrowseComp-VL（信息檢索）、LiveVQA（知識(shí)整合）和MMSearch（聚合類信息尋優(yōu)）等任務(wù)測(cè)試中均獲得高分，超越GPT-4o、Gemini2.5-flash、Qwen2.5-VL-72B、Claude 3.7等模型。

剛剛！阿里推出首個(gè)開源多模態(tài)深度研究Agent，四大VQA基準(zhǔn)測(cè)試趕超GPT-4o

▲WebWatcher測(cè)評(píng)成績

WebWatcher的技術(shù)方案覆蓋了從數(shù)據(jù)構(gòu)建到訓(xùn)練優(yōu)化的完整鏈路，核心目標(biāo)是讓多模態(tài)Agent在高難度多模態(tài)深度研究任務(wù)中具備靈活推理和多工具協(xié)作能力。整個(gè)方法包含三大環(huán)節(jié)：

1、多模態(tài)高難度數(shù)據(jù)生成：構(gòu)建具備復(fù)雜推理鏈和信息模糊化的訓(xùn)練數(shù)據(jù)；

2、高質(zhì)量推理軌跡構(gòu)建與后訓(xùn)練：生成貼近真實(shí)多工具交互的推理軌跡，并通過監(jiān)督微調(diào)（SFT）完成初步能力對(duì)齊。然后利用GRPO在復(fù)雜任務(wù)環(huán)境中進(jìn)一步提升模型的決策能力與泛化性；

3、高難度基準(zhǔn)評(píng)測(cè)：構(gòu)建并使用BrowseComp-VL對(duì)模型的多模態(tài)深度推理能力進(jìn)行驗(yàn)證。

為了更好地評(píng)估WebWatcher的能力，阿里提出了BrowseComp-VL，它是BrowseComp在視覺-語言任務(wù)上的擴(kuò)展版本，設(shè)計(jì)目標(biāo)是逼近人類專家的跨模態(tài)研究任務(wù)難度。

GitHub地址：
https://github.com/Alibaba-NLP/WebAgent
論文地址：
https://arxiv.org/abs/2508.05748

剛剛！阿里推出首個(gè)開源多模態(tài)深度研究Agent，四大VQA基準(zhǔn)測(cè)試趕超GPT-4o

▲論文頁面截圖

結(jié)語：突破視覺語言，向深度搜索Agent邁進(jìn)

自2025年1月推出WebWalker多Agent框架之后，阿里在過去近八個(gè)月里加速迭代，陸續(xù)推出了原生Agent搜索模型WebDancer、可執(zhí)行極復(fù)雜信息搜索的Agent搜索模型WebSailor、面向信息檢索Agent的數(shù)據(jù)合成方法WebShaper，向通用搜索Agent不斷邁進(jìn)。

本次，阿里最新推出的多模態(tài)深度研究智能體WebWatcher，進(jìn)一步突破視覺語言深度研究Agent的新前沿，其構(gòu)建的BrowseComp-VL基準(zhǔn)、自動(dòng)化軌跡生成與訓(xùn)練流程，為解決復(fù)雜多模態(tài)信息檢索任務(wù)奠定基礎(chǔ)，也為未來多模態(tài)深度研究Agent發(fā)展提供方向。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

結(jié)語：突破視覺語言，向深度搜索Agent邁進(jìn)

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

結(jié)語：突破視覺語言，向深度搜索Agent邁進(jìn)

相關(guān)推薦

結(jié)語：突破視覺語言，向深度搜索Agent邁進(jìn)