智東西(公眾號(hào):zhidxcom)
編譯 | 陳駿達(dá)
編輯 | Panken

智東西2月8日消息,24小時(shí)極速?gòu)?fù)現(xiàn)OpenAI Deep Research,還免費(fèi)提供,這是開(kāi)源AI社區(qū)Hugging Face做出的新貢獻(xiàn)——一款開(kāi)源的AI研究agent,不僅能勝任整理信息寫報(bào)告的復(fù)雜任務(wù),而且僅開(kāi)放一天就在嚴(yán)苛的通用AI助手基準(zhǔn)測(cè)試中達(dá)到55%的準(zhǔn)確率(OpenAI原功能是67%)。

DeepSeek-R1在海外的現(xiàn)象級(jí)爆火,加速OpenAI推出免費(fèi)的o3-mini、Deep Research等新模型與功能。然而,DeepSeek開(kāi)源策略掀起的前沿模型復(fù)現(xiàn)潮,讓廣大網(wǎng)友已經(jīng)不滿足于OpenAI的閉源系統(tǒng),而是希望用更低成本的開(kāi)源系統(tǒng)實(shí)現(xiàn)同樣的效果。

OpenAI的Deep Research能進(jìn)行多步驟自主研究、信息深度整合以及復(fù)雜任務(wù)的處理,OpenAI在博客中透露,Deep Research由一個(gè)大模型和一個(gè)內(nèi)部Agent框架組成。

復(fù)現(xiàn)時(shí),Hugging Face團(tuán)隊(duì)基于微軟的開(kāi)源Agent系統(tǒng),并用代碼Agent框架進(jìn)行優(yōu)化,讓Agent用代碼來(lái)規(guī)劃、表達(dá)其行動(dòng),這對(duì)提升系統(tǒng)表現(xiàn)的作用顯著。

該團(tuán)隊(duì)還提出,未來(lái)可通過(guò)增加支持的文件格式數(shù)量、提出對(duì)文件進(jìn)行更細(xì)粒度處理的建議以及使用基于視覺(jué)的網(wǎng)絡(luò)瀏覽器,來(lái)進(jìn)一步提升系統(tǒng)表現(xiàn)。

項(xiàng)目鏈接:https://huggingface.co/blog/open-deep-research

試用鏈接:https://m-ric-open-deep-research.hf.space/

一、代碼Agent架構(gòu)可顯著提升性能,運(yùn)行成本降低30%

Hugging Face團(tuán)隊(duì)本次復(fù)現(xiàn)OpenAI Deep Research的核心任務(wù)便是Agent框架的搭建。Agent框架是大模型上一層的架構(gòu),用于指導(dǎo)大模型進(jìn)行瀏覽網(wǎng)頁(yè)、閱讀PDF等操作,并且按照一系列步驟組織上述操作。

將大模型整合進(jìn)Agent框架可顯著提升性能表現(xiàn)。在多項(xiàng)基準(zhǔn)測(cè)試中,僅需使用基礎(chǔ)的開(kāi)源通用Agent架構(gòu)smolagents庫(kù),就能將幾款最近發(fā)布的前沿模型的表現(xiàn)提升至高60分。

OpenAI?Deep Research“被開(kāi)源”:24小時(shí)成功復(fù)現(xiàn),揭秘背后技術(shù)細(xì)節(jié)

▲Agent框架能顯著提升大模型表現(xiàn)(圖源:Hugging Face)

實(shí)際上,OpenAI也在發(fā)布Deep Research功能的博客文章中強(qiáng)調(diào),在知識(shí)密集型的高難度基準(zhǔn)測(cè)試“Humanity’s Last Exam”中,Deep Research的表現(xiàn)要明顯好于獨(dú)立運(yùn)行的大模型。

在復(fù)現(xiàn)Deep Research功能時(shí),Hugging Face團(tuán)隊(duì)主要采用代碼Agent來(lái)提升傳統(tǒng)Agent架構(gòu)的表現(xiàn)。先前研究顯示,讓Agent用代碼來(lái)規(guī)劃、表達(dá)其行動(dòng)具有4個(gè)優(yōu)勢(shì),尤其是在表達(dá)復(fù)雜的行動(dòng)序列時(shí)。

1、在下方案例中,用代碼來(lái)表示行動(dòng)比JSON要簡(jiǎn)潔許多。這一序列需要運(yùn)行4個(gè)并行流,每個(gè)流包含5個(gè)連續(xù)行動(dòng)。在JSON中,你需要生成20個(gè)JSON塊,每個(gè)塊在單獨(dú)的步驟中;而若用代碼表示,只需1個(gè)步驟。

OpenAI?Deep Research“被開(kāi)源”:24小時(shí)成功復(fù)現(xiàn),揭秘背后技術(shù)細(xì)節(jié)

▲研究來(lái)源:Paper page – Executable Code Actions Elicit Better LLM Agents

平均而言,論文顯示代碼行動(dòng)比JSON少30%的步驟,這意味著生成的token也相應(yīng)減少。由于大模型調(diào)用通常是Agent系統(tǒng)的主要成本,這意味著Agent系統(tǒng)的運(yùn)行成本降低了約30%。

2、用代碼來(lái)表示行動(dòng)還能更方便地再利用常見(jiàn)庫(kù)中的工具。

3、這種系統(tǒng)在基準(zhǔn)測(cè)試中的表現(xiàn)更好,因?yàn)榇竽P驮谟?xùn)練時(shí)廣泛接觸了代碼數(shù)據(jù),這種行動(dòng)表達(dá)方式對(duì)它們來(lái)說(shuō)更為直觀。

4、更好的狀態(tài)處理能力:在多模態(tài)任務(wù)中,如果需要存儲(chǔ)圖像、音頻等內(nèi)容后續(xù)使用,只需將其作為變量分配給狀態(tài)。但在JSON中,必須讓大模型在字典鍵中命名它,大模型后續(xù)能否理解和使用也還是未知數(shù)。

同時(shí),Agent系統(tǒng)需要配備正確的工具集,Hugging Face的復(fù)現(xiàn)團(tuán)隊(duì)使用了微軟研究院現(xiàn)成的的Magentic-One Agent,試圖用最低的復(fù)雜性獲得最高的性能。工具集中包含2個(gè)工具:

1、一個(gè)網(wǎng)絡(luò)瀏覽器。雖然像Operator這樣的完整網(wǎng)絡(luò)瀏覽器交互需要達(dá)到全性能,但Hugging Face團(tuán)隊(duì)目前先使用了一個(gè)簡(jiǎn)單的基于文本的網(wǎng)絡(luò)瀏覽器,作為概念驗(yàn)證。

2、一個(gè)簡(jiǎn)單的文本檢查器,能夠讀取大量文本文件格式。

二、遠(yuǎn)超開(kāi)源SOTA系統(tǒng),還有三大提升空間

為測(cè)試上述系統(tǒng)的性能,Hugging Face團(tuán)隊(duì)使用了GAIA這一全面且難度較高的Agent測(cè)試基準(zhǔn),涉及許多基于大語(yǔ)言模型的挑戰(zhàn)。

下方是一個(gè)測(cè)試集中的難題:

“在2008年的畫作《烏茲別克斯坦刺繡》中展示的水果,哪些被用作1949年10月郵輪早餐菜單的一部分,該郵輪后來(lái)被用作電影《最后的航行》的浮動(dòng)道具?請(qǐng)以逗號(hào)分隔列出這些水果,按照畫作中從12點(diǎn)位置開(kāi)始按順時(shí)針?lè)较蚺帕械乃樞颍褂妹總€(gè)水果的復(fù)數(shù)形式?!?/em>

此類問(wèn)題對(duì)Agent系統(tǒng)提出了多個(gè)挑戰(zhàn):識(shí)別水果需要用到多模態(tài)能力;搜集信息時(shí)需要理解信息間的相互依賴關(guān)系;輸出回答時(shí)需要按照指定的格式。此外,系統(tǒng)還需將問(wèn)題解決的軌跡按正確順序串聯(lián)起來(lái)。

解決此問(wèn)題需要高級(jí)規(guī)劃能力和嚴(yán)格的執(zhí)行,這兩個(gè)領(lǐng)域在使用時(shí)單獨(dú)使用大模型時(shí)會(huì)遇到很多困難。

在GAIA的公共排行榜上,GPT-4在沒(méi)有任何Agent設(shè)置的情況下,連7%的驗(yàn)證集分?jǐn)?shù)都達(dá)不到。但通過(guò)Deep Research,OpenAI在驗(yàn)證集上達(dá)到了67.36%的分?jǐn)?shù),提升了一個(gè)數(shù)量級(jí)。

OpenAI?Deep Research“被開(kāi)源”:24小時(shí)成功復(fù)現(xiàn),揭秘背后技術(shù)細(xì)節(jié)

▲Deep Research在GAIA上的成績(jī)(圖源:OpenAI)

在Hugging Face 24小時(shí)的復(fù)現(xiàn)嘗試中,代碼Agent的使用對(duì)系統(tǒng)的整體表現(xiàn)提升明顯。之前,Magentic-One是GIGA測(cè)試中表現(xiàn)最佳的開(kāi)源系統(tǒng),Hugging Face團(tuán)隊(duì)將其表現(xiàn)從46%提升至55.15%,這種性能提升主要?dú)w功于讓Agent以代碼的形式編寫其動(dòng)作。

當(dāng)切換到以JSON而不是代碼編寫動(dòng)作的標(biāo)準(zhǔn)Agent時(shí),相同設(shè)置的驗(yàn)證集性能會(huì)立即下降到33%左右。

Hugging Face團(tuán)隊(duì)認(rèn)為,未來(lái)此類系統(tǒng)還可以從三方面進(jìn)行改進(jìn):

1、擴(kuò)展可讀取的文件格式數(shù)量。

2、提出對(duì)文件進(jìn)行更細(xì)粒度處理的建議。

3、替換為基于視覺(jué)的網(wǎng)頁(yè)瀏覽器(開(kāi)源地址)。

結(jié)語(yǔ):DeepSeek掀起的開(kāi)源熱潮持續(xù)

DeepSeek憑借其透明、可操作性強(qiáng)的發(fā)布與開(kāi)源模式,成為了全球AI模型開(kāi)源的最佳實(shí)踐案例之一。

Hugging Face本次對(duì)OpenAI Deep Reasearch的復(fù)現(xiàn),也正是順應(yīng)了DeepSeek掀起的開(kāi)源熱潮。這一趨勢(shì)有望讓前沿AI模型的技術(shù)進(jìn)步惠及更廣大的研究群體。

來(lái)源:Hugging Face