国产极品大片在线观看,2020免费看黄网站,在线观看偷拍自拍视频

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

綁定手機(jī)號(hào)

確認(rèn)綁定

陳駿達(dá)

標(biāo)簽

百度英特爾華為 iPhone 大眾高通谷歌 5G 三星蘋果 IDx 智東西騰訊 360 小米微軟通用

OpenAI?Deep Research“被開(kāi)源”：24小時(shí)成功復(fù)現(xiàn)，揭秘背后技術(shù)細(xì)節(jié)

智東西（公眾號(hào)：zhidxcom）
編譯 | 陳駿達(dá)
編輯 | Panken

智東西2月8日消息，24小時(shí)極速?gòu)?fù)現(xiàn)OpenAI Deep Research，還免費(fèi)提供，這是開(kāi)源AI社區(qū)Hugging Face做出的新貢獻(xiàn)——一款開(kāi)源的AI研究agent，不僅能勝任整理信息寫報(bào)告的復(fù)雜任務(wù)，而且僅開(kāi)放一天就在嚴(yán)苛的通用AI助手基準(zhǔn)測(cè)試中達(dá)到55%的準(zhǔn)確率（OpenAI原功能是67%）。

DeepSeek-R1在海外的現(xiàn)象級(jí)爆火，加速OpenAI推出免費(fèi)的o3-mini、Deep Research等新模型與功能。然而，DeepSeek開(kāi)源策略掀起的前沿模型復(fù)現(xiàn)潮，讓廣大網(wǎng)友已經(jīng)不滿足于OpenAI的閉源系統(tǒng)，而是希望用更低成本的開(kāi)源系統(tǒng)實(shí)現(xiàn)同樣的效果。

OpenAI的Deep Research能進(jìn)行多步驟自主研究、信息深度整合以及復(fù)雜任務(wù)的處理，OpenAI在博客中透露，Deep Research由一個(gè)大模型和一個(gè)內(nèi)部Agent框架組成。

復(fù)現(xiàn)時(shí)，Hugging Face團(tuán)隊(duì)基于微軟的開(kāi)源Agent系統(tǒng)，并用代碼Agent框架進(jìn)行優(yōu)化，讓Agent用代碼來(lái)規(guī)劃、表達(dá)其行動(dòng)，這對(duì)提升系統(tǒng)表現(xiàn)的作用顯著。

該團(tuán)隊(duì)還提出，未來(lái)可通過(guò)增加支持的文件格式數(shù)量、提出對(duì)文件進(jìn)行更細(xì)粒度處理的建議以及使用基于視覺(jué)的網(wǎng)絡(luò)瀏覽器，來(lái)進(jìn)一步提升系統(tǒng)表現(xiàn)。

項(xiàng)目鏈接：https://huggingface.co/blog/open-deep-research

試用鏈接：https://m-ric-open-deep-research.hf.space/

一、代碼Agent架構(gòu)可顯著提升性能，運(yùn)行成本降低30%

Hugging Face團(tuán)隊(duì)本次復(fù)現(xiàn)OpenAI Deep Research的核心任務(wù)便是Agent框架的搭建。Agent框架是大模型上一層的架構(gòu)，用于指導(dǎo)大模型進(jìn)行瀏覽網(wǎng)頁(yè)、閱讀PDF等操作，并且按照一系列步驟組織上述操作。

將大模型整合進(jìn)Agent框架可顯著提升性能表現(xiàn)。在多項(xiàng)基準(zhǔn)測(cè)試中，僅需使用基礎(chǔ)的開(kāi)源通用Agent架構(gòu)smolagents庫(kù)，就能將幾款最近發(fā)布的前沿模型的表現(xiàn)提升至高60分。

OpenAI?Deep Research“被開(kāi)源”：24小時(shí)成功復(fù)現(xiàn)，揭秘背后技術(shù)細(xì)節(jié)

▲Agent框架能顯著提升大模型表現(xiàn)（圖源：Hugging Face）

實(shí)際上，OpenAI也在發(fā)布Deep Research功能的博客文章中強(qiáng)調(diào)，在知識(shí)密集型的高難度基準(zhǔn)測(cè)試“Humanity’s Last Exam”中，Deep Research的表現(xiàn)要明顯好于獨(dú)立運(yùn)行的大模型。

在復(fù)現(xiàn)Deep Research功能時(shí)，Hugging Face團(tuán)隊(duì)主要采用代碼Agent來(lái)提升傳統(tǒng)Agent架構(gòu)的表現(xiàn)。先前研究顯示，讓Agent用代碼來(lái)規(guī)劃、表達(dá)其行動(dòng)具有4個(gè)優(yōu)勢(shì)，尤其是在表達(dá)復(fù)雜的行動(dòng)序列時(shí)。

1、在下方案例中，用代碼來(lái)表示行動(dòng)比JSON要簡(jiǎn)潔許多。這一序列需要運(yùn)行4個(gè)并行流，每個(gè)流包含5個(gè)連續(xù)行動(dòng)。在JSON中，你需要生成20個(gè)JSON塊，每個(gè)塊在單獨(dú)的步驟中；而若用代碼表示，只需1個(gè)步驟。

OpenAI?Deep Research“被開(kāi)源”：24小時(shí)成功復(fù)現(xiàn)，揭秘背后技術(shù)細(xì)節(jié)

▲研究來(lái)源：Paper page – Executable Code Actions Elicit Better LLM Agents

平均而言，論文顯示代碼行動(dòng)比JSON少30%的步驟，這意味著生成的token也相應(yīng)減少。由于大模型調(diào)用通常是Agent系統(tǒng)的主要成本，這意味著Agent系統(tǒng)的運(yùn)行成本降低了約30%。

2、用代碼來(lái)表示行動(dòng)還能更方便地再利用常見(jiàn)庫(kù)中的工具。

3、這種系統(tǒng)在基準(zhǔn)測(cè)試中的表現(xiàn)更好，因?yàn)榇竽Ｐ驮谟?xùn)練時(shí)廣泛接觸了代碼數(shù)據(jù)，這種行動(dòng)表達(dá)方式對(duì)它們來(lái)說(shuō)更為直觀。

4、更好的狀態(tài)處理能力：在多模態(tài)任務(wù)中，如果需要存儲(chǔ)圖像、音頻等內(nèi)容后續(xù)使用，只需將其作為變量分配給狀態(tài)。但在JSON中，必須讓大模型在字典鍵中命名它，大模型后續(xù)能否理解和使用也還是未知數(shù)。

同時(shí)，Agent系統(tǒng)需要配備正確的工具集，Hugging Face的復(fù)現(xiàn)團(tuán)隊(duì)使用了微軟研究院現(xiàn)成的的Magentic-One Agent，試圖用最低的復(fù)雜性獲得最高的性能。工具集中包含2個(gè)工具：

1、一個(gè)網(wǎng)絡(luò)瀏覽器。雖然像Operator這樣的完整網(wǎng)絡(luò)瀏覽器交互需要達(dá)到全性能，但Hugging Face團(tuán)隊(duì)目前先使用了一個(gè)簡(jiǎn)單的基于文本的網(wǎng)絡(luò)瀏覽器，作為概念驗(yàn)證。

2、一個(gè)簡(jiǎn)單的文本檢查器，能夠讀取大量文本文件格式。

二、遠(yuǎn)超開(kāi)源SOTA系統(tǒng)，還有三大提升空間

為測(cè)試上述系統(tǒng)的性能，Hugging Face團(tuán)隊(duì)使用了GAIA這一全面且難度較高的Agent測(cè)試基準(zhǔn)，涉及許多基于大語(yǔ)言模型的挑戰(zhàn)。

下方是一個(gè)測(cè)試集中的難題：

“在2008年的畫作《烏茲別克斯坦刺繡》中展示的水果，哪些被用作1949年10月郵輪早餐菜單的一部分，該郵輪后來(lái)被用作電影《最后的航行》的浮動(dòng)道具？請(qǐng)以逗號(hào)分隔列出這些水果，按照畫作中從12點(diǎn)位置開(kāi)始按順時(shí)針?lè)较蚺帕械乃樞颍褂妹總€(gè)水果的復(fù)數(shù)形式?！?/em>

此類問(wèn)題對(duì)Agent系統(tǒng)提出了多個(gè)挑戰(zhàn)：識(shí)別水果需要用到多模態(tài)能力；搜集信息時(shí)需要理解信息間的相互依賴關(guān)系；輸出回答時(shí)需要按照指定的格式。此外，系統(tǒng)還需將問(wèn)題解決的軌跡按正確順序串聯(lián)起來(lái)。

解決此問(wèn)題需要高級(jí)規(guī)劃能力和嚴(yán)格的執(zhí)行，這兩個(gè)領(lǐng)域在使用時(shí)單獨(dú)使用大模型時(shí)會(huì)遇到很多困難。

在GAIA的公共排行榜上，GPT-4在沒(méi)有任何Agent設(shè)置的情況下，連7%的驗(yàn)證集分?jǐn)?shù)都達(dá)不到。但通過(guò)Deep Research，OpenAI在驗(yàn)證集上達(dá)到了67.36%的分?jǐn)?shù)，提升了一個(gè)數(shù)量級(jí)。

▲Deep Research在GAIA上的成績(jī)（圖源：OpenAI）

在Hugging Face 24小時(shí)的復(fù)現(xiàn)嘗試中，代碼Agent的使用對(duì)系統(tǒng)的整體表現(xiàn)提升明顯。之前，Magentic-One是GIGA測(cè)試中表現(xiàn)最佳的開(kāi)源系統(tǒng)，Hugging Face團(tuán)隊(duì)將其表現(xiàn)從46%提升至55.15%，這種性能提升主要?dú)w功于讓Agent以代碼的形式編寫其動(dòng)作。

當(dāng)切換到以JSON而不是代碼編寫動(dòng)作的標(biāo)準(zhǔn)Agent時(shí)，相同設(shè)置的驗(yàn)證集性能會(huì)立即下降到33%左右。

Hugging Face團(tuán)隊(duì)認(rèn)為，未來(lái)此類系統(tǒng)還可以從三方面進(jìn)行改進(jìn)：

1、擴(kuò)展可讀取的文件格式數(shù)量。

2、提出對(duì)文件進(jìn)行更細(xì)粒度處理的建議。

3、替換為基于視覺(jué)的網(wǎng)頁(yè)瀏覽器（開(kāi)源地址）。

結(jié)語(yǔ)：DeepSeek掀起的開(kāi)源熱潮持續(xù)

DeepSeek憑借其透明、可操作性強(qiáng)的發(fā)布與開(kāi)源模式，成為了全球AI模型開(kāi)源的最佳實(shí)踐案例之一。

Hugging Face本次對(duì)OpenAI Deep Reasearch的復(fù)現(xiàn)，也正是順應(yīng)了DeepSeek掀起的開(kāi)源熱潮。這一趨勢(shì)有望讓前沿AI模型的技術(shù)進(jìn)步惠及更廣大的研究群體。

來(lái)源：Hugging Face

19

OpenAI

來(lái), 說(shuō)兩句

相關(guān)推薦

加載更多...

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、代碼Agent架構(gòu)可顯著提升性能，運(yùn)行成本降低30%

二、遠(yuǎn)超開(kāi)源SOTA系統(tǒng)，還有三大提升空間

結(jié)語(yǔ)：DeepSeek掀起的開(kāi)源熱潮持續(xù)

相關(guān)推薦

一、代碼Agent架構(gòu)可顯著提升性能，運(yùn)行成本降低30%

二、遠(yuǎn)超開(kāi)源SOTA系統(tǒng)，還有三大提升空間