智東西(公眾號(hào):zhidxcom)
編譯 | 程茜
編輯 | 李水青

智東西3月6日消息,今日凌晨,OpenAI GPT-5.4系列模型來(lái)了,ChatGPT、API和Codex同步上線,這是其首款具備原生、最先進(jìn)計(jì)算機(jī)使用能力的通用模型。

根據(jù)OpenAI的官方測(cè)評(píng)結(jié)果,GPT-5.4在電腦操控、知識(shí)工作、工具使用等綜合任務(wù)上全面領(lǐng)先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等頂尖模型。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

OpenAI聯(lián)合創(chuàng)始人、CEO薩姆·阿爾特曼(Sam Altman)在社交平臺(tái)X上稱(chēng),GPT-5.4在知識(shí)工作和網(wǎng)頁(yè)搜索方面做得更好。OpenAI高級(jí)研究科學(xué)家、德?lián)銩I之父Noam?Brown也發(fā)帖稱(chēng),GPT?5.4在電腦操控能力與具備經(jīng)濟(jì)價(jià)值的任務(wù)上實(shí)現(xiàn)了巨大飛躍,他們看不到能力天花板,預(yù)計(jì)今年AI的整體性能仍將持續(xù)大幅提升。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

GPT-5.4今天將逐步上線ChatGPT、Codex、API,但其思考模型僅正式向ChatGPT Plus、Team及Pro用戶開(kāi)放,替代原有GPT?5.2思考模式。GPT?5.2思考模式將在模型選擇器的舊版模型專(zhuān)區(qū)為付費(fèi)用戶再保留三個(gè)月,隨后將于2026年6月5日下線。

GPT-5.4 Pro適合需要在復(fù)雜任務(wù)中達(dá)到最大性能的開(kāi)發(fā)者,將為Pro與企業(yè)版用戶提供。

定價(jià)方面,GPT-5.4的單token定價(jià)高于GPT?5.2,但OpenAI博客提到,它更高的token效率可降低多數(shù)任務(wù)的總token消耗量。

值得一提的是,Codex中的GPT?5.4已實(shí)驗(yàn)性支持100萬(wàn)上下文窗口,超出標(biāo)準(zhǔn)272K上下文窗口的請(qǐng)求,將按正常用量的2倍計(jì)入使用額度。此外,批量處理與彈性計(jì)費(fèi)價(jià)格為標(biāo)準(zhǔn)API費(fèi)率的一半,優(yōu)先處理則為標(biāo)準(zhǔn)費(fèi)率的2倍。

輸入價(jià)格,GPT-5.4相對(duì)GPT-5.2漲幅超過(guò)40%,輸出價(jià)格漲幅為7.14%。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

參與早期測(cè)試的開(kāi)發(fā)者、AI寫(xiě)作助手公司HyperWrite CEO Matt?Shumer對(duì)GPT-5.4開(kāi)啟了夸夸夸模式,稱(chēng)其是世界上最好的模型,并且相比Pro更常用GPT-5.4的標(biāo)準(zhǔn)版,編程能力好到離譜。

還有網(wǎng)友稱(chēng)蘋(píng)果發(fā)了MacBook Neo,OpenAI轉(zhuǎn)頭就上線100萬(wàn)token上下文+原生電腦操控,“筆記本正經(jīng)歷存在主義危機(jī)”。但有開(kāi)發(fā)者吐槽,GPT-5.4的價(jià)格太瘋狂了,完全沒(méi)法基于它做開(kāi)發(fā)。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

一、OpenAI首個(gè)能原生操作電腦的模型上線,token使用效率更高

GPT?5.4繼承了OpenAI近期在推理、代碼生成與智能體工作流領(lǐng)域的頂尖技術(shù)成果。

該模型繼承了GPT?5.3?Codex的編程能力,并優(yōu)化了模型在各類(lèi)工具、軟件環(huán)境及專(zhuān)業(yè)任務(wù)中的協(xié)同表現(xiàn),涵蓋表格、演示文稿與文檔處理等場(chǎng)景。這使得GPT?5.4能夠精準(zhǔn)、高效、可靠地完成復(fù)雜的實(shí)際工作,直接交付用戶想要的結(jié)果。

ChatGPT的推理模式中,GPT-5.4思考模式可以提前展示思考規(guī)劃,用戶可以在模型運(yùn)行過(guò)程中調(diào)整方向,無(wú)需額外交互輪次,就能實(shí)現(xiàn)更符合需求的輸出。

面對(duì)更長(zhǎng)、更復(fù)雜的查詢,ChatGPT中的GPT?5.4思考模式會(huì)先以一段前置說(shuō)明來(lái)規(guī)劃解題步驟。用戶可以在回復(fù)過(guò)程中補(bǔ)充指令或調(diào)整方向,無(wú)需重新開(kāi)始或多輪追問(wèn),就能引導(dǎo)模型得到你想要的精確結(jié)果。

針對(duì)復(fù)雜任務(wù),該模型能進(jìn)行更長(zhǎng)時(shí)間的思考,同時(shí)更好地記住對(duì)話前期步驟。這使其能夠處理更長(zhǎng)的工作流與更復(fù)雜的提示詞,并始終保持回答連貫、切題。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

GPT?5.4思考模式增強(qiáng)了深度網(wǎng)絡(luò)檢索能力,尤其針對(duì)高度專(zhuān)業(yè)化的查詢,同時(shí)在需要更長(zhǎng)思考過(guò)程的問(wèn)題上更好地維持上下文連貫性。

在Codex和API中,GPT-5.4是OpenAI首個(gè)具備原生、最先進(jìn)計(jì)算機(jī)使用能力的通用模型,使Agent可以操作計(jì)算機(jī)并執(zhí)行跨應(yīng)用的復(fù)雜工作流。

其支持100萬(wàn)個(gè)token的上下文,允許Agent執(zhí)行長(zhǎng)時(shí)間的規(guī)劃、執(zhí)行和驗(yàn)證任務(wù),其還能通過(guò)工作搜索提升模型在大型工具和連接器生態(tài)系統(tǒng)中的工作,幫Agent高效找到和使用工具。

GPT-5.4是OpenAI迄今為止最高效的token推理模型,相比GPT-5.2,新模型用的token數(shù)量明顯更少,從而能減少token使用并加快速度。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

▲GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專(zhuān)業(yè)任務(wù)上的性能對(duì)比表:

二、知識(shí)工作成果:PPT生成效果更強(qiáng),單個(gè)錯(cuò)誤出現(xiàn)概率降低33%

GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專(zhuān)業(yè)任務(wù)上的性能對(duì)比表,

評(píng)估模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)的GDPval測(cè)試上,大模型需在44個(gè)職業(yè)中產(chǎn)出規(guī)范的知識(shí)工作成果,GPT-5.4在83.0%的比較率下,其表現(xiàn)達(dá)到或超越了行業(yè)專(zhuān)業(yè)人士的水平,而GPT?5.2的這一比例為70.9%。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

對(duì)于創(chuàng)建和編輯電子表格、PPT、文檔的任務(wù),在一項(xiàng)模擬初級(jí)投行分析師所做的電子表格建模任務(wù)內(nèi)部基準(zhǔn)測(cè)試中,GPT?5.4的平均得分達(dá)到87.3%,GPT?5.2為68.4%。在一組PPT評(píng)估任務(wù)中,人類(lèi)評(píng)審在68.0%的情況下更偏好GPT?5.4生成的演示文稿,原因是其美學(xué)表現(xiàn)更強(qiáng)、視覺(jué)形式更豐富,且圖像生成的運(yùn)用更具效果。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

在消除幻覺(jué)方面,OpenAI官方稱(chēng),OpenAI是其迄今事實(shí)準(zhǔn)確性最高的模型:在一組用戶標(biāo)記過(guò)事實(shí)錯(cuò)誤的去標(biāo)識(shí)化提示測(cè)試中,與GPT?5.2相比,GPT?5.4的單個(gè)事實(shí)陳述出現(xiàn)錯(cuò)誤的概率降低了33%,整段回答包含任何錯(cuò)誤的概率降低了18%。

三、計(jì)算機(jī)使用與視覺(jué):操控電腦超人類(lèi)水平,視覺(jué)輸入支持最高1024萬(wàn)像素

GPT?5.4是OpenAI首款具備原生計(jì)算機(jī)操作能力的通用模型,OpenAI稱(chēng)其是目前開(kāi)發(fā)者構(gòu)建可在各類(lèi)網(wǎng)站與軟件系統(tǒng)中完成真實(shí)任務(wù)的智能體時(shí),可選用的最佳模型。

該模型擅長(zhǎng)通過(guò)Playwright等庫(kù)編寫(xiě)控制計(jì)算機(jī)的代碼,也能根據(jù)截圖下達(dá)鼠標(biāo)與鍵盤(pán)指令。模型行為可通過(guò)開(kāi)發(fā)者指令靈活調(diào)控,開(kāi)發(fā)者可根據(jù)具體場(chǎng)景調(diào)整其行為邏輯。開(kāi)發(fā)者還能通過(guò)自定義確認(rèn)策略,配置模型的安全行為,以適配不同的風(fēng)險(xiǎn)容忍等級(jí)。

GPT?5.4在各類(lèi)計(jì)算機(jī)操作場(chǎng)景的基準(zhǔn)測(cè)試中,成績(jī)相較前代模型都有所提升。在通過(guò)截圖與鍵鼠操作評(píng)估模型在桌面環(huán)境中的執(zhí)行能力的OSWorld?Verified測(cè)試中,GPT?5.4的成功率達(dá)到75.0%,遠(yuǎn)超GPT?5.2的47.3%,同時(shí)超過(guò)了人類(lèi)水平的72.4%。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

在測(cè)試瀏覽器使用能力的WebArena-Verified基準(zhǔn)中,GPT?5.4在同時(shí)采用DOM與截圖交互時(shí),成功率達(dá)到67.3%的,GPT?5.2為65.4%。

GPT?5.4更強(qiáng)的計(jì)算機(jī)操作能力,建立在模型通用視覺(jué)感知能力的提升之上。在測(cè)試模型視覺(jué)理解與推理能力的MMMU?Pro基準(zhǔn)中,GPT?5.4在不使用工具的情況下達(dá)到81.2%的成功率,優(yōu)于GPT?5.2的79.5%。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

▲GPT?5.4解析瀏覽器界面截圖,并通過(guò)基于坐標(biāo)的點(diǎn)擊操作與UI元素交互,完成發(fā)送郵件、創(chuàng)建日歷日程等任務(wù)

其視覺(jué)感知能力的提升也轉(zhuǎn)化為更出色的文檔解析能力。在OmniDocBench測(cè)試中,不啟用深度推理的GPT?5.4平均誤差為0.109,優(yōu)于GPT?5.2的0.140。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

OpenAI還針對(duì)高分辨率、信息密集型圖像優(yōu)化了視覺(jué)理解能力,確保完整保真度。

從GPT?5.4開(kāi)始,OpenAI將推出原始圖像輸入精度模式,支持最高1024萬(wàn)像素或最大邊長(zhǎng)6000像素(取較低值)的全保真感知;原有的高圖像輸入精度模式現(xiàn)已支持最高256萬(wàn)像素或最大邊長(zhǎng)2048像素。

在面向API用戶的早期測(cè)試中,研究人員觀察到,使用原始精度或高精度模式時(shí),模型在定位能力、圖像理解與點(diǎn)擊準(zhǔn)確率上均有顯著提升。

四、編程:表現(xiàn)超越GPT?5.3?Codex,token生成速度最高可提升1.5倍

GPT?5.4融合了GPT?5.3?Codex的代碼能力優(yōu)勢(shì),以及知識(shí)工作與計(jì)算機(jī)操作能力,這些能力在長(zhǎng)時(shí)間運(yùn)行的任務(wù)中尤為關(guān)鍵,模型可自主調(diào)用工具、迭代推進(jìn)任務(wù),大幅減少人工干預(yù)。

在SWE?Bench Pro測(cè)試中,GPT?5.4的表現(xiàn)持平甚至超越GPT?5.3?Codex,同時(shí)在各類(lèi)推理任務(wù)中延遲更低。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

在Codex中開(kāi)啟/fast模式后,GPT?5.4的token生成速度最高可提升1.5倍。模型與智能水平保持不變,僅速度更快。這意味著用戶可以在編碼、迭代與調(diào)試過(guò)程中保持流暢狀態(tài)。

開(kāi)發(fā)者可通過(guò)API的優(yōu)先處理功能,以同等高速體驗(yàn)使用GPT?5.4。

在評(píng)估和內(nèi)部測(cè)試中,研究人員發(fā)現(xiàn)GPT-5.4在復(fù)雜的前端任務(wù)中表現(xiàn)出色,其美觀效果和功能性均優(yōu)于我們之前發(fā)布的任何模型。

為展示模型計(jì)算機(jī)操作能力與代碼能力協(xié)同提升的效果,OpenAI還同步推出一項(xiàng)實(shí)驗(yàn)性Codex技能,名為“Playwright(交互式)”。該功能讓Codex能夠以視覺(jué)方式調(diào)試網(wǎng)頁(yè)與Electron應(yīng)用,甚至可以在應(yīng)用開(kāi)發(fā)過(guò)程中,邊構(gòu)建邊測(cè)試。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

▲一款僅通過(guò)簡(jiǎn)短提示詞、由GPT?5.4生成的主題公園模擬游戲,?開(kāi)發(fā)過(guò)程中使用 Playwright Interactive 進(jìn)行瀏覽器端實(shí)機(jī)測(cè)試,并通過(guò)圖像生成創(chuàng)建等距視角美術(shù)資源。

五、工具使用:能快速搜索調(diào)用,完成長(zhǎng)時(shí)間多輪復(fù)雜任務(wù)

基于GPT-5.4,智能體現(xiàn)在可在更龐大的工具生態(tài)中運(yùn)行,更可靠地選擇合適工具,并以更低成本、更低延遲完成多步驟工作流。

在API中,GPT-5.4引入了工具搜索功能,使模型在擁有多種工具時(shí)能夠高效工作。借助工具搜索功能,GPT?5.4會(huì)先獲取一份輕量化的可用工具列表,并具備工具檢索能力。當(dāng)模型需要使用某一工具時(shí),可實(shí)時(shí)查詢?cè)摴ぞ叩亩x,并將其即時(shí)加入對(duì)話上下文。

這可以減少工具密集型工作流所需的token數(shù)量,并能有效利用緩存,讓請(qǐng)求更快、成本更低。智能體也可以能夠穩(wěn)定適配規(guī)模更龐大的工具生態(tài)系統(tǒng)。

為展示效率提升效果,OpenAI選取了Scale旗下MCP Atlas基準(zhǔn)測(cè)試中的250項(xiàng)任務(wù),在啟用全部36臺(tái)MCP服務(wù)器的情況下,采用兩種模式進(jìn)行評(píng)估:將所有MCP函數(shù)直接暴露在模型上下文、將所有MCP服務(wù)器置于工具搜索機(jī)制之后,對(duì)比結(jié)果如下:

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

GPT-5.4還改進(jìn)了工具調(diào)用,在測(cè)試AI智能體如何使用真實(shí)工具與API完成多步驟任務(wù)的Toolathlon基準(zhǔn)測(cè)試中,相比GPT?5.2,GPT?5.4以更少的交互輪次實(shí)現(xiàn)了更高的準(zhǔn)確率。其任務(wù)包含智能體需要讀取郵件、提取任務(wù)附件、上傳文件、進(jìn)行評(píng)分,并將結(jié)果記錄到電子表格中。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

對(duì)于偏好無(wú)推理模式、對(duì)延遲敏感的應(yīng)用場(chǎng)景,GPT?5.4相比前代模型實(shí)現(xiàn)了進(jìn)一步優(yōu)化。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

網(wǎng)頁(yè)搜索中,在衡量AI智能體持續(xù)瀏覽網(wǎng)頁(yè)以尋找難以定位信息能力的指標(biāo)BrowseComp上,GPT-5.4躍升了17%,GPT-5.4 Pro達(dá)到89.3%。這意味著GPT-5.4可以更持久地跨多輪搜索,找出最相關(guān)的來(lái)源。

GPT-5.4深夜登場(chǎng)!能操控電腦,編程超Opus 4.6,開(kāi)發(fā)者直呼“離譜”

結(jié)語(yǔ):OpenAI鞏固行業(yè)主導(dǎo)權(quán)

GPT-5.4此次在計(jì)算機(jī)操作能力上、GDPval 83%的勝率都說(shuō)明,AI在執(zhí)行經(jīng)濟(jì)價(jià)值任務(wù)、原生電腦操控方面的天花板進(jìn)一步被拉高,讓進(jìn)一步證明AI已能穩(wěn)定完成高價(jià)值的知識(shí)工作,如數(shù)據(jù)分析、客戶服務(wù)、業(yè)務(wù)流程處理等,直接產(chǎn)生經(jīng)濟(jì)效益。

從當(dāng)前的測(cè)評(píng)表現(xiàn)來(lái)看,GPT?5.4的發(fā)布進(jìn)一步鞏固了OpenAI的行業(yè)頭部地位,其測(cè)評(píng)表現(xiàn)遠(yuǎn)超前代模型及競(jìng)對(duì)公司的頂尖模型,或?yàn)槠湟?guī)模化商業(yè)化與AGI路線圖奠定關(guān)鍵基礎(chǔ)。