智東西(公眾號(hào):zhidxcom)
作者 | 云鵬
編輯 | 李水青

智東西2月13日消息,今天凌晨,谷歌發(fā)布了Gemini 3 Deep Think專用推理模式的重磅升級(jí),其在“人類終極測(cè)試”、競(jìng)技編程測(cè)試、國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽,以及國(guó)際物理、化學(xué)等多領(lǐng)域奧賽中均創(chuàng)下新記錄,全面超越了Claude Opus 4.6和GPT-5.2,也超越了自家Gemini 3 Pro Preview。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測(cè)試(Humanity’s Last Exam)競(jìng)技編程基準(zhǔn)測(cè)試Codeforces、2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽四項(xiàng)測(cè)試中的成績(jī),得分均超過Claude Opus 4.6和GPT-5.2

毫無(wú)疑問,谷歌祭出了當(dāng)前地表最強(qiáng)AI推理大模型。在Deep Think模式下,一張?jiān)O(shè)計(jì)草圖可以快速轉(zhuǎn)化為3D打印文件,圖紙分析、復(fù)雜三維建模一氣呵成,用戶將3D打印文件交付給打印機(jī)就可以完成實(shí)體生產(chǎn):

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲在Deep Think模式下,一張?jiān)O(shè)計(jì)草圖可以快速轉(zhuǎn)化為3D打印文件

谷歌CEO Sundar Pichai和相關(guān)高管都在X平臺(tái)發(fā)文宣布了這一重磅發(fā)布,此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇(Shunyu Yao)也發(fā)文號(hào)召大家體驗(yàn)他們開發(fā)的新模式。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲谷歌CEO(左)、姚順宇(右)X平臺(tái)發(fā)文

此姚順宇非彼姚順雨,后者是姚班出身、今年剛剛加入騰訊混元擔(dān)任首席AI科學(xué)家的另一位“學(xué)神”。前一位姚順宇現(xiàn)任谷歌DeepMind高級(jí)研究員,曾在Anthropic的Claude團(tuán)隊(duì)擔(dān)任研究員,是拿過清華物理系傳奇特獎(jiǎng)的另一位“學(xué)神”。

此次的Deep Think模式升級(jí)也是姚順宇加入后參與的首個(gè)重磅項(xiàng)目。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲姚順宇(左)和姚順雨(右)

總體來(lái)看,Deep Think模式主要用于解決科學(xué)、研究和工程領(lǐng)域的挑戰(zhàn),目前只向Google AI Ultra訂閱用戶開放,不過科研人員、工程師和企業(yè)可以提交申請(qǐng)加入早期測(cè)試。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

一、高難度基準(zhǔn)測(cè)試猛刷記錄,碾壓Claude Opus 4.6、GPT-5.2

去年,谷歌已證實(shí)Deep Think模式的定制版本能攻克諸多高難度推理難題,在國(guó)際數(shù)學(xué)和編程錦標(biāo)賽中達(dá)到金牌水準(zhǔn)。而這次升級(jí)則讓Deep Think模式更進(jìn)一步支持研發(fā)人員開展研究級(jí)(research-level)的數(shù)學(xué)探索工作。

升級(jí)的Deep Think模式在各類高難度學(xué)術(shù)基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄,具體包括:

·在“人類終極測(cè)試(Humanity’s Last Exam)”基準(zhǔn)測(cè)試中,無(wú)工具輔助狀態(tài)下取得48.4%的成績(jī),刷新該測(cè)試的最佳紀(jì)錄(該測(cè)試專為檢驗(yàn)前沿大模型的能力極限設(shè)計(jì));

·在ARC-AGI-2基準(zhǔn)測(cè)試中獲84.6%高正確率,成績(jī)經(jīng)ARC獎(jiǎng)基金會(huì)認(rèn)證;

·在競(jìng)技編程基準(zhǔn)測(cè)試平臺(tái)Codeforces中,Elo評(píng)分3455分;

·在2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中,達(dá)到金牌水準(zhǔn);

從排名中我們看到,Deep Think模式在上述四項(xiàng)基準(zhǔn)測(cè)試中,全部領(lǐng)先于Claude Opus 4.6和GPT-5.2。

除數(shù)學(xué)和競(jìng)技編程領(lǐng)域外,升級(jí)后的Gemini 3 Deep Think在化學(xué)、物理等眾多科學(xué)領(lǐng)域同樣表現(xiàn)不錯(cuò)。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲Gemini 3 Deep Think在各類測(cè)試中的成績(jī)表現(xiàn),所有測(cè)試項(xiàng)目均優(yōu)于Claude Opus 4.6和GPT-5.2

根據(jù)谷歌公布測(cè)試成績(jī),Deep Think在2025年國(guó)際物理奧林匹克競(jìng)賽和國(guó)際化學(xué)奧林匹克競(jìng)賽的筆試環(huán)節(jié)中,均取得金牌水準(zhǔn)的成績(jī);在高等理論物理領(lǐng)域也具備出色的應(yīng)用能力,在凝聚態(tài)理論基準(zhǔn)測(cè)試CMT-Benchmark中取得50.5%的成績(jī)。

同樣,在這些測(cè)試項(xiàng)目中,Deep Think的成績(jī)?nèi)扛哂贑laude Opus 4.6和GPT-5.2。

二、推動(dòng)實(shí)際應(yīng)用落地,成為深度專業(yè)研究領(lǐng)域的最強(qiáng)助手

谷歌提到,除了強(qiáng)勁性能表現(xiàn),Deep Think模式的研發(fā)核心目的是推動(dòng)實(shí)際應(yīng)用,也就是助力研究人員解析復(fù)雜數(shù)據(jù)、幫助工程師通過代碼構(gòu)建物理系統(tǒng)模型。

簡(jiǎn)單來(lái)說,這些領(lǐng)域的問題往往缺乏明確的指導(dǎo)原則或唯一的正確答案,數(shù)據(jù)也通常是雜亂無(wú)章或不完整的。Deep Think可以將深厚的科學(xué)知識(shí)與日常工程實(shí)踐相結(jié)合,去解決這些復(fù)雜難題。

目前,谷歌正致力于讓Deep Think模式覆蓋科研和從業(yè)者的核心工作場(chǎng)景。

借助升級(jí)后的Deep Think模式,用戶可以很快將一張?jiān)O(shè)計(jì)草圖轉(zhuǎn)化為可3D打印的實(shí)體模型——Deep Think能自動(dòng)分析圖紙內(nèi)容、構(gòu)建復(fù)雜的三維形狀模型,并生成對(duì)應(yīng)的3D打印文件,實(shí)現(xiàn)實(shí)體物件的制作。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲從文件草圖到3D實(shí)體模型

此外,從谷歌給出的演示中我們看到,Deep Think可以識(shí)別出高專業(yè)度數(shù)學(xué)論文中一個(gè)此前人工同行評(píng)審從未發(fā)現(xiàn)的細(xì)微邏輯缺陷。

姚順宇參與,谷歌最強(qiáng)Gemini推理模型發(fā)布!測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲科學(xué)家利用Deep Think識(shí)別專業(yè)論文中的細(xì)節(jié)邏輯缺陷

Deep Think還可以用來(lái)優(yōu)化復(fù)雜晶體生長(zhǎng)的制備方法,用來(lái)探索新的半導(dǎo)體材料,在杜克大學(xué)的案例中,其設(shè)計(jì)的方案培育出了尺寸超過100微米的薄膜,技術(shù)指標(biāo)超過此前所有方法。

谷歌研發(fā)主管、前Liftware CEO也用Deep Think來(lái)加速物理組件的設(shè)計(jì)。

可以說,Deep Think是真能搞定復(fù)雜的科學(xué)、研究和工程領(lǐng)域挑戰(zhàn)。

結(jié)語(yǔ):推理大模型專業(yè)化進(jìn)一步加深,AI沖向科研最前線

Gemini 3 Deep Think模式的升級(jí),重點(diǎn)提升了其在諸多科研專業(yè)學(xué)術(shù)領(lǐng)域解決復(fù)雜專業(yè)問題的能力,令其在頂尖專業(yè)領(lǐng)域加速技術(shù)研發(fā)的價(jià)值進(jìn)一步凸顯。

目前,AI模型與產(chǎn)業(yè)融合進(jìn)一步加深,行業(yè)都在思索如何讓模型能更好地在專業(yè)領(lǐng)域提升生產(chǎn)力,AI推理大模型的競(jìng)爭(zhēng),跑在了技術(shù)與學(xué)術(shù)的最前沿。