suv精品一区二区6,97成人网人妻视频,91p0rn丫九色视频

智東西（公眾號(hào)：zhidxcom）
作者 | 云鵬
編輯 | 李水青

智東西2月13日消息，今天凌晨，谷歌發(fā)布了Gemini 3 Deep Think專用推理模式的重磅升級(jí)，其在“人類終極測(cè)試”、競(jìng)技編程測(cè)試、國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽，以及國(guó)際物理、化學(xué)等多領(lǐng)域奧賽中均創(chuàng)下新記錄，全面超越了Claude Opus 4.6和GPT-5.2，也超越了自家Gemini 3 Pro Preview。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲Gemini 3 Deep Think在ARC-AGI-2、人類終極測(cè)試（Humanity’s Last Exam）競(jìng)技編程基準(zhǔn)測(cè)試Codeforces、2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽四項(xiàng)測(cè)試中的成績(jī)，得分均超過Claude Opus 4.6和GPT-5.2

毫無(wú)疑問，谷歌祭出了當(dāng)前地表最強(qiáng)AI推理大模型。在Deep Think模式下，一張?jiān)O(shè)計(jì)草圖可以快速轉(zhuǎn)化為3D打印文件，圖紙分析、復(fù)雜三維建模一氣呵成，用戶將3D打印文件交付給打印機(jī)就可以完成實(shí)體生產(chǎn)：

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲在Deep Think模式下，一張?jiān)O(shè)計(jì)草圖可以快速轉(zhuǎn)化為3D打印文件

谷歌CEO Sundar Pichai和相關(guān)高管都在X平臺(tái)發(fā)文宣布了這一重磅發(fā)布，此前于去年9月加入谷歌DeepMind的清華物理系傳奇人物姚順宇（Shunyu Yao）也發(fā)文號(hào)召大家體驗(yàn)他們開發(fā)的新模式。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲谷歌CEO（左）、姚順宇（右）X平臺(tái)發(fā)文

此姚順宇非彼姚順雨，后者是姚班出身、今年剛剛加入騰訊混元擔(dān)任首席AI科學(xué)家的另一位“學(xué)神”。前一位姚順宇現(xiàn)任谷歌DeepMind高級(jí)研究員，曾在Anthropic的Claude團(tuán)隊(duì)擔(dān)任研究員，是拿過清華物理系傳奇特獎(jiǎng)的另一位“學(xué)神”。

此次的Deep Think模式升級(jí)也是姚順宇加入后參與的首個(gè)重磅項(xiàng)目。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲姚順宇（左）和姚順雨（右）

總體來(lái)看，Deep Think模式主要用于解決科學(xué)、研究和工程領(lǐng)域的挑戰(zhàn)，目前只向Google AI Ultra訂閱用戶開放，不過科研人員、工程師和企業(yè)可以提交申請(qǐng)加入早期測(cè)試。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

一、高難度基準(zhǔn)測(cè)試猛刷記錄，碾壓Claude Opus 4.6、GPT-5.2

去年，谷歌已證實(shí)Deep Think模式的定制版本能攻克諸多高難度推理難題，在國(guó)際數(shù)學(xué)和編程錦標(biāo)賽中達(dá)到金牌水準(zhǔn)。而這次升級(jí)則讓Deep Think模式更進(jìn)一步支持研發(fā)人員開展研究級(jí)（research-level）的數(shù)學(xué)探索工作。

升級(jí)的Deep Think模式在各類高難度學(xué)術(shù)基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄，具體包括：

·在“人類終極測(cè)試（Humanity’s Last Exam）”基準(zhǔn)測(cè)試中，無(wú)工具輔助狀態(tài)下取得48.4%的成績(jī)，刷新該測(cè)試的最佳紀(jì)錄（該測(cè)試專為檢驗(yàn)前沿大模型的能力極限設(shè)計(jì)）；

·在ARC-AGI-2基準(zhǔn)測(cè)試中獲84.6%高正確率，成績(jī)經(jīng)ARC獎(jiǎng)基金會(huì)認(rèn)證；

·在競(jìng)技編程基準(zhǔn)測(cè)試平臺(tái)Codeforces中，Elo評(píng)分3455分；

·在2025年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中，達(dá)到金牌水準(zhǔn)；

從排名中我們看到，Deep Think模式在上述四項(xiàng)基準(zhǔn)測(cè)試中，全部領(lǐng)先于Claude Opus 4.6和GPT-5.2。

除數(shù)學(xué)和競(jìng)技編程領(lǐng)域外，升級(jí)后的Gemini 3 Deep Think在化學(xué)、物理等眾多科學(xué)領(lǐng)域同樣表現(xiàn)不錯(cuò)。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲Gemini 3 Deep Think在各類測(cè)試中的成績(jī)表現(xiàn)，所有測(cè)試項(xiàng)目均優(yōu)于Claude Opus 4.6和GPT-5.2

根據(jù)谷歌公布測(cè)試成績(jī)，Deep Think在2025年國(guó)際物理奧林匹克競(jìng)賽和國(guó)際化學(xué)奧林匹克競(jìng)賽的筆試環(huán)節(jié)中，均取得金牌水準(zhǔn)的成績(jī)；在高等理論物理領(lǐng)域也具備出色的應(yīng)用能力，在凝聚態(tài)理論基準(zhǔn)測(cè)試CMT-Benchmark中取得50.5%的成績(jī)。

同樣，在這些測(cè)試項(xiàng)目中，Deep Think的成績(jī)?nèi)扛哂贑laude Opus 4.6和GPT-5.2。

二、推動(dòng)實(shí)際應(yīng)用落地，成為深度專業(yè)研究領(lǐng)域的最強(qiáng)助手

谷歌提到，除了強(qiáng)勁性能表現(xiàn)，Deep Think模式的研發(fā)核心目的是推動(dòng)實(shí)際應(yīng)用，也就是助力研究人員解析復(fù)雜數(shù)據(jù)、幫助工程師通過代碼構(gòu)建物理系統(tǒng)模型。

簡(jiǎn)單來(lái)說，這些領(lǐng)域的問題往往缺乏明確的指導(dǎo)原則或唯一的正確答案，數(shù)據(jù)也通常是雜亂無(wú)章或不完整的。Deep Think可以將深厚的科學(xué)知識(shí)與日常工程實(shí)踐相結(jié)合，去解決這些復(fù)雜難題。

目前，谷歌正致力于讓Deep Think模式覆蓋科研和從業(yè)者的核心工作場(chǎng)景。

借助升級(jí)后的Deep Think模式，用戶可以很快將一張?jiān)O(shè)計(jì)草圖轉(zhuǎn)化為可3D打印的實(shí)體模型——Deep Think能自動(dòng)分析圖紙內(nèi)容、構(gòu)建復(fù)雜的三維形狀模型，并生成對(duì)應(yīng)的3D打印文件，實(shí)現(xiàn)實(shí)體物件的制作。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲從文件草圖到3D實(shí)體模型

此外，從谷歌給出的演示中我們看到，Deep Think可以識(shí)別出高專業(yè)度數(shù)學(xué)論文中一個(gè)此前人工同行評(píng)審從未發(fā)現(xiàn)的細(xì)微邏輯缺陷。

姚順宇參與，谷歌最強(qiáng)Gemini推理模型發(fā)布！測(cè)評(píng)碾壓Opus 4.6、GPT-5.2

▲科學(xué)家利用Deep Think識(shí)別專業(yè)論文中的細(xì)節(jié)邏輯缺陷

Deep Think還可以用來(lái)優(yōu)化復(fù)雜晶體生長(zhǎng)的制備方法，用來(lái)探索新的半導(dǎo)體材料，在杜克大學(xué)的案例中，其設(shè)計(jì)的方案培育出了尺寸超過100微米的薄膜，技術(shù)指標(biāo)超過此前所有方法。

谷歌研發(fā)主管、前Liftware CEO也用Deep Think來(lái)加速物理組件的設(shè)計(jì)。

可以說，Deep Think是真能搞定復(fù)雜的科學(xué)、研究和工程領(lǐng)域挑戰(zhàn)。

結(jié)語(yǔ)：推理大模型專業(yè)化進(jìn)一步加深，AI沖向科研最前線

Gemini 3 Deep Think模式的升級(jí)，重點(diǎn)提升了其在諸多科研專業(yè)學(xué)術(shù)領(lǐng)域解決復(fù)雜專業(yè)問題的能力，令其在頂尖專業(yè)領(lǐng)域加速技術(shù)研發(fā)的價(jià)值進(jìn)一步凸顯。

目前，AI模型與產(chǎn)業(yè)融合進(jìn)一步加深，行業(yè)都在思索如何讓模型能更好地在專業(yè)領(lǐng)域提升生產(chǎn)力，AI推理大模型的競(jìng)爭(zhēng)，跑在了技術(shù)與學(xué)術(shù)的最前沿。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、高難度基準(zhǔn)測(cè)試猛刷記錄，碾壓Claude Opus 4.6、GPT-5.2

二、推動(dòng)實(shí)際應(yīng)用落地，成為深度專業(yè)研究領(lǐng)域的最強(qiáng)助手

結(jié)語(yǔ)：推理大模型專業(yè)化進(jìn)一步加深，AI沖向科研最前線

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、高難度基準(zhǔn)測(cè)試猛刷記錄，碾壓Claude Opus 4.6、GPT-5.2

二、推動(dòng)實(shí)際應(yīng)用落地，成為深度專業(yè)研究領(lǐng)域的最強(qiáng)助手

結(jié)語(yǔ)：推理大模型專業(yè)化進(jìn)一步加深，AI沖向科研最前線

相關(guān)推薦

一、高難度基準(zhǔn)測(cè)試猛刷記錄，碾壓Claude Opus 4.6、GPT-5.2

二、推動(dòng)實(shí)際應(yīng)用落地，成為深度專業(yè)研究領(lǐng)域的最強(qiáng)助手

結(jié)語(yǔ)：推理大模型專業(yè)化進(jìn)一步加深，AI沖向科研最前線