智東西(公眾號(hào):zhidxcom)
編譯|李水青
編輯|心緣

智東西3月27日?qǐng)?bào)道,昨日晚間,前阿里千問大模型負(fù)責(zé)人林俊旸(Junyang Lin)在社交平臺(tái)X上發(fā)表了《從“推理式思考”到“智能體式思考”(From “Reasoning” Thinking to “Agentic” Thinking)》的長(zhǎng)文,引起AI技術(shù)產(chǎn)業(yè)圈關(guān)注。

林俊旸離職后首發(fā)文:我們?yōu)槭裁礇]把“思考+指令”合并好?

這是繼掀起阿里離職風(fēng)波后,他首次在X平臺(tái)正式發(fā)文。在文中,他主要闡述了AI技術(shù)和產(chǎn)業(yè)發(fā)展的脈絡(luò),也不免透露出對(duì)千問大模型技術(shù)路線的反思。文章主要核心觀點(diǎn)如下:

1、我們正從訓(xùn)練模型的時(shí)代轉(zhuǎn)向訓(xùn)練智能體的時(shí)代。智能體式思考是指為了行動(dòng)而思考,在與環(huán)境交互中持續(xù)更新計(jì)劃。

2、o1和R1的崛起教會(huì)了我們:從擴(kuò)展預(yù)訓(xùn)練轉(zhuǎn)向擴(kuò)展推理后訓(xùn)練,強(qiáng)化學(xué)習(xí)已成為系統(tǒng)工程,基礎(chǔ)設(shè)施與可驗(yàn)證反饋是關(guān)鍵。

3、Qwen團(tuán)隊(duì)曾認(rèn)為理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式,但合并思考和指令,說(shuō)起來(lái)容易,做起來(lái)難得多。難點(diǎn)在于數(shù)據(jù)。

4、當(dāng)試圖在模型合并與提升后訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性之間尋找平衡時(shí),我們并未把所有事情都做對(duì)。

5、環(huán)境本身正在成為一流的研究對(duì)象。在智能體時(shí)代,我們應(yīng)該專注于環(huán)境的質(zhì)量,而非僅僅關(guān)注數(shù)據(jù)多樣性。

6、更好的工具讓模型更有用,但也放大了獎(jiǎng)勵(lì)破解的攻擊面。

7、未來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)將從更好的算法,轉(zhuǎn)向更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成,以及更強(qiáng)的框架工程。

林俊旸發(fā)文的原文內(nèi)容編譯如下:

過(guò)去兩年重塑了我們?cè)u(píng)估模型的方式以及對(duì)模型的期望。OpenAI的o1表明,“思考”可以成為一種一流的能力,是你可以為此進(jìn)行訓(xùn)練并向用戶展示的東西。DeepSeek-R1證明了基于推理的后訓(xùn)練可以在原始實(shí)驗(yàn)室之外被復(fù)現(xiàn)和擴(kuò)展。OpenAI將o1描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的、“在回答前先思考”的模型。DeepSeek則將R1定位為一個(gè)能與o1競(jìng)爭(zhēng)的開放推理模型。

那個(gè)階段很重要。但2025年上半年主要關(guān)注的還是推理思考:如何讓模型投入更多推理時(shí)計(jì)算,如何用更強(qiáng)的獎(jiǎng)勵(lì)信號(hào)訓(xùn)練它們,以及如何展現(xiàn)或控制這種額外的推理努力。現(xiàn)在的問題是,接下來(lái)是什么。我相信答案是智能體式思考:為了行動(dòng)而思考,在與環(huán)境交互的同時(shí),根據(jù)來(lái)自世界的反饋持續(xù)更新計(jì)劃。

一、o1和R1的崛起實(shí)際教會(huì)了我們什么

第一波推理模型教會(huì)我們,如果想在語(yǔ)言模型中擴(kuò)展強(qiáng)化學(xué)習(xí),我們需要確定性的、穩(wěn)定的、可擴(kuò)展的反饋信號(hào)。數(shù)學(xué)、代碼、邏輯和其他可驗(yàn)證的領(lǐng)域變得核心,因?yàn)檫@些場(chǎng)景下的獎(jiǎng)勵(lì)信號(hào)遠(yuǎn)比通用的偏好監(jiān)督更強(qiáng)。它們讓強(qiáng)化學(xué)習(xí)能夠針對(duì)正確性而非合理性進(jìn)行優(yōu)化?;A(chǔ)設(shè)施變得至關(guān)重要。

一旦一個(gè)模型經(jīng)過(guò)訓(xùn)練,能夠通過(guò)更長(zhǎng)的軌跡進(jìn)行推理,強(qiáng)化學(xué)習(xí)就不再是監(jiān)督微調(diào)之上一個(gè)輕量級(jí)的附加項(xiàng)。它變成了一個(gè)系統(tǒng)工程問題。你需要大規(guī)模的軌跡生成、高吞吐量的驗(yàn)證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn),既是一個(gè)建模的故事,也是一個(gè)基礎(chǔ)設(shè)施的故事。OpenAI將o1描述為一個(gè)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的推理模型系列,而DeepSeek R1后來(lái)通過(guò)展示基于推理的強(qiáng)化學(xué)習(xí)需要多么專注的算法和基礎(chǔ)設(shè)施工作,進(jìn)一步強(qiáng)化了這一方向。第一個(gè)重大轉(zhuǎn)變是:從擴(kuò)展預(yù)訓(xùn)練轉(zhuǎn)向擴(kuò)展用于推理的后訓(xùn)練。

二、真正的問題從來(lái)不僅僅是“合并思考與指令”

2025年初,我們Qwen團(tuán)隊(duì)的許多人都抱有一個(gè)雄心勃勃的設(shè)想。理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式。它應(yīng)該支持可調(diào)節(jié)的推理努力程度,類似于低/中/高推理設(shè)置的理念。更進(jìn)一步,它應(yīng)該能從提示詞和上下文中自動(dòng)推斷出合適的推理量,這樣模型就能決定何時(shí)立即回答,何時(shí)思考更久,何時(shí)在真正困難的問題上投入更多的計(jì)算資源。

從概念上講,這是正確的方向。Qwen3是最明確的公開嘗試之一。它引入了“混合思考模式”,在一個(gè)模型家族中同時(shí)支持思考和非思考行為,強(qiáng)調(diào)可控的思考預(yù)算,并描述了一個(gè)四階段的后訓(xùn)練流程,其中明確包含了在長(zhǎng)思維鏈冷啟動(dòng)和推理強(qiáng)化學(xué)習(xí)之后的“思考模式融合”。

但是,合并說(shuō)起來(lái)容易,做好卻難得多。難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎寂c指令時(shí),他們通常首先考慮模型端的兼容性:一個(gè)檢查點(diǎn)能否同時(shí)支持兩種模式,一個(gè)對(duì)話模板能否在兩者間切換,一個(gè)服務(wù)堆棧能否暴露正確的開關(guān)。更深層的問題在于,這兩種模式的數(shù)據(jù)分布和行為目標(biāo)是截然不同的。

在嘗試平衡模型合并與提升后訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性時(shí),我們并未把所有事情都做對(duì)。在那個(gè)修訂過(guò)程中,我們也密切關(guān)注用戶實(shí)際如何使用思考模式和指令模式。一個(gè)強(qiáng)大的指令模型通常因其直接、簡(jiǎn)潔、符合格式要求、低延遲地處理重復(fù)性、高并發(fā)的企業(yè)任務(wù)(如重寫、標(biāo)注、模板化支持、結(jié)構(gòu)化提取和運(yùn)營(yíng)問答)而獲得好評(píng)。一個(gè)強(qiáng)大的思考模型則因其在難題上投入更多詞元、保持連貫的中間結(jié)構(gòu)、探索替代路徑、以及保留足夠的內(nèi)部計(jì)算以切實(shí)提升最終正確性而獲得好評(píng)。

這兩種行為模式是相互沖突的。如果合并的數(shù)據(jù)沒有得到精心策劃,結(jié)果通常是在兩方面都表現(xiàn)平庸:“思考”行為變得嘈雜、臃腫或缺乏決斷力,而“指令”行為則變得不那么清晰、不那么可靠,并且比商業(yè)用戶實(shí)際想要的成本更高。

在實(shí)踐中,保持分離仍然很有吸引力。2025年下半年,在Qwen3最初的混合框架之后,2507系列發(fā)布了獨(dú)立的指令模型和思考模型更新,包括單獨(dú)的30B和235B變體。在商業(yè)部署中,大量客戶仍然希望為批處理任務(wù)提供高吞吐量、低成本、高可控性的指令行為。對(duì)于這些場(chǎng)景,合并顯然不是一項(xiàng)優(yōu)勢(shì)。分離不同模型系列使得團(tuán)隊(duì)能夠更專注地解決每種模式的數(shù)據(jù)和訓(xùn)練問題。

其他實(shí)驗(yàn)室選擇了相反的道路。Anthropic公開主張一種集成模型理念:Claude 3.7 Sonnet作為一個(gè)混合推理模型推出,用戶可以選擇普通響應(yīng)或擴(kuò)展思考,API用戶可以設(shè)置思考預(yù)算。Anthropic明確表示,他們認(rèn)為推理應(yīng)該是一種集成能力,而不是一個(gè)獨(dú)立的模型。GLM-4.5也公開定位為一個(gè)混合推理模型,兼具思考和非思考模式,統(tǒng)一了推理、編碼和智能體能力;DeepSeek后來(lái)也通過(guò)V3.1的“思考與非思考”混合推理向類似方向發(fā)展。

關(guān)鍵問題在于合并是否是自然的。如果思考和指令僅僅是共存在一個(gè)檢查點(diǎn)內(nèi),但行為上仍然像兩個(gè)生硬拼接的人格,那么產(chǎn)品體驗(yàn)就會(huì)不自然。一個(gè)真正成功的合并需要一個(gè)平滑的推理努力程度譜系。模型應(yīng)該能夠展現(xiàn)不同層級(jí)的努力,并且最好能夠自適應(yīng)地選擇。GPT風(fēng)格的努力程度控制正指向這一點(diǎn):一種關(guān)于計(jì)算資源的策略,而非一個(gè)二元開關(guān)。

三、為什么Anthropic的方向是一個(gè)有用的修正

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強(qiáng)調(diào)了集成推理、用戶可控的思考預(yù)算、現(xiàn)實(shí)世界任務(wù)、編碼質(zhì)量,以及后來(lái)在擴(kuò)展思考期間使用工具的能力。Claude 3.7被呈現(xiàn)為一個(gè)具有可控預(yù)算的混合推理模型;Claude 4在此基礎(chǔ)上擴(kuò)展,允許推理與工具使用交錯(cuò)進(jìn)行,同時(shí)Anthropic強(qiáng)調(diào)編碼、長(zhǎng)時(shí)間運(yùn)行任務(wù)和智能體工作流是主要目標(biāo)。

產(chǎn)生更長(zhǎng)的推理軌跡并不會(huì)自動(dòng)讓模型變得更智能。在許多情況下,過(guò)多的可見推理信號(hào)表明分配策略不佳。如果模型試圖以同樣的冗長(zhǎng)方式對(duì)所有事情進(jìn)行推理,它可能無(wú)法進(jìn)行優(yōu)先級(jí)排序,無(wú)法進(jìn)行信息壓縮,或者無(wú)法采取行動(dòng)。Anthropic的路線圖暗示了一種更嚴(yán)謹(jǐn)?shù)挠^點(diǎn):思考應(yīng)該由目標(biāo)工作負(fù)載來(lái)塑造。如果目標(biāo)是編碼,那么思考應(yīng)該有助于代碼庫(kù)導(dǎo)航、規(guī)劃、分解、錯(cuò)誤恢復(fù)和工具編排。如果目標(biāo)是智能體工作流,那么思考應(yīng)該提升長(zhǎng)時(shí)間跨度的執(zhí)行質(zhì)量,而不是產(chǎn)生令人印象深刻的中間文本。

這種對(duì)針對(duì)性實(shí)用性的強(qiáng)調(diào)指向了更大的圖景:我們正從訓(xùn)練模型的時(shí)代邁向訓(xùn)練智能體的時(shí)代。我們?cè)赒wen3的博客中明確指出了這一點(diǎn),寫道“我們正從以訓(xùn)練模型為中心的時(shí)代過(guò)渡到以訓(xùn)練智能體為中心的時(shí)代”,并將未來(lái)的強(qiáng)化學(xué)習(xí)進(jìn)展與環(huán)境反饋(用于長(zhǎng)時(shí)程推理)聯(lián)系起來(lái)。智能體是一個(gè)能夠制定計(jì)劃、決定何時(shí)行動(dòng)、使用工具、感知環(huán)境反饋、修正策略并在長(zhǎng)時(shí)間跨度內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它的定義是與世界的閉環(huán)交互。

四、 “智能體式思考”的真正含義

智能體式思考是一個(gè)不同的優(yōu)化目標(biāo)。推理思考通常通過(guò)最終答案之前內(nèi)部思考過(guò)程的質(zhì)量來(lái)評(píng)判:模型能否解出定理、寫出證明、生成正確的代碼或通過(guò)基準(zhǔn)測(cè)試。智能體式思考關(guān)注的是模型在與環(huán)境交互時(shí)能否持續(xù)取得進(jìn)展。

核心問題從“模型能思考足夠久嗎?”轉(zhuǎn)變?yōu)椤澳P湍芤跃S持有效行動(dòng)的方式進(jìn)行思考嗎?”智能體式思考必須處理幾個(gè)純粹推理模型大多可以避免的問題:
– 決定何時(shí)停止思考并采取行動(dòng)
– 選擇調(diào)用哪個(gè)工具以及以何種順序調(diào)用
– 整合來(lái)自環(huán)境的有噪聲或部分觀測(cè)信息
– 在失敗后修正計(jì)劃
– 在多次交互和多次工具調(diào)用中保持連貫性

智能體式思考是一個(gè)通過(guò)行動(dòng)進(jìn)行推理的模型。

五、為什么智能體強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施更難

一旦目標(biāo)從解決基準(zhǔn)問題轉(zhuǎn)變?yōu)榻鉀Q交互式任務(wù),強(qiáng)化學(xué)習(xí)技術(shù)棧就發(fā)生了變化。用于經(jīng)典推理強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施是不夠的。在推理強(qiáng)化學(xué)習(xí)中,你通??梢詫④壽E生成為大部分自包含的、帶有相對(duì)清晰評(píng)估器的過(guò)程。在智能體強(qiáng)化學(xué)習(xí)中,策略被嵌入到一個(gè)更大的框架中:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙盒、API層、內(nèi)存系統(tǒng)和編排框架。環(huán)境不再是一個(gè)靜態(tài)的驗(yàn)證器;它是訓(xùn)練系統(tǒng)的一部分。

這帶來(lái)了一個(gè)新的系統(tǒng)要求:訓(xùn)練和推理必須更清晰地解耦。沒有這種解耦,軌跡生成的吞吐量就會(huì)崩潰??紤]一個(gè)必須針對(duì)實(shí)時(shí)測(cè)試框架執(zhí)行生成代碼的編碼智能體:推理端在等待執(zhí)行反饋時(shí)停滯,訓(xùn)練端因缺少完成的軌跡而饑餓,整個(gè)流程的GPU利用率遠(yuǎn)低于你在經(jīng)典推理強(qiáng)化學(xué)習(xí)中預(yù)期的水平。添加工具延遲、部分可觀測(cè)性和有狀態(tài)的環(huán)境會(huì)加劇這些低效問題。結(jié)果是,實(shí)驗(yàn)速度變慢,并且在達(dá)到你目標(biāo)能力水平之前很久就會(huì)變得令人痛苦。

環(huán)境本身也成為一個(gè)一流的研究對(duì)象。在監(jiān)督微調(diào)時(shí)代,我們癡迷于數(shù)據(jù)的多樣性。在智能體時(shí)代,我們應(yīng)該癡迷于環(huán)境的質(zhì)量:穩(wěn)定性、真實(shí)性、覆蓋率、難度、狀態(tài)的多樣性、反饋的豐富性、抗利用性以及軌跡生成的擴(kuò)展性。環(huán)境構(gòu)建已開始成為一個(gè)真正的創(chuàng)業(yè)類別,而不僅僅是副項(xiàng)目。如果智能體被訓(xùn)練來(lái)在生產(chǎn)環(huán)境中運(yùn)行,那么環(huán)境就是核心能力棧的一部分。

六、下一個(gè)前沿是更實(shí)用的思考

我的預(yù)期是,智能體式思考將成為思考的主導(dǎo)形式。我認(rèn)為它最終可能會(huì)取代許多舊的靜態(tài)獨(dú)白式的推理思考:那種試圖通過(guò)生成越來(lái)越多的文本來(lái)彌補(bǔ)缺乏交互的、過(guò)長(zhǎng)的、孤立的內(nèi)部軌跡。即使在非常困難的數(shù)學(xué)或編碼任務(wù)上,一個(gè)真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)進(jìn)行搜索、模擬、執(zhí)行、檢查、驗(yàn)證和修正。目標(biāo)是穩(wěn)健且高效地解決問題。

訓(xùn)練此類系統(tǒng)最難的挑戰(zhàn)是獎(jiǎng)勵(lì)破解。一旦模型獲得了有意義的工具訪問權(quán)限,獎(jiǎng)勵(lì)破解就會(huì)變得危險(xiǎn)得多。一個(gè)擁有搜索能力的模型可能會(huì)學(xué)會(huì)在強(qiáng)化學(xué)習(xí)期間直接查找答案。一個(gè)編碼智能體可能會(huì)利用代碼倉(cāng)庫(kù)中的未來(lái)信息、濫用日志,或者發(fā)現(xiàn)使任務(wù)無(wú)效的捷徑。一個(gè)存在隱藏漏洞的環(huán)境可能會(huì)讓策略看起來(lái)表現(xiàn)超群,而實(shí)際上卻在訓(xùn)練它作弊。這正是智能體時(shí)代比推理時(shí)代更微妙的地方。更好的工具讓模型更有用,但它們也擴(kuò)大了虛假優(yōu)化的攻擊面。我們應(yīng)該預(yù)料到,下一個(gè)嚴(yán)峻的研究瓶頸將來(lái)自環(huán)境設(shè)計(jì)、評(píng)估器的魯棒性、反作弊協(xié)議,以及策略與世界之間更規(guī)范的接口。盡管如此,方向是明確的。啟用工具的思考比孤立的思考有用得多,并且更有可能真正提高生產(chǎn)力。

智能體式思考也意味著框架工程。核心智能將越來(lái)越多地來(lái)自多個(gè)智能體的組織方式:一個(gè)負(fù)責(zé)規(guī)劃和分派工作的編排器,充當(dāng)領(lǐng)域?qū)<业膶S弥悄荏w,以及執(zhí)行更狹窄任務(wù)、同時(shí)幫助控制上下文、避免污染并保持不同推理層級(jí)之間分離的子智能體。未來(lái)是從訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體,再?gòu)挠?xùn)練智能體轉(zhuǎn)向訓(xùn)練系統(tǒng)。

七、結(jié)論

推理浪潮的第一階段確立了一件重要的事:當(dāng)反饋信號(hào)可靠且基礎(chǔ)設(shè)施能夠支撐時(shí),在語(yǔ)言模型之上進(jìn)行強(qiáng)化學(xué)習(xí)可以產(chǎn)生質(zhì)量上更強(qiáng)的認(rèn)知能力。

更深層的轉(zhuǎn)變是從推理思考轉(zhuǎn)向智能體式思考:從思考更久轉(zhuǎn)向?yàn)榱诵袆?dòng)而思考。訓(xùn)練的核心對(duì)象已經(jīng)改變。它是“模型加環(huán)境”的系統(tǒng),或者更具體地說(shuō),是智能體及其周圍的框架。這改變了哪些研究要素最為重要:模型架構(gòu)和訓(xùn)練數(shù)據(jù),當(dāng)然,但也包括環(huán)境設(shè)計(jì)、軌跡生成基礎(chǔ)設(shè)施、評(píng)估器的魯棒性,以及多個(gè)智能體協(xié)調(diào)的接口。這改變了“好的思考”的含義:在現(xiàn)實(shí)世界約束下維持行動(dòng)最有用的軌跡,而不是最長(zhǎng)或最顯眼的軌跡。

這也改變了競(jìng)爭(zhēng)優(yōu)勢(shì)的來(lái)源。在推理時(shí)代,優(yōu)勢(shì)來(lái)自更好的強(qiáng)化學(xué)習(xí)算法、更強(qiáng)的反饋信號(hào)和更具擴(kuò)展性的訓(xùn)練流程。在智能體時(shí)代,優(yōu)勢(shì)將來(lái)自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強(qiáng)的框架工程,以及能夠在模型的決策與其產(chǎn)生的后果之間形成閉環(huán)的能力。