智東西(公眾號:zhidxcom)
編譯 | 金碧輝
編輯 | 程茜

智東西5月14日消息,昨日,阿里巴巴正式發(fā)布Qwen3系列大模型技術(shù)報告,首次全面公開其新一代開源模型的混合推理架構(gòu)、訓(xùn)練策略及評測結(jié)果。報告顯示,旗艦?zāi)P蚎wen3-235B-A22B在數(shù)學(xué)(AIME25得分81.5)、代碼生成(LiveCodeBench 70.7)等核心評測中超越DeepSeek-R1(671B參數(shù))、Grok-3等國際頂尖模型,并在多語言支持(119種語言)、推理效率(4張H20顯卡部署旗艦?zāi)P停┘叭蝿?wù)適應(yīng)性(動態(tài)切換快/慢思考模式)上實(shí)現(xiàn)突破。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首

▲圖源阿里巴Qwen3系列大模型技術(shù)報告

4月29日,阿里巴巴正式發(fā)布新一代通義千問大模型Qwen3,包含6款稠密模型和2款MoE模型,參數(shù)規(guī)模覆蓋0.6B至235B。其旗艦?zāi)P蚎wen3-235B-A22B以22B激活參數(shù)實(shí)現(xiàn)235B總參數(shù)量,在編程、數(shù)學(xué)推理等基準(zhǔn)測試中超越DeepSeek-R1等全球頂尖模型。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首▲Qwen3-235B-A22B-Base與其他具有代表性的強(qiáng)大開源基準(zhǔn)模型的比較

Qwen3系列的旗艦?zāi)P蚎wen3-235B-A22B于今年5月6日登頂國際權(quán)威大模型測評榜LiveBench開源大模型性能的榜首。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首▲圖源5月6日LiveBench榜單官網(wǎng)截圖

技術(shù)報告地址:https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

一、雙系統(tǒng)推理架構(gòu),日常對話響應(yīng)速度提升60%,算力消耗降低40%

Qwen3系列模型核心創(chuàng)新為雙系統(tǒng)推理架構(gòu)。面對數(shù)學(xué)證明、代碼生成等復(fù)雜任務(wù),Qwen3系列模型啟動“慢思考”深度推理模塊,Qwen3系列模型支持38K token動態(tài)思考預(yù)算,進(jìn)行多步驟邏輯鏈分析;日常對話場景下,Qwen3系列模型以“快思考”模式激活20%參數(shù),響應(yīng)速度提升60%,算力消耗降低40%。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首▲Qwen3-235B-A22B在思考預(yù)算方面的性能

Qwen3系列模型的后訓(xùn)練流程圍繞兩大核心目標(biāo)設(shè)計:其一為“思考控制”,通過集成“非思考”與“思考”兩種模式,用戶可靈活選擇模型是否進(jìn)行推理,并能通過指定token預(yù)算控制思考深度;其二是“慢思考”,旨在簡化和優(yōu)化輕量級模型的后訓(xùn)練過程,Qwen3系列模型借助大規(guī)模模型的知識,大幅降低構(gòu)建小規(guī)模模型所需的計算成本與開發(fā)工作量。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首

▲Qwen3系列模型的后訓(xùn)練流程

此外,Qwen3系列模型還集成視覺(Qwen3-VL)、音頻(Qwen3-Audio)模塊,可實(shí)現(xiàn)醫(yī)學(xué)影像分析等跨模態(tài)任務(wù)。

二、Qwen3-235B-A22B在數(shù)學(xué)、代碼評測中超越DeepSeek-R1、Grok-3-Beta?

旗艦?zāi)P蚎wen3-235B-A22B在多項評測中成績優(yōu)異。Qwen3-235B-A22B數(shù)學(xué)推理的AIME25奧數(shù)測評中獲81.5分,刷新開源模型紀(jì)錄,遠(yuǎn)超DeepSeek-R1等頂尖模型。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首

▲AIME25在數(shù)學(xué)推理方面的奧數(shù)測評成績

旗艦?zāi)P蚎wen3-235B-A22B在代碼生成的LiveCodeBench評測中得分超70分,超越Grok-3-Beta和DeepSeek-R1等主流模型,Qwen3-235B-A22B的代碼細(xì)節(jié)完善且推理耗時更短;多輪對話中Qwen3-235B-A22B能精準(zhǔn)識別并完成復(fù)雜指令,如扮演職業(yè)金融分析師并以特定風(fēng)格分析問題,給出適配回答。

Qwen3技術(shù)報告公開!235B模型性能居開源模型榜首

▲AIME25在代碼生成方面的測評成績

三、4張卡跑235B模型,Qwen3系列模型多項數(shù)據(jù)碾壓

Qwen3系列模型訓(xùn)練數(shù)據(jù)量飆升至36萬億token,覆蓋119種語言,數(shù)據(jù)構(gòu)成豐富多元,其中包含合成數(shù)據(jù)以及從PDF文檔經(jīng)OCR提取的內(nèi)容。Qwen3系列模型訓(xùn)練流程采用四階段后訓(xùn)練模式。

先是長思維鏈冷啟動,Qwen3系列模型借助多樣的長思維鏈數(shù)據(jù)對模型微調(diào),為其處理復(fù)雜任務(wù),如數(shù)學(xué)、編程、邏輯推理等奠定基礎(chǔ);接著Qwen3系列模型開展強(qiáng)化學(xué)習(xí)優(yōu)化,運(yùn)用基于規(guī)則的獎勵機(jī)制,大力提升模型在面對復(fù)雜任務(wù)時探索并尋求最佳答案的推理能力;隨后Qwen3系列模型進(jìn)行思維模式融合,讓模型能依據(jù)任務(wù)特性,在“思考模式”與“非思考模式”間自如切換;最后Qwen3系列模型通過對20多個常見任務(wù)實(shí)施強(qiáng)化學(xué)習(xí)微調(diào),完成通用任務(wù)校準(zhǔn),全面提升模型的推理與指令遵循水平。

在硬件與效率優(yōu)化層面,MoE模型采用動態(tài)激活專家策略,默認(rèn)配置下專家池規(guī)??蛇_(dá)128個,每處理一個token會激活8個專家,搭配負(fù)載均衡算法,保障了訓(xùn)練穩(wěn)定性。在硬件協(xié)同上,MoE模型僅需4張H20加速卡,便能實(shí)現(xiàn)235B旗艦?zāi)P偷牟渴稹?/p>

Qwen3系列模型在參數(shù)效率、推理成本、多語言支持及AI Agent開發(fā)等多個維度展現(xiàn)出顯著優(yōu)勢。

參數(shù)效率上,30B MoE模型激活參數(shù)僅3B,性能卻超越上代32B Dense模型;推理成本方面,以15B-A2B模型為例,在英偉達(dá)A100顯卡上,30B MoE模型單次推理耗時較同等性能14B稠密模型降低42%,30B MoE模型顯存占用從28GB降至18GB,吞吐量提升至1.2倍,實(shí)現(xiàn)消費(fèi)級顯卡部署高性能模型的效果。

多語言支持上,Qwen3系列模型覆蓋全球90%以上人口的119種語言和方言;AI Agent開發(fā)上,Qwen3系列模型原生支持MCP協(xié)議,集成Qwen-Agent框架,Qwen3系列模型的工具調(diào)用能力在BFCL評測中以70.8分超越OpenAI-o1。

結(jié)語;Qwen3系列模型正在縮小與頂尖閉源產(chǎn)品的差距

Qwen3系列模型通過混合推理架構(gòu)與高效訓(xùn)練策略,在性能、成本、多語言支持等維度樹立開源模型新標(biāo)桿。其動態(tài)資源分配機(jī)制(如思考預(yù)算控制)為企業(yè)節(jié)省75%算力成本,而119種語言覆蓋能力為全球化業(yè)務(wù)提供底層支持。

Qwen3系列模型在多項評測中表現(xiàn)突出,其混合推理架構(gòu)與高效訓(xùn)練策略展現(xiàn)強(qiáng)勁實(shí)力。盡管在實(shí)際場景應(yīng)用中,如代碼生成與創(chuàng)意寫作領(lǐng)域,仍需進(jìn)一步驗證效果,Qwen3系列模型與頂尖閉源產(chǎn)品的差距正逐步縮小。