欧美性技一区二区三区,可以直接在线观看的一区 ,国产午夜av最新在线

智東西（公眾號(hào)：zhidxcom）
作者 |? 陳駿達(dá)
編輯 |? 心緣

智東西4月2日?qǐng)?bào)道，今天，阿里推出了新一代大語言模型Qwen3.6-Plus，這也是Qwen3.6系列的首個(gè)模型。與上一代模型相比，Qwen3.6-Plus重點(diǎn)提升了編程Coding能力、智能體Agent能力和工具調(diào)用能力，默認(rèn)支持100萬上下文窗口。

這一模型還適配了主流Agent框架，也就是各種“龍蝦”和編程工具。官方提到的包括OpenClaw、Qwen Code、ClaudeCode、KiloCode、Cline和OpenCode。

在大模型調(diào)用平臺(tái)OpenRouter上，免費(fèi)體驗(yàn)的Qwen3.6-Plus預(yù)覽版調(diào)用量排名日榜第二。值得一提的是，前五名的模型中有四個(gè)都是國(guó)產(chǎn)模型。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

在SWE-bench Verified、Terminal-Bench 2、NL2Repo等編程基準(zhǔn)測(cè)試中，Qwen3.6-Plus取得了超過GLM-5、Kimi K2.5的成績(jī)，不過在部分基準(zhǔn)測(cè)試中的得分仍低于Claude Opus 4.5。

在Claw-Eval、QwenClawBench等真實(shí)世界Agent能力評(píng)測(cè)中，Qwen3.6-Plus的表現(xiàn)同樣超過了多款國(guó)產(chǎn)模型，與Claude Opus 4.5同處一個(gè)梯隊(duì)。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

▲Qwen3.6-Plus基準(zhǔn)測(cè)試對(duì)比（圖源：阿里）

不過，需要注意的是，這張基準(zhǔn)測(cè)試圖的圖表縱軸刻度間隔并不一致，在SWE-bench Verified、MMMU、RealWorldQA、QwenClawBench等測(cè)試中，幾個(gè)對(duì)比模型的實(shí)際得分差距并沒有特別明顯。

智東西立刻上手體驗(yàn)了Qwen3.6-Plus的編程能力，讓它在Claude官方的前端設(shè)計(jì)Skill指導(dǎo)下，打造了一個(gè)AI眼鏡獨(dú)立站，歷經(jīng)三輪對(duì)話，耗時(shí)8分鐘左右，消耗2.5萬個(gè)token（約等于0.15元）。

可以看到在提示詞的要求下它打造的網(wǎng)頁完成度不錯(cuò)，根據(jù)Skill的要求避免了一些老掉牙的AI味設(shè)計(jì)風(fēng)格，不過在字體選擇上依然是較為常見的類型。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

實(shí)測(cè)結(jié)果：

https://mcp.edgeone.site/share/57IuyACJqUk1GjKHY9I4c

與上一代模型類似，Qwen3.6-Plus也是一個(gè)原生多模態(tài)模型。Qwen3.6-Plus這次重點(diǎn)提升了多模態(tài)推理和指令模式實(shí)用性。

官方Demo中用北京地鐵路徑規(guī)劃的題目考了考Qwen3.6-Plus，我們同樣試了一下，讓模型規(guī)劃出從北京大興機(jī)場(chǎng)到北京首都機(jī)場(chǎng)的最快路線，它的方案與高德上的最快路徑一致。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

將編程能力與多模態(tài)能力結(jié)合后，Qwen3.6-Plus還解鎖了視覺智能體編程能力，可基于界面截圖、設(shè)計(jì)稿或自然圖文描述，完成前端頁面生成、代碼補(bǔ)全、交互修改等任務(wù)。

目前，Qwen3.6-Plus的API已經(jīng)開放調(diào)用，用戶可在Qwen Chat中體驗(yàn)到這一模型。這次阿里還為API引入了一項(xiàng)新功能“preserve_thinking”，可保留消息中所有前序輪次的思維內(nèi)容，該功能推薦用于智能體任務(wù)。其API的原價(jià)為4元/百萬輸入tokens，12元/百萬輸出tokens，目前有限時(shí)5折的優(yōu)惠。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

值得一提的是，阿里在企業(yè)級(jí)市場(chǎng)的AI應(yīng)用“悟空”第一時(shí)間接入了Qwen3.6-Plus。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

Qwen Chat：

https://chat.qwen.ai/

阿里云百煉：

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.6-plus

一、可完成長(zhǎng)鏈路任務(wù)與多輪工具調(diào)用，token效率有提升空間

在自然語言能力方面，Qwen3.6-Plus通過融合推理、記憶與執(zhí)行能力，在編程智能體、通用智能體和工具調(diào)用上實(shí)現(xiàn)提升。

具體來看，在編程智能體維度其表現(xiàn)較Qwen3.5實(shí)現(xiàn)較大幅度的提升，得分略微高于GLM-5和Kimi-K2.5，略低于Claude Opus 4.5。

在通用智能體方面，其得分在部分基準(zhǔn)測(cè)試中優(yōu)于Claude Opus 4.5。在通用能力中，其得分和Qwen3.5基本一致。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

在實(shí)測(cè)中，我們的這一案例融合考察了編程與工具調(diào)用能力，要求Qwen3.6-Plus統(tǒng)計(jì)A股目前股價(jià)最高的10家公司，并生成完整統(tǒng)計(jì)網(wǎng)頁，帶有每家公司的跳轉(zhuǎn)鏈接。

在任務(wù)執(zhí)行過程中，Qwen3.6-Plus調(diào)用了7輪搜索工具，統(tǒng)計(jì)了數(shù)十個(gè)網(wǎng)站的數(shù)據(jù)，最終交付了如下的結(jié)果，耗時(shí)大概7分鐘左右。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

▲Qwen3.6-Plus生成的排名

Qwen3.6-Plus選擇了權(quán)威的數(shù)據(jù)來源，右側(cè)查看詳情鏈接的跳轉(zhuǎn)正常，排名正確，數(shù)據(jù)則取的是近似值。在思維鏈中可以看到它多次在同一個(gè)問題上反復(fù)思考，搜索多次但獲得的內(nèi)容差不多，在任務(wù)執(zhí)行速度和token效率上仍有一定提升空間。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

▲右側(cè)是Qwen3.6-Plus的思維鏈摘要

接下來，我們又要求Qwen3.6-Plus生成一個(gè)《潛水員戴夫》的同款游戲，不過，Qwen3.6-Plus先是拒絕了這一要求，稱它無法直接生成可執(zhí)行的游戲文件，但可以為我生成核心概念美術(shù)圖，并提供一套完整的《潛水員戴夫》風(fēng)格游戲設(shè)計(jì)藍(lán)圖+開發(fā)指南+基礎(chǔ)代碼框架，作為開發(fā)起點(diǎn)。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

再次要求后，Qwen3.6-Plus開始了開發(fā)，但是在寫到200多行代碼時(shí)出現(xiàn)了問題，于是停止了開發(fā)。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

之后我們嘗試了通過API調(diào)用這一模型，完成同一任務(wù)。模型認(rèn)為，打造《潛水員戴夫》同款獨(dú)立游戲的核心在于復(fù)刻其“白天探索采集+夜晚模擬經(jīng)營(yíng)+輕敘事驅(qū)動(dòng)+循環(huán)成長(zhǎng)”的節(jié)奏，而非照搬題材或代碼。它決定打造一個(gè)白天深入動(dòng)態(tài)霧林采集食材與古物，夜晚經(jīng)營(yíng)一家能“烹飪記憶”的森林酒館的游戲。

最終Qwen3.6-Plus交付的MVP版本（最小可用版本）如下，不過我們?cè)囃媪艘幌拢@一游戲在可玩性上仍然需要持續(xù)迭代。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

試玩鏈接：

https://mcp.edgeone.site/share/hkGsoqs3OCUQyXtxsYCal

二、實(shí)測(cè)高難度路徑規(guī)劃，被北京地鐵轉(zhuǎn)暈

在視覺語言能力方面，Qwen3.6-Plus的主要圍繞著多模態(tài)推理、指令模式實(shí)用性進(jìn)行改進(jìn)，其在復(fù)雜文檔理解、物理世界視覺理解、視頻推理和視覺編程等任務(wù)上的得分有所提升。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

為考察其視覺推理能力，我們?cè)谥暗牡罔F路徑規(guī)劃任務(wù)上加了點(diǎn)難度，假設(shè)某一線路遇到了極端天氣停運(yùn)了，看看模型還能不能反應(yīng)過來。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

Qwen3.6-Plus通過較長(zhǎng)時(shí)間的思考后，得出了兩個(gè)結(jié)論，第一個(gè)結(jié)論其實(shí)是正確的，但是它判斷這條路線有點(diǎn)復(fù)雜，于是認(rèn)為可以在“牡丹園站換乘昌平線”，這樣更直接。Qwen3.6-Plus的最終結(jié)論有個(gè)bug，昌平線可能至少要等到2029年才能和19號(hào)線在牡丹園換乘。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

在其他多模態(tài)能力方面，阿里官方還展示了多個(gè)demo。比如，Qwen3.6-Plus可以對(duì)視頻進(jìn)行分析，并生成圖文并茂的講義。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

或是根據(jù)界面截圖、產(chǎn)品原型、設(shè)計(jì)稿或自然圖文描述，完成前端頁面生成、代碼補(bǔ)全、交互修改等任務(wù)。

實(shí)測(cè)阿里Qwen3.6-Plus：8分鐘做了個(gè)官網(wǎng)，被北京地鐵繞暈

結(jié)語：阿里全面押注原生多模態(tài)

隨著Qwen3.6-Plus的發(fā)布，千問團(tuán)隊(duì)稱，他們近期的工作重心將全面轉(zhuǎn)向Qwen3.6系列的整體發(fā)布。在未來不久，千問還將開源更小規(guī)模的模型版本。同時(shí)，性能更強(qiáng)的旗艦?zāi)Ｐ蚎wen3.6-Max也將很快亮相。

值得注意的是，自Qwen3.5發(fā)布后，千問已經(jīng)全面將其主力模型Qwen轉(zhuǎn)向了原生多模態(tài)。該團(tuán)隊(duì)稱，他們希望模型逐步演進(jìn)為一個(gè)能夠在真實(shí)環(huán)境中持續(xù)感知、推理和行動(dòng)的原生多模態(tài)智能體。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、可完成長(zhǎng)鏈路任務(wù)與多輪工具調(diào)用，token效率有提升空間

二、實(shí)測(cè)高難度路徑規(guī)劃，被北京地鐵轉(zhuǎn)暈

結(jié)語：阿里全面押注原生多模態(tài)

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、可完成長(zhǎng)鏈路任務(wù)與多輪工具調(diào)用，token效率有提升空間

二、實(shí)測(cè)高難度路徑規(guī)劃，被北京地鐵轉(zhuǎn)暈

結(jié)語：阿里全面押注原生多模態(tài)

相關(guān)推薦

一、可完成長(zhǎng)鏈路任務(wù)與多輪工具調(diào)用，token效率有提升空間

二、實(shí)測(cè)高難度路徑規(guī)劃，被北京地鐵轉(zhuǎn)暈