AV无码专区久久精品观看,日本一区精品视频在线观看,亚洲成av人片在线观看天堂

智東西（公眾號：zhidxcom）
作者 | 江宇
編輯 | 漠影

智東西4月2日報道，今日，“國產(chǎn)大模型第一股”智譜發(fā)布了其首個多模態(tài)Coding基座模型GLM-5V-Turbo，將AI大模型的感知邊界從純文本推到視覺世界。這是繼GLM-5-Turbo之后，智譜短時間內(nèi)在Coding基座模型上的又一次快速迭代。

據(jù)官方新聞稿介紹，GLM-5V-Turbo不僅能讀懂代碼，還能“看懂畫面再寫代碼”。給定一張設(shè)計稿截圖，它能直接生成完整可運(yùn)行的前端工程；在接入OpenClaw、AutoClaw等龍蝦Agent之后，它也能看懂屏幕、讀懂K線圖、瀏覽各類網(wǎng)頁，然后自主完成一整套長程任務(wù)。

得益于出色的視覺編程性能，GLM-5V-Turbo在海外引發(fā)了廣泛的關(guān)注，截至發(fā)稿前，其官方推文已經(jīng)獲得了130萬+的瀏覽量，海外開發(fā)者甚至夸張地打趣道：“對Anthropic來說，現(xiàn)在游戲結(jié)束了?！?/p>

看草圖直出代碼！實測智譜最新多模態(tài)Coding模型

X網(wǎng)友@Zaid表示，“Anthropic現(xiàn)在的處境岌岌可危。”

看草圖直出代碼！實測智譜最新多模態(tài)Coding模型

如今，放眼整個行業(yè)來看，GLM-5V-Turbo推出的意義正變得越來越清晰：當(dāng)Coding模型開始進(jìn)入真實生產(chǎn)環(huán)境，光靠文本確實已經(jīng)不夠用了，而剛剛發(fā)布的GLM-5V-Turbo，將為「視覺編程」新范式提供一個全新的啟示。

一、上手實測：看見即復(fù)刻，圖像即代碼

說再多不如直接上手。我們用三個實測案例，看看GLM-5V-Turbo在不同輸入方式下的前端復(fù)刻能力。

案例一：畫個草圖，也能復(fù)刻？

先從最離譜的場景開始，我們只給GLM-5V-Turbo畫幾個框框，讓它做個酷炫的音樂播放器。結(jié)果模型還真搞得像模像樣，布局合理、配色協(xié)調(diào)、連播放控件都安排得明明白白，讓它改個配色也是言出法隨。建議各位產(chǎn)品經(jīng)理抓緊體驗，以后改需求再也不用看前端的臉色了。

案例二：輸入網(wǎng)址，直接復(fù)刻

這是GLM-5V-Turbo的主打功能之一。因為模型有強(qiáng)大的GUI Agent能力，只要給它一個目標(biāo)網(wǎng)站URL，它就能自主瀏覽頁面，梳理布局結(jié)構(gòu)、采集視覺素材與交互細(xì)節(jié)，然后直接生成完整可運(yùn)行的前端工程。不需要手動截圖、不需要描述需求，一個鏈接就夠了。

例如，我們讓GLM-5V-Turbo復(fù)刻這個頗具設(shè)計感的網(wǎng)站：https://niore.webflow.io/

看草圖直出代碼！實測智譜最新多模態(tài)Coding模型

這是復(fù)刻效果，可以看到，不論是布局、字體，甚至是插圖都非常相似。

案例三：輸入錄屏，還原動效

將一段網(wǎng)頁操作錄屏發(fā)給模型，GLM-5V-Turbo能從視頻中理解頁面的動態(tài)交互邏輯——滾動效果、彈窗切換、表單聯(lián)動、按鈕反饋等，然后將這些交互細(xì)節(jié)還原為可運(yùn)行的代碼。不只是”還原長什么樣”，而是”還原怎么動”。

我們把這個美食網(wǎng)站的錄屏發(fā)給GLM-5V-Turbo，讓它復(fù)刻一下。

▲錄屏

可以看到，網(wǎng)站的布局、照片、字體都比較還原，浮現(xiàn)動效和字體特效這類動態(tài)細(xì)節(jié)也基本復(fù)刻到位。

▲結(jié)果

二、技術(shù)探索：不是簡單“加了個視覺模塊”

與以往傳統(tǒng)方法不同，GLM-5V-Turbo不是在一個純文本Coding模型上“外掛”了一個視覺理解模塊，而是從預(yù)訓(xùn)練階段就開始進(jìn)行文本與視覺能力的深度融合，解決了“視覺能力與純文本編程和推理能力無法兼得”的問題。

具體來說，智譜團(tuán)隊研發(fā)了新一代CogViT視覺編碼器，在通用物體識別、細(xì)粒度理解、幾何與空間感知上均做到了領(lǐng)先水平，同時設(shè)計了一套兼容多模態(tài)輸入且推理友好的MTP結(jié)構(gòu)，在多模態(tài)場景下實現(xiàn)了較高的推理效率。

更關(guān)鍵的是，在強(qiáng)化學(xué)習(xí)階段，智譜團(tuán)隊采用了30+任務(wù)類型的協(xié)同優(yōu)化策略，覆蓋STEM推理、視覺grounding、視頻理解、GUI Agent等多個子領(lǐng)域。這種多任務(wù)協(xié)同強(qiáng)化學(xué)習(xí)的好處在于，它有效緩解了單領(lǐng)域訓(xùn)練容易出現(xiàn)的不穩(wěn)定性，也就是說，不會因為某一項能力的提升而犧牲其他能力。

而且從評測數(shù)據(jù)來看，這套方案確實跑通了。

在多模態(tài)Coding維度，GLM-5V-Turbo在設(shè)計稿還原、視覺代碼生成、多模態(tài)檢索與問答、視覺探查等基準(zhǔn)上均取得領(lǐng)先表現(xiàn)；在衡量真實GUI環(huán)境操控能力的AndroidWorld、WebVoyager等基準(zhǔn)上同樣表現(xiàn)突出。

看草圖直出代碼！實測智譜最新多模態(tài)Coding模型

而在純文本Coding維度，GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三項核心測試中保持了穩(wěn)定表現(xiàn)——也就是說，視覺能力的引入并沒有拖累純文本編程能力。

看草圖直出代碼！實測智譜最新多模態(tài)Coding模型

用一句話總結(jié)：GLM-5V-Turbo不是在“看圖”和“寫代碼”之間做取舍，而是“全都要”。

結(jié)語：Coding基座模型的下一步，是“看見世界”

從GLM-5-Turbo到GLM-5V-Turbo，智譜在Coding基座模型上的迭代邏輯非常清晰：先讓模型在文本世界里把任務(wù)跑通，再讓它“看見”視覺世界，從而進(jìn)入更廣闊的應(yīng)用空間。

這背后的判斷是：Agent時代，模型能力不只由智能水平定義，還由它能處理的context容量定義。一個只能處理純文本的模型，哪怕推理能力再強(qiáng)，在真實世界里的應(yīng)用邊界也是有限的。因為真實世界的信息，絕大多數(shù)以圖片、視頻、界面等視覺形式存在。

從這個角度來看，GLM-5V-Turbo不只是智譜的一次產(chǎn)品更新，更像是一個行業(yè)信號：Coding模型的競爭，正在從“誰的代碼寫得好”升級到“誰能看懂世界并寫出代碼”。

而隨著越來越多的Coding模型開始進(jìn)入真實生產(chǎn)環(huán)境，“看得懂、寫得出、跑得通”這三項能力的整合程度，將成為區(qū)分模型之間差距的關(guān)鍵維度。

這場競賽，才剛剛進(jìn)入深水區(qū)。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、上手實測：看見即復(fù)刻，圖像即代碼

二、技術(shù)探索：不是簡單“加了個視覺模塊”

結(jié)語：Coding基座模型的下一步，是“看見世界”

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、上手實測：看見即復(fù)刻，圖像即代碼

二、技術(shù)探索：不是簡單“加了個視覺模塊”

結(jié)語：Coding基座模型的下一步，是“看見世界”

相關(guān)推薦

一、上手實測：看見即復(fù)刻，圖像即代碼

二、技術(shù)探索：不是簡單“加了個視覺模塊”

結(jié)語：Coding基座模型的下一步，是“看見世界”