av五十路老熟女翔田千里,天天弄天天干天天舔,japanese五十路熟女视频

智東西（公眾號：zhidxcom）
作者 |? 陳駿達
編輯 |? 云鵬

智東西7月2日報道，今天，智譜發(fā)布了GLM-4.1V-Thinking系列視覺推理模型，并率先開源了GLM-4.1V-9B-Thinking，后者的整體水平達到了同尺寸（10B量級）視覺語言模型的領(lǐng)先水平，還在多項能力上超過了尺寸更大的Qwen-2.5-VL-72B、GPT-4o等模型。

開源之外，智譜還在今天舉行的智譜開放平臺產(chǎn)業(yè)生態(tài)大會上宣布，該公司獲得浦東創(chuàng)投集團和張江集團聯(lián)合戰(zhàn)略投資，總額10億元。同時，智譜推出全新生態(tài)平臺Agent應(yīng)用空間，并開啟Agents開拓者計劃，投入數(shù)億資金，全方位扶持AI Agents創(chuàng)業(yè)團隊。

GLM-4.1V-9B-Thinking通過混合訓(xùn)練融合了豐富的多模態(tài)模型能力。這一模型能解析最長2小時的視頻內(nèi)容，或是對圖像中的內(nèi)容進行深入分析和解答。例如，解析球賽時，模型能理解球員的位置，看懂球員的戰(zhàn)術(shù)特點。

智譜再融10億！獲上海國資押注，開源視覺大模型，能解說球賽，還會玩手機

▲視頻解析能力展示（圖源：智譜）

它還支持看圖寫網(wǎng)頁、GUI Agent能力等，能識別網(wǎng)頁、電腦屏幕、手機屏幕等交互界面元素，支持點擊、滑動等指令執(zhí)行能力。比如，當(dāng)收到用戶創(chuàng)建日程的要求時，它能自動找到對應(yīng)應(yīng)用，并準(zhǔn)確完成操作。

智譜再融10億！獲上海國資押注，開源視覺大模型，能解說球賽，還會玩手機

▲GUI Agent能力展示（圖源：智譜）

這一模型還擅長數(shù)學(xué)與科學(xué)推理、視覺錨定與實體定位（Grounding）等任務(wù)，后者可實現(xiàn)語言與圖像區(qū)域的精準(zhǔn)對齊，提升人機交互可控性。

GLM-4.1V-9B-Thinking在28項評測任務(wù)中獲得了23項同尺寸模型最佳，在18項任務(wù)持平甚至超過8倍參數(shù)量的Qwen-2.5-VL-72B。這一效果得益于智譜引入的課程采樣強化學(xué)習(xí)（Reinforcement Learning with Curriculum Sampling）?策略。

智譜再融10億！獲上海國資押注，開源視覺大模型，能解說球賽，還會玩手機

目前，GLM-4.1V-9B-Thinking已在GitHub、魔搭、Hugging Face上開源，這一尺寸的模型較為適合本地部署。用戶也可在魔搭、Hugging Face上直接體驗到這一模型，體驗頁面支持上傳圖片、視頻、PPT、PDF等文件。GLM-4.1V-Thinking的技術(shù)報告也一并公開。

論文鏈接：

https://arxiv.org/abs/2507.01006

部分開源鏈接：

https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

部分體驗鏈接：

https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

一、訓(xùn)練架構(gòu)圍繞統(tǒng)一核心：用強化學(xué)習(xí)增強推理能力

論文提到，視覺-語言模型（VLMs）已成為現(xiàn)代智能系統(tǒng)的關(guān)鍵基石，使系統(tǒng)能夠超越文本感知和理解視覺信息。在過去十年中，隨著模型智能水平的顯著提升，相應(yīng)多模態(tài)智能任務(wù)的復(fù)雜性也相應(yīng)增加。

當(dāng)前，業(yè)內(nèi)對模型的要求已遠(yuǎn)遠(yuǎn)超出簡單的視覺內(nèi)容感知，對高級推理能力的重視程度不斷增加。最近，許多研究表明，長形式推理和可擴展的強化學(xué)習(xí)可以顯著增強大型語言模型（LLMs）解決復(fù)雜問題的能力。

一些先前的研究嘗試使用類似的范式來增強VLMs的推理能力，但它們主要集中在特定領(lǐng)域。目前，開源社區(qū)缺乏一種在廣泛任務(wù)范圍內(nèi)持續(xù)超越傳統(tǒng)同類參數(shù)規(guī)模非推理模型的多模態(tài)推理模型。

因此，智譜GLM-4.1V-Thinking的訓(xùn)練框架圍繞一個統(tǒng)一目標(biāo)構(gòu)建：通過可擴展的強化學(xué)習(xí)全面增強模型的推理能力。

GLM-4.1V-Thinking模型架構(gòu)由三個核心模塊組成：視覺編碼器（ViT Encoder）、多層感知機適配器（MLP Projector）以及語言解碼器（Language Decoder）。

智譜再融10億！獲上海國資押注，開源視覺大模型，能解說球賽，還會玩手機

智譜選用AIMv2-Huge作為視覺編碼器（這是蘋果提出的通用視覺編碼器），GLM作為語言解碼器。

在視覺編碼器部分，智譜將原始的二維卷積替換為三維卷積，尤其適用于視頻理解，有效提升了處理效率。對于靜態(tài)圖像輸入，則通過復(fù)制幀的方式以保持輸入格式的一致性。

GLM-4.1V-Thinking系列模型還對任意圖像分辨率和寬高比具有一定適應(yīng)能力，這得益于兩項關(guān)鍵改進：

其一，融合二維旋轉(zhuǎn)位置編碼（2D-RoPE），使模型能夠穩(wěn)定處理極端寬高比（如超過200:1）和超高分辨率（如4K以上）的圖像；

其二，為保留ViT預(yù)訓(xùn)練模型的原有能力，智譜保留了其可學(xué)習(xí)的絕對位置嵌入，并通過雙三次插值方式在訓(xùn)練過程中動態(tài)適配不同分辨率輸入。

在語言解碼器中，智譜對原始的旋轉(zhuǎn)位置編碼（RoPE）進行了三維擴展（3D-RoPE）。這一設(shè)計顯著增強了模型在多模態(tài)輸入處理中的空間理解能力，同時保持了其在文本生成方面的原始性能。

二、預(yù)訓(xùn)練工作分兩步走，給模型“排課程”實現(xiàn)高效RL

GLM-4.1V-Thinking 的訓(xùn)練過程分為三個階段：預(yù)訓(xùn)練（Pretraining）、監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL）。

1、預(yù)訓(xùn)練

在模型的預(yù)訓(xùn)練階段，智譜采用了分階段漸進式的訓(xùn)練策略，通過兩個緊密銜接的子階段逐步構(gòu)建和提升模型的多模態(tài)理解與長上下文處理能力。

首先展開的是多模態(tài)預(yù)訓(xùn)練階段，這個階段的核心目標(biāo)是打牢模型的基礎(chǔ)能力，使其建立起對多種模態(tài)數(shù)據(jù)的通用理解。這一階段的訓(xùn)練數(shù)據(jù)，既有傳統(tǒng)的圖像字幕和交錯圖文，也包含了更具挑戰(zhàn)性的OCR識別、視覺定位(Grounding)以及指令響應(yīng)等多樣化數(shù)據(jù)。

隨后進入的長上下文持續(xù)訓(xùn)練階段，則著重拓展模型處理復(fù)雜長序列數(shù)據(jù)的能力。這個階段，智譜引入了更具挑戰(zhàn)性的訓(xùn)練素材，包括連續(xù)的視頻幀序列以及token數(shù)量超過8K的超長圖文混合內(nèi)容。

通過這兩個階段的遞進式訓(xùn)練，模型逐步獲得了處理高分辨率圖像、視頻序列以及超長文本等復(fù)雜場景的能力。

2、監(jiān)督微調(diào)

在微調(diào)階段，智譜構(gòu)建了一個高質(zhì)量的CoT（思維鏈）訓(xùn)練集，用于強化模型的長篇因果推理能力。

訓(xùn)練語料來自多個任務(wù)場景，包括數(shù)學(xué)題解、多輪對話、代理規(guī)劃與復(fù)雜指令跟隨，涵蓋圖文、多模態(tài)及純文本等不同類型。這一階段不僅提高了多模態(tài)推理能力，也保持了模型在語言理解與邏輯推演方面的穩(wěn)定表現(xiàn)。

3、課程采樣強化學(xué)習(xí)

在監(jiān)督微調(diào)基礎(chǔ)上，智譜引入強化學(xué)習(xí)全面優(yōu)化模型性能。強化學(xué)習(xí)讓模型通過與環(huán)境的交互來學(xué)習(xí)行為策略，以最大化累計獎勵，課程采樣強化學(xué)習(xí)在此基礎(chǔ)上引入課程學(xué)習(xí)的思想，通過合理安排訓(xùn)練樣本的難度順序，使模型能夠更高效地學(xué)習(xí)。

智譜結(jié)合兩種方法：基于可驗證獎勵的強化學(xué)習(xí)（RLVR）和基于人類反饋的強化學(xué)習(xí)（RLHF）。前者更加適用于有明確答案的問題，后者則更適用于需要人類評判模型完成效果的問題。

強化學(xué)習(xí)工作覆蓋了多個關(guān)鍵領(lǐng)域：

（1）STEM領(lǐng)域問題求解（數(shù)學(xué)、物理、化學(xué)）

（2）多模態(tài)信息定位與理解（OCR、實體定位、視頻分析）

（3）智能體任務(wù)（GUI交互、代理規(guī)劃）

（4）文檔與圖表理解、邏輯推理、復(fù)雜指令執(zhí)行等

通過課程采樣，在這些任務(wù)上開展由易而難的動態(tài)大規(guī)模強化學(xué)習(xí)訓(xùn)練，模型在實用性、準(zhǔn)確性和穩(wěn)健性等方面取得了顯著提升。

在基準(zhǔn)測試中，GLM-4.1V-9B-Thinking展現(xiàn)出了類似尺寸模型中領(lǐng)先的水平，并在通用視覺問答、STEM、OCR & Chart、長文檔理解、GUI Agents和多模態(tài)編碼以及視頻理解領(lǐng)域表現(xiàn)出色。

智譜再融10億！獲上海國資押注，開源視覺大模型，能解說球賽，還會玩手機

測試還探討了多領(lǐng)域強化學(xué)習(xí)中不同模態(tài)領(lǐng)域之間是否能泛化和相互促進的問題。對STEM、OCR & Chart、視覺定位（Grounding)）和GUI Agent這四個代表性領(lǐng)域的實驗表明，在大多數(shù)領(lǐng)域中都存在強大的跨領(lǐng)域泛化和相互促進現(xiàn)象。

例如，在STEM數(shù)據(jù)上進行強化學(xué)習(xí)不僅提高了STEM領(lǐng)域的特定技能，還增強了視覺定位GUI Agent交互和通用視覺QA任務(wù)的性能。跨領(lǐng)域聯(lián)合訓(xùn)練在每個領(lǐng)域中帶來了更大的改進，這可能是GLM-4.1V-9B-Thinking良好性能的基礎(chǔ)。

三、發(fā)布Agent應(yīng)用空間，可一站式接入Agent能力

智譜還在今天發(fā)布了全新生態(tài)平臺Agent應(yīng)用空間，這是一個面向企業(yè)客戶和開發(fā)者的AI?Agent能力聚合平臺。

智譜再融10億！獲上海國資押注，開源視覺大模型，能解說球賽，還會玩手機

Agent應(yīng)用空間提供Agent應(yīng)用與模型插件（MCP）。開箱即用、靈活編排的組件服務(wù)和Agents應(yīng)用，讓企業(yè)無需自建大模型團隊，即可低門檻接入成熟、安全、可控的Agent能力。

這一平臺還提供一站式開發(fā)工具鏈、完整的模型調(diào)用接口與靈活的應(yīng)用組合機制。

智譜是國內(nèi)較早布局智能體技術(shù)的大模型廠商之一，曾提出Agentic GLM戰(zhàn)略。今年3月，智譜曾發(fā)布AutoGLM沉思智能體，能探究開放式問題，并根據(jù)結(jié)果執(zhí)行操作的自主智能體（AI Agent），可以模擬人類的思維過程，完成從數(shù)據(jù)檢索、分析到生成報告。

結(jié)語：智譜開源動作持續(xù)，今年已集齊五城融資

2025年，智譜逐漸加速了其開源節(jié)奏，已經(jīng)陸續(xù)推出GLM-Z1-Air、GLM-Z1-Air、GLM-Z1-Rumination等開源模型。智譜本次開源的新模型對Agent能力做了大量的針對性訓(xùn)練，提升了模型在Agent場景的使用價值，也順應(yīng)了當(dāng)下Agentic AI的整體趨勢。

4月，智譜宣布啟動IPO進程，但其在一級市場的融資并未放緩。今年開年以來，智譜已經(jīng)獲得了北京、上海、杭州、成都、珠海等五個城市的地方國資押注，融資總額超25億元。這也表明，對于行業(yè)頭部企業(yè)而言，大模型的吸金熱還遠(yuǎn)未結(jié)束。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、訓(xùn)練架構(gòu)圍繞統(tǒng)一核心：用強化學(xué)習(xí)增強推理能力

二、預(yù)訓(xùn)練工作分兩步走，給模型“排課程”實現(xiàn)高效RL

三、發(fā)布Agent應(yīng)用空間，可一站式接入Agent能力

結(jié)語：智譜開源動作持續(xù)，今年已集齊五城融資

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、訓(xùn)練架構(gòu)圍繞統(tǒng)一核心：用強化學(xué)習(xí)增強推理能力

二、預(yù)訓(xùn)練工作分兩步走，給模型“排課程”實現(xiàn)高效RL

三、發(fā)布Agent應(yīng)用空間，可一站式接入Agent能力

結(jié)語：智譜開源動作持續(xù)，今年已集齊五城融資

相關(guān)推薦

一、訓(xùn)練架構(gòu)圍繞統(tǒng)一核心：用強化學(xué)習(xí)增強推理能力

二、預(yù)訓(xùn)練工作分兩步走，給模型“排課程”實現(xiàn)高效RL

三、發(fā)布Agent應(yīng)用空間，可一站式接入Agent能力

結(jié)語：智譜開源動作持續(xù)，今年已集齊五城融資