智東西(公眾號(hào):zhidxcom)
作者 |? 程茜
編輯 |? 心緣

智東西3月19日消息,今日凌晨,小米MiMo大模型系列重磅三連更:旗艦基座大模型MiMo-V2-Pro、全模態(tài)Agent模型MiMo-V2-Omni、MiMo-V2-TTS,其最新發(fā)布的這三大模型都是為優(yōu)化智能體能力打造。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

其中,上周在全球最大API聚合平臺(tái)OpenRouter上,API調(diào)用量多天登頂日榜并引起熱議的匿名模型Hunter Alpha、Healer Alpha,就是MiMo-V2-Pro、MiMo-V2-Omni的早期測(cè)試版。目前這兩個(gè)匿名模型在OpenRouter仍然向開(kāi)發(fā)者免費(fèi)開(kāi)放。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

此前,因與DeepSeek V4被曝出的參數(shù)規(guī)格一樣,還有人猜測(cè)Hunter Alpha就是DeepSeek V4。OpenClaw創(chuàng)始人Peter Steinberger還曾在社交平臺(tái)X上發(fā)文打聽(tīng)這倆匿名模型的具體信息。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

旗艦基座模型MiMo-V2-Pro總參數(shù)量超過(guò)1T,在OpenClaw、Claude Code等智能體框架中,MiMo-V2-Pro能夠在無(wú)人工干預(yù)的條件下完成復(fù)雜工作流編排、長(zhǎng)程規(guī)劃與精準(zhǔn)工具調(diào)用,但其模型API定價(jià)僅為Claude Opus 4.6的1/5

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

▲MiMo-V2-Pro與Claude Opus 4.6、Claude Sonnet 4.6價(jià)格對(duì)比(圖源:小米MiMo官網(wǎng))

全模態(tài)基座模型Xiaomi MiMo-V2-Omni,支持文本、視覺(jué)、語(yǔ)音全模態(tài),該模型能夠跨模態(tài)理解復(fù)雜環(huán)境、自主制定并執(zhí)行計(jì)劃、在遇到異常時(shí)實(shí)時(shí)修正策略,最終端到端地交付完整結(jié)果。

語(yǔ)音合成大模型Xiaomi MiMo-V2-TTS要讓智能體能用有溫度、有情感、有靈魂的聲音與人對(duì)話(huà),其支持多方言、多角色、多語(yǔ)氣生成,還可以智能識(shí)別文本中的標(biāo)點(diǎn)符號(hào)、語(yǔ)氣詞、強(qiáng)調(diào)標(biāo)記等各類(lèi)格式信號(hào)。

此外,在MiMo-V2-Pro官方模型體驗(yàn)頁(yè)面,小米還同步上線(xiàn)了MiMo Claw,用戶(hù)可以體驗(yàn)基于MiMo-V2-Pro“養(yǎng)蝦”。該功能創(chuàng)建一次可免費(fèi)體驗(yàn)30分鐘,退出使用后自動(dòng)銷(xiāo)毀數(shù)據(jù)。

小米MiMo大模型負(fù)責(zé)人正是DeepSeek核心成員、被業(yè)內(nèi)稱(chēng)為“天才少女”的羅福莉。

智東西體驗(yàn)了MiMo Claw,讓其“幫我設(shè)計(jì)一個(gè)網(wǎng)站,每天19點(diǎn)更新第二天在港交所、A股上市的企業(yè)”。MiMo Claw通過(guò)Python爬蟲(chóng)定時(shí)抓取數(shù)據(jù),然后生成靜態(tài)頁(yè)面直接部署。其運(yùn)行測(cè)試發(fā)現(xiàn)誤匹配后,會(huì)修正補(bǔ)充港股數(shù)據(jù)。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

MiMo Claw生成的新股雷達(dá)網(wǎng)站

MiMo-V2-Pro、MiMo-V2-Omni將聯(lián)合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等智能體開(kāi)發(fā)框架團(tuán)隊(duì),為全球開(kāi)發(fā)者提供為期一周的限時(shí)免費(fèi)接口支持

MiMo-V2-Pro養(yǎng)蝦體驗(yàn)頁(yè)面:https://aistudio.xiaomimimo.com

一、MiMo-V2-Pro:綜合能力國(guó)內(nèi)第二,OpenClaw榜單排第三

MiMo-V2-Pro總參數(shù)量超過(guò)1T,激活參數(shù)量42B,較前代模型MiMo-V2-Flash擴(kuò)大約3倍,支持100萬(wàn)上下文長(zhǎng)度。

在全球權(quán)威大模型綜合智能排行榜Artificial Analysis上,MiMo-V2-Pro位列全球第九,國(guó)內(nèi)第三,僅次于智譜的GLM-5、MiniMax昨日新發(fā)布的MiniMax-M2.7。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

在各個(gè)衡量模型重要能力的基準(zhǔn)測(cè)評(píng)中,MiMo-V2-Pro在編程Agent、通用Agent和工具使用方面與Claude Sonnet 4.6、GPT 5.2、Gemini 3.0 Pro性能相近。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

根據(jù)官方信息,MiMo-V2-Pro專(zhuān)為Agent場(chǎng)景深度優(yōu)化,針對(duì)復(fù)雜多樣的智能體架構(gòu)進(jìn)行了監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),具備更強(qiáng)工具調(diào)用與多步推理能力。

在OpenClaw標(biāo)準(zhǔn)評(píng)測(cè)榜單PinchBench、Claw-Eval上,MiMo-V2-Pro排名第三,僅次于Claude Sonnet 4.6、Claude Opus 4.6。同時(shí),基于1M超長(zhǎng)上下文窗口,MiMo-V2-Pro能支撐高強(qiáng)度的真實(shí)Claw復(fù)雜應(yīng)用流。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

編程方面,小米內(nèi)部工程師深度評(píng)測(cè)結(jié)果顯示,MiMo-V2-Pro體感已接近Claude Opus 4.6,并展現(xiàn)出高階的編程智能,其擁有更出色的系統(tǒng)設(shè)計(jì)與任務(wù)規(guī)劃能力、更優(yōu)雅的代碼風(fēng)格,以及更高效直接的問(wèn)題解決路徑。

在前端應(yīng)用場(chǎng)景中,MiMo-V2-Pro可以在OpenClaw里,一步生成設(shè)計(jì)精致、功能完備的網(wǎng)頁(yè)。

提示詞:模仿90年代印刷雜志美學(xué)。標(biāo)題襯線(xiàn)字體如 Playfair Display,正文等寬字體如 IBM Plex Mono。頁(yè)面雜志式多欄 grid,每欄寬度不等。大標(biāo)題向左偏出視口暗示印刷溢出。圖片加 sepia 0.2 棕褐色濾鏡和噪點(diǎn)疊加。頁(yè)面過(guò)渡模仿翻書(shū)效果。導(dǎo)航模仿雜志目錄,每項(xiàng)前編號(hào) 01/02/03,hover 時(shí)編號(hào)變大。底部設(shè)計(jì)成雜志版權(quán)頁(yè)樣式含假 ISSN 號(hào)。紙張紋理背景。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

價(jià)格方面,根據(jù)使用量分段計(jì)價(jià):256K上下文以?xún)?nèi),輸入每百萬(wàn)tokens 1美元(約合人民幣6.87元),輸出3美元(約合人民幣20.62元);1M上下文以?xún)?nèi),輸入每百萬(wàn)tokens 2美元(約合人民幣13.75元),輸出6美元(約合人民幣41.24元)。

在官方模型體驗(yàn)頁(yè)面,同步上線(xiàn)了MiMo Claw,免費(fèi)解鎖MiMo-V2-Pro養(yǎng)蝦體驗(yàn)。此外,MiMo Claw模塊現(xiàn)已全面打通金山WebOffice生態(tài),原生支持Word、Excel、PPT、PDF四大主流格式,覆蓋超95%的日常文檔類(lèi)型;小米瀏覽器目前也已經(jīng)接入MiMo-V2-Pro,助力AI搜索。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

二、MiMo-V2-Omni:專(zhuān)攻多模態(tài)交互、執(zhí)行,能幫你找攻略砍價(jià)

全模態(tài)基座模型Xiaomi MiMo-V2-Omni,是專(zhuān)為現(xiàn)實(shí)世界中復(fù)雜的多模態(tài)交互與執(zhí)行場(chǎng)景打造,融合文本、視覺(jué)、語(yǔ)音全模態(tài)。

感知能力,精準(zhǔn)感知和準(zhǔn)確推理是高效執(zhí)行的基石。在音頻理解上,MiMo-V2-Omni支持從環(huán)境聲分類(lèi)、多說(shuō)話(huà)人分離、音頻-視覺(jué)聯(lián)合推理、超過(guò)10小時(shí)連續(xù)長(zhǎng)音頻的深度理解。其表現(xiàn)超越了Gemini 3 Pro;圖像理解上,MiMo-V2-Omni具備多學(xué)科視覺(jué)推理與復(fù)雜圖表分析能力,其表現(xiàn)超過(guò)Claude Opus 4.6,逼近Gemini 3 Pro;視頻理解方面,新模型支持原生音視頻聯(lián)合輸入,表現(xiàn)超越Gemini 3 Flash。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

智能體能力方面,MiMo-V2-Omni能夠跨模態(tài)理解復(fù)雜環(huán)境、自主制定并執(zhí)行計(jì)劃、在遇到異常時(shí)實(shí)時(shí)修正策略,最終端到端地交付完整結(jié)果。

在與真實(shí)數(shù)字環(huán)境交互的評(píng)測(cè)基準(zhǔn)上,MiMo-V2-Omni性能逼近Gemini 3 Pro,純文本智能體任務(wù)上,其平均表現(xiàn)僅次于Claude Opus 4.6。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦” 剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

結(jié)合OpenClaw框架,MiMo-V2-Omni可以像人一樣操控瀏覽器。

提示詞:幫我看看小米17怎么選,去小紅書(shū)做做功課,選好了去京東下單,順便砍砍價(jià)。

模型會(huì)自己打開(kāi)小紅書(shū)翻帖子,提取配置對(duì)比、拍照評(píng)測(cè)、真實(shí)用戶(hù)體驗(yàn)然后整理購(gòu)買(mǎi)建議。然后其會(huì)打開(kāi)京東跨店比價(jià),轉(zhuǎn)接人工客服砍價(jià),價(jià)格合適后直接加購(gòu)下單。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

MiMo-V2-Omni接入WPS Office,只需幾句話(huà)就可以為用戶(hù)直接生成Word、結(jié)構(gòu)化Excel、排版規(guī)范的PDF與完整的PPT。

剛剛,被全網(wǎng)猜是DeepSeek V4的神秘大模型,被小米認(rèn)領(lǐng)了!還能免費(fèi)“養(yǎng)龍蝦”

MiMo-V2-Omni模型支持256K上下文長(zhǎng)度,輸入每百萬(wàn)tokens 0.4美元(約合人民幣2.75元),輸出2美元(約合人民幣13.75元)。

三、MiMo-V2-TTS:上億小時(shí)語(yǔ)音數(shù)據(jù)訓(xùn)練,讓智能體說(shuō)話(huà)更像人

語(yǔ)音合成大模型Xiaomi MiMo-V2-TTS,專(zhuān)為Agent時(shí)代的全模態(tài)交互而生,讓智能體能用有溫度、有情感、有靈魂的聲音與人對(duì)話(huà)。

該模型基于小米自研Audio Tokenizer和多碼本語(yǔ)音-文本聯(lián)合建模架構(gòu),經(jīng)過(guò)上億小時(shí)語(yǔ)音數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練與多維度強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了高度可控的多粒度語(yǔ)音風(fēng)格控制。

其中,自研多碼本語(yǔ)音建模架構(gòu),可以實(shí)現(xiàn)更精細(xì)的語(yǔ)音特征捕捉與還原,模型在高保真的離散token空間中對(duì)語(yǔ)音進(jìn)行建模,保留原始語(yǔ)音中的豐富信息,使強(qiáng)化學(xué)習(xí)階段能夠直接利用語(yǔ)音相關(guān)獎(jiǎng)勵(lì)信號(hào)對(duì)模型進(jìn)行優(yōu)化,從而讓多維獎(jiǎng)勵(lì)信號(hào)更有效。

語(yǔ)音數(shù)據(jù)量突破上億小時(shí),覆蓋豐富的說(shuō)話(huà)風(fēng)格與場(chǎng)景;多維度強(qiáng)化學(xué)習(xí)后訓(xùn)練中,MiMo-V2-TTS在能?chē)@更自然的韻律、更穩(wěn)定的音質(zhì)、更準(zhǔn)確的字詞表達(dá)、更高質(zhì)量的音色克隆以及不同場(chǎng)景下恰當(dāng)?shù)恼Z(yǔ)氣和表達(dá)方式等多個(gè)維度持續(xù)優(yōu)化。

在訓(xùn)練過(guò)程中,MiMo-V2-TTS首先通過(guò)超大規(guī)模語(yǔ)音-文本混合預(yù)訓(xùn)練,在海量數(shù)據(jù)中習(xí)得了強(qiáng)大的跨模態(tài)對(duì)齊與理解生成的統(tǒng)一能力;在此基礎(chǔ)上,通過(guò)少量高質(zhì)量監(jiān)督數(shù)據(jù)的微調(diào),模型獲得了可泛化的多粒度與多風(fēng)格指令控制能力。

可泛化的語(yǔ)音風(fēng)格指令控制:該模型支持從整體到局部的多層次語(yǔ)音風(fēng)格控制。用戶(hù)可通過(guò)自然語(yǔ)言指令設(shè)定整體語(yǔ)音基調(diào),同時(shí)對(duì)句內(nèi)局部片段進(jìn)行細(xì)粒度的情緒調(diào)節(jié),實(shí)現(xiàn)同一語(yǔ)句中語(yǔ)氣轉(zhuǎn)折與情感遞變的自然過(guò)渡。

文本理解:該模型在預(yù)訓(xùn)練階段通過(guò)大量文本-語(yǔ)音對(duì)齊數(shù)據(jù),習(xí)得了書(shū)面語(yǔ)與口語(yǔ)表達(dá)之間的映射關(guān)系,能夠智能識(shí)別文本中的標(biāo)點(diǎn)符號(hào)、語(yǔ)氣詞、強(qiáng)調(diào)標(biāo)記等各類(lèi)格式信號(hào),并將其自動(dòng)轉(zhuǎn)化為恰當(dāng)、自然的語(yǔ)音表達(dá),全程無(wú)需用戶(hù)額外標(biāo)注或手動(dòng)干預(yù)。

方言、角色、歌聲:該模型支持多種方言的自然發(fā)音,可進(jìn)行角色扮演式的風(fēng)格化演繹,更能實(shí)現(xiàn)高質(zhì)量的歌聲合成——讓同一個(gè)模型既能說(shuō)、能演、也能唱。方言支持:東北話(huà)、四川話(huà)、河南話(huà)、粵語(yǔ)、臺(tái)灣腔。

結(jié)語(yǔ):終端廠(chǎng)商發(fā)力系統(tǒng)級(jí)原生智能體

小米大模型團(tuán)隊(duì)透露了下一步的研發(fā)方向,小米大模型Core團(tuán)隊(duì)的核心方向是攻克高復(fù)雜度推理與長(zhǎng)周期任務(wù)規(guī)劃,系統(tǒng)提升模型在未知環(huán)境中的泛化與決策能力,向真正的通用智能邁進(jìn),其還將持續(xù)推進(jìn)長(zhǎng)周期智能體規(guī)劃、實(shí)時(shí)流式感知、多智能體協(xié)同,以及與物理世界更深層的整合。

小米此次連發(fā)三個(gè)大模型,貫通了萬(wàn)億參數(shù)模型、全模態(tài)模型、 平價(jià)API等多項(xiàng)能力,這或許也意味著終端廠(chǎng)商可以把底層大模型、系統(tǒng)權(quán)限、生態(tài)服務(wù)深度整合,打造系統(tǒng)級(jí)原生智能體。