老湿机免费视频试看十分钟,中文字幕福利视频在线观看,免费观看啪啪10000网站黄页

智東西（公眾號：zhidxcom）
作者 | 李水青
編輯 | 心緣

智東西1月14日報(bào)道，今天，首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA（最佳水平）多模態(tài)模型開源。

這是智譜聯(lián)合華為開源的圖像生成模型GLM-Image。從數(shù)據(jù)到訓(xùn)練的全流程，該模型完全基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成構(gòu)建。

截至今日午間休市，智譜股價(jià)上漲16.83%。

在聚焦文字渲染的CVTG-2K、LongText-Bench榜單上，GLM-Image的得分超越了以谷歌Nano Banana Pro為代表的認(rèn)知型生成模型。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲GLM-Image在文字渲染的CVTG-2K、LongText-Bench榜單中達(dá)到開源SOTA水平

GLM-Image實(shí)現(xiàn)了圖像生成與語言模型的聯(lián)合，核心亮點(diǎn)如下：

1、架構(gòu)革新，面向「認(rèn)知型生成」的技術(shù)探索：采用創(chuàng)新的「自回歸 + 擴(kuò)散編碼器」混合架構(gòu)，兼顧全局指令理解與局部細(xì)節(jié)刻畫，克服了海報(bào)、PPT、科普圖等知識密集型場景生成難題。

2、首個(gè)在國產(chǎn)芯片完成全程訓(xùn)練的SOTA模型：模型自回歸結(jié)構(gòu)基座基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架，驗(yàn)證了在國產(chǎn)全棧算力底座上訓(xùn)練前沿模型的可行性。

3、文字渲染開源SOTA：在CVTG-2K（復(fù)雜視覺文本生成）和LongText-Bench（長文本渲染）榜單獲得開源第一，尤其擅長漢字生成任務(wù)。

4、高性價(jià)比與速度優(yōu)化：API調(diào)用模式下，生成一張圖片僅需0.1元，速度優(yōu)化版本即將更新。

智東西第一時(shí)間對GLM-Image進(jìn)行了體驗(yàn)，發(fā)現(xiàn)模型在漢字生成上準(zhǔn)確度很高，優(yōu)于谷歌Nano Banana以及多款頭部國內(nèi)模型；能夠較準(zhǔn)確理解深層語義和知識概念，并將其轉(zhuǎn)化為正確的視覺元素；能夠在保證全局構(gòu)圖的同時(shí)較精準(zhǔn)刻畫局部細(xì)節(jié)。

同時(shí)，GLM-Image也存在字體風(fēng)格呈現(xiàn)不準(zhǔn)、生成需要等待時(shí)間、一些科學(xué)概念理解不足等問題；且相比于一些免費(fèi)選擇，其仍需要收取少量費(fèi)用。

體驗(yàn)地址：
https://bigmodel.cn/trialcenter/modeltrial/image
GitHub地址：
https://github.com/zai-org/GLM-Image
技術(shù)報(bào)告地址：
https://z.ai/blog/glm-image

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲GLM-Image體驗(yàn)界面

一、從數(shù)據(jù)到訓(xùn)練，首個(gè)國產(chǎn)芯片訓(xùn)練出的SOTA模型

GLM-Image自回歸結(jié)構(gòu)基座從早期的數(shù)據(jù)預(yù)處理，到最終的大規(guī)模預(yù)訓(xùn)練，全流程均在昇騰Atlas 800T A2設(shè)備上完成。

依托昇騰NPU和昇思MindSpore AI框架，使用動態(tài)圖多級流水下發(fā)、高性能融合算子、多流并行等特性，智譜自研了模型訓(xùn)練套件，全面優(yōu)化數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、SFT和RL的端到端流程。

具體來說，通過動態(tài)圖的多級流水優(yōu)化機(jī)制，團(tuán)隊(duì)將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊，消除下發(fā)瓶頸；通過多流并行策略，通信和計(jì)算互掩，團(tuán)隊(duì)打破文本梯度同步、圖像特征廣播等操作的通信墻，極致優(yōu)化性能；使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子，團(tuán)隊(duì)同步提升訓(xùn)練的穩(wěn)定性和性能。

作為首個(gè)在國產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型，GLM-Image驗(yàn)證了在國產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。

二、文字渲染達(dá)開源SOTA，實(shí)測漢字生成超Nano Banana

GLM-Image在文字渲染的權(quán)威榜單中達(dá)到開源SOTA水平。

CVTG-2K（復(fù)雜視覺文字生成）榜單核心考察模型在圖像中同時(shí)生成多處文字的準(zhǔn)確性。在多區(qū)域文字生成準(zhǔn)確率上，GLM-Image憑借0.9116的Word Accuracy（文字準(zhǔn)確率）成績，位列開源模型第一。在NED（歸一化編輯距離）指標(biāo)上，GLM-Image同樣以0.9557領(lǐng)先，表明其生成的文字與目標(biāo)文字高度一致，錯(cuò)字、漏字情況更少。

LongText-Bench（長文本渲染）榜單考察模型渲染長文本、多行文字的準(zhǔn)確性，覆蓋招牌、海報(bào)、PPT、對話框等8種文字密集場景，并分設(shè)中英雙語測試，GLM-Image以英文0.952、中文0.979的成績位列開源模型第一。

智東西對GLM-Image的實(shí)測體驗(yàn)側(cè)重文字渲染能力，對比谷歌Nano Banana及Pro、豆包、阿里通義萬相2.6幾款常見同類模型，GLM-Image在文字渲染準(zhǔn)確度和細(xì)節(jié)刻畫上表現(xiàn)較好，但也存在字體風(fēng)格不準(zhǔn)確、科學(xué)概念理解不足等問題，不過后面這幾個(gè)問題Nano Banana也難幸免。

提示詞1：
設(shè)計(jì)一個(gè)“新中式奶茶店”的商標(biāo)（Logo）和店鋪外觀概念圖。
Logo部分：需要包含“茶悅”二字，設(shè)計(jì)要融合傳統(tǒng)書法韻味和現(xiàn)代簡約風(fēng)格。
店鋪外觀：是一個(gè)現(xiàn)代玻璃櫥窗小店，但門頭、招牌或裝飾中要巧妙運(yùn)用竹元素或山水紋樣。
整體感覺：干凈、雅致、有文化氣息，同時(shí)吸引年輕人。
生成建議：“茶悅”二字可以嘗試用細(xì)筆觸的行書，搭配一個(gè)抽象的茶杯或茶葉形狀。店鋪外觀可以是淺木色和留白為主，用竹格柵做裝飾，玻璃上若有若無地映出山水畫痕跡。

如下圖所示，GLM-Image在漢字生成上比較準(zhǔn)確，但未采用“行書”；對文字描述的設(shè)計(jì)細(xì)節(jié)呈現(xiàn)準(zhǔn)確，抽象的茶杯設(shè)計(jì)較傳神；對中國文化元素（書法、竹、山水）的理解和現(xiàn)代轉(zhuǎn)譯能力較強(qiáng)；室內(nèi)陳設(shè)格局清晰，符合商業(yè)設(shè)計(jì)場景要求。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲GLM-Image生成的圖片

谷歌Nano Banana沒有能夠準(zhǔn)確生成漢字，但對于畫面的呈現(xiàn)也比較準(zhǔn)確，室內(nèi)的陳設(shè)清晰且細(xì)節(jié)豐富，實(shí)拍感較強(qiáng)。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲Nano Banana生成的圖片

豆包沒有準(zhǔn)確生成“茶悅”二字，沒有按要求生成“一個(gè)抽象的茶杯或茶葉形狀”，但在門頭、招牌或裝飾中要巧妙運(yùn)用了竹元素或山水紋樣，設(shè)計(jì)比較獨(dú)特。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲豆包生成的圖片

阿里通義萬相2.6準(zhǔn)確生成了“茶悅”二字，也按要求生成了一個(gè)抽象的茶杯或茶葉形狀，但字體同樣沒有采用“行書”，店面的內(nèi)部構(gòu)造生成細(xì)節(jié)相對不多。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲阿里通義萬相2.6生成的圖片

提示詞2：

畫一張給小學(xué)生看的“光合作用示意圖”。圖中需要包含一棵有笑臉的植物、一個(gè)大太陽、代表二氧化碳（CO?）的箭頭從空氣指向葉子、代表氧氣（O?）的箭頭從葉子中冒出。在圖片下方，用清晰易懂的字體標(biāo)注解釋：“植物利用陽光、水和二氧化碳，制造出氧氣和養(yǎng)分”。整體風(fēng)格需生動可愛，兼具科學(xué)性和趣味性。

如下圖所示，GLM-Image保證了全局構(gòu)圖風(fēng)格可愛、場景完整，對“光合作用”這一科學(xué)概念有一定的理解能力，但氧氣的箭頭打反了，釋放氧氣應(yīng)該是箭頭向外。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲GLM-Image生成的圖片

不過，Nano Banana也沒有做對這道題，氧氣的箭頭也畫反了，且漢字生成上一塌糊涂，全都亂碼了。Nano?Banana?Pro能夠準(zhǔn)確輸出漢字渲染，理解科學(xué)原理，并輸出正確的視覺符號。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲Nano Banana及Pro生成的圖片

豆包在這道題上完成度較高，不僅準(zhǔn)確生成了漢字，還理解了光合作用概念，將抽象概念轉(zhuǎn)卻轉(zhuǎn)化為了具象的視覺符號。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲豆包生成的圖片

阿里通義萬相2.6也能夠準(zhǔn)確生成文字，并且用視覺符號呈現(xiàn)了“光合作用”吸收二氧化碳、釋放氧氣的過程，但仍有一個(gè)二氧化碳的箭頭向外打，可能將“呼吸作用”也考慮進(jìn)來了；比其他模型多表現(xiàn)了根系吸收水分這一部分原理。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲阿里通義萬相2.6生成的圖片

三、自回歸 + 擴(kuò)散編碼器架構(gòu)創(chuàng)新：讀懂指令，寫對文字

當(dāng)下，以Nano Banana Pro為代表的閉源圖像生成模型，正在推動圖像生成與大語言模型的深度融合。模型在海報(bào)、PPT、科普圖等知識密集型場景及高保真細(xì)節(jié)上的表現(xiàn)，展現(xiàn)了認(rèn)知型生成模型的技術(shù)優(yōu)勢。

GLM-Image是首個(gè)開源的工業(yè)表現(xiàn)級離散自回歸圖像生成模型，是智譜面向認(rèn)知型生成技術(shù)范式的一次重要探索。

創(chuàng)新架構(gòu)，讓模型能夠讀懂寫對。面對傳統(tǒng)模型在“理解復(fù)雜指令”與“精準(zhǔn)繪制文字”上難以兼顧的問題，GLM-Image 引入了「自回歸+擴(kuò)散解碼器」混合架構(gòu)，創(chuàng)新地融合了9B大小的自回歸模型與7B大小的DiT擴(kuò)散解碼器。

前者利用其語言模型的底座優(yōu)勢，專注于提升對指令的語義理解和畫面的全局構(gòu)圖；后者配合Glyph Encoder的文本編碼器，專注于還原圖像的高頻細(xì)節(jié)和文字筆畫，以此改善模型“提筆忘字”的現(xiàn)象。

GLM-Image還具備多分辨率自適應(yīng)能力。通過改進(jìn)Tokenizer策略，GLM-Image能夠自適應(yīng)處理多種分辨率，原生支持從1024×1024到2048×2048尺寸的任意比例圖像的生成任務(wù)，無需重新訓(xùn)練。

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲通用pipeline

國產(chǎn)Nano Banana開源！用華為AI芯片訓(xùn)練，1張圖只要1毛錢

▲解碼器結(jié)構(gòu)示意圖

結(jié)語：純血國產(chǎn)大模型進(jìn)擊，從“可用”到“好用”

GLM-Image的誕生，標(biāo)志著國產(chǎn)大模型探索進(jìn)入了從“可用”到“好用”的關(guān)鍵階段。它以“自回歸+擴(kuò)散”的混合架構(gòu)破解了“圖文協(xié)同”的生成難題，同時(shí)憑借在國產(chǎn)昇騰算力上完成全流程訓(xùn)練的實(shí)踐，證明了自主技術(shù)棧支撐前沿AI創(chuàng)新的可行性。

作為一款在文字渲染任務(wù)上達(dá)到開源SOTA的模型，它為海報(bào)設(shè)計(jì)、知識科普等需要精準(zhǔn)圖文融合的場景提供了高性價(jià)比的新選擇，同時(shí)有望為整個(gè)AI產(chǎn)業(yè)生態(tài)的自主化與多元化打基礎(chǔ)。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、從數(shù)據(jù)到訓(xùn)練，首個(gè)國產(chǎn)芯片訓(xùn)練出的SOTA模型

二、文字渲染達(dá)開源SOTA，實(shí)測漢字生成超Nano Banana

三、自回歸 + 擴(kuò)散編碼器架構(gòu)創(chuàng)新：讀懂指令，寫對文字

結(jié)語：純血國產(chǎn)大模型進(jìn)擊，從“可用”到“好用”

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、從數(shù)據(jù)到訓(xùn)練，首個(gè)國產(chǎn)芯片訓(xùn)練出的SOTA模型

二、文字渲染達(dá)開源SOTA，實(shí)測漢字生成超Nano Banana

三、自回歸 + 擴(kuò)散編碼器架構(gòu)創(chuàng)新：讀懂指令，寫對文字

結(jié)語：純血國產(chǎn)大模型進(jìn)擊，從“可用”到“好用”

相關(guān)推薦

一、從數(shù)據(jù)到訓(xùn)練，首個(gè)國產(chǎn)芯片訓(xùn)練出的SOTA模型

二、文字渲染達(dá)開源SOTA，實(shí)測漢字生成超Nano Banana

三、自回歸 + 擴(kuò)散編碼器架構(gòu)創(chuàng)新：讀懂指令，寫對文字

結(jié)語：純血國產(chǎn)大模型進(jìn)擊，從“可用”到“好用”