智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西11月5日報道,今日,騰訊宣布開源MoE大語言模型混元Large、騰訊混元3D生成模型Hunyuan3D-1.0正式開源,并全面披露騰訊混元的全系列多尺寸模型、C端應(yīng)用、B端應(yīng)用版圖。

騰訊稱混元Large是業(yè)界參數(shù)規(guī)模最大、效果最好的開源MoE大語言模型,采用7T訓(xùn)練tokens,總參數(shù)量389B,激活參數(shù)量52B,上下文長度高達(dá)256K,技術(shù)報告也同步發(fā)布。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元-Large包括三款模型:Hunyuan-A52B-Pretrain,Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8。

與有相似激活參數(shù)量的業(yè)界開源模型Llama3.1-405B、Mixtral-8x22B等相比,在多學(xué)科綜合評測集、中英文NLP任務(wù)、代碼、數(shù)學(xué)等9大維度,混元Large實現(xiàn)全面領(lǐng)先。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元Large包含高質(zhì)量合成數(shù)據(jù)、專家特定的學(xué)習(xí)率縮放、KV緩存壓縮、長上下文處理能力、廣泛的基礎(chǔ)測試等主要技術(shù)創(chuàng)新,具體可參見技術(shù)報告。

騰訊混元3D生成大模型則是業(yè)界首個同時支持文字、圖像生成3D的開源大模型,不僅在定量指標(biāo)上達(dá)到開源模型的先進(jìn)水平,而且輕量版生成高質(zhì)量3D資產(chǎn)只需10秒,標(biāo)準(zhǔn)版也將文/圖生成3D資產(chǎn)的耗時縮至45秒內(nèi)。

兩個模型均屬騰訊自研,均已經(jīng)在騰訊業(yè)務(wù)場景中落地應(yīng)用,經(jīng)過實踐的檢驗,是面向?qū)嵱脠鼍暗膽?yīng)用級大模型。

新開源模型支持企業(yè)及開發(fā)者精調(diào)、部署等不同場景的使用需求,可在HuggingFace、Github等技術(shù)社區(qū)直接下載,免費可商用。騰訊云TI平臺和高性能應(yīng)用服務(wù)HAI也開放接入這兩個模型,為模型的精調(diào)、API調(diào)用及私有化部署提供一站式服務(wù)。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元Large Hugging Face地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

混元Large GitHub地址:https://github.com/Tencent/Tencent-Hunyuan-Large

混元3D生成模型GitHub地址:https://github.com/Tencent/Hunyuan3D-1

混元3D生成模型Hugging Face地址:https://huggingface.co/tencent/Hunyuan3D-1

一、最大開源MoE大語言模型:六大關(guān)鍵技術(shù),將開源企業(yè)卷軸數(shù)據(jù)集

MoE即混合專家模型,是目前國內(nèi)外主流的大模型結(jié)構(gòu)。據(jù)騰訊機(jī)器學(xué)習(xí)技術(shù)總監(jiān)、混元算法負(fù)責(zé)人康戰(zhàn)輝分享,相較密集模型,MoE模型在相同成本下效果更優(yōu),在相同規(guī)模下訓(xùn)練/推理成本更低,而且容量大,可訓(xùn)練更多數(shù)據(jù)。當(dāng)前MoE的挑戰(zhàn)有訓(xùn)練穩(wěn)定性差、專家負(fù)載不均衡等。

一些應(yīng)對方案包括:1)Scaling Law探索,設(shè)計基于中小模型簇的MoE Scaling Law實驗機(jī)制,探索最優(yōu)的模型參數(shù)設(shè)置;2)路由機(jī)制,探索高效的專家路由策略;3)訓(xùn)練穩(wěn)定性,涉及特有的訓(xùn)練schedule,loss收斂更快更穩(wěn)定。

混元Large模型有六大關(guān)鍵技術(shù)

1、MoE Scaling Law探索:混元團(tuán)隊投入大量成本,全面探索了專家個數(shù)、激活參數(shù)量和訓(xùn)練tokens量的Scaling Law。在MoE Scaling Law的指導(dǎo)下,混元-Large在算力預(yù)算內(nèi)合理選擇模型最佳激活參數(shù)量以及訓(xùn)練token數(shù)。

2、路由和訓(xùn)練策略:1)共享專家路由策略,共享專家負(fù)責(zé)處理共享的通用能力和知識,特殊專家負(fù)責(zé)處理任務(wù)相關(guān)的特殊能力;2)回收路由策略,有效激活每個專家的能力,使每個專家保持相對均衡的負(fù)載,充分利用訓(xùn)練數(shù)據(jù),保證模型的訓(xùn)練穩(wěn)定性和收斂速度;3)專家特定學(xué)習(xí)率適配策略,根據(jù)學(xué)習(xí)率和Batch size的縮放原則,為不同專家適配不同的最佳學(xué)習(xí)率,以提高模型訓(xùn)練效率。

3、高質(zhì)量的合成數(shù)據(jù):混元團(tuán)隊在天然文本語料庫的基礎(chǔ)上,利用混元內(nèi)部系列大語言模型構(gòu)建了覆蓋數(shù)十個類目的高質(zhì)量、高多樣性、大量級的中英文合成數(shù)據(jù),顯著提升模型效果,其中數(shù)學(xué)和代碼效果提升超過10%。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

4、長文能力優(yōu)化:針對長文領(lǐng)域測評數(shù)據(jù)集缺乏、方法不夠客觀等問題,騰訊混元Large基于公開數(shù)據(jù),自研企鵝卷軸(PenguinScrolls)數(shù)據(jù)集,覆蓋各種深度閱讀理解、長文推理任務(wù)。為了填補行業(yè)真實長文評測集不足,騰訊混元即將開源企鵝卷軸評測集。

騰訊混元Large模型專項提升的長文能力已應(yīng)用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當(dāng)于一本《三國演義》的長度,可一次性處理上傳最多10個文檔,并能一次性解析多個微信公眾號鏈接、網(wǎng)址,使騰訊元寶具備獨有的深度解析能力。

5、推理加速優(yōu)化:為了提高推理效率進(jìn)行KV Cache壓縮,使用Grouped-Query Attention (GQA)和Cross-Layer Attention (CLA)兩種KV cache壓縮策略,從head/layer兩個維度聯(lián)合壓縮KV Cache,并引入量化技術(shù),進(jìn)一步提升壓縮比,最終將模型的KV Cache壓縮為MHA的5%,大幅提升推理性能。

6、Post-train優(yōu)化:針對SFT難獲取高質(zhì)量數(shù)學(xué)、代碼等數(shù)據(jù)的問題,構(gòu)建百萬量級合成數(shù)據(jù),分門別類提升數(shù)學(xué)、邏輯推理、代碼等能力;針對RLHF泛化性弱的問題,在離線DPO的基礎(chǔ)上引入了二階段在線強(qiáng)化策略,實現(xiàn)整體效果處于業(yè)界頭部水平,文本創(chuàng)作、知識問答、數(shù)理邏輯及代碼能力相較競品有一定優(yōu)勢。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

二、業(yè)界首個同時支持文字、圖像生成的開源3D生成大模型

無論是游戲創(chuàng)作,還是工業(yè)設(shè)計、建筑設(shè)計等專業(yè)建模,抑或是一些社交娛樂、電商、數(shù)字孿生、PCG/UGC創(chuàng)作領(lǐng)域,都會用到3D。

傳統(tǒng)3D資產(chǎn)制作存在建模門檻高、制作周期長、制作成本高等痛點,單模型制作平均要1~7天、成本耗費百萬到上萬元。騰訊混元3D生成大模型則能將單個3D模型制作成本降低至不到1元。

騰訊混元3D生成大模型首批開源模型包含輕量版和標(biāo)準(zhǔn)版,輕量版僅需10秒即可生成高質(zhì)量3D資產(chǎn),已在技術(shù)社區(qū)公開發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供開發(fā)者、研究者等各類用戶免費使用。

本次開源的是1.0版本,后續(xù)還會有更完善、更先進(jìn)的模型陸續(xù)發(fā)布。

3D生成是一個較新的領(lǐng)域,今年學(xué)術(shù)界相關(guān)論文開始涌現(xiàn),工業(yè)界3D模型的效果越來越好,但大多數(shù)是閉源。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

此次騰訊混元開源的3D生成大模型Hunyuan3D-1.0 ,解決了現(xiàn)有的3D生成模型在生成速度、泛化能力、生成質(zhì)量上存在不足的問題,可以幫助3D創(chuàng)作者和藝術(shù)家自動化生產(chǎn)3D資產(chǎn)。

該模型可重建各類尺度物體,大到建筑,小到工具花草。

Hunyuan3D-1.0采用DiT架構(gòu),與混元DiT生圖聯(lián)合,支持原生中文,支持風(fēng)格定制。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

其技術(shù)架構(gòu)引入多視圖擴(kuò)散,借助二維數(shù)據(jù)優(yōu)勢提升3D泛化性,改進(jìn)點包括:

1、持續(xù)擴(kuò)展數(shù)據(jù)規(guī)模、類目、質(zhì)量、渲染方式,提升泛化性。

2、精細(xì)度提升:升級時空自適應(yīng)CFG引導(dǎo)方式,針對不同去噪步數(shù)、不同視角,設(shè)置不同權(quán)重,平衡可控性與多樣性,不犧牲生成質(zhì)量且提升生成清晰度。

3、輸入角度魯棒性:兼容任意輸入視角,通過學(xué)習(xí)到的俯仰角度矯正,提升多視圖準(zhǔn)確性與一致性。特征平面超高特征分辨率和引入任意視角的輸入圖進(jìn)一步提升了3D生成精度。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

經(jīng)過定性、定量多個維度的評估,Hunyuan3D-1.0兼顧快速和高質(zhì)量生成,已達(dá)到開源模型的先進(jìn)水平。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

在兩個公開的3D數(shù)據(jù)集GSO與OmniObject3D上,騰訊混元Hunyuan3D-1.0效果優(yōu)于主流開源模型,整體能力屬于國際領(lǐng)先水平。

從定性角度評估,Hunyuan3D-1.0與行業(yè)領(lǐng)先的開源模型的3D生成效果表現(xiàn)對比也顯示出較高水平,包括幾何細(xì)節(jié)、紋理細(xì)節(jié)、紋理-幾何一致性、3D合理性、指令遵循等評價維度。

從生成結(jié)果可視化來看,Hunyuan3D-1.0能夠更加真實地恢復(fù)出3D資產(chǎn)的幾何形狀和紋理細(xì)節(jié),泛化能力出色。其文生3D能力支持在45秒內(nèi)基于文本生成3D資產(chǎn),圖生3D能力支持在30秒內(nèi)基于文本生成3D資產(chǎn)。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

文生/圖生3D內(nèi)網(wǎng)接口已上線。

根據(jù)演示,混元3D能夠根據(jù)提示詞快速生成一個萬圣節(jié)的南瓜燈,還能將其更改成樂高風(fēng)格,操作很方便。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

應(yīng)用方面,3D生成相關(guān)技術(shù)已經(jīng)開始應(yīng)用于UGC 3D創(chuàng)作、商品素材合成、游戲3D資產(chǎn)生成等騰訊業(yè)務(wù)中。

此前,騰訊元寶App上線了“3D角色夢工廠”玩法,支持個性化的UGC 3D人物生成。只需上傳一張照片,就能生成個人專屬3D角色,將3D個性定制建模費用降到0.2元。這有助于玩具制作、3D打印等行業(yè)的技術(shù)革新。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

騰訊地圖基于騰訊混元3D大模型,發(fā)布了自定義3D導(dǎo)航車標(biāo)功能。用戶上傳一張圖,就能生成個性化的3D導(dǎo)航車標(biāo),比傳統(tǒng)3D車標(biāo)重建方案提速91%。

后續(xù),混元3D模型團(tuán)隊將持續(xù)探索多視圖生成、3D擴(kuò)散模型、自回歸生成等3D生成路線,最終目標(biāo)落地3D管線。

三、騰訊混元這一年:升級高性能MoE模型,發(fā)布原生大模型應(yīng)用

康戰(zhàn)輝回顧了騰訊混元大模型過去一年多的發(fā)展。他談道,騰訊混元不急于為了開源而開源,在內(nèi)部業(yè)務(wù)打磨好后再開源,開源模型與公司內(nèi)應(yīng)用模型同宗同源。

模型效果持續(xù)提升,建立在全棧自主可控的能力。騰訊混元Large模型的訓(xùn)練和推理均基于騰訊Angel機(jī)器學(xué)習(xí)平臺。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

其中,針對MoE模型通信效率問題,Angel訓(xùn)練加速框架AngelPTM實現(xiàn)了多項技術(shù)優(yōu)化,性能是主流開源框架DeepSpeed的2.6倍;針對模型推理加速,騰訊Angel機(jī)器學(xué)習(xí)平臺和騰訊云智能聯(lián)合研發(fā)AngelHCF-vLLM框架,在最大限度保障精度的條件下,可節(jié)省50%以上顯存,相比于業(yè)界主流的框架BF16吞吐提升1倍以上。

騰訊混元模型包括領(lǐng)域模型和通用模型,有1B、3B、7B、13B、70B等不同尺寸,覆蓋六大BG多場景業(yè)務(wù)。

騰訊混元大模型PaaS平臺開放支持包含混元Large模型在內(nèi)的十余種混元API服務(wù)調(diào)用,可滿足文生文、圖生文、文生圖等不同模態(tài)以及角色扮演、FunctionCall、代碼等不同專項的模型需求。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

2024年年初,騰訊混元就宣布在國內(nèi)率先采用MoE架構(gòu)模型,總體性能比上一代密集模型提升50%。此后,騰訊混元推出基于MoE架構(gòu)的多模態(tài)理解大模型以及基礎(chǔ)模型”混元Turbo”,在性能、效果、速度等多個領(lǐng)域表現(xiàn)優(yōu)越,第三方測評居國內(nèi)大模型第一。

相比同構(gòu)MoE騰訊混元Pro,今年9月發(fā)布的異構(gòu)MoE混元Turbo將推理效率提升1倍以上,成本下降50%,解碼速度快20%。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

多模態(tài)理解大模型混元-V也在持續(xù)升級,解鎖文字、圖像、3D、視頻等更多模態(tài),今年8月在SuperCLUE-V多模態(tài)理解評測基準(zhǔn)總榜中排名第一。

文生圖方面,今年5月,騰訊混元全面開源業(yè)界首個中文原生DiT架構(gòu)文生圖大模型,評測結(jié)果國內(nèi)領(lǐng)先。還有今天宣布開源的文/圖生3D模型,單張圖30秒可生成3D模型,效率與質(zhì)量均在業(yè)內(nèi)領(lǐng)先。

混元已全面接入騰訊業(yè)務(wù),并通過騰訊云向合作生態(tài)進(jìn)行賦能。騰訊內(nèi)部有超過700個業(yè)務(wù)接入混元。

面向C端,微信讀書的AI大綱、AI問書功能,騰訊元寶的AI搜索、AI閱讀、AI角色對話等功能,都接入了騰訊混元的能力。

混元原生大模型應(yīng)用騰訊元寶的AI搜索會提供可溯源引文,引文數(shù)量多、時間新、信源優(yōu)質(zhì);通過延伸閱讀,來滿足用戶對周邊信息的獲取需求,還會列關(guān)聯(lián)問題,以引導(dǎo)追問學(xué)習(xí)。

其AI閱讀功能具有強(qiáng)大的文檔處理能力,可處理多格式、多文件、長記憶文檔;AI精讀支持圖文輸出、知識圖譜總結(jié)、延伸閱讀推薦,有助于提升學(xué)習(xí)深度和廣度。

此外,騰訊元寶提供了角色對話、劇情互動、劇照cos等更多玩法。例如智能體應(yīng)用AI角色對話成為了騰訊視頻劇集宣發(fā)的新亮點,長相思AI角色對話的總熱度達(dá)到近2億,“相柳”單角色熱度打到1.7億,人均對話prompt數(shù)為167.3,衍生角色“毛球”的對話率超過90%。

面向B端,騰訊旗下SaaS協(xié)作產(chǎn)品全面接入混元,包括騰訊文檔、騰訊會議、企業(yè)微信等。

騰訊開源最大MoE大語言模型!3D大模型同時支持文/圖生成,曬混元模型及應(yīng)用全家桶

混元大模型還幫助騰訊廣告多場景提效,比如生成創(chuàng)意爆量素材、輔助內(nèi)容商業(yè)價值理解、廣告推薦結(jié)果生成。

結(jié)語:堅定擁抱開源,預(yù)告多款后續(xù)模型

隨著自研大模型技術(shù)強(qiáng)大的和應(yīng)用實踐經(jīng)驗的豐富,開源已成為騰訊混元大模型的一個戰(zhàn)略選擇。

據(jù)康戰(zhàn)輝分享,混元未來的模型開源戰(zhàn)略是“擁抱開源,自主可控,堅持協(xié)同”。

騰訊在今年5月開源業(yè)界首個原生中文DiT圖生文大模型混元DiT,今日又開源混元Large大語言模型,并將陸續(xù)開源混元AnglePTM和AngelHCF等大模型工程框架,未來還將陸續(xù)推出混元-M、混元S等模型。

全面開源的混元3D生成模型,面向企業(yè)、個人開發(fā)者提供商用品質(zhì)的3D開源模型,可直接部署,降低3D資產(chǎn)的生產(chǎn)周期、成本;面向科研學(xué)者提供更大的3D基礎(chǔ)模型,以加速新方法研究探索。未來混元3D原生大模型、混元3D自回歸大模型等更多開源模型將陸續(xù)上線。

騰訊混元計劃后續(xù)推出更多模態(tài)、更多尺寸的開源模型,將更多經(jīng)過騰訊業(yè)務(wù)場景打磨和檢驗的模型開源,促進(jìn)大模型技術(shù)進(jìn)步和行業(yè)生態(tài)繁榮。