智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣

智東西2月10日報道,今日,騰訊混元開源一款面向消費級硬件場景的“極小”模型HY-1.8B-2Bit,等效參數(shù)量僅有0.3B,內(nèi)存占用僅600MB,比常用的一些手機應用還小,可本地化部署于手機、耳機智能家居等設備應用。

主打一個快!騰訊開源0.3B端側模型,手機耳機都能跑

該模型基于首個產(chǎn)業(yè)級2比特(Bit)端側量化方案,通過對此前混元的小尺寸語言模型HY-1.8B-Instruct進行2比特量化感知訓練(QAT)產(chǎn)出。這一模型對比原始精度模型等效參數(shù)量降低6倍,沿用原模型全思考能力,可根據(jù)任務復雜度切換長/短思維鏈;同時在真實端側設備上生成速度提升2-3倍。

主打一個快!騰訊開源0.3B端側模型,手機耳機都能跑

▲ HY-1.8B原始精度模型生成效果

主打一個快!騰訊開源0.3B端側模型,手機耳機都能跑

▲HY-1.8B-2Bit模型生成效果,2bit量化后的模型速度明顯更快

比特是計算機存儲的最小單位,一般模型的精度有2比特、4比特、8比特、32比特等表示方法,數(shù)值越大模型的精度更高,所占的內(nèi)存就越大。雖然2比特量化的精度損失較大,但通過QAT和先進的量化策略,團隊已經(jīng)能讓2比特模型接近全精度模型的性能,對比4比特PTQ模型版本數(shù)學、代碼、科學等指標上表現(xiàn)相當。

對于原始模型大小只有1.8B,量化bit數(shù)只有2bit的HY-1.8B-2Bit,混元團隊采用了量化感知訓練策略,從而顯著提升了量化后模型的性能。騰訊混元還通過數(shù)據(jù)優(yōu)化、彈性拉伸量化以及訓練策略創(chuàng)新三個方法,來提升HY-1.8B-2Bit的全科能力。

部署方面,騰訊混元提供了HY-1.8B-2Bit的gguf-int2格式的模型權重與bf16偽量化權重,對比原始精度模型,HY-1.8B-2Bit實際模型大小直降6倍,僅有300MB,能夠靈活用于端側設備上。該模型也已在Arm等計算平臺上完成適配,可部署于啟用Arm SME2技術的移動設備上。

MacBook M4芯片上,HY-1.8B-2Bit固定了線程數(shù)為2測試了不同窗口大小下的首字時延和生成速度,模型選定fp16、Q4、HY-1.8B-2Bit三種gguf格式作為對比,首字時延在1024輸入內(nèi)能夠保持3~8倍的加速,生成速度上常用窗口下對比原始模型精度,HY-1.8B-2Bit能夠實現(xiàn)至少2倍穩(wěn)定加速。

主打一個快!騰訊開源0.3B端側模型,手機耳機都能跑

天璣9500上同樣進行了測試,對比HY-1.8B-Q4格式首字時延能夠加速1.5~2倍,生成速度加速約1.5倍。

主打一個快!騰訊開源0.3B端側模型,手機耳機都能跑

項目鏈接:
https://github.com/Tencent/AngelSlim
模型地址:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit
https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF
技術報告:
https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

結語:模型“瘦身”,加速端邊側智能發(fā)展

HY-1.8B-2Bit的推出標志著騰訊在小型化、多語言和端側AI上的新突破。它不僅在性能上接近更大規(guī)模的模型,還兼顧了速度、內(nèi)存和隱私的平衡。

從去年中阿里的Qwen-Embedding-0.6B、谷歌的0.27B的Gemma 3、0.3B的EmbeddingGemma,再到今年初騰訊0.3B的HY-1.8B-2Bit,越來越多的小尺寸模型可供開發(fā)者選擇,推動RAG、語義搜索等應用不斷下沉至個人設備。

當前,HY-1.8B-2Bit的能力仍受限于監(jiān)督微調(SFT)的訓練流程,以及基礎模型本身的性能與抗壓能力。針對這一問題,混元團隊未來將重點轉向強化學習與模型蒸餾等技術路徑,以期進一步縮小低比特量化模型與全精度模型之間的能力差距。