智東西(公眾號:zhidxcom)
作者 | 漠影
編輯 | 三北

隨著“百模大戰(zhàn)”進入小考時刻,已經(jīng)有國產(chǎn)大模型交高分卷了。

9月1日,網(wǎng)信辦深度合成服務算法備案公告一聲令下,國內(nèi)頭部大模型紛紛面向全社會開放服務,接受新的考驗。

正值此時,有一個國產(chǎn)開源大模型已經(jīng)橫掃各大中英文測評榜單,不僅在基座模型測試中碾壓Llama 2等開源大模型,還在垂直行業(yè)領(lǐng)域遠超其他開源模型,展現(xiàn)出“黑馬”之勢。

據(jù)官方數(shù)據(jù)顯示,在GitHub、Hugging Face等知名開源社區(qū),這一模型的8月下載超300萬,達到全球同類開源模型最高,可以說成為了全球最受歡迎的GPT-4平替之一。

更值得一提的是,這一模型的研發(fā)團隊還率先開放了模型訓練過程,連復旦大學計算科學技術(shù)學院教授張奇等都盛贊其“為學術(shù)界做出了巨大貢獻”。

9月6日,由搜狗創(chuàng)始人王小川創(chuàng)辦的公司——百川智能——推出Baichuan 2大模型,同時公布了前文提到的最新進展。王小川說:“Llama2開源模型時代已經(jīng)過去了,我們(開發(fā)者)現(xiàn)在可以獲得更友好且能力更強的開源模型?!?/p>

國產(chǎn)大模型正在改寫產(chǎn)業(yè)的游戲規(guī)則。作為首批開放大模型的企業(yè)之一,百川智能最新發(fā)布的Baichuan 2大模型實測性能如何?300萬/月下載量背后是什么樣的戰(zhàn)略和行動布局?透過百川大模型的200多天實踐,我們能看到國產(chǎn)大模型什么樣的破局邏輯?

9月13日,通過對話百川智能技術(shù)聯(lián)創(chuàng)陳煒鵬,智東西對此進行了深入探討。

Baichuan 2下載地址:https://github.com/baichuan-inc/Baichuan2

一、月下載超300萬,測評全面碾壓Llama 2

隨著“百模大戰(zhàn)”進入深水區(qū),當下大模型進行簡單對話已不足為奇,還要追求“文理兼修”。

百川智能于9月6日新推出的Baichuan 2開源模型,不僅文科能力大幅提高,其在數(shù)學能力、代碼能力、安全能力、邏輯、語義理解都有明顯的提升。陳煒鵬告訴智東西,無論是在MMLU、CMMLU、BBH等綜合性基準測評中,還是在GSM8k、HumanEval等垂直領(lǐng)域的測評中,抑或是多語言能力測評中,Baichuan 2都遠超同類開源大模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2相比于一代Baichuan的能力提升

?在所有主流中英文通用榜單上,Baichuan 2全面領(lǐng)先Llama 2,而Baichuan2-13B在測評中秒殺所有同尺寸開源模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2在通用領(lǐng)域的測評成績

?在垂直行業(yè)測評榜單中,Baichuan2-13B在法律、數(shù)學、醫(yī)療領(lǐng)域的模型效果均優(yōu)于其他開源模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2在垂直領(lǐng)域的測評成績

在跨語言能力測評榜單中,Baichuan2-13B在英語、法語、阿拉伯語、俄語中的能力都超過其它開源模型。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan 2在多語言領(lǐng)域的測評成績

IDEA研究院講席科學家張家興參與了百川智能最新的發(fā)布會,他在會上的圓桌峰會中稱:“國內(nèi)做大模型的團隊也很多,能做到Baichuan 2這樣效果的還是很少?!睂嶋H上,當下很多大模型測評是圍繞單點維度進行的,甚至大家看到GPT-4在某些榜單中已經(jīng)排到了10名往后,其實意義不大。而百川大模型公布了全面性的測評結(jié)果,相對更具有說服力。

“除了榜單,場景實測更重要?!标悷橓i告訴智東西,“目前Baichuan在開源社區(qū)總下載量已經(jīng)超過500萬次,月下載量達到300多萬次?!?/p>

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Baichuan大模型在開源社區(qū)的下載情況

據(jù)悉,已有200+企業(yè)申請百川大模型開源商用授權(quán),并已將百川模型投入實際生產(chǎn)場景。申請企業(yè)涵蓋互聯(lián)網(wǎng)、軟件和信息技術(shù)、金融、法律、教育、制造、企業(yè)服務等眾多領(lǐng)域,合作伙伴群體仍在持續(xù)擴大。

可以看到,不僅全面刷榜權(quán)威基準,百川智能開源大模型在各行各業(yè)已經(jīng)加速落地。

二、直擊商業(yè)協(xié)議“隱痛”,國產(chǎn)大模型要改變游戲規(guī)則

陳煒鵬告訴智東西,采用Baichuan 2,開發(fā)者不僅能夠得到直接的效果提升,還能夠獲得更多實際的便利。

比如很多開發(fā)者為Llama 2的商業(yè)協(xié)議所困,遷移到Baichuan 2則可以避開不少“隱痛”。

Llama 2的商用協(xié)議對中國開發(fā)者并不友好。雖然宣稱開源,但其商用協(xié)議聲明“僅適用于英文為主的環(huán)境”。也就是說,如果你做的模型更多是商用于中文場景,是拿不到開源協(xié)議的。

性能碾壓Llama 2,全球下載量超500萬,百川智能開源模型憑什么?

▲Llama 2的商業(yè)協(xié)議部分內(nèi)容

對此,Baichuan 2面向中文領(lǐng)域全面開放,且在多語言環(huán)境中提供免費服務。陳煒鵬告訴智東西,對于遷移到Baichuan 2的開發(fā)者來說,不僅模型效果得以提升,遷移成本也更低。Llama 2等模型所依賴的推理、加速、調(diào)優(yōu)等套件,其中超70%的套件Baichuan 2都同等支持,剩下30%則是不常用的。

直擊商業(yè)協(xié)議“隱痛”,國產(chǎn)大模型廠商正試圖改變硅谷主導的游戲規(guī)則。

王小川在Baichuan 2的發(fā)布會上說:“Llama 2開源模型的時代已經(jīng)過去了。我們現(xiàn)在可以獲得比Llama更友好且能力更強的開源模型,能夠幫助扶持中國整個生態(tài)的發(fā)展。”

為了構(gòu)建大模型生態(tài),9月6日,百川智能率先開放了其大模型訓練過程,助力伙伴在理解訓練過程的基礎(chǔ)上做微調(diào)和強化;同時其設立了大模型科研基金,通過跟CCF(中國計算機學會)的合作,在今年內(nèi)會大約投入300~400萬人民幣支持高校項目開發(fā);此外,其還與AWS合作開展了黑客馬拉松活動,面向開發(fā)者提供算力支持,以鼓勵其進行大模型應用的開發(fā)。

在國內(nèi)開源社區(qū)建設方面,Baichuan大模型不僅在GitHub、Hugging Face等國際開源社區(qū)中上線,最新的Baichuan 2也已經(jīng)上線了國內(nèi)的魔塔社區(qū)、昇思社區(qū)等知名AI社區(qū),壯大本土AI大模型開源生態(tài)。

三、全球大模型“亂斗”,百川智能200天“蝶變”

當下,全球AI大模型產(chǎn)業(yè)正進入“亂斗”階段。

這廂,微軟將與OpenAI的“鐵聯(lián)盟”關(guān)系擱置一邊,轉(zhuǎn)而搭上Llama 2等開源模型;那廂,Meta也傳出明年要訓練對標GPT-3.5的閉源大模型,同時Anthropic、A21 Labs等創(chuàng)企也緊鑼密鼓,想要在全行業(yè)AI化的浪潮中分一杯羹。

在國內(nèi),從自主可控和數(shù)字化轉(zhuǎn)型需求出發(fā),“百模大戰(zhàn)”已經(jīng)打響近半年。知名行研機構(gòu)IDC預測,2026年中國AI大模型市場規(guī)模將達到211億美元,互聯(lián)網(wǎng)大廠、AI創(chuàng)企、傳統(tǒng)行業(yè)龍頭企業(yè)紛紛加入了大模型角逐,計劃有朝一日做出趕超GPT-4的大模型。

誠然,GPT-4仍然是一堵高墻,但其早已不是業(yè)內(nèi)唯一選擇。國內(nèi)的開源大模型已經(jīng)在更多需要私有化部署、輕量化應用和自主可控技術(shù)的場景,填補空缺位置。

百川智能正是率先抓住了這樣的市場空缺機遇,在過去的200多天里探索“蝶變”。

按照百川智能創(chuàng)立之初的計劃,其預計在2023年三季度推出500億規(guī)模參數(shù)的模型,四季度發(fā)表對標GPT-3.5的模型,在2024年一季度的時候發(fā)布超級應用。

實際上,團隊一方面順利執(zhí)行原計劃,另一方面開辟了開源路線——在二季度發(fā)現(xiàn)中國有開源模型的需求,于是從6月開始以平均每月一次的頻率發(fā)布了開源模型,免費開源了7B、13B不同尺寸的大模型。

為什么能夠如此快速反應,且迭代如此之快?

陳煒鵬向智東西道出背后的一個關(guān)鍵要點:百川智能將搜索的經(jīng)驗快速遷移到大模型的研發(fā)中?;仡櫞竽P偷挠柧氝^程,陳煒鵬解讀道,這就類似一個“造火箭”系統(tǒng)化工程。對于百川智能團隊來說,這與其熟悉的搜索研發(fā)模式有相似之處,將復雜的系統(tǒng)做拆解,通過過程評估來推動團隊的協(xié)同,顯著提升團隊的效果。

在技術(shù)方面,大模型和搜索有很多重合的技術(shù)棧,比如在大模型訓練中關(guān)鍵的數(shù)據(jù)環(huán)節(jié),團隊基于搜索經(jīng)驗實現(xiàn)數(shù)據(jù)精選和處理,數(shù)據(jù)處理環(huán)節(jié)實現(xiàn)千億數(shù)據(jù)的小時級去重,并通過多粒度內(nèi)容質(zhì)量打分提升大模型質(zhì)量。正是基于這種精細構(gòu)造的數(shù)據(jù),百川智能采用了開源最大的2.6T語料訓練7B/13B的模型。在模型研發(fā)的過程中,百川也探索了基于自己數(shù)據(jù)的scaling law(比例定律),實現(xiàn)了實現(xiàn)高效、穩(wěn)定、可預測。

據(jù)悉,團隊在千卡的A800集群里面達到180TFLOPS的訓練性能,使得機器利用率超過50%,在行業(yè)中間也處于最高水平之一。而跳出模型訓練本身來說,通過多次迭代并通過開源社區(qū)反饋,百川智能不斷提升Baichuan大模型的競爭力,也同時為閉源大模型的開發(fā)提供助力。

結(jié)語:從閉源到開源,國產(chǎn)AI大模型加速突破

“百模大戰(zhàn)”狂飆200天,目前已進入了階段性“交卷”時刻。國內(nèi)不僅有大廠的閉源大模型產(chǎn)品面向全社會開放,也有AI創(chuàng)企如百川智能研發(fā)的開源大模型獲得了權(quán)威測評、開發(fā)者社區(qū)和行業(yè)客戶的多方面認可。

雖然GPT-4依然強勢,但國內(nèi)開源大模型已經(jīng)能夠進行部分替代。在私有化部署、輕量化應用及自主可控要求高的場景中,以Baichuan 2為代表的大模型找到市場空缺,快速行動。

與此同時,相比于ChatGPT強調(diào)的語言對話能力,國內(nèi)大模型在數(shù)學、邏輯、代碼等領(lǐng)域都在加速突破。這些能力代表著大模型要真正擺脫“幻覺”,從而開拓著更廣闊的潛在市場。