芯東西(公眾號:aichip001)
作者 | ?程茜
編輯 |? 漠影
超一個月訓(xùn)練時長、TB/PB級別的數(shù)據(jù)容量、行業(yè)數(shù)據(jù)的實時動態(tài)更新……這些模型訓(xùn)練、推理與迭代的核心流程中日益復(fù)雜的需求,都對數(shù)據(jù)存儲提出了更嚴(yán)苛的要求。
一直以來,算力、數(shù)據(jù)、算法作為驅(qū)動大模型發(fā)展的“三駕馬車”已是行業(yè)共識,而如今伴隨大模型的發(fā)展,此前Scaling Law指引下的算力競賽是AI發(fā)展的上半場,那么以大規(guī)模應(yīng)用為核心的AI落地競賽,已然將先進(jìn)存力推至產(chǎn)業(yè)競爭的聚光燈下。
在這背后,我們看到了中國存儲芯片賽道的一匹黑馬——平頭哥半導(dǎo)體的鎮(zhèn)岳510 SSD主控芯片。

▲平頭哥半導(dǎo)體鎮(zhèn)岳510 SSD主控芯片
鎮(zhèn)岳510的IO處理能力達(dá)到3400K IOPS,數(shù)據(jù)帶寬達(dá)到14GB/s,能效比達(dá)到420K IOPS/Watt,其通過自研LDPC糾錯算法與介質(zhì)電壓預(yù)測算法,誤碼率比業(yè)內(nèi)頭部產(chǎn)品領(lǐng)先1個數(shù)量級,且擁有4μs時延,比業(yè)界主流產(chǎn)品降低超30%以上。
具備大容量、低時延、高能效、高帶寬、高可靠、低成本六大特性的鎮(zhèn)岳510,既是阿里云AI存儲體系的核心底座,更釋放出成為AI產(chǎn)業(yè)存儲能力升級“芯引擎”的潛力。
一、AI時代冷熱數(shù)據(jù)邏輯重構(gòu),鎮(zhèn)岳510六大硬指標(biāo)破局
穩(wěn)定、高效、安全的數(shù)據(jù)存儲在大模型時代至關(guān)重要。
一方面,傳統(tǒng)的冷熱數(shù)據(jù)概念被顛覆,以往因訪問頻率低被稱冷數(shù)據(jù)的信息,現(xiàn)在也可以在大模型場景發(fā)揮作用,大模型的精準(zhǔn)度、泛化能力高度依賴海量、高質(zhì)量且多樣化的數(shù)據(jù)支撐;另一方面,其在訓(xùn)練階段所需的大規(guī)模標(biāo)注數(shù)據(jù)、文本圖像音頻等異構(gòu)數(shù)據(jù)、推理過程中實時調(diào)用的動態(tài)數(shù)據(jù)、模型優(yōu)化時依賴的反饋數(shù)據(jù),都需要數(shù)據(jù)存儲體系承載。
可以說,在一定程度上數(shù)據(jù)存儲直接決定了大模型的發(fā)展上限與應(yīng)用價值。
當(dāng)下,千億、萬億級別參數(shù)規(guī)模的大模型誕生,就意味著其訓(xùn)練過程可能需同時承載TB級的模型參數(shù)、PB級的訓(xùn)練語料及TB級的中間計算結(jié)果,還要維持在長達(dá)數(shù)月訓(xùn)練時間內(nèi)的系統(tǒng)穩(wěn)定,避免因中途數(shù)據(jù)丟失或損壞導(dǎo)致訓(xùn)練流程中斷。
再加上大模型存儲集群芯片能耗、成本控制,這意味著存儲芯片的核心競爭力成為容量、速度、能效、兼容性、可靠性的多維協(xié)同。
而兼具高性能與低成本雙重核心優(yōu)勢的平頭哥鎮(zhèn)岳510,與大模型時代數(shù)據(jù)存儲在這些維度的需求高度契合。
為了更為直觀對比其性能與大模型訓(xùn)練的需求,平頭哥半導(dǎo)體技術(shù)服務(wù)專家楊澤宏舉例說,公開數(shù)據(jù)顯示GPT-3在幾個月的訓(xùn)練時間內(nèi),GPU利用率不到40%,其中大部分時間都在進(jìn)行故障恢復(fù)、數(shù)據(jù)預(yù)處理。這是當(dāng)下大模型訓(xùn)練效率提升的一大難點。
而鎮(zhèn)岳510誤碼率低至10?1?,這就意味著讀取一塊32TB的硬盤,一天寫一遍,連續(xù)十年才出一個無法恢復(fù)的讀錯誤。這種高可靠性盡可能地減少了因為存儲出現(xiàn)不可恢復(fù)性錯誤導(dǎo)致的模型訓(xùn)練中斷。
平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒提到,雖然AI訓(xùn)練、推理集群當(dāng)下的性能瓶頸是算力和算力密度,但存力的重要性也不斷提升,算力的性能和存力能提供的IO性能之間有一定匹配關(guān)系,隨著未來算力密度進(jìn)一步提升、算力規(guī)模擴(kuò)大,必然會要求存力密度和存力的IO性能隨之提高。鎮(zhèn)岳510擁有最大隨機(jī)讀帶寬3400K IOPS,隨機(jī)寫帶寬2500K IOPS,并率先實現(xiàn)4μs的超低時延,比業(yè)界主流降低30%以上。
這種兼具高可靠性與穩(wěn)定性的數(shù)據(jù)存儲系統(tǒng),就使得AI訓(xùn)練集群提高GPU利用率、降低訓(xùn)練成本水到渠成。
二、與阿里云軟硬協(xié)同,為AI場景提供高容量、高性能存力
這些能力的落地,背后是平頭哥清晰的技術(shù)戰(zhàn)略,將發(fā)力點集中在性能提升與容量擴(kuò)大兩大方向上,其本質(zhì)就是破解當(dāng)前存儲芯片瓶頸,適配AI場景的核心需求。
首先在性能提升層面,平頭哥看到了兩個市場機(jī)遇。
其一是市場需求的急迫性,楊澤宏提到,性能在云存儲當(dāng)中有著巨大價值,特別是高性能緩存可以解決數(shù)據(jù)延遲、數(shù)據(jù)不一致等問題。
其二是傲騰技術(shù)的退出,意味著業(yè)界急需一種能夠解決高性能緩存需求的更優(yōu)方案。
平頭哥瞄準(zhǔn)了pSLC技術(shù),楊澤宏進(jìn)一步透露,他們采用傳統(tǒng)的TLC介質(zhì),通過固件與電壓控制技術(shù)也就是僅施加高低兩種電壓信號,將TLC的單個存儲單元切換為SLC模擬模式。
這樣一來,可以提升大模型訓(xùn)練前數(shù)據(jù)準(zhǔn)備的效率,因為其對數(shù)據(jù)進(jìn)行清洗、格式化、標(biāo)注等操作往往需要全局頻繁隨機(jī)讀寫。
目前,基于鎮(zhèn)岳510的pSLC在阿里云OSS上進(jìn)行灰度試驗,其實測發(fā)現(xiàn),與傲騰相比,基于鎮(zhèn)岳510的pSLC,隨機(jī)讀帶寬可以提升17%,寫帶寬維持和傲騰介質(zhì)相當(dāng)?shù)乃?/span>,相對于目前主流的TLC SSD+硬盤的混閃模式,pSLC+硬盤的組合可以提供更高的讀寫IOPS。與此同時,鎮(zhèn)岳510還實現(xiàn)了和傲騰一致的極低寫延時、近乎無限的寫壽命。
其次是擴(kuò)大存儲容量,平頭哥的策略是前瞻性布局。
楊澤宏解釋說,平頭哥的布局之一是提早規(guī)劃、適配未來5~6年可能出現(xiàn)的更多介質(zhì)。
目前,諸多存儲介質(zhì)廠商提出QLC、OLC和PLC,可以預(yù)見未來芯片單位封裝的容量會持續(xù)提升,這隨之而來的挑戰(zhàn)就是,如何協(xié)同底層算法優(yōu)化、負(fù)載均衡、充分發(fā)揮大容量介質(zhì)的作用。
在此基礎(chǔ)上,鎮(zhèn)岳510和阿里云協(xié)同探索ZNS(分區(qū)命名空間)+QLC存儲解決方案。
相比于現(xiàn)在業(yè)界主流看好的FDP方案,楊澤宏談道,他們選擇ZNS有兩大原因,一是FDP無法釋放冗余雜質(zhì),二是ZNS可以降低對DRAM的占用。隨著存儲介質(zhì)迭代,單個存儲單元需承載更多bit數(shù)據(jù),導(dǎo)致介質(zhì)本身的可靠性下降,為對沖這一風(fēng)險,介質(zhì)廠商趨向于提供更大OP(預(yù)留空間),而FDP無法釋放OP就使得存儲介質(zhì)的低成本優(yōu)勢大打折扣。
平頭哥與阿里云正深度協(xié)同合作,積極探索這一解決方案的應(yīng)用。
除了AI,鎮(zhèn)岳510在分布式存儲上同樣展現(xiàn)出強(qiáng)大的競爭優(yōu)勢,其為阿里云EBS打造了更優(yōu)的混合讀寫QoS,實測的99%時延表現(xiàn)僅為使用海外兩大主流競品時延的56%和84%。
綜合來看,作為平頭哥旗下首款SSD主控芯片,其于2023年11月發(fā)布至今,以阿里云數(shù)據(jù)中心為起點,正在更多AI核心場景釋放價值。
三、大模型驅(qū)動存力價值升級,鎮(zhèn)岳510瞄準(zhǔn)四大進(jìn)階方向
大模型發(fā)展至今,可以肯定的一點是,存力的核心價值正在被重新定義,其作為AI效能的核心樞紐價值凸顯。
今年8月,中國信息通信研究院發(fā)布了《先進(jìn)存力中心研究報告(2025)》,其中提到我國數(shù)據(jù)生產(chǎn)量逐年增長,存力建設(shè)略顯滯后,數(shù)據(jù)仍存在“應(yīng)存未存”現(xiàn)象。
據(jù)《全國數(shù)據(jù)資源調(diào)查報告》所示,2023年至2024年數(shù)據(jù)年產(chǎn)量增速25%,數(shù)據(jù)存儲總量增速為20.81%,這意味著存力缺口存在,在大模型飛速發(fā)展的同時持續(xù)強(qiáng)化存力建設(shè)迫在眉睫。
一開始就錨定高性能、高可靠性、低成本的鎮(zhèn)岳510,內(nèi)置RISC-V多核CPU,可以提供強(qiáng)大的算力支持,能適應(yīng)AI、數(shù)據(jù)庫、云計算等高性能應(yīng)用場景,已經(jīng)站上這一波先進(jìn)存力競賽的第一梯隊。
而這僅僅是AI存力競賽的起點,AI需求仍在飆漲,正迫切呼喚性能更強(qiáng)、容量更大、SSD容量開銷更低、功耗更優(yōu)的存儲芯片加速誕生。
楊澤宏談道,隨著大模型應(yīng)用大規(guī)模鋪開,其需要降低實時推理時延、支撐更大容量,其必備的兩大指標(biāo)就是高帶寬、大容量,未來或許可以達(dá)到一顆主控芯片實現(xiàn)PB級容量。
針對上文提到的超大OP趨勢,其需要降低內(nèi)部存儲容量開銷,迭代算法優(yōu)化釋放OP,基于片內(nèi)RAID提高數(shù)據(jù)、空間的利用率。
最后是針對大型AI集群算力帶來的能量損耗,針對其中數(shù)量較多的核心部件,降低SSD的功耗可以顯著降低整個數(shù)據(jù)中心能源損耗。
一方面可以通過制程演進(jìn)降低主控芯片本身的功率密度,另一方面可以通過先進(jìn)的電源管理模塊,實現(xiàn)低功耗模式高效運(yùn)行,同時讓發(fā)熱量盡可能保持平穩(wěn),制冷系統(tǒng)的功率也相對平穩(wěn)。
周冠鋒補(bǔ)充說,目前其還在探索針對更細(xì)分場景優(yōu)化產(chǎn)品特性,例如統(tǒng)一地址尋址、新CXL接口等。
但總的來看,平頭哥鎮(zhèn)岳510在先進(jìn)存力競賽上正憑借實力突圍。
此前AI Infra建設(shè)多以算力規(guī)模為核心指標(biāo),而當(dāng)算力密度不斷增大,與之深度綁定的存力,其重要性也隨之愈發(fā)凸顯,成為不可忽視的關(guān)鍵支撐。
結(jié)語:嶄露頭角的平頭哥鎮(zhèn)岳510,還有巨大的想象空間
在大模型驅(qū)動的先進(jìn)存力時代,數(shù)據(jù)的價值早已超越存儲留存的基礎(chǔ)范疇,單純將數(shù)據(jù)存起來只是滿足了AI運(yùn)轉(zhuǎn)的前提,而通過存儲體系的優(yōu)化讓數(shù)據(jù)被高效利用起來,才是釋放數(shù)據(jù)價值、撬動AI效能的關(guān)鍵。
作為存儲主控芯片賽道的后來者,平頭哥鎮(zhèn)岳510短短幾年已成功通過了阿里云存儲和多家硬盤廠商的檢驗,這也意味著在存力領(lǐng)域,鎮(zhèn)岳510已經(jīng)拿到了一張門票。當(dāng)然,這只是故事的開端,面向即將爆發(fā)的AI推理市場,鎮(zhèn)岳還有巨大的想象空間。