智東西(公眾號(hào):zhidxcom)
作者?|? 陳駿達(dá)
編輯?|??漠影

算力,已成為推動(dòng)AI產(chǎn)業(yè)持續(xù)演進(jìn)的核心引擎。隨著國(guó)產(chǎn)大模型體系的快速崛起,構(gòu)建自主、可控、可持續(xù)的國(guó)產(chǎn)算力生態(tài)閉環(huán),讓國(guó)產(chǎn)算力平臺(tái)與國(guó)產(chǎn)AI生態(tài)深度適配,已成為產(chǎn)業(yè)界的共識(shí)與關(guān)鍵方向。

令人可喜的是,今年以來,國(guó)產(chǎn)算力平臺(tái)與國(guó)產(chǎn)AI生態(tài)的“Day 0”適配、聯(lián)合創(chuàng)新等消息陸續(xù)傳出。作為國(guó)產(chǎn)算力的代表企業(yè),在生態(tài)層面,寒武紀(jì)以更加開放的姿態(tài)積極擁抱國(guó)產(chǎn)AI生態(tài),與主流AI社區(qū)和領(lǐng)先企業(yè)保持深度協(xié)同。

寒武紀(jì)今年在阿里Qwen 3系列模型、DeepSeek-V3.2-Exp模型發(fā)布當(dāng)日,就宣布完成適配,這意味著雙方在模型發(fā)布之前,就已展開深度合作。除此之外,寒武紀(jì)還與商湯、智譜、階躍星辰官宣了合作,推進(jìn)國(guó)產(chǎn)算力與國(guó)產(chǎn)大模型的深度適配。

這些合作,讓開發(fā)者在寒武紀(jì)平臺(tái)上能夠低成本完成遷移與部署,顯著降低算力替代與生態(tài)融合的門檻。

寒武紀(jì)成立的初衷是為“人工智能的大爆發(fā)”提供底層算力支持,不僅要硬件算力強(qiáng)大,更要軟件通用、易用。寒武紀(jì)一直以來采用了訓(xùn)練推理融合、統(tǒng)一的基礎(chǔ)軟件平臺(tái)研發(fā)策略,構(gòu)建了從自研芯片架構(gòu)到高性能軟件平臺(tái)的完整體系,實(shí)現(xiàn)了計(jì)算架構(gòu)、編譯優(yōu)化與算法調(diào)度的深度融合:硬件為算法提供極致的并行性能與能效比,軟件則通過智能編譯、調(diào)度與適配,讓每一份算力最大化釋放。

寒武紀(jì)打造的基礎(chǔ)軟件平臺(tái)Cambricon?NeuWare,讓用戶與開發(fā)者能夠跨越不同的寒武紀(jì)硬件和應(yīng)用場(chǎng)景,降低上手難度,提升開發(fā)效率,快速遷移與部署AI應(yīng)用。

經(jīng)過多年投入與積累,Cambricon?NeuWare已經(jīng)日趨成熟,全面兼容社區(qū)最新PyTorch版本和Triton算子開發(fā)語言,支持用戶模型和自定義算子快速遷移,其在多項(xiàng)指標(biāo)上都已達(dá)到業(yè)界領(lǐng)先水平。

針對(duì)當(dāng)前業(yè)界極具挑戰(zhàn)的大規(guī)模集群運(yùn)維實(shí)踐,Cambricon NeuWare進(jìn)一步豐富和完善了多項(xiàng)集群工具,為大規(guī)模訓(xùn)練推理業(yè)務(wù)在集群環(huán)境中的部署運(yùn)維調(diào)試和調(diào)優(yōu)提供了堅(jiān)實(shí)的底座。

眾多國(guó)產(chǎn)AI廠商對(duì)寒武紀(jì)算力的信賴,充分驗(yàn)證寒武紀(jì)基礎(chǔ)軟件平臺(tái)Cambricon?NeuWare的穩(wěn)定性和競(jìng)爭(zhēng)力,已經(jīng)滿足了真實(shí)世界的商用要求。

一、從大模型到搜廣推訓(xùn)推解決方案,寒武紀(jì)完成大規(guī)模技術(shù)和產(chǎn)品驗(yàn)證

大模型技術(shù)正成為智能經(jīng)濟(jì)的核心驅(qū)動(dòng)力,深刻重塑人機(jī)交互的方式。“搜廣推”場(chǎng)景——即搜索、廣告與推薦系統(tǒng)——成為大模型技術(shù)落地最具價(jià)值的前沿陣地之一。大模型賦能的搜廣推系統(tǒng),不僅帶來用戶體驗(yàn)的顯著提升,更重塑了流量分發(fā)的邏輯:讓“找信息”、“看內(nèi)容”、“買東西”從被動(dòng)推薦走向主動(dòng)理解,從關(guān)鍵詞匹配邁向意圖洞察。

大模型與“搜廣推”的融合,不僅是一場(chǎng)技術(shù)革新,更是商業(yè)模式的再造。寒武紀(jì)在大模型與搜廣推的訓(xùn)練推理上,都已完成了大規(guī)模的技術(shù)和產(chǎn)品驗(yàn)證。

在搜廣推訓(xùn)練方向,寒武紀(jì)穩(wěn)步推進(jìn)技術(shù)和產(chǎn)品驗(yàn)證。驗(yàn)證結(jié)果表明,解決方案可支撐多場(chǎng)景下的流式訓(xùn)練任務(wù),可持續(xù)超數(shù)月穩(wěn)定運(yùn)行,精度與穩(wěn)定性均滿足要求。持續(xù)性能優(yōu)化方面,完成Layernorm/RMSNorm/L2Norm等多種圖匹配融合,顯著提升性能。在圖融合基礎(chǔ)上進(jìn)一步優(yōu)化XLA支持,并獲得更顯著的加速比結(jié)果。

在大模型訓(xùn)練方向,寒武紀(jì)重點(diǎn)支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE類模型訓(xùn)練,同時(shí)擴(kuò)展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的訓(xùn)練支持?;谠鶩P8的計(jì)算能力,新增Qwen/DeepSeek等系列網(wǎng)絡(luò)FP8的訓(xùn)練支持,精度符合預(yù)期。

在大模型推理方向,寒武紀(jì)研究并實(shí)踐W4A4以及MX-FP8/MX-FP4等新型數(shù)據(jù)類型,探索并支持多種高效注意力機(jī)制,包括Sparse?Attention與Linear Attention。

寒武紀(jì)緊跟先進(jìn)模型的演進(jìn),支持Qwen-Omni等多模態(tài)融合模型、Hunyuan3D等3D生成模型、CosyVoice等語音生成模型,以及DLM和VLM等新興架構(gòu),確保技術(shù)棧的先進(jìn)性與完備性。

值得一提的是,通過深度的生態(tài)合作,針對(duì)DeepSeek V3.2-Exp模型,寒武紀(jì)實(shí)現(xiàn)發(fā)布即適配的支持,并與合作伙伴同步開源適配代碼。

與此同時(shí),持續(xù)優(yōu)化vLLM推理引擎,完善混合精度低比特量化推理機(jī)制,支持通算并行優(yōu)化,支持PD分離部署,支持基于類IBGDA的極致低時(shí)延大規(guī)模專家并行,支持Torch.compile特性優(yōu)化主機(jī)側(cè)瓶頸,實(shí)現(xiàn)了大模型應(yīng)用的全方位加速。

寒武紀(jì)持續(xù)開展對(duì)DeepSeek、Qwen、Wan、Hunyuan等系列最新開源模型的極致性能優(yōu)化,并專項(xiàng)攻堅(jiān)長(zhǎng)序列與超低解碼延時(shí)等場(chǎng)景的性能優(yōu)化,持續(xù)保持性能領(lǐng)先優(yōu)勢(shì)。

寒武紀(jì)能夠在大模型與“搜廣推”訓(xùn)推方面取得快速突破,完成大規(guī)模技術(shù)和產(chǎn)品驗(yàn)證,源于寒武紀(jì)長(zhǎng)期的技術(shù)深耕與軟硬協(xié)同能力。正是這種軟硬一體、兼具性能領(lǐng)先與部署高效的核心競(jìng)爭(zhēng)力,讓寒武紀(jì)能夠快速獲得市場(chǎng)信任和認(rèn)可。

揭秘寒武紀(jì)的10年迭代:從大模型到搜廣推,國(guó)產(chǎn)算力攻堅(jiān)“軟件護(hù)城河”

▲ 寒武紀(jì)基礎(chǔ)軟件平臺(tái)Cambricon NeuWare,圖中僅列舉部分組件,相關(guān)縮寫詞注釋請(qǐng)見文末。

二、高穩(wěn)定驅(qū)動(dòng)和運(yùn)行時(shí)庫,讓AI企業(yè)無憂擴(kuò)展

底層驅(qū)動(dòng)的高穩(wěn)定性是業(yè)務(wù)部署的重要前置條件,寒武紀(jì)的驅(qū)動(dòng)能支撐企業(yè)業(yè)務(wù)運(yùn)行數(shù)月不停機(jī)。同時(shí),寒武紀(jì)的驅(qū)動(dòng)在業(yè)務(wù)優(yōu)化迭代中,大幅提升了吞吐能力,在極具挑戰(zhàn)的搜廣推和大模型推理場(chǎng)景中,最大限度地消除了主機(jī)側(cè)瓶頸,為端到端達(dá)成領(lǐng)先的計(jì)算效率打下了堅(jiān)實(shí)的基礎(chǔ)。

寒武紀(jì)通過細(xì)粒度的并行技術(shù),解耦數(shù)據(jù)依賴和調(diào)度依賴,極限壓榨Kernel函數(shù)的吞吐能力,疊加多路DSA異步調(diào)度和協(xié)同優(yōu)化,Kernel函數(shù)調(diào)度吞吐可達(dá)每秒幾十萬個(gè)任務(wù),實(shí)現(xiàn)業(yè)界領(lǐng)先的Kernel吞吐能力。

全面支持Kernel graph的批量下發(fā)功能,可運(yùn)行時(shí)匯聚多個(gè)算子單次下發(fā),支持在設(shè)備側(cè)駐留和下發(fā),實(shí)現(xiàn)極低延遲的多Kernel下發(fā),延時(shí)水平與國(guó)際競(jìng)品相當(dāng)。

增加類IBGDA接口,為通信庫進(jìn)行極低時(shí)延的專家并行通信提供系統(tǒng)保障。

寒武紀(jì)的驅(qū)動(dòng)和運(yùn)行時(shí)庫支持豐富的設(shè)備切分使用場(chǎng)景:

(1)visible cluster:運(yùn)行時(shí)可編程的彈性拆分,可用于快速部署;

(2)sMLU:基于時(shí)分復(fù)用技術(shù),可用于docker快速部署;

(3)MIM:物理劃分,全面對(duì)標(biāo)國(guó)際競(jìng)品MIG技術(shù)。

三、編譯器和調(diào)試調(diào)優(yōu)工具持續(xù)迭代,達(dá)到業(yè)內(nèi)領(lǐng)先效率

BANG C語言是寒武紀(jì)BANG異構(gòu)并行編程模型的編程語言,在C/C++語言基礎(chǔ)上針對(duì)MLU架構(gòu)特點(diǎn)進(jìn)行擴(kuò)展,可以高效編寫在MLU上運(yùn)行的并行程序,充分利用MLU大規(guī)模并行架構(gòu)來加速計(jì)算任務(wù)。

BANG C支持豐富的編譯優(yōu)化技術(shù),包括鏈接時(shí)優(yōu)化(LTO)、基于Profiling反饋優(yōu)化(PGO)、基于函數(shù)調(diào)用關(guān)系的函數(shù)級(jí)片上空間復(fù)用、Device側(cè)動(dòng)態(tài)鏈接機(jī)制、編譯器靜態(tài)推導(dǎo)訪存指令地址空間、任務(wù)內(nèi)并行指令流自動(dòng)同步算法、優(yōu)化內(nèi)存依賴分析、指令級(jí)并行的局部指令調(diào)度、全局指令調(diào)度以及符合MLU架構(gòu)的高性能指令布局優(yōu)化。

通過這一系列技術(shù),最大限度的發(fā)揮芯片的全部潛力,如矩陣乘法等算子可達(dá)業(yè)界領(lǐng)先的效率。

持續(xù)快速迭代Triton算子開發(fā)語言,支持Triton 3.4所有特性,包括FP8/FP4的數(shù)據(jù)類型。 引入fast libentry,優(yōu)化Triton Kernel的主機(jī)端開銷,在小Workload場(chǎng)景性能提升顯著。Triton編譯器后端實(shí)現(xiàn)多種優(yōu)化:

(1)優(yōu)化軟件流水的片上ram占用,優(yōu)化軟件流水的并發(fā)度,實(shí)現(xiàn)平衡軟件流水性能和單指令性能的自動(dòng)軟件流水方案;

(2)實(shí)現(xiàn)指令并行、片上ram占用、指令延遲掩蓋等多目標(biāo)的指令調(diào)度優(yōu)化;

(3)實(shí)現(xiàn)任務(wù)并行的自動(dòng)調(diào)優(yōu)和自動(dòng)調(diào)度;

(4)實(shí)現(xiàn)自動(dòng)循環(huán)合并;

(5)實(shí)現(xiàn)基于算子語義的訪存和計(jì)算優(yōu)化,如transpose穿透和合并、slice、broadcast穿透等;

(6)優(yōu)化指令融合和指令選擇的性能建模。

通過上述優(yōu)化,提升了Triton?Kernel性能泛化性,其中Matmul、FlashAttention類和HSTU類算子性能提升明顯,部分熱點(diǎn)算子已經(jīng)與手寫算子性能相當(dāng)。

進(jìn)一步完善系統(tǒng)和算子的調(diào)試調(diào)優(yōu)工具:支持算子core dump,實(shí)現(xiàn)異?,F(xiàn)場(chǎng)的核心轉(zhuǎn)存,提供精準(zhǔn)現(xiàn)場(chǎng)和調(diào)試信息對(duì)應(yīng)關(guān)系,提供core dump文件解析工具,可快速分析定位算子出現(xiàn)異常的根因。

在主機(jī)側(cè)與設(shè)備側(cè)并行度調(diào)優(yōu)方面,CNPerf可在極低跟蹤開銷的情況下實(shí)現(xiàn)全維度性能數(shù)據(jù)采集,可精準(zhǔn)捕獲主機(jī)側(cè)與設(shè)備側(cè)執(zhí)行流、PMU性能指標(biāo)、函數(shù)調(diào)用棧等關(guān)鍵信息,支持Kernel計(jì)算、內(nèi)存拷貝、通信任務(wù)等多類型任務(wù)追蹤,覆蓋從底層硬件到上層應(yīng)用的全棧性能數(shù)據(jù)。

CNPerf-GUI智能調(diào)優(yōu)能力突出,內(nèi)置專家建議系統(tǒng)可自動(dòng)檢測(cè)設(shè)備空泡、利用率不足、集合通信等待等問題,精準(zhǔn)定位熱點(diǎn)算子與性能瓶頸。此外CNPerf-GUI針對(duì)多機(jī)多卡場(chǎng)景,額外提供多日志自動(dòng)對(duì)時(shí)與集群迭代分析等功能,進(jìn)一步簡(jiǎn)化用戶在復(fù)雜場(chǎng)景下的調(diào)優(yōu)復(fù)雜度。

在單算子調(diào)優(yōu)方面,CNPerf可支持GHz采樣頻率的硬件工作狀態(tài)采樣,精準(zhǔn)記錄MLU前后端工作狀態(tài)。用戶可基于該功能分析流間/核間同步、算子軟件流水排布等問題,最大化利用硬件后端資源。

CNPerf-GUI適配Linux、macOS、Windows多平臺(tái),支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上億函數(shù)記錄)的快速加載及流暢操作。

新增程序正確性分析工具CNSantizer,使用運(yùn)行時(shí)插樁技術(shù)自動(dòng)完成多核間競(jìng)爭(zhēng)訪問檢測(cè)、單核內(nèi)多指令流競(jìng)爭(zhēng)訪問檢測(cè)、Device側(cè)內(nèi)存越界訪問檢測(cè)、未定義程序行為檢測(cè)、使用未初始化內(nèi)存檢測(cè)等。

新增程序性能分析和調(diào)優(yōu)建議工具CNAdvisor,使用運(yùn)行時(shí)插樁采集以及硬件性能計(jì)數(shù)器采集方式獲取程序運(yùn)行時(shí)狀態(tài),并根據(jù)性能調(diào)優(yōu)經(jīng)驗(yàn)庫,自動(dòng)分析程序性能問題并標(biāo)記出對(duì)應(yīng)源代碼位置,進(jìn)一步給出優(yōu)化建議。

四、持續(xù)打磨核心基礎(chǔ)算子,打造可靠維測(cè)平臺(tái)

寒武紀(jì)計(jì)算庫積極擁抱開源社區(qū)的技術(shù)演進(jìn),持續(xù)迭代打磨核心基礎(chǔ)算子的功能、性能和穩(wěn)定性,更快更好地支持在寒武紀(jì)智能芯片上高效、穩(wěn)定地運(yùn)行開源和私有模型。計(jì)算庫針對(duì)搜廣推、大語言模型、文生圖和文生視頻等熱點(diǎn)場(chǎng)景做了深入的功能擴(kuò)展和性能優(yōu)化:

大規(guī)模Embedding Table稀疏訪存和計(jì)算極致優(yōu)化,性能與GPU競(jìng)品相當(dāng);

GEMM/BatchGEMM/GroupGEMM等矩陣乘類算子性能泛化得到顯著增強(qiáng),大規(guī)模矩陣乘HFU達(dá)到行業(yè)領(lǐng)先水平;

矩陣乘類算子支持多種社區(qū)公開/私有定制的低精度量化功能;

支持類CUTLASS GEMM模板庫的擴(kuò)展開發(fā)和AutoTuning;

Attention類算子在低精度加速等方向的探索和研發(fā)成果已成功完成驗(yàn)證,獲得良好的加速效果;

支持大語言模型使用的MTP技術(shù),開發(fā)了用于優(yōu)化MTP性能的Top-k和Top-p采樣、隨機(jī)采樣等融合算子。

為支持計(jì)算庫的持續(xù)快速迭代,保障計(jì)算庫軟件質(zhì)量的同時(shí)做到精度性能不回退,寒武紀(jì)計(jì)算庫團(tuán)隊(duì)還打造了可靠的維測(cè)平臺(tái),提供了豐富的維測(cè)工具,開發(fā)了高覆蓋度的功能性能測(cè)例,并制定了科學(xué)的驗(yàn)收標(biāo)準(zhǔn)。

五、通信庫擴(kuò)展性比肩國(guó)際主流競(jìng)品,集群工具賦能萬卡場(chǎng)景

通信庫針對(duì)大規(guī)模場(chǎng)景進(jìn)行專項(xiàng)優(yōu)化:新增HDR/DBT等Allreduce通信算法,優(yōu)先提升大規(guī)模條件下的通信帶寬,對(duì)Alltoall操作進(jìn)行深度優(yōu)化,使其大規(guī)模擴(kuò)展性達(dá)到與國(guó)際主流競(jìng)品相當(dāng)?shù)乃健?/p>

通信庫同步加強(qiáng)可維可測(cè)相關(guān)的功能,支持在線打點(diǎn)、模塊化日志、高可靠服務(wù)模塊等,幫助用戶能夠快速分析通信下發(fā)錯(cuò)誤,異??ㄋ赖葐栴},提高集群通信可用性。通信庫通過在Kernel支持RoCE網(wǎng)卡的RDMA操作(類IBGDA)顯著優(yōu)化大規(guī)模專家并行場(chǎng)景下的ALL2ALL通信延遲,提升了MoE類模型推理任務(wù)的端到端吞吐。

CntrainKit-Accu(大規(guī)模集群精度定位工具):為萬卡分布式訓(xùn)練場(chǎng)景提供端到端精度定位,提供精度指標(biāo)在線監(jiān)控,并針對(duì)精度問題進(jìn)行自動(dòng)化分級(jí)、采集信息、智能分析并提供對(duì)應(yīng)解決方案。CntrainKit-Accu工具還全面支持NaN/Inf異常檢測(cè)與快速定位,實(shí)現(xiàn)異常點(diǎn)級(jí)別的秒級(jí)溯源,大大提升大模型和搜廣推等場(chǎng)景的大規(guī)模訓(xùn)練精度問題排查效率,讓每一次精度問題都能被精準(zhǔn)捕獲。

CntrainKit-Monitor(大規(guī)模集群監(jiān)控調(diào)優(yōu)工具):實(shí)現(xiàn)對(duì)萬卡級(jí)集群訓(xùn)練任務(wù)的實(shí)時(shí)通信與算子性能畫像,具備毫秒級(jí)任務(wù)健康可視化能力,支持算子粒度的性能剖析,識(shí)別AI作業(yè)中的性能瓶頸。具備萬卡規(guī)模訓(xùn)練任務(wù)的“可觀、可查、可優(yōu)”能力,真正實(shí)現(xiàn)大規(guī)模集群的“問題自感知”。

CNCE(集群監(jiān)管平臺(tái)):構(gòu)建覆蓋計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的數(shù)據(jù)中心全景監(jiān)控體系,實(shí)現(xiàn)對(duì)十萬卡級(jí)算力集群的秒級(jí)狀態(tài)采集與拓?fù)淇梢暬?。平臺(tái)具備自動(dòng)發(fā)現(xiàn)、智能診斷、自動(dòng)處理的閉環(huán)故障管理能力,支持萬卡級(jí)任務(wù)的多維異常診斷與根因定位,讓用戶專注于算法創(chuàng)新與模型訓(xùn)練,無需再為底層硬件波動(dòng)分心。CNCE的上線使集群運(yùn)維從“人工巡檢”邁向“智能自治”,顯著提升大規(guī)模?AI?訓(xùn)練的可用性與穩(wěn)定性。

CNAnalyzeInsight(故障分析工具):CNAnalyzeInsight是智能日志分析與根因診斷引擎,支持對(duì)?GB?級(jí)日志的秒級(jí)檢索與多維聚合分析。具備在線實(shí)時(shí)診斷告警與離線快速分析雙模式,能夠?qū)崿F(xiàn)“異常發(fā)現(xiàn)、問題定位、原因歸納、修復(fù)建議生成”的故障診斷閉環(huán),顯著提升訓(xùn)練任務(wù)的穩(wěn)定性與問題處理效率。

六、擁抱開源大趨勢(shì),提供GPU零成本遷移工具

寒武紀(jì)快速跟進(jìn)社區(qū)PyTorch的進(jìn)展,支持?PyTorch 2.1到PyTorch 2.8的全部社區(qū)版本,適配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列關(guān)鍵功能。

Torch compile性能整體上追平GPU?compile加速比,高效支撐了產(chǎn)品在多個(gè)訓(xùn)練和推理場(chǎng)景下的成功驗(yàn)證。

寒武紀(jì)還提供GPU Migration一鍵遷移工具,幫助用戶近乎零成本將模型從GPU遷移到MLU。同時(shí)配備TorchDump精度調(diào)試工具和Torch Profiler性能調(diào)試工具,助力用戶高效定位和解決精度和性能問題。

此外,寒武紀(jì)還支持PyTorch Lightning、TorchTitan、TorchRec等社區(qū)生態(tài),并建立快速跟進(jìn)社區(qū)版本的長(zhǎng)效機(jī)制,可在社區(qū)版本發(fā)布后2周內(nèi)實(shí)現(xiàn)MLU適配版本的發(fā)布。

七、近十年持續(xù)打磨迭代,寒武紀(jì)助AI走進(jìn)千行百業(yè)

通過近十年的持續(xù)打磨迭代,寒武紀(jì)已構(gòu)建出一套高效、易用、穩(wěn)定、成熟且具備高可擴(kuò)展性的軟硬一體化產(chǎn)品體系。憑借領(lǐng)先的芯片技術(shù)與完善的基礎(chǔ)軟件平臺(tái),寒武紀(jì)產(chǎn)品已經(jīng)在大模型、搜廣推、圖片與視頻生成和各類多模態(tài)的訓(xùn)練與推理場(chǎng)景中成功完成驗(yàn)證,贏得廣泛認(rèn)可。

在此過程中,寒武紀(jì)產(chǎn)品不斷接受更多大規(guī)模場(chǎng)景高強(qiáng)度檢驗(yàn),推動(dòng)軟件平臺(tái)與芯片體系持續(xù)進(jìn)化,形成了“應(yīng)用促進(jìn)優(yōu)化、優(yōu)化推動(dòng)更強(qiáng)應(yīng)用”的良性循環(huán)。

通過為用戶提供更高效、更穩(wěn)定、更廣覆蓋的支持,寒武紀(jì)加速賦能產(chǎn)業(yè)智能化轉(zhuǎn)型,推動(dòng)AI能力真正走進(jìn)千行百業(yè)。 “讓機(jī)器更好地理解和服務(wù)人類”,寒武紀(jì)的愿景正在一步一步成為現(xiàn)實(shí)。

附錄:

寒武紀(jì)基礎(chǔ)軟件平臺(tái)Cambricon NeuWare圖中標(biāo)注的縮寫詞全稱

1. Cambricon HLO:機(jī)器學(xué)習(xí)模型高級(jí)操作集(HLO)的寒武紀(jì)后端;

2. CNNL:Cambricon Network Library,寒武紀(jì)人工智能計(jì)算庫;

3. CNNL-Extra:Cambricon CNNL Extra,寒武紀(jì)人工智能計(jì)算庫的擴(kuò)展庫;

4. CNCV:Cambricon Computer Vision Library,寒武紀(jì)計(jì)算機(jī)視覺庫;

5. CNCL:Cambricon Communications Library,寒武紀(jì)高性能通信庫;

6. CNFFmpeg:Cambricon FFmpeg,基于開源FFmpeg開發(fā)的硬件加速庫;

7. CNCC:Cambricon Compiler Collection,寒武紀(jì)BANG C語言編譯器;

8. CNAS:Cambricon Assembler,寒武紀(jì)匯編器組件;

9. CNGDB:Cambricon GNU Debugger,寒武紀(jì)BANG C語言調(diào)試工具;

10. CNSanitizer:Cambricon Sanitizer,寒武紀(jì)代碼檢測(cè)工具;

11. CNPAPI:Cambricon Profiling API,寒武紀(jì)性能分析接口庫;

12. CNPerf:Cambricon Performance,寒武紀(jì)性能分析工具;

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武紀(jì)性能剖析圖形化工具;

14. CNMon:Cambricon Monitor,寒武紀(jì)設(shè)備監(jiān)控與管理命令行工具;

15. CNVS:Cambricon Validation Suite,寒武紀(jì)設(shè)備驗(yàn)證工具集;

16. CNFieldiag:Cambricon Field Diagnostic,寒武紀(jì)現(xiàn)場(chǎng)診斷工具;

17. CNAnalyzeInsight:寒武紀(jì)故障分析工具;

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武紀(jì)通信庫性能基準(zhǔn)測(cè)試工具;

19. Cambricon Device Plugin:寒武紀(jì)設(shè)備插件;

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武紀(jì)智算運(yùn)管平臺(tái)。

寒武紀(jì)在“寒武紀(jì)開發(fā)者”微信公眾號(hào)上打造了開發(fā)者交流平臺(tái),開發(fā)者可以在這里第一時(shí)間獲取寒武紀(jì)開發(fā)相關(guān)的新產(chǎn)品發(fā)布,以及線上線下活動(dòng)咨詢等,推薦關(guān)注~