智東西(公眾號(hào):zhidxcom)
作者 | 智東西編輯部

剛剛,黃仁勛宣布推出全新旗艦芯片Blackwell Ultra GPU,并劇透基于下一代Rubin GPU架構(gòu)的Vera Rubin超級(jí)芯片、Vera Rubin NVL144機(jī)架和Rubin Ultra?NVL576機(jī)架,全場(chǎng)爆發(fā)出熱烈的掌聲!

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

智東西美國(guó)圣何塞3月18日現(xiàn)場(chǎng)報(bào)道,頂著熱烈的加州陽(yáng)光,一年一度的“AI春晚”英偉達(dá)GTC大會(huì)盛大開幕。今日上午,英偉達(dá)創(chuàng)始人兼CEO黃仁勛穿著閃亮的皮衣,進(jìn)行了一場(chǎng)激情澎湃的主題演講,一連亮出四代全新Blackwell Ultra、Rubin、Rubin Ultra、Feynman旗艦芯片,公布四年三代GPU架構(gòu)路線圖,還多次提到中國(guó)大模型DeepSeek。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

英偉達(dá)將每年升級(jí)全棧AI系統(tǒng)、發(fā)布一條新產(chǎn)品線,2026年、2027年切換到采用Rubin 8S HBM4、Rubin Ultra 16S HBM4e和Vera CPU,2028年推出采用下一代HBM的Feynman(費(fèi)曼)平臺(tái),NVSwitch、Spectrum、CX網(wǎng)卡都將同步迭代,從而為千兆瓦AI工廠鋪平道路。

整場(chǎng)演講信息量爆棚,覆蓋加速計(jì)算、深度推理模型、AI智能體、物理AI、機(jī)器人技術(shù)、自動(dòng)駕駛等在內(nèi)的AI下一個(gè)風(fēng)口,新發(fā)布涉及十大重點(diǎn):

1、Vera Rubin、Rubin Ultra芯片兩代旗艦芯片HBM內(nèi)存升級(jí),GPU“樂高拼裝術(shù)”日臻成熟,提前公布Vera Rubin NVL144機(jī)架、Rubin Ultra NVL576機(jī)架性能,最高FP4推理性能達(dá)到15EFLOPS,基于Rubin的AI工廠性能達(dá)到Hopper的900倍。

2、Blackwell Ultra芯片全球首個(gè)288GB HBM3e GPU登場(chǎng),發(fā)布GB300 NVL72機(jī)架、HGX B300 NVL16機(jī)架系統(tǒng)方案,一個(gè)機(jī)架能像單個(gè)大型GPU一樣運(yùn)行。

3、數(shù)據(jù)中心AI超算推出Blackwell Ultra DGX SuperPOD,采用全新DGX GB300和DGX B300系統(tǒng),助力企業(yè)構(gòu)建開箱即用的AI超級(jí)計(jì)算機(jī),發(fā)布AI托管服務(wù)NVIDIA Instant AI Factory、AI數(shù)據(jù)中心運(yùn)營(yíng)和編排軟件NVIDIA Mission Control。

4、AI推理、AI智能體軟件AI推理軟件Dynamo在運(yùn)行DeepSeek-R1模型時(shí),可將每個(gè)GPU生成的token數(shù)量提高超過30倍;全新Llama Nemotron推理模型系列中,Super 49B版本吞吐量達(dá)到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍;宣布向全球企業(yè)提供構(gòu)建AI智能體的核心模塊;存儲(chǔ)龍頭們構(gòu)建企業(yè)級(jí)AI數(shù)據(jù)平臺(tái)。

5、個(gè)人AI超算推出全球最小AI超算DGX Spark、高性能桌面級(jí)AI超算DGX Station,方便開發(fā)者本地微調(diào)或推理深度思考模型。

6、Blackwell進(jìn)展正在全面生產(chǎn),銷售量是上一代Hopper的3倍。

7、工作站和服務(wù)器GPU:上新RTX Pro Blackwell數(shù)據(jù)中心GPU、桌面級(jí)GPU、筆記本電腦GPU。

8、光電一體化封裝網(wǎng)絡(luò)交換機(jī)號(hào)稱“世界上最先進(jìn)的網(wǎng)絡(luò)解決方案”,可將AI工廠擴(kuò)展到數(shù)百萬塊GPU。

9、物理AI/機(jī)器人開源Isaac GR00T N1人形機(jī)器人基礎(chǔ)模型,與迪士尼研究院、谷歌DeepMind將合作開發(fā)開源物理引擎Newton。

10、電信AI和自動(dòng)駕駛與通用汽車一起為工廠和汽車構(gòu)建GM AI,構(gòu)建綜合全棧自動(dòng)駕駛安全系統(tǒng)NVIDIA Halos。

值得一提的是,英偉達(dá)宣布Blackwell GPU創(chuàng)下滿血版DeepSeek-R1推理性能的世界紀(jì)錄。

單個(gè)配備8塊Blackwell GPU的NVIDIA DGX系統(tǒng),可實(shí)現(xiàn)每位用戶每秒超過250個(gè)token,或每秒超過30000個(gè)token的最大吞吐量。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

通過硬件和軟件的結(jié)合,英偉達(dá)自今年1月以來將DeepSeek-R1 671B模型的吞吐量提高了約36倍,相當(dāng)于每個(gè)token的成本改善了約32倍。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

今年GTC人氣火爆到史無前例,萬元起步的門票悉數(shù)售罄,超過25000名觀眾齊聚現(xiàn)場(chǎng),幾乎整座圣何塞都染上了“英偉達(dá)綠”,從街巷、集市、高樓、餐廳、巴士到三輪車,到處都是醒目的英偉達(dá)GTC標(biāo)識(shí)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

還有一個(gè)彩蛋,在黃仁勛主題演講開始前,SAP中心大屏幕上播放的5人對(duì)話暖場(chǎng)視頻中,畫面最右邊的正是前英特爾CEO帕特·基辛格,他的身份已經(jīng)變成了Gloo董事長(zhǎng)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

迪士尼機(jī)器人Blue作為黃仁勛主題演講的驚喜嘉賓壓軸出場(chǎng),搖頭晃腦向黃仁勛撒嬌賣萌,還聽從黃仁勛的指令,乖乖站到了他的旁邊。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

此外,本屆GTC大會(huì)特設(shè)China AI Day – 云與互聯(lián)網(wǎng)線上中文專場(chǎng),涵蓋大模型、數(shù)據(jù)科學(xué)、搜推廣等領(lǐng)域的前沿進(jìn)展,演講企業(yè)包括字節(jié)跳動(dòng)、火山引擎、阿里云、百度、螞蟻集團(tuán)、京東、美團(tuán)、快手、百川智能、賴耶科技、Votee AI。

智東西帶你直擊英偉達(dá)GTC大會(huì)現(xiàn)場(chǎng),一文看盡黃仁勛主題演講干貨。

一、下一代Vera Rubin超級(jí)芯片明年登場(chǎng)!三代AI工廠性能暴漲900倍

上午9點(diǎn)59分,黃仁勛閃現(xiàn)圣何塞SAP中心舞臺(tái),朝不同方向的觀眾席連放5個(gè)沖天炮,然后慢慢走下舞臺(tái)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

在參會(huì)觀眾翹首等待11分鐘后,黃仁勛小步慢跑再度登場(chǎng),笑容滿面地向全場(chǎng)觀眾打招呼,還帶觀眾云參觀了下英偉達(dá)總部。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛曬出了密密麻麻的GTC25企業(yè)logo,說幾乎每個(gè)行業(yè)都有代表企業(yè)出現(xiàn)在GTC現(xiàn)場(chǎng)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

至于為什么要提前展示路線圖?黃仁勛說,構(gòu)建AI工廠和AI基礎(chǔ)設(shè)施需要數(shù)年的規(guī)劃,不像買筆記本電腦,所以必須提前兩三年制定土地、電力、資本支出的計(jì)劃。

他公布了英偉達(dá)繼Hopper、Blackwell之后的下一代GPU架構(gòu)——Rubin。這一命名來自于發(fā)現(xiàn)暗物質(zhì)的女性科學(xué)先驅(qū)薇拉·魯賓(Vera Rubin)。

首先展示的是兩個(gè)機(jī)架級(jí)解決方案,Vera Rubin NVL144和Rubin Ultra NVL576。

Vera Rubin由Rubin GPU和Vera CPU組成。Vera CPU擁有88個(gè)定制Arm核心、176個(gè)線程。Rubin由兩塊掩模尺寸的GPU組成,擁有288GB HBM4內(nèi)存,F(xiàn)P4峰值推理能力可達(dá)50PFLOPS。

Vera Rubin NVL144的FP4推理算力可達(dá)到3.6EFLOPS,F(xiàn)P8訓(xùn)練算力可達(dá)到1.2EFLOPS,是今天新發(fā)布的GB300 NVL72的3.3倍,將于2026年下半年推出。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

Rubin Ultra系統(tǒng)由Rubin Ultra GPU和Vera CPU組成。Rubin Ultra由4塊掩模尺寸的GPU組成,擁有1TB HBM4e內(nèi)存,F(xiàn)P4峰值推理能力可達(dá)100PFLOPS

Rubin Ultra NVL576的FP4峰值推理算力高達(dá)15EFLOPS,F(xiàn)P8訓(xùn)練算力達(dá)到5EFLOPS,足足是GB300 NVL72的14倍,將于2027年下半年推出。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

相較Hopper,基于Blackwell的AI工廠性能提高多達(dá)68倍,基于Rubin的AI工廠性能提高多達(dá)900倍

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

二、新旗艦Blackwell Ultra:全球首個(gè)288GB HBM3e GPU,NVL72機(jī)架下半年問世

在萬眾期待中,英偉達(dá)新一代數(shù)據(jù)中心旗艦GPU Blackwell Ultra(GB300)正式登場(chǎng)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

Blackwell Ultra為AI推理時(shí)代而設(shè)計(jì),是全球首個(gè)288GB HBM3e GPU,像拼樂高一樣通過先進(jìn)封裝技術(shù)將2塊掩膜尺寸的GPU拼裝在一起,可實(shí)現(xiàn)多達(dá)1.5倍的FP4推理性能,最高15PFLOPS。

該GPU增強(qiáng)了訓(xùn)練和測(cè)試時(shí)推理擴(kuò)展,可輕松有效地進(jìn)行預(yù)訓(xùn)練、后訓(xùn)練以及深度思考(推理)模型的AI推理,構(gòu)建于Blackwell架構(gòu)基礎(chǔ)之上,包括GB300 NVL72機(jī)架級(jí)解決方案和HGX B300 NVL16系統(tǒng)。

下一代模型可能包含數(shù)萬億參數(shù),可以使用張量并行基于工作負(fù)載進(jìn)行任務(wù)分配。如取模型切片在多塊GPU上運(yùn)行、將Pipeline放在多塊GPU上、將不同專家模型放在不同GPU上,這就是MoE模型。

流水線并行、張量并行、專家并行的結(jié)合,可以取決于模型、工作量和環(huán)境,然后改變計(jì)算機(jī)配置的方式,以便獲得最大吞吐量,同時(shí)對(duì)低延遲、吞吐量進(jìn)行優(yōu)化。

黃仁勛稱,NVL72的優(yōu)勢(shì)就在于每塊GPU都可以完成上述任務(wù),NVLink可將所有GPU變成單個(gè)大型GPU。

GB300 NVL72連接了72塊Blackwell Ultra GPU和36塊Grace CPU,采用機(jī)架式設(shè)計(jì),密集FP4推理算力達(dá)到1.1EFLOPS,F(xiàn)P8訓(xùn)練算力達(dá)到0.36EFLOPS,是GB200 NVL72的1.5倍;總計(jì)有2倍的注意力指令集、20TB HBM內(nèi)存、40TB快內(nèi)存、14.4TB/s CX8。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

升級(jí)的GB300 NVL72設(shè)計(jì),提高了能效和可服務(wù)性,通過降低成本和能耗來推進(jìn)AI推理民主化,相比Hopper將AI工廠的收入機(jī)會(huì)提高50倍。

GB300 NVL72預(yù)計(jì)將在英偉達(dá)端到端全托管AI平臺(tái)DGX Cloud上提供。

與Hopper相比,HGX B300 NVL16在大語(yǔ)言模型上的推理速度加快至11倍,計(jì)算能力增加到7倍,內(nèi)存增至4倍。

Blackwell Ultra系統(tǒng)與Spectrum-X以太網(wǎng)、Quantum-X800 InfiniBand平臺(tái)無縫集成,通過ConnectX-8 SuperNIC,每塊GPU有800Gb/s的數(shù)據(jù)吞吐量,提供了一流的遠(yuǎn)程直接內(nèi)存訪問功能,使AI工廠和云數(shù)據(jù)中心可在沒有瓶頸的情況下處理AI推理模型。

英偉達(dá)合作伙伴預(yù)計(jì)將從2025年下半年起提供基于Blackwell Ultra的產(chǎn)品。

亞馬遜云科技、谷歌云、微軟Azure、甲骨文OCI、CoreWeave、Crusoe、Lambda、Nebius、Nscale、Yotta、YTL等云服務(wù)提供商將首批提供Blackwell Ultra驅(qū)動(dòng)的實(shí)例。

三、數(shù)據(jù)中心AI超算:全新DGX SuperPOD,將AI工廠性能提升至70倍

英偉達(dá)DGX SuperPODDGX GB300系統(tǒng)采用GB300 NVL72機(jī)架設(shè)計(jì),提供交鑰匙AI工廠。

英偉達(dá)將NVIDIA DGX SuperPOD稱作“全球最先進(jìn)的企業(yè)級(jí)AI基礎(chǔ)設(shè)施”,旨在為實(shí)時(shí)推理和訓(xùn)練提供強(qiáng)大的計(jì)算能力。

企業(yè)可采用全新DGX GB300和DGX B300系統(tǒng),集成英偉達(dá)網(wǎng)絡(luò),獲得開箱即用的DGX SuperPOD AI超級(jí)計(jì)算機(jī)。

DGX SuperPOD提供FP4精度和更快的AI推理速度,可擴(kuò)展到數(shù)萬塊Grace Blackwell Ultra超級(jí)芯片,預(yù)計(jì)將在今年晚些時(shí)候從合作伙伴處可獲得。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

DGX GB300系統(tǒng)采用英偉達(dá)Grace Blackwell Ultra超級(jí)芯片(包含36塊Grace CPU和72塊Blackwell GPU),以及一個(gè)為先進(jìn)推理模型上的實(shí)時(shí)智能體響應(yīng)而設(shè)計(jì)的機(jī)架級(jí)液冷架構(gòu)。

與采用Hopper系統(tǒng)和38TB快內(nèi)存構(gòu)建的AI工廠相比,DGX GB300系統(tǒng)可提供70倍的AI性能。

每個(gè)DGX GB300系統(tǒng)配備72個(gè)ConnectX-8 SuperNIC,加速網(wǎng)絡(luò)速度高達(dá)800Gb/s,是上一代性能的2倍。

18個(gè)BlueField-3 DPU搭配Quantum-X800 InfiniBand或Spectrum-X以太網(wǎng),可加速大規(guī)模AI數(shù)據(jù)中心的性能、能效和安全。

與上一代Hopper相比,DGX B300系統(tǒng)可提供11倍的AI推理性能和4倍的AI訓(xùn)練加速。

每個(gè)系統(tǒng)提供2.3TB HBM3e內(nèi)存,包含由8個(gè)英偉達(dá)ConnectX-8 SuperNIC和2個(gè)BlueField-3 DPU組成的先進(jìn)網(wǎng)絡(luò)。

英偉達(dá)還推出了一項(xiàng)以DGX SuperPOD為特色的托管服務(wù)NVIDIA Instant AI Factory,計(jì)劃在今年晚些時(shí)候開始上市,并發(fā)布適用于Blackwell架構(gòu)DGX系統(tǒng)的AI數(shù)據(jù)中心運(yùn)營(yíng)和編排軟件NVIDIA Mission Control

Equinix將率先在其位于全球45個(gè)市場(chǎng)的預(yù)配置液冷或風(fēng)冷AI-ready數(shù)據(jù)中心提供新DGX GB300和DGX B300系統(tǒng)。

四、發(fā)布AI推理軟件、新推理模型,DeepSeek-R1猛刷存在感

企業(yè)正競(jìng)相建設(shè)可擴(kuò)展的AI工廠,以滿足AI推理和推理時(shí)擴(kuò)展的處理需求。英偉達(dá)推出開源的AI推理軟件NVIDIA Dynamo,其本質(zhì)上就是AI工廠的操作系統(tǒng)。

Dynamo(發(fā)電機(jī))的命名來源是,發(fā)電機(jī)是開啟上一次工業(yè)革命的第一臺(tái)工具,Dynamo也是現(xiàn)在一切開始的地方。

NVIDIA Dynamo是一個(gè)用于大規(guī)模服務(wù)推理模型的AI推理軟件,旨在為部署推理模型的AI工廠實(shí)現(xiàn)token收入最大化。

它能夠跨數(shù)千個(gè)GPU編排和加速推理通信,并使用分區(qū)分服務(wù)來分離不同GPU上大語(yǔ)言模型的處理和生成階段,使每個(gè)階段可根據(jù)特定需求獨(dú)立優(yōu)化,并確保GPU資源的最大利用率。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

為了提高推理性能,英偉達(dá)采用Blackwell NVL8設(shè)計(jì),之后又引入新的精度,用更少的資源量化模型。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

未來每個(gè)數(shù)據(jù)中心都會(huì)受到電力限制,數(shù)據(jù)中心的收入與之掛鉤,因此英偉達(dá)用NVL72進(jìn)行擴(kuò)展,打造更節(jié)能的數(shù)據(jù)中心。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

在GPU數(shù)量相同的情況下,Dynamo可將Hopper平臺(tái)上運(yùn)行Llama模型的AI工廠性能和收益翻倍。在由GB200 NVL72機(jī)架組成的大型集群上運(yùn)行DeepSeek-R1模型時(shí),Dynamo的智能推理優(yōu)化也可將每個(gè)GPU生成的token數(shù)量提高30倍以上。

基于Dynamo,相比Hopper,Blackwell性能提升25倍,可以基于均勻可互換的可編程架構(gòu)。在推理模型中,Blackwell性能是Hopper的40倍。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛說:“這就是我以前為什么說,當(dāng)Blackwell批量發(fā)貨時(shí),你不要把Hopper送人。”他調(diào)侃自己是“首席收入官”。

“買得越多,省得越多,賺得越多?!秉S仁勛的經(jīng)典帶貨名言又來了,這次他特別強(qiáng)調(diào)AI工廠收入的提高,100MW AI工廠會(huì)包含45000顆GPU Die、1400個(gè)機(jī)架、每秒生成3億個(gè)token。

相比Hopper,Blackwell能實(shí)現(xiàn)40倍的性能提升,對(duì)應(yīng)產(chǎn)生40倍的token收入。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

為了提升推理性能,NVIDIA Dynamo加入了一些功能,使其能夠提高吞吐量的同時(shí)降低成本。

它可以根據(jù)不斷變化的請(qǐng)求數(shù)量和類型,動(dòng)態(tài)添加、移除、重新分配GPU,并精確定位大型集群中的特定GPU,從而更大限度地減少響應(yīng)計(jì)算和路由查詢。

它還可以將推理數(shù)據(jù)卸載到成本更低的顯存和存儲(chǔ)設(shè)備上,并在需要時(shí)快速檢索這些數(shù)據(jù),最大程度地降低推理成本。

Dynamo可將推理系統(tǒng)在處理過往請(qǐng)求時(shí)于顯存中保存的知識(shí)(稱為KV緩存),映射到潛在的數(shù)千塊GPU中。然后,它會(huì)將新的推理請(qǐng)求路由到與所需信息匹配度最高的GPU上,從而避免昂貴的重新計(jì)算,并釋放GPU來響應(yīng)新的請(qǐng)求。

該軟件完全開源并支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時(shí)部署AI模型的方法。

大模型公司Cohere計(jì)劃使用NVIDIA Dynamo為其Command系列模型中的AI智能體功能提供支持。

英偉達(dá)還基于Llama開發(fā)了全新Llama Nemotron推理模型系列,提供Nano、Super、Ultra版本。其中Super 49B版本在生成速度和AI智能體任務(wù)的準(zhǔn)確性兩個(gè)維度超過DeepSeek-R1,吞吐量達(dá)到Llama 3.3 70B、DeepSeek R1 Llama 70B的5倍

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

這些模型現(xiàn)已開源,企業(yè)可以通過NIM下載至本地運(yùn)行。

英偉達(dá)正為全球企業(yè)提供構(gòu)建AI智能體的核心模塊,推動(dòng)企業(yè)級(jí)AI技術(shù)的普及與創(chuàng)新。英偉達(dá)的Llama Nemotron可以在任何地方運(yùn)行,包括DGX Spark、DGX Station以及OEM制造的服務(wù)器上,甚至可以將其集成到任何AI智能體框架中。

AT&T正在開發(fā)公司專用的的AI智能體系統(tǒng)。未來,英偉達(dá)不僅會(huì)雇傭ASIC設(shè)計(jì)師,還會(huì)與Cadence合作,引入數(shù)字ASIC設(shè)計(jì)師來優(yōu)化芯片設(shè)計(jì)。Cadence正在構(gòu)建他們的AI智能體框架,英偉達(dá)的模型、NIM和庫(kù)已經(jīng)深度集成到他們的技術(shù)中。Capital One、德勤、納斯達(dá)克、SAP、ServiceNow、Accenture、Amdocs等企業(yè)也將英偉達(dá)技術(shù)深度融入AI框架中。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛還宣布存儲(chǔ)龍頭們構(gòu)建企業(yè)級(jí)AI數(shù)據(jù)平臺(tái)。原本企業(yè)的存儲(chǔ)系統(tǒng)是基于召回的,而如今的系統(tǒng)應(yīng)該基于語(yǔ)義?;谡Z(yǔ)義的存儲(chǔ)系統(tǒng)時(shí)刻在嵌入原始數(shù)據(jù),用戶使用數(shù)據(jù)時(shí)只需使用自然語(yǔ)言進(jìn)行交互,便能找到需要的數(shù)據(jù)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

五、全球最小AI超算、桌面AI超算齊發(fā),把數(shù)據(jù)中心性能搬到手邊

NVIDIA DGX Spark和DGX Station是英偉達(dá)打造的個(gè)人AI計(jì)算機(jī),讓開發(fā)者能在桌面上對(duì)大模型進(jìn)行原型、微調(diào)、推理。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

全球最小AI超級(jí)計(jì)算機(jī)DGX Spark前身是Project DIGITS,采用GB10 Grace Blackwell超級(jí)芯片、128GB統(tǒng)一系統(tǒng)內(nèi)存、ConnectX-7 SmartNIC,AI算力可達(dá)1000 AI TOPS。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

DGX Spark可以被用來微調(diào)或推理最新的AI推理模型,比如英偉達(dá)今天新發(fā)布的Cosmos推理世界基礎(chǔ)模型和GR00T N1機(jī)器人基礎(chǔ)模型。該AI超算的預(yù)訂今日起開放。

DGX Station是一款基于Blackwell Ultra的新型高性能桌面級(jí)超級(jí)計(jì)算機(jī),為桌面帶來了數(shù)據(jù)中心級(jí)別的性能,用于AI開發(fā),今年晚些時(shí)候可從英偉達(dá)制造合作伙伴處獲得。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

這是第一個(gè)采用英偉達(dá)GB300 Grace Blackwell Ultra桌面超級(jí)芯片構(gòu)建的臺(tái)式機(jī)系統(tǒng),擁有784GB超大統(tǒng)一系統(tǒng)內(nèi)存,還有支持800Gb/s網(wǎng)絡(luò)連接的ConnectX-8 SuperNIC,AI性能達(dá)到20PFLOPS。

六、Blackwell賣得超好!DeepSeek-R1回答質(zhì)量高,需要更多算力

Blackwell系統(tǒng)構(gòu)建于英偉達(dá)強(qiáng)大的開發(fā)工具生態(tài)系統(tǒng)、CUDA-X庫(kù)、600多萬開發(fā)者和4000多個(gè)應(yīng)用的基礎(chǔ)上,可在數(shù)千塊GPU上擴(kuò)展性能,非常適合運(yùn)行新的Llama Nemotron推理模型、AI-Q藍(lán)圖、AI企業(yè)級(jí)軟件平臺(tái)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛說CUDA-X是GTC的全部意義所在。他展示了一張自己最喜歡的幻燈片,包含了英偉達(dá)構(gòu)建的關(guān)于物理、生物、醫(yī)學(xué)的AI框架,包括加速計(jì)算庫(kù)cuPyNumeric、計(jì)算光刻庫(kù)cuLitho,軟件平臺(tái)cuOPT、醫(yī)學(xué)成像庫(kù)Monaiearth-2、加速量子計(jì)算的cuQuantum、稀疏直接求解器庫(kù)cuDSS、開發(fā)者框架WARP等。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

“我們已經(jīng)達(dá)到加速計(jì)算的臨界點(diǎn),CUDA讓這一切成為可能?!秉S仁勛談道。

據(jù)他分享,英偉達(dá)正在全面生產(chǎn)Blackwell,有十幾家企業(yè)已生產(chǎn)和部署B(yǎng)lackwell系統(tǒng)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

2025年,英偉達(dá)已經(jīng)向美國(guó)前四大云服務(wù)提供商售出超過360萬塊Blackwell GPU,相比去年銷售Hopper的數(shù)量高出3倍,去年Hopper銷售量為130萬塊。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

這些進(jìn)展得益于英偉達(dá)對(duì)計(jì)算架構(gòu)的根本性變革。

3年前的英偉達(dá)GPU尚未將NVLink獨(dú)立出來,導(dǎo)致單一系統(tǒng)體積和重量驚人,這代HGX系統(tǒng)8卡版本重達(dá)70磅,黃仁勛稱自己根本不可能將其舉起展示,而機(jī)架整體需要搭載4個(gè)8卡版本。這極大影響了數(shù)據(jù)中心的能效和可擴(kuò)展性。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

于是,英偉達(dá)決定將NVLink與GPU分離,以單獨(dú)的NVLink組件實(shí)現(xiàn)GPU間的全速通信。

分離后的系統(tǒng)采用了液冷技術(shù),這意味著系統(tǒng)的體積可以被進(jìn)一步壓縮,機(jī)柜中能裝下更多的系統(tǒng)。

原本的系統(tǒng)零件約有6萬個(gè),而升級(jí)后的系統(tǒng)零件達(dá)到了60萬個(gè),相當(dāng)于20輛汽車的零件數(shù)量。這一個(gè)機(jī)柜的算力就達(dá)到了1EFLOPS,由5000根線纜鏈接,線纜總長(zhǎng)達(dá)2英里。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

英偉達(dá)大費(fèi)周章將二者分離的原因,是為了實(shí)現(xiàn)極致的垂直擴(kuò)展(Scale-Up),也就是擴(kuò)展單一機(jī)柜的算力。在目前的制造工藝限制下,根本不可能造出單體包含130萬億顆晶體管的系統(tǒng)。

而這一極致的解決方案,最終是為了解決一個(gè)終極的計(jì)算問題——推理。

黃仁勛認(rèn)為,推理遠(yuǎn)沒有想象中的那么簡(jiǎn)單,需要做好成本與性能的完美平衡,這一平衡直接影響了服務(wù)質(zhì)量和盈利能力。

為了闡釋推理中的諸多考量因素,黃仁勛使用了一個(gè)坐標(biāo)系。x軸代表每秒生成的token數(shù)量,Y軸代表系統(tǒng)的總吞吐量。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

推理模型已經(jīng)證明,生成的token數(shù)量越多,模型的表現(xiàn)就越好。

現(xiàn)場(chǎng),黃仁勛演示了DeepSeek-R1和Llama 3.3 70B的對(duì)比。Llama這類非推理類模型雖然token用量更少,但回答質(zhì)量較低,而耗費(fèi)20倍token、150倍算力的推理模型,能對(duì)復(fù)雜問題給出高質(zhì)量的準(zhǔn)確回答。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

但如果生成的速度不理想,也會(huì)影響用戶使用服務(wù)的意愿,因此每秒生成的token數(shù)量需要盡可能高。數(shù)據(jù)中心還要盡可能地為更多用戶提供服務(wù),這樣才能最大化收益。

曲線右上方就是理想中的解決方案,能在保證服務(wù)質(zhì)量、服務(wù)規(guī)模的前提下,最大化收益。

為了實(shí)現(xiàn)效益最大化,需要儲(chǔ)備盡可能多的高速算力和配套系統(tǒng)。

七、上新數(shù)據(jù)中心、桌面、筆記本電腦GPU:RTX Pro Blackwell系列

英偉達(dá)今天還發(fā)布了RTX Pro Blackwell系列工作站和服務(wù)器GPU,提供加速計(jì)算、AI推理、光線追蹤和神經(jīng)網(wǎng)絡(luò)渲染技術(shù),使其數(shù)據(jù)中心GPU從桌面到移動(dòng)工作站提供動(dòng)力。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

英偉達(dá)RTX PRO Blackwell GPU特色包括:提供1.5倍吞吐量和新神經(jīng)網(wǎng)絡(luò)著色器的NVIDIA SM、性能翻倍的第四代RT核心、可提供4000 AI TOPS算力的第五代張量核心、更大更快的GDDR7內(nèi)存、第九代NVIDIA NVENC、第六代NVIDIA NVDEC、帶寬翻倍的第五代PCIe、DisplayPort 2.1、多實(shí)例GPU。

工作站和服務(wù)器GPU內(nèi)存高達(dá)96GB,筆記本電腦GPU內(nèi)存達(dá)到24GB,使應(yīng)用程序可更快運(yùn)行,并使用更大更復(fù)雜的數(shù)據(jù)集。

RTX PRO 6000數(shù)據(jù)中心和桌面GPU可將單GPU安全分區(qū)成最多4個(gè)實(shí)例,5000系列桌面GPU可將單GPU安全分區(qū)成兩個(gè)實(shí)例。

新品包括:

1、數(shù)據(jù)中心GPURTX PRO 6000 Blackwell服務(wù)器版,采用被動(dòng)冷卻熱設(shè)計(jì),每臺(tái)服務(wù)器最多可配置8塊GPU,可與NVIDIA vGPU軟件結(jié)合為虛擬化環(huán)境中的AI工作負(fù)載提供動(dòng)力,預(yù)計(jì)將在今年下半年推出。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

2、桌面GPURTX PRO 6000 Blackwell工作站版, RTX PRO 6000 Blackwell Max-Q工作站版, 將于4月起通過分銷合作伙伴提供,5月起由制造商提供;RTX PRO 5000 Blackwell,RTX PRO 4500 Blackwell,RTX PRO 4000 Blackwell,將從夏季通過分銷伙伴提供。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

3、筆記本電腦GPURTX PRO 5000 Blackwell,RTX PRO 4000 Blackwell,RTX PRO 3000 Blackwell,RTX PRO 2000 Blackwell,RTX PRO 1000 Blackwell,RTX PRO 500 Blackwell,將從今年晚些時(shí)候由戴爾、惠普、聯(lián)想、雷蛇開始提供。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

新筆記本電腦GPU還支持最新NVIDIA Blackwell Max-Q技術(shù),可智能且持續(xù)地優(yōu)化筆記本電腦性能和能效。

八、推出光電一體化封裝網(wǎng)絡(luò)交換機(jī),將AI工廠擴(kuò)展至數(shù)百萬GPU

隨著AI工廠發(fā)展到前所未有的規(guī)模,AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施也必須升級(jí)。英偉達(dá)將其光交換機(jī)稱作“世界上最先進(jìn)的網(wǎng)絡(luò)解決方案”。

英偉達(dá)今日發(fā)布全新共封裝(CPO)的NVIDIA Spectrum-X和Quantum-X硅光網(wǎng)絡(luò)交換機(jī),可將AI工廠擴(kuò)展到數(shù)百萬個(gè)GPU。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

與傳統(tǒng)方法相比,英偉達(dá)光交換機(jī)集成了光學(xué)創(chuàng)新,將激光器減少至1/4,每端口1.6Tb/s,可提供3.5倍的能效、63倍的信號(hào)完整性、10倍的大規(guī)模網(wǎng)絡(luò)彈性、1.3倍快的部署時(shí)間。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛談道,英偉達(dá)希望將以太網(wǎng)的水平提升至InfiniBand級(jí)別,這意味著更極致的擁塞控制、延遲控制。

NVIDIA硅光網(wǎng)絡(luò)交換機(jī)會(huì)被用于NVIDIA Spectrum-X Photonics以太網(wǎng)平臺(tái)和Quantum-X Photonics InfiniBand平臺(tái)。

相較傳統(tǒng)以太網(wǎng),Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)可為多租戶、超大規(guī)模AI工廠提供1.6倍的帶寬密度。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

如圖,Spectrum-X光交換機(jī)將在2026年推出,有多種配置,包括128個(gè)800Gb/s端口或512個(gè)200Gb/s端口,總帶寬可達(dá)到100Tb/s,以及512個(gè)800Gb/s或2048個(gè)200Gb/s端口,總吞吐量可達(dá)400Tb/s。

Quantum-X光交換機(jī)預(yù)計(jì)將在今年晚些時(shí)候上市,提供144個(gè)基于200Gb/s SerDes的800Gb/s InfiniBand端口,并采用液冷設(shè)計(jì)對(duì)板載硅光器件進(jìn)行高效散熱。其AI計(jì)算網(wǎng)的速度是上一代產(chǎn)品的2倍,擴(kuò)展性是上一代產(chǎn)品的5倍。

具體來看,Quantum-X光交換機(jī)的帶寬達(dá)到115.2Tb/s。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

搭載交換機(jī)管理模塊,并使用了液冷技術(shù)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

該系統(tǒng)搭載Quantum-X800 ASIC芯片,并配備6個(gè)光學(xué)子組件和18個(gè)硅光芯片引擎。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

Quantum-X800 ASIC的總吞吐量達(dá)到28.8Tb/s,采用臺(tái)積電4nm工藝,擁有1070億顆晶體管,網(wǎng)絡(luò)內(nèi)自帶3.6 TFLOPS FP8 SHARP算力。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

324個(gè)光學(xué)連接器串聯(lián)起這一系統(tǒng),總計(jì)有36個(gè)激光輸入和288個(gè)數(shù)據(jù)連接,內(nèi)置光纖管理功能。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

其中,光子組件是可拆卸的,每個(gè)組件擁有3個(gè)硅光芯片引擎,總吞吐量為4.8Tb/s。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

每個(gè)硅光芯片引擎擁有200GB/s的微光調(diào)制器,總吞吐量為1.6Tb/s,實(shí)現(xiàn)3.5倍節(jié)能。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

硅光芯片引擎采用臺(tái)積電6nm制程工藝,擁有2.2億顆晶體管,1000個(gè)集成的光學(xué)器件。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

這一系統(tǒng)還擁有多平面光學(xué)數(shù)據(jù)連接器,擁有1152個(gè)單模光纖。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

外部光源擁有8個(gè)集成激光系統(tǒng),具備自動(dòng)溫度檢測(cè)和波長(zhǎng)、能耗穩(wěn)定功能。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

上述部件的總和,便是下圖這一擁有4460億顆晶體管的龐大系統(tǒng)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

臺(tái)積電的硅光子解決方案結(jié)合了其在先進(jìn)芯片制造和臺(tái)積電SoIC 3D芯片堆疊方面的優(yōu)勢(shì),幫助英偉達(dá)釋放AI國(guó)產(chǎn)擴(kuò)展到百萬GPU甚至更多。

黃仁勛做了一個(gè)換算,這一系統(tǒng)的應(yīng)用能在單個(gè)數(shù)據(jù)中心中節(jié)省數(shù)十個(gè)Megawatts的能源,而60Megawatts就相當(dāng)于10臺(tái)Rubin Ultra機(jī)架的能耗。

九、物理AI與機(jī)器人:發(fā)人形機(jī)器人基礎(chǔ)模型,英偉達(dá)迪士尼DeepMind聯(lián)手

物理AI正在改變價(jià)值50萬億美元的行業(yè),在英偉達(dá)三臺(tái)計(jì)算機(jī)上構(gòu)建數(shù)十億個(gè)機(jī)器人。英偉達(dá)將機(jī)器人視作下一個(gè)數(shù)萬億美元產(chǎn)業(yè)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

物理AI也有三大Scaling Laws。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛宣布推出開源、預(yù)訓(xùn)練、可定制的Isaac GR00T N1人形機(jī)器人基礎(chǔ)模型,旨在加快人形機(jī)器人的開發(fā),已提前獲得該模型的公司包括波士頓動(dòng)力、Agility Robotics、Mentee Robotics、Neura Robotics等。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

英偉達(dá)與迪士尼研究院、谷歌DeepMind將合作開發(fā)開源物理引擎Newton。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛談道,物理AI和機(jī)器人技術(shù)發(fā)展得很快,但也面臨著和大模型同樣的挑戰(zhàn),就是如何獲得數(shù)據(jù)、如何擴(kuò)展讓機(jī)器人更聰明。

基于此,英偉達(dá)為Omniverse添加了兩項(xiàng)技術(shù)。

一是擴(kuò)展AI的生成能力和理解物理世界的生成模型,也就是Cosmos。Cosmos可以生成無限數(shù)量的環(huán)境數(shù)據(jù)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

二是,機(jī)器人的可驗(yàn)證回報(bào)是物理定律,因此需要設(shè)計(jì)用于模擬真實(shí)世界中的物理現(xiàn)象的物理引擎。這一物理引擎需要被設(shè)計(jì)用于訓(xùn)練觸覺反饋、精細(xì)運(yùn)動(dòng)技能和執(zhí)行器控制。也就是上面迪士尼機(jī)器人Blue已經(jīng)搭載的物理引擎。

在機(jī)器人開發(fā)中,英偉達(dá)Omniverse可以生成大量不同的合成數(shù)據(jù),開發(fā)人員根據(jù)不同領(lǐng)域聚合現(xiàn)實(shí)世界的傳感器和演示數(shù)據(jù),將原始捕獲的數(shù)據(jù)乘以大量照片級(jí)的多樣化數(shù)據(jù),然后使用Isaac Lab增強(qiáng)數(shù)據(jù)集對(duì)機(jī)器人策略進(jìn)行后訓(xùn)練,讓其通過模型放行為學(xué)習(xí)新技能。

實(shí)地測(cè)試中,開發(fā)人員使用Omniverse動(dòng)態(tài)模擬真實(shí)環(huán)境進(jìn)行測(cè)試?,F(xiàn)實(shí)世界的操作需要多個(gè)機(jī)器人協(xié)同工作,Mega和Omniverse允許開發(fā)人員大規(guī)模測(cè)試。

十、電信與汽車:為6G開發(fā)AI原生無線網(wǎng)絡(luò),發(fā)布全棧自動(dòng)駕駛安全系統(tǒng)

黃仁勛認(rèn)為,未來的AI不會(huì)限于云端,而將會(huì)無處不在。

要將加速計(jì)算帶到真實(shí)世界的每一個(gè)場(chǎng)景之中,不僅需要芯片和CUDA這樣的庫(kù),還需要為每個(gè)場(chǎng)景建立對(duì)應(yīng)的軟件棧——如企業(yè)、工廠、機(jī)器人、GPU云等應(yīng)用場(chǎng)景。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

英偉達(dá)認(rèn)為AI將對(duì)電信行業(yè)產(chǎn)生深遠(yuǎn)影響,6G網(wǎng)絡(luò)進(jìn)入倒計(jì)時(shí),下一個(gè)時(shí)代將是AI原生無線網(wǎng)絡(luò),包括用于無線電信號(hào)處理的AI/ML、神經(jīng)網(wǎng)絡(luò)模型。這將釋放頻譜效率的巨大收益。

現(xiàn)場(chǎng),黃仁勛宣布英偉達(dá)與Cisco、T-Mobile等幾家志同道合的電信龍頭合作,建立由AI驅(qū)動(dòng)的電信系統(tǒng),為6G開發(fā)AI原生無線網(wǎng)絡(luò),以NVIDIA AI Aerial平臺(tái)為基礎(chǔ),確保下一代無線網(wǎng)絡(luò)將是AI原生的。

其目標(biāo)是研究和開發(fā)一個(gè)AI原生、高光譜效率、開放和差異化的6G無線平臺(tái),在頻譜效率、電源效率、運(yùn)營(yíng)效率、安全性、成本效益、創(chuàng)收機(jī)會(huì)方面設(shè)置新基準(zhǔn),可用于全球部署。

隨后黃仁勛將話題轉(zhuǎn)向自動(dòng)駕駛。

他回憶道,當(dāng)初AlexNet的出現(xiàn),讓英偉達(dá)決定開始研究自動(dòng)駕駛技術(shù),一轉(zhuǎn)眼10年已逝,如今英偉達(dá)的產(chǎn)品幾乎出現(xiàn)在所有自動(dòng)駕駛汽車之中。

黃仁勛宣布,通用汽車將會(huì)成為英偉達(dá)最新的合作伙伴,在生產(chǎn)、設(shè)計(jì)、模擬和車機(jī)中應(yīng)用英偉達(dá)的AI技術(shù)。英偉達(dá)和通用汽車將協(xié)力為工廠和汽車構(gòu)建GM AI。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

自動(dòng)駕駛的時(shí)代已經(jīng)到來,但安全也是其中重要的一環(huán)。

對(duì)此,英偉達(dá)發(fā)布綜合全棧自動(dòng)駕駛安全系統(tǒng)NVIDIA Halos。英偉達(dá)自動(dòng)駕駛技術(shù)的全棧代碼將交由第三方進(jìn)行安全檢驗(yàn),確保這些技術(shù)能充分反映現(xiàn)實(shí)世界的多元性。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

英偉達(dá)的自動(dòng)駕駛模型采用蒸餾技術(shù)開發(fā)、表現(xiàn)較好但速度較慢的模型會(huì)逐漸將知識(shí)傳遞給表現(xiàn)尚未完善、但速度較快的模型。此外,有大量數(shù)據(jù)被轉(zhuǎn)換成了3D場(chǎng)景,可用于虛擬環(huán)境中的模擬。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

推理模型也被引入了自動(dòng)駕駛領(lǐng)域。

如今,在英偉達(dá)Omniverse和Cosmos中,自動(dòng)駕駛模型能從變化中學(xué)習(xí)并自我改進(jìn)。Cosmos能根據(jù)圖像建立現(xiàn)實(shí)世界的4D模型(包含圖像分割),并通過計(jì)算機(jī)模擬同一場(chǎng)景的不同狀況,比如雨天、雪天、夜晚等等,這將進(jìn)一步提升自動(dòng)駕駛模型的能力。

例如,在下方案例中,用戶輸入了一則指令,要求模型生成冬季城市環(huán)境中,一輛汽車打開雨刮器,左轉(zhuǎn)時(shí)的畫面。在經(jīng)過推理后,模型生成的畫面極為逼真,能作為高質(zhì)量數(shù)據(jù)加到自動(dòng)駕駛模型訓(xùn)練過程中。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

十一、下一波浪潮是物理AI,數(shù)據(jù)中心建設(shè)支出將達(dá)1萬億美元

黃仁勛回顧說,在開始研究GeForce 25年后,GeForce已經(jīng)在全球范圍內(nèi)售罄。GeForce將支持AI的CUDA帶向世界,現(xiàn)在AI徹底改變了計(jì)算機(jī)圖形學(xué)。

AI在10年間已經(jīng)取得了巨大進(jìn)步。2023年的重大突破是AI智能體(AI Agents),AI智能體可以對(duì)如何回答或者解決問題進(jìn)行推理、在任務(wù)中進(jìn)行規(guī)劃、理解多模態(tài)信息、從網(wǎng)站中的視頻中學(xué)習(xí)等,然后通過這些學(xué)到的學(xué)習(xí)來執(zhí)行任務(wù)。

下一波浪潮是物理AI,可以理解摩擦、慣性和因果關(guān)系,使機(jī)器人技術(shù)成為可能,開辟出新的市場(chǎng)機(jī)會(huì)。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

關(guān)于AI智能體和物理AI有幾個(gè)核心問題:一是如何解決數(shù)據(jù)問題,AI需要數(shù)據(jù)驅(qū)動(dòng),需要數(shù)據(jù)來學(xué)習(xí)、獲得知識(shí);二是如何解決訓(xùn)練問題,AI需要以超人的速度、以人類無法達(dá)到的規(guī)模進(jìn)行學(xué)習(xí);三是如何擴(kuò)展實(shí)現(xiàn)Scaling Law,如何找到一種算法讓AI更聰明。

這大大加快了目前所需的計(jì)算量。背后有兩個(gè)原因:

首先從AI可以做什么開始,AI可以逐步分解問題、以不同方式解決同樣問題、為答案進(jìn)行一致性檢查等。

當(dāng)AI基于思維鏈進(jìn)行一步步推理、進(jìn)行不同的路徑規(guī)劃時(shí),其不是生成一個(gè)token或一個(gè)單詞,而是生成一個(gè)表示推理步驟的單詞序列,因此生成的token數(shù)量會(huì)更多,甚至增加100倍以上。

三大AI Scaling Laws(預(yù)訓(xùn)練、后訓(xùn)練、測(cè)試時(shí))對(duì)計(jì)算提出指數(shù)級(jí)需求。隨著計(jì)算成本增加,需要全棧創(chuàng)新來降低成本/tokens。

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

黃仁勛解釋說,模型更復(fù)雜,生成的token多10倍,為了保證模型的響應(yīng)性和交互性,因此計(jì)算速度必須提高10倍。

其次是關(guān)于如何教AI。教會(huì)AI如何推理的兩個(gè)基本問題是數(shù)據(jù)從哪里來、如何不受限制學(xué)習(xí),答案就是強(qiáng)化學(xué)習(xí)。

人類歷史上已經(jīng)明確了二次方程的解法、數(shù)獨(dú)、勾股定理等諸多知識(shí),基于數(shù)百個(gè)這樣的案例可以生成數(shù)百萬個(gè)例子讓AI去解決,然后使用強(qiáng)化學(xué)習(xí)來獎(jiǎng)勵(lì)。這個(gè)過程中,AI需要處理數(shù)百萬個(gè)不同問題、進(jìn)行數(shù)百次嘗試,而每一次嘗試都會(huì)生成數(shù)萬個(gè)token,這些都加到一起,就會(huì)達(dá)到數(shù)萬億個(gè)token。

這兩件事帶來了巨大的計(jì)算挑戰(zhàn)。

AI變得更聰明,使得訓(xùn)練這些模型所需的計(jì)算量大幅增長(zhǎng)。黃仁勛預(yù)計(jì)2030年末,數(shù)據(jù)中心建設(shè)支出將達(dá)到1萬億美元

900倍性能飆漲!英偉達(dá)放出算力猛獸,黃仁勛GTC現(xiàn)場(chǎng)開炮,拿下DeepSeek推理世界紀(jì)錄

這背后的第一個(gè)動(dòng)態(tài)變化是,通用計(jì)算已經(jīng)用完,業(yè)界需要新的計(jì)算方式,世界將經(jīng)歷手動(dòng)編碼軟件到機(jī)器學(xué)習(xí)軟件的平臺(tái)轉(zhuǎn)變。

第二個(gè)變化是,人們?cè)絹碓秸J(rèn)識(shí)到軟件的未來需要大量投資。這是因?yàn)橛?jì)算機(jī)已經(jīng)成為token的生成器,基于生成式的計(jì)算構(gòu)建AI工廠,然后在AI工廠里生成tokens并重組為音樂、文字、視頻、化學(xué)品等各種類型的信息。

目前,拐點(diǎn)正在全球數(shù)據(jù)中心的建設(shè)中發(fā)生。

結(jié)語(yǔ):AI行業(yè)風(fēng)向標(biāo)火爆開場(chǎng),黃仁勛或驚喜現(xiàn)身夜市

作為AI行業(yè)風(fēng)向標(biāo),英偉達(dá)GTC 2025大會(huì)將舉辦超過1000場(chǎng)會(huì)議、匯聚2000名演講嘉賓和近400家參展商,涵蓋大語(yǔ)言模型、物理AI、云計(jì)算、科學(xué)發(fā)現(xiàn)、氣候研究、醫(yī)療健康、網(wǎng)絡(luò)安全、人形機(jī)器人、自動(dòng)駕駛等主題,并將舉辦首屆量子日,將匯集全球量子計(jì)算界和業(yè)內(nèi)重要人物,與黃仁勛共同探討量子計(jì)算的現(xiàn)狀和未來。

現(xiàn)場(chǎng)參會(huì)者還能體驗(yàn)各種精心策劃的活動(dòng),包括數(shù)十場(chǎng)覆蓋各個(gè)行業(yè)的演示、實(shí)戰(zhàn)培訓(xùn)、自動(dòng)駕駛汽車展覽和試駕,還有集結(jié)20家當(dāng)?shù)毓?yīng)商和手藝人制作的小吃和商品的GTC夜市,盲猜一波酷愛逛夜市的黃仁勛會(huì)驚喜現(xiàn)身。

智東西/芯東西將持續(xù)放送更多GTC 2025現(xiàn)場(chǎng)報(bào)道,敬請(qǐng)關(guān)注。