智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 心緣

智東西美國圣何塞3月18日現(xiàn)場報道,時隔5年,全球頂尖AI計算技術(shù)盛會、年度NVIDIA GTC大會重磅回歸線下,就在剛剛,英偉達創(chuàng)始人兼CEO黃仁勛發(fā)表長達123分鐘的主題演講,發(fā)布AI芯片最新震圈之作——Blackwell GPU,智東西受邀參會并從現(xiàn)場發(fā)來完整的干貨報道。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

在這場大會上,英偉達展現(xiàn)出堪稱恐怖的行業(yè)號召力,將AI圈的頂尖技術(shù)大牛和行業(yè)精英匯聚在一起?,F(xiàn)場盛況空前,線下參會者逾萬人。智東西此行遇到許多來自國內(nèi)的參展商或觀眾,明顯感受到國內(nèi)企業(yè)和開發(fā)者對這場AI盛會的熱情。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

當?shù)貢r間3月18日13點,北京19日凌晨4點,GTC最重磅的主題演講正式開始,在播放一段AI主題短片后,黃仁勛穿著標志性的黑色皮衣從圣何塞SAP中心場館主舞臺登場,與觀眾寒暄。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

他首先回顧了英偉達30年來追求加速計算旅程的開端,歷數(shù)研發(fā)革命性計算模式CUDA、將首臺AI超級計算機DGX交給OpenAI等一系列里程碑事件,然后將話題自然地聚焦到生成式AI上。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

在宣布與多家EDA龍頭的重要合作伙伴關系后,他談到快速演進的AI模型帶動訓練算力需求暴漲,需要更大的GPU,“加速計算已達到臨界點,通用計算已失去動力”,“在每一個行業(yè),加速計算都比通用計算有了巨大的提升”。

緊接著,大屏幕上過電影般快速閃現(xiàn)從GPU、超級芯片到超級計算機、集群系統(tǒng)的一系列關鍵組件,然后黃仁勛重磅宣布:全新旗艦AI芯片Blackwell GPU,來了!

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

這是GPGPU領域最新的震圈之作,從配置到性能都將前輩Hopper GPU拍倒在沙灘上。他舉起雙手展示了Blackwell和Hopper GPU的對比,Blackwell GPU明顯大了一圈。

畢竟手心手背都是肉,對比完后,黃仁勛馬上開始安慰:“It’s OK, Hopper. You’re very good, good boy, or good girl.”

但也不能怪老黃喜新厭舊,因為Blackwell的性能,實在是太強了!無論是FP8,還是全新的FP6、FP4精度,以及HBM能塞下的模型規(guī)模和HBM帶寬,都做到“倍殺”前代Hopper。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

8年,從Pascal架構(gòu)到Blackwell架構(gòu),英偉達將AI計算性能提升了1000倍!

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

這還只是開胃小菜,黃仁勛真正的“胃口”,是打造足以優(yōu)化萬億參數(shù)級GPU計算的最強AI基礎設施。

總體來看,英偉達在本屆GTC大會上連發(fā)6個大招:

1、發(fā)布Blackwell GPU:訓練性能提升至2.5倍,F(xiàn)P4精度推理性能提升至前代FP8的5倍;升級第五代NVLink,互連速度是Hopper的2倍,可擴展到576個GPU,能夠解決萬億參數(shù)混合專家模型通信瓶頸。

2、Blackwell平臺“全家桶”登場:既面向萬億參數(shù)級GPU計算優(yōu)化,推出全新網(wǎng)絡交換機X800系列,吞吐量高達800Gb/s;又發(fā)布GB200超級芯片、GB200 NVL72系統(tǒng)、DGX B200系統(tǒng)、新一代DGX SuperPOD AI超級計算機。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

3、推出數(shù)十個企業(yè)級生成式AI微服務,提供一種封裝和交付軟件的新方式,方便企業(yè)和開發(fā)者用GPU部署各種定制AI模型。

4、宣布臺積電、新思科技將突破性的光刻計算平臺cuLitho投入生產(chǎn):cuLitho將計算光刻加速40-60倍,并采用了增強的生成式AI算法,將為2nm及更先進制程開發(fā)提供“神助攻”。

5、發(fā)布人形機器人基礎模型Project GR00T、新款人形機器人計算機Jetson Thor,對Isaac機器人平臺進行重大升級,推動具身智能突破。黃仁勛還將一對來自迪士尼研究公司的小型英偉達機器人帶上臺互動。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

6、與蘋果強強聯(lián)手,將Omniverse平臺引入蘋果Vision Pro,并宣布為工業(yè)數(shù)字孿生軟件工具提供Omniverse Cloud API。

不過或許是被預期到的內(nèi)容太多,市場情緒并沒有被刺激到瘋長。截至美股收盤,英偉達最新股價為884.55美元/股,漲幅0.70%,最新市值為22114億美元。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

一、AI芯片新皇登場:2080億顆晶體管,2.5倍訓練性能、5倍推理性能

進入生成式AI新紀元,AI計算需求爆發(fā)式增長,而一路演進的英偉達GPU憑借傲視群雄的實戰(zhàn)算力,令全球AI行業(yè)患上“英偉達GPU饑渴癥”,一眾AI巨頭重金難買黃仁勛點頭。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

當Hopper GPU還是AI競賽爭搶的重點資源,超越它的繼任者——Blackwell GPU正式發(fā)布!

每一代英偉達GPU架構(gòu)都會以一位科學家的名字來命名。新架構(gòu)取名Blackwell是為了致敬美國科學院首位黑人院士、杰出統(tǒng)計學家兼數(shù)學家David Blackwell。Blackwell擅長將復雜的問題簡單化,他獨立發(fā)明的“動態(tài)規(guī)劃”、“更新定理”被廣泛多個科學及工程學領域。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR▲David Blackwell舊照

黃仁勛說,生成式AI是這個時代的決定性技術(shù),Blackwell是推動這場新工業(yè)革命的引擎。

Blackwell GPU有6大核心技術(shù):

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

1、號稱是“世界最強大的芯片”集成2080億顆晶體管,采用定制臺積電4NP工藝,承襲“拼裝芯片”的思路,采用統(tǒng)一內(nèi)存架構(gòu)+雙芯配置,將2個受光刻模板(reticle)限制的GPU die通過10TB/s芯片間NVHyperfuse接口連一個統(tǒng)一GPU,共有192GB HBM3e內(nèi)存8TB/s顯存帶寬,單卡AI訓練算力可達20PFLOPS

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

跟上一代Hopper相比,Blackwell因為集成了兩個die,面積變大,比Hopper GPU足足多了1280億個晶體管。對比之下,前代H100只有80GB HBM3內(nèi)存、3.35TB/s帶寬,H200有141GB HBM3e內(nèi)存、4.8TB/s帶寬。

2、第二代Transformer引擎:將新的微張量縮放支持和先進的動態(tài)范圍管理算法與TensorRT-LLM和NeMo Megatron框架結(jié)合,使Blackwell具備在FP4精度的AI推理能力,可支持2倍的計算和模型規(guī)模,能在將性能和效率翻倍的同時保持混合專家模型的高精度。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

在全新FP4精度下,Blackwell GPU的AI性能達到Hopper的5倍。英偉達并未透露其CUDA核心的性能,有關架構(gòu)的更多細節(jié)還有待揭曉。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

3、第五代NVLink:為了加速萬億參數(shù)和混合專家模型的性能,新一代NVLink為每個GPU提供1.8TB/s雙向帶寬,支持多達576個GPU間的無縫高速通信,適用于復雜大語言模型。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

單顆NVLink Switch芯片有500億顆晶體管,采用臺積電4NP工藝,以1.8TB/s連接4個NVLink。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

4、RAS引擎:Blackwell GPU包括一個確??煽啃?、可用性、可維護性的專用引擎,還增加了芯片級功能,可利用基于AI的預防性維護來進行診斷和預測可靠性問題,最大限度延長系統(tǒng)的正常運行時間,提高大規(guī)模AI部署的彈性,一次可不間斷地運行數(shù)周甚至數(shù)月,并降低運營成本。

5、安全AI:先進的機密計算功能可保護AI模型和客戶數(shù)據(jù),而不會影響性能,支持新的本地接口加密協(xié)議。

6、解壓縮引擎:支持最新格式,加速數(shù)據(jù)庫查詢,以提供數(shù)據(jù)分析和數(shù)據(jù)科學的最高性能。

AWS、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI都將采用Blackwell產(chǎn)品。特斯拉和xAI共同的CEO馬斯克直言:“目前在AI領域,沒有比英偉達硬件更好的?!?/p>

值得注意的是,相比以往強調(diào)單芯片的性能表現(xiàn),此次Blackwell系列發(fā)布更側(cè)重在整體系統(tǒng)性能,并對GPU代號稱謂模糊,大部分都統(tǒng)稱為“Blackwell GPU”。

按此前市場傳言,B100價格可能大約是3萬美元,B200售價約為3.5萬美元,這樣來算,價格只比前代提升不到50%,訓練性能卻提高2.5倍,性價比明顯更高。

如果定價漲幅不大,Blackwell系列GPU的市場競爭力將強到可怕,性能提升足夠兇猛,性價比相較上一代Hopper變更高,這讓同行怎么打?

二、面向萬億參數(shù)級GPU計算優(yōu)化,推出全新網(wǎng)絡交換機、AI超級計算機

Blackwell平臺除了基礎的HGX B100外,還包括NVLink Switch、GB200超級芯片計算節(jié)點、X800系列網(wǎng)絡交換機。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

其中,X800系列是專為大規(guī)模AI量身訂制的全新網(wǎng)絡交換機,以支持新型AI基礎設施輕松運行萬億參數(shù)級生成式AI業(yè)務。

英偉達Quantum-X800 InfiniBand網(wǎng)絡和Spectrum-X800以太網(wǎng)絡是全球首批端到端吞吐量高達800Gb/s的網(wǎng)絡平臺,交換帶寬容量較前代產(chǎn)品提高5倍,網(wǎng)絡計算能力通過英偉達第四代SHARP技術(shù)提高了9倍,網(wǎng)絡計算性能達到14.4TFLOPS。早期用戶有微軟Azure、甲骨文云基礎設施、Coreweave等。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

Spectrum-X800平臺專為多租戶環(huán)境打造,可實現(xiàn)每個租戶的AI工作負載的性能隔離,為生成式AI云和大型企業(yè)級用戶帶來優(yōu)化的網(wǎng)絡性能。

同時,英偉達提供網(wǎng)絡加速通信庫、軟件開發(fā)套件和管理軟件等全套軟件方案。

英偉達稱GB200 Grace Blackwell超級芯片是為萬億參數(shù)規(guī)模生成式AI設計的處理器。該芯片通過900GB/s第五代NVLink-C2C互連技術(shù)將2個Blackwell GPU連接到1個英偉達Grace CPU。但英偉達并沒有明確Blackwell GPU的具體型號。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

黃仁勛拿起GB200超級芯片展示,說這是同類計算機中第一個做到在這么小空間里容納如此多的計算,因此內(nèi)存相連,它們“就像個快樂的大家庭,一起開發(fā)一個應用程序”。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

一個GB200超級芯片計算節(jié)點可內(nèi)置2個GB200超級芯片。一個NVLink交換機節(jié)點可支持2個NVLink交換機,總帶寬達到14.4TB/s。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

一個Blackwell計算節(jié)點包含2個Grace CPU和4個Blackwell GPU,AI性能達到80PFLOPS。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

有了更強的GPU和網(wǎng)絡性能,黃仁勛宣布推出一款全新計算單元——多節(jié)點、液冷、機架級系統(tǒng)英偉達GB200 NVL72

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

GB200 NVL72像一個“巨型GPU”,能像單卡GPU一樣運作,AI訓練性能達到720PFLOPS,AI推理性能高達1.44EFLOPS,擁有30TB快速顯存,可處理高達27萬億個參數(shù)的大語言模型,是最新DGX SuperPOD的構(gòu)建模塊。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

GB200 NVL72可組合36個GB200超級芯片(共有72個B200 GPU和36個Grace CPU),通過第五代NVLink互連,還包括BlueField-3 DPU。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

黃仁勛說,目前全球只有幾臺EFLOPS級的機器,這臺機器由60萬個零件組成,重達3000磅,是一個“在單個機架上的EFLOPS AI系統(tǒng)”。

據(jù)他分享,以前用H100訓練GPT-MoE-1.8T大模型需要90天、消耗大約8000個GPU、15MW的電力。而現(xiàn)在用GB200 NVL72只需要2000個GPU、4MW的電力。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

在跑萬億參數(shù)模型時,GB200經(jīng)過多維度的優(yōu)化,單個GPU每秒Tokens吞吐量能多達H200 FP8精度的30倍。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

對于大語言模型推理,與相同數(shù)量的H100相比,GB200 NVL72可提供30倍的性能提升,并將成本和能耗降低為前代的1/25。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

AWS、谷歌云、微軟Azure、甲骨文云基礎設施等主流云均支持訪問GB200 NVL72。

此外,英偉達推出用于AI模型訓練、微調(diào)和推理的統(tǒng)一AI超級計算平臺DGX B200系統(tǒng)

DGX B200系統(tǒng)是DGX系列的第六代產(chǎn)品,采用風冷傳統(tǒng)機架式設計,包括8個B200 GPU、2個第五代英特爾至強處理器,在FP4精度下可提供144PFLOPS的AI性能、1.4TB超大容量GPU顯存、64TB/s顯存帶寬,能使萬億參數(shù)模型的實時推理速度快至上一代的15倍

該系統(tǒng)包含帶有8個ConnectX-7網(wǎng)卡和2個BlueField-3 DPU的先進網(wǎng)絡,每個連接帶寬高達400Gb/s,可通過Quantum-2 InfiniBand和Spectrum-X以太網(wǎng)網(wǎng)絡平臺提供更高AI性能。

英偉達還推出了采用DGX GB200系統(tǒng)的下一代數(shù)據(jù)中心級AI超級計算機DGX SuperDOD,可滿足處理萬億參數(shù)模型,確保超大規(guī)模生成式AI訓練和推理工作負載的持續(xù)運行。

新一代DGX SuperPOD由8個或更多DGX GB200系統(tǒng)構(gòu)建而生,具有全新高效液冷機架級擴展架構(gòu),在FP4精度下可提供11.5EFLOPS的AI算力和240TB快速顯存,并能通過機架來擴展性能。

每個DGX GB200系統(tǒng)有36個GB200超級芯片。與H100相比,GB200超級芯片在跑大語言模型推理的性能可提升高達45倍。

黃仁勛說,未來數(shù)據(jù)中心將被認為是AI工廠,整個行業(yè)都在為Blackwell做準備。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

三、推出數(shù)十個企業(yè)級生成式AI微服務,方便企業(yè)定制和部署Copilots

硬件是殺手锏,軟件則是護城河。

今天,英偉達繼續(xù)擴大憑借CUDA和生成式AI生態(tài)積累的優(yōu)勢,推出數(shù)十個企業(yè)級生成式AI微服務,以便開發(fā)者在英偉達CUDA GPU安裝基礎上創(chuàng)建和部署生成式AI Copilots。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

黃仁勛說,生成式AI改變了應用程序編程方式,企業(yè)不再編寫軟件,而是組裝AI模型,指定任務,給出工作產(chǎn)品示例,審查計劃和中間結(jié)果。

英偉達NIM是英偉達推理微服務的參考,是由英偉達的加速計算庫和生成式AI模型構(gòu)建的。微服務支持行業(yè)標準的API,在英偉達大型CUDA安裝基礎上工作,并針對新的GPU進行優(yōu)化。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

企業(yè)可使用這些微服務在自己的平臺上創(chuàng)建和部署自定義應用程序,同時保留對其知識產(chǎn)權(quán)的完全所有權(quán)和控制權(quán)。NIM微服務提供由英偉達推理軟件支持的預構(gòu)建生產(chǎn)AI容器,使開發(fā)人員能夠?qū)?span style="color: #0f59a4;">部署時間從幾周縮短到幾分鐘。

NIM微服務可用于部署來自英偉達、AI21、Adept、Cohere、Getty Images、Shutterstock的模型,以及來自谷歌、Hugging Face、Meta、微軟、Mistral AI、Stability AI的開放模型。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

用戶將能夠訪問來自亞馬遜SageMaker、谷歌Kubernetes引擎和微軟Azure AI的NIM微服務,并與Deepset、LangChain和LlamaIndex等流行AI框架集成。

為加速AI應用,企業(yè)可使用CUDA-X微服務,包括定制語音和翻譯AI的英偉達Riva、用于路徑優(yōu)化的英偉達cuOpt、用于高分辨率氣候和天氣模擬的英偉達Earth-2等。一系列用于定制模型開發(fā)的英偉達NeMo微服務即將推出。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

開發(fā)者可在ai.nvidia.com免費試用英偉達微服務。企業(yè)可使用英偉達AI Enterprise 5.0部署生產(chǎn)級NIM微服務。

四、推生成式AI算法,聯(lián)手兩大芯片界頂流,英偉達要掀起光刻計算新革命!

在去年的GTC大會上,英偉達面向芯片制造行業(yè)甩出一項秘密研發(fā)4年的大招:通過突破性的光刻計算庫cuLitho,將計算光刻加速40-60倍,加速突破生產(chǎn)2nm及更先進芯片的物理極限。(黃仁勛向臺積電放核彈!干掉40000臺CPU服務器,計算光刻提速40倍

這個項目的合作者,都是芯片產(chǎn)業(yè)鏈最鼎盛的存在——全球最大AI芯片巨頭英偉達、全球最大晶圓代工商臺積電、全球最大EDA巨頭新思科技。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

計算光刻技術(shù)是芯片制造的基石。今天,在cuLitho加速流程的基礎上,通過生成式AI算法將工作流的速度又提升了2倍

具體來說,晶圓廠工藝的許多變化需修正OPC(光學鄰近校正),會增加計算量,造成開發(fā)瓶頸。cuLitho提供的加速計算和生成式AI則能緩解這些問題。應用生成式AI可創(chuàng)建近乎完美的反掩?;蛳蚪鉀Q方案來解決光衍射問題,然后再通過傳統(tǒng)的物理嚴格方法推導出最終的光掩模,從而將整個OPC過程加快2倍。

在芯片制造過程中,計算光刻是計算最密集的工作負載,每年在CPU上消耗數(shù)百億小時。相比基于CPU的方法,基于GPU加速計算光刻的庫cuLitho能夠大大改進了芯片制造工藝。

通過加速計算,350個英偉達H100系統(tǒng)可取代40000個CPU系統(tǒng),大幅提高了吞吐量,加快生產(chǎn),降低成本、空間和功耗。

“我們正在將英偉達cuLitho在臺積電投入生產(chǎn)?!迸_積電總裁魏哲家說,雙方合作將GPU加速計算整合到臺積電的工作流程中,實現(xiàn)了性能的巨大飛躍。在共享工作流程上測試cuLitho時,兩家公司共同實現(xiàn)了曲線流程45倍的加速以及傳統(tǒng)曼哈頓流程近60倍的改進。

五、全新人形機器人基礎模型、計算機來了!?Isaac機器人平臺重大更新

除了生成式AI,英偉達還相當看好具身智能,并發(fā)布了人形機器人通用基礎模型Project GR00T、基于Thor SoC的新型人形機器人計算機Jetson Thor

黃仁勛說:“開發(fā)通用人形機器人基礎模型是當今AI領域中最令人興奮的課題之一?!?/p>

GR00T驅(qū)動的機器人能理解自然語言,并通過觀察人類行為來模仿快速學習協(xié)調(diào)、靈活性和其它技能,以適應現(xiàn)實世界并與之互動。黃仁勛展示了多臺這樣的機器人是如何完成各種任務的。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

Jetson Thor具有針對性能、功耗和尺寸優(yōu)化的模塊化架構(gòu)。該SoC包括一個帶有Transformer引擎的下一代Blackwell GPU,以運行GR00T等多模態(tài)生成式AI模型。

英偉達正為領先的人形機器人公司開發(fā)一個綜合的AI平臺,如1X、Agility Robotics、Apptronik、波士頓動力、Figure AI、傅利葉智能、Sanctuary AI、宇樹科技和小鵬鵬行等。

此外,英偉達對Isaac機器人平臺進行了重大升級,包括生成式AI基礎模型和仿真工具、AI工作流基礎設施。新功能將在下個季度推出。

英偉達還發(fā)布了一系列機器人預訓練模型、庫和參考硬件。比如Isaac Manipulator,為機械臂提供了靈活性和模塊化AI功能,以及一系列基礎模型和GPU加速庫;Isaac Perceptor,提供了先進的多攝像頭、3D重建、深度感知等功能。

六、Omniverse平臺新進展:挺進蘋果Vision Pro,發(fā)布云API

英偉達宣布將Omniverse平臺引入蘋果Vision Pro。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

面向工業(yè)數(shù)字孿生應用,英偉達將以API形式提供Omniverse Cloud。開發(fā)人員可借助該API將交互式工業(yè)數(shù)字孿生流傳輸?shù)絍R頭顯中。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

通過使用API,開發(fā)者能輕松地將Omniverse的核心技術(shù)直接集成到現(xiàn)有的數(shù)字孿生設計與自動化軟件應用中,或是集成到用于測試和驗證機器人或自動駕駛汽車等自主機器的仿真工作流中。

黃仁勛相信所有制造出來的產(chǎn)品都將擁有數(shù)字孿生,Omniverse是一個可以構(gòu)建并操作物理真實的數(shù)字孿生的操作系統(tǒng)。他認為:“Omniverse和生成式AI都是將價值高達50萬億美元的重工業(yè)市場進行數(shù)字化所需的基礎技術(shù)。”

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

5款全新Omniverse Cloud API既可單獨使用,又可組合使用:USD Render(生成OpenUSD數(shù)據(jù)的全光線追蹤RTX渲染),USD Write(讓用戶能夠修改OpenUSD數(shù)據(jù)并與之交互),USD Query(支持場景查詢和交互式場景),USD Notify(追蹤USD變化并提供更新信息),Omniverse Channel(連接用戶、工具和世界,實現(xiàn)跨場景協(xié)作)。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

Omniverse Cloud API將于今年晚些時候在微軟Azure上以英偉達A10 GPU上的自托管API,或是部署在英偉達OVX上的托管服務的形式提供。

結(jié)語:重頭戲結(jié)束了,但好戲才剛剛開始

除了上述重要發(fā)布外,黃仁勛還在演講中分享了這些進展:

在電信領域,英偉達推出6G研究云平臺,這是一個生成式AI和Omniverse驅(qū)動的平臺,旨在推進無線通信技術(shù)開發(fā)。

英偉達的地球氣候數(shù)字孿生云平臺Earth-2現(xiàn)已可用,可實現(xiàn)交互式高分辨率模擬,以加速氣候和天氣預測。

黃仁勛認為,AI的最大影響將是在醫(yī)療健康領域,英偉達已經(jīng)在成像系統(tǒng)、基因測序儀器和與領先的手術(shù)機器人公司合作,并正在推出一種新型生物軟件。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

在汽車行業(yè),全球最大的自動駕駛汽車公司比亞迪未來電動汽車將搭載英偉達采用Blackwell架構(gòu)新一代自動駕駛汽車(AV)處理器DRIVE Thor。DRIVE Thor預計最早將于明年開始量產(chǎn),性能高達1000TFLOPS。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

黃仁勛說:“英偉達的靈魂是計算機圖形學、物理學和人工智能的交集?!痹谘葜v結(jié)束時,他劃了5個重點:新工業(yè)、Blackwell平臺、NIM微服務、NEMO和AI代工廠、Omniverse和Isaac機器人。

黃仁勛甩出最強AI核彈!GPU新架構(gòu)性能暴漲30倍,首發(fā)人形機器人大模型,聯(lián)手蘋果闖MR

今天,英偉達再度刷新AI硬件和軟件天花板,并帶來了一場圍繞AI、大模型、元宇宙、機器人、智能駕駛、醫(yī)療健康、量子計算等前沿科技的饕餮盛宴。

黃仁勛的主題演講無疑是GTC大會的重頭戲,但對于現(xiàn)場和遠程的參會者來說,精彩才剛剛拉開序幕!接下來,超1000場圍繞英偉達最新進展以及熱門前沿技術(shù)的演講、對話、培訓和圓桌討論將展開。多位參會觀眾表達了對“分身乏術(shù)”的無奈,他們不得不在有限的時間里精挑細選,忍痛割愛,沒法一口氣參與所有感興趣的內(nèi)容。

作為AI產(chǎn)業(yè)的重要風向標,GTC 2024為技術(shù)交流搭建了一個空前盛大的平臺,期間的新品發(fā)布和技術(shù)分享有望給學術(shù)研究和相關產(chǎn)業(yè)鏈帶來積極影響。新一代Blackwell架構(gòu)的更多技術(shù)細節(jié)還有待進一步挖掘。智東西和芯東西將從現(xiàn)場持續(xù)發(fā)來一手報道,敬請關注。