最新av男人的天堂,四虎国产精品久久久久,国产在线精品亚洲另类

芯東西（公眾號(hào)：aichip001）
作者 |? 程茜
編輯 |? Panken

芯東西2月24日消息，2月20日，加拿大神秘AI芯片創(chuàng)企Taalas浮出水面：宣布總?cè)谫Y額已超2億美元（約合人民幣14億元）、推出首款可為任意模型定制芯片的平臺(tái)HC1，首款產(chǎn)品由24人團(tuán)隊(duì)打造，共花費(fèi)3000萬(wàn)美元（約合人民幣2.1億元）。

Taalas成立于2023年8月，其技術(shù)路線(xiàn)特立獨(dú)行：無(wú)需軟件而是將模型結(jié)構(gòu)、參數(shù)與權(quán)重深度直接固化于硬件之中。其推出的產(chǎn)品就是集成了Meta Llama 3.1 8B模型的HC1平臺(tái)。

24人打造的6nm AI芯片火了！比B200快48倍，30塊能跑DeepSeek滿(mǎn)血版

一夜之間，Taalas的產(chǎn)品刷屏硅谷，社交平臺(tái)網(wǎng)友紛紛開(kāi)啟實(shí)測(cè)，并稱(chēng)其性能驚人、將給英偉達(dá)GPU帶來(lái)巨大挑戰(zhàn)。

HC1采用臺(tái)積電6nm制程，芯片面積與英偉達(dá)H100芯片相當(dāng)，為815平方毫米。HC1芯片可以將整個(gè)8B版本的Llama 3.1模型集成到單個(gè)芯片上。

Taalas還模擬了DeepSeek R1-671B的多芯片解決方案，其存儲(chǔ)整個(gè)671B模型采用了大約30個(gè)定制芯片，模擬結(jié)果表明，DeepSeek R1-671B每用戶(hù)每秒可生成約12000個(gè)token；Llama 3.1單個(gè)用戶(hù)的生成速度可達(dá)17000 token/秒，速度接近Cerebras推理平臺(tái)的10倍，英偉達(dá)H200的73倍、B200的48倍，構(gòu)建成本為Cerebras現(xiàn)有方案的1/20、功耗僅為1/10。

24人打造的6nm AI芯片火了！比B200快48倍，30塊能跑DeepSeek滿(mǎn)血版

Taalas創(chuàng)始人兼CEO柳比薩·巴吉克（Ljubisa Bajic）曾任職AMD集成電路設(shè)計(jì)與架構(gòu)總監(jiān)、英偉達(dá)高級(jí)架構(gòu)師。他2016年創(chuàng)立AI芯片公司Tenstorrent，2023年將其交接給Jim Keller（吉姆·凱勒）后，又創(chuàng)辦了Taalas。

Taalas的另外兩位創(chuàng)始人是巴吉克的妻子、曾在AMD擔(dān)任系統(tǒng)工程高級(jí)經(jīng)理的萊拉·巴吉克（Lejla Bajic）以及曾在AMD擔(dān)任高級(jí)設(shè)計(jì)工程師、在Tenstorrent擔(dān)任工程師的德拉貢·伊格（Drago Ignjatovic）。

不過(guò)在社交平臺(tái)上，有不少用戶(hù)吐槽：Taalas的產(chǎn)品確實(shí)快，但錯(cuò)誤率過(guò)高。芯東西提問(wèn)了“9.9和9.11比大小”以及經(jīng)典的雞兔同籠題目，該模型分別在0.001秒、0.017秒內(nèi)給出了錯(cuò)誤答案。

24人打造的6nm AI芯片火了！比B200快48倍，30塊能跑DeepSeek滿(mǎn)血版

▲社交平臺(tái)X上網(wǎng)友評(píng)論（左、中），芯東西實(shí)際體驗(yàn)截圖（右）

巴吉克稱(chēng)，Taalas的極端方案可能很適合某些特定應(yīng)用，本質(zhì)是找到追求經(jīng)濟(jì)效益和速度而犧牲靈活性的方法。

Taalas還透露了下一步計(jì)劃，他們將基于HC1為第二款中等規(guī)模的推理模型打造芯片，該模型預(yù)計(jì)于今年春季在實(shí)驗(yàn)室完成流片，并很快集成至其推理服務(wù)中；隨后，該公司將基于第二代芯片平臺(tái)HC2推出新大語(yǔ)言模型，HC2將提供更高的算力密度與更快的執(zhí)行速度，計(jì)劃在今年冬季正式部署。

體驗(yàn)地址：https://chatjimmy.ai/chats/648a53af-eb3f-4f81-a604-69e3dcec69ae

一、極致性?xún)r(jià)比，30顆芯片模擬部署DeepSeek R1

2月20日，Taalas正式推出首款芯片平臺(tái)HC1，該平臺(tái)已集成Meta Llama 3.1 8B模型，用于聊天機(jī)器人演示與推理API服務(wù)。

其官方博客提到，基于HC1，Llama 3.1單個(gè)用戶(hù)的生成速度可達(dá)17000個(gè)token/秒，速度接近Cerebras推理平臺(tái)的10倍，構(gòu)建成本為Cerebras現(xiàn)有方案的1/20，功耗為1/10。

Taalas發(fā)布了HC1集成Llama 3.1 8B的免費(fèi)試用鏈接。芯東西提出的需求是“請(qǐng)?jiān)敿?xì)提供1960年至1972年阿波羅計(jì)劃逐年的完整歷史，包括任務(wù)目標(biāo)、技術(shù)挑戰(zhàn)、核心人員、飛行里程碑與科學(xué)發(fā)現(xiàn)。”Llama 3.1僅0.078秒就輸出了答案，每秒可輸出15694個(gè)token，其輸出內(nèi)容對(duì)關(guān)鍵分類(lèi)進(jìn)行了羅列。

24人打造的6nm AI芯片火了！比B200快48倍，30塊能跑DeepSeek滿(mǎn)血版

根據(jù)Taalas發(fā)布的成本與延遲對(duì)比數(shù)據(jù)，基于Taalas的芯片方案，Llama 3.1 8B的推理查詢(xún)成本為每百萬(wàn)token 0.75美分（約合人民幣0.052元），DeepSeek R1的成本為每百萬(wàn)token 7.6美分（約合人民幣0.53元）。

相比之下，Llama 3.1 8B在GPU吞吐量?jī)?yōu)化方案上的成本為每百萬(wàn)token 3.79美分（約合人民幣0.26元），DeepSeek R1為20.2美分（約合人民幣1.4元），延遲優(yōu)化方案中，Llama 3.1 8B的成本為28.61美分（約合人民幣2元），DeepSeek R1為49美分（約合人民幣3.37元）。

24人打造的6nm AI芯片火了！比B200快48倍，30塊能跑DeepSeek滿(mǎn)血版

可以看出，Taalas在token生成成本、延遲上相較英偉達(dá)GPU效果都更好，尤其在參數(shù)規(guī)模更小的模型上更是實(shí)現(xiàn)了數(shù)量級(jí)的領(lǐng)先。

該公司的第一代芯片平臺(tái)HC1采用了自定義的3位基礎(chǔ)數(shù)據(jù)類(lèi)型，這是因?yàn)樗麄冊(cè)谶M(jìn)行研發(fā)設(shè)計(jì)時(shí)，低精度參數(shù)格式尚未形成標(biāo)準(zhǔn)。

集成Llama時(shí)，Taalas還采用了激進(jìn)的量化方案，混合使用3位與6位參數(shù)，相較于GPU基準(zhǔn)測(cè)試，會(huì)帶來(lái)一定的精度損失。

Taalas的收入來(lái)源將分為兩塊，推理即服務(wù)、HC硬件。在官宣博客中，Taalas將基于Llama 3.1 8B的HC1稱(chēng)作測(cè)試版服務(wù)，其目的是讓開(kāi)發(fā)者體驗(yàn)大模型推理實(shí)現(xiàn)亞毫秒級(jí)速度、且成本近乎為零的同時(shí)，探索更多新應(yīng)用。這一服務(wù)預(yù)計(jì)不會(huì)產(chǎn)生顯著收入。

二、遵循三大原則，2個(gè)月內(nèi)完成芯片定制

一般而言，對(duì)于更新的模型，Taalas能在不到兩個(gè)月內(nèi)完成芯片定制。

巴吉克對(duì)此的解釋是，由于Taalas的芯片高度專(zhuān)業(yè)化，其設(shè)計(jì)比英偉達(dá)的同類(lèi)產(chǎn)品更簡(jiǎn)單，因此生產(chǎn)速度更快。例如一塊Taalas芯片就能容納一個(gè)完整的大語(yǔ)言模型，將模型及其權(quán)重硬編碼到HC1中，然后將整個(gè)模型嵌入到定制的專(zhuān)用芯片中，而無(wú)需像英偉達(dá)和其他公司那樣依賴(lài)外部高帶寬內(nèi)存。

這一過(guò)程中，該公司遵循三個(gè)原則。

第一是完全定制化（Total specialization）：其團(tuán)隊(duì)認(rèn)為，在計(jì)算機(jī)發(fā)展史上，深度專(zhuān)業(yè)化一直是讓關(guān)鍵工作負(fù)載以極高效率運(yùn)行的最可靠途徑之一。

因此，Taalas會(huì)為每個(gè)單獨(dú)的模型生產(chǎn)最佳芯片，也就是將特定的模型神經(jīng)網(wǎng)絡(luò)映射到芯片本身，從而針對(duì)每個(gè)模型優(yōu)化基礎(chǔ)設(shè)施。

第二是實(shí)現(xiàn)存儲(chǔ)與計(jì)算融合：此前，AI推理芯片架構(gòu)設(shè)計(jì)中計(jì)算與存儲(chǔ)相互分離，且二者運(yùn)行速度存在顯著差異，這直接導(dǎo)致當(dāng)前AI推理硬件架構(gòu)日趨復(fù)雜。系統(tǒng)不僅需要依賴(lài)先進(jìn)封裝、HBM堆棧與超高I/O帶寬，再加上單芯片功耗攀升，有時(shí)必須依靠液冷方案才能穩(wěn)定運(yùn)行。

其博客提到，Taalas的突破性就在于，將存儲(chǔ)和計(jì)算統(tǒng)一在單個(gè)芯片上，并達(dá)到DRAM級(jí)別的密度，以此來(lái)解決此前計(jì)算和內(nèi)存分家的痛點(diǎn)。

第三是極致簡(jiǎn)化（Radical simplification）：在融合存儲(chǔ)與計(jì)算，并針對(duì)每個(gè)模型定制芯片的基礎(chǔ)上，Taalas可以從根本上重新設(shè)計(jì)整個(gè)硬件堆棧。其最終得到的系統(tǒng)不依賴(lài)于復(fù)雜或特殊的技術(shù)，不需要HBM、先進(jìn)封裝、3D堆疊、液冷等。

HC在設(shè)計(jì)時(shí)還進(jìn)一步降低了AI部署中的能耗和成本。HC系統(tǒng)每個(gè)機(jī)架的能耗為12-15千瓦，GPU每個(gè)機(jī)架的能耗則高達(dá)120-600千瓦。再加上Taalas的機(jī)架可采用風(fēng)冷散熱，從而進(jìn)一步降低數(shù)據(jù)中心的改造成本。

此外，Taalas HC1 PCIe卡幾乎可以安裝在任何服務(wù)器中，并支持英特爾和AMD的CPU。

三、業(yè)界好評(píng)與擔(dān)憂(yōu)并存，缺乏靈活性、機(jī)架壽命短引熱議

憑借HC1的性能和極低成本，Taalas近期獲得了不少關(guān)注，但業(yè)界仍提出了反對(duì)意見(jiàn)。

其優(yōu)勢(shì)顯而易見(jiàn)。即便云服務(wù)商每次模型更新時(shí)都要更換數(shù)千顆加速芯片，在四年的可比使用周期內(nèi)，Taalas方案的資本支出（CAPEX）仍能比其他AI加速方案節(jié)省60%–75%，同時(shí)還能為用戶(hù)提供全球最快的AI推理服務(wù)。

企業(yè)擔(dān)憂(yōu)的關(guān)鍵之一在于，Taalas的方案缺乏靈活性。

使用其方案的企業(yè)將不得不長(zhǎng)期適配同一固化模型的多個(gè)迭代版本，同時(shí)還要部署不同的芯片版本來(lái)運(yùn)行各異的模型。如此繁多的版本，會(huì)加重?cái)?shù)據(jù)中心的運(yùn)營(yíng)復(fù)雜度。

但《福布斯》認(rèn)為，即便如此這套方案依然非常劃算。因?yàn)槿绻患覕?shù)據(jù)中心只有少數(shù)幾個(gè)模型，卻占用了生產(chǎn)環(huán)境中絕大部分AI推理算力，那用這種專(zhuān)用芯片的性?xún)r(jià)比會(huì)很高。

企業(yè)擔(dān)心的另一個(gè)點(diǎn)是Taalas機(jī)架的使用壽命較短。

目前，英偉達(dá)和AMD的更新周期都是以年為單位，但Taalas的模式就意味著，每個(gè)模型都要跟著更新。大模型基本1～1.5年就會(huì)迭代一次，而新一代芯片的研發(fā)通常需要2～3年。

針對(duì)這一隱憂(yōu)，Taalas的應(yīng)對(duì)策略是，通過(guò)對(duì)兩層金屬層進(jìn)行改動(dòng)來(lái)升級(jí)基礎(chǔ)邏輯層，無(wú)需徹底重新設(shè)計(jì)?！陡２妓埂饭烙?jì)，Taalas很可能讓臺(tái)積電預(yù)先存儲(chǔ)未完成的晶圓，以便添加這兩層金屬互連層，從而實(shí)現(xiàn)在兩個(gè)月內(nèi)完成交付。

結(jié)語(yǔ)：Taalas走出新路：犧牲靈活性換極致速度、成本效益

外媒Wccftech認(rèn)為，目前Taalas的主要制約因素在于市場(chǎng)接受度和商業(yè)模式，其采用的固定編碼方案，硬件確實(shí)會(huì)針對(duì)特定的大模型生進(jìn)行定制，無(wú)法更改模型權(quán)重，但考慮到其驚人的生成速度與成本效益，這可能會(huì)讓企業(yè)忽略其缺乏靈活性的不足。

Taalas已經(jīng)實(shí)現(xiàn)了單芯片部署Llama 3.1 8B，以及成功用30顆芯片模擬部署DeepSeek R1模型，這也進(jìn)一步展現(xiàn)了其采用集群式方案的潛力。對(duì)于未來(lái)的商業(yè)化探索，巴吉克稱(chēng)，他們希望與開(kāi)發(fā)者合作，并構(gòu)建Taalas自己的基礎(chǔ)設(shè)施來(lái)運(yùn)行開(kāi)源模型，并提供API接口、銷(xiāo)售芯片。

來(lái)源：《福布斯》、Taalas官網(wǎng)、EE Times

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、極致性?xún)r(jià)比，30顆芯片模擬部署DeepSeek R1

二、遵循三大原則，2個(gè)月內(nèi)完成芯片定制

三、業(yè)界好評(píng)與擔(dān)憂(yōu)并存，缺乏靈活性、機(jī)架壽命短引熱議

結(jié)語(yǔ)：Taalas走出新路：犧牲靈活性換極致速度、成本效益

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、極致性?xún)r(jià)比，30顆芯片模擬部署DeepSeek R1

二、遵循三大原則，2個(gè)月內(nèi)完成芯片定制

三、業(yè)界好評(píng)與擔(dān)憂(yōu)并存，缺乏靈活性、機(jī)架壽命短引熱議

結(jié)語(yǔ)：Taalas走出新路：犧牲靈活性換極致速度、成本效益

相關(guān)推薦

一、極致性?xún)r(jià)比，30顆芯片模擬部署DeepSeek R1

二、遵循三大原則，2個(gè)月內(nèi)完成芯片定制

三、業(yè)界好評(píng)與擔(dān)憂(yōu)并存，缺乏靈活性、機(jī)架壽命短引熱議

結(jié)語(yǔ)：Taalas走出新路：犧牲靈活性換極致速度、成本效益