狠狠干狠狠日狠狠操av,第四色在线视频网站,91九色尤物18禁国产在线播放

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

綁定手機(jī)號(hào)

確認(rèn)綁定

李貞

標(biāo)簽

谷歌華為 iPhone 智東西小米 IDx 微軟英特爾騰訊三星高通 5G 360 通用百度大眾蘋果

前Meta首席工程負(fù)責(zé)人胡魯輝：“后GPT-4”有4大發(fā)展趨勢(shì)，理解物理世界才能接近AGI｜GenAICon 2024

智東西（公眾號(hào)：zhidxcom）
編輯 | GenAICon 2024

2024中國生成式AI大會(huì)于4月18-19日在北京舉行，在大會(huì)首日的主會(huì)場(chǎng)大模型專場(chǎng)上，前Meta首席工程負(fù)責(zé)人胡魯輝老師以《從多模態(tài)大模型到理解物理世界》為題發(fā)表演講。

胡魯輝談道，聚焦多模態(tài)大模型的后GPT-4時(shí)代呈現(xiàn)出4大趨勢(shì)，一是語言大模型到多模態(tài)大模型，二是數(shù)據(jù)集成到向量數(shù)據(jù)庫，三是Agent智能體到大模型操作系統(tǒng)，四是模型微調(diào)到Plugin（插件）平臺(tái)。

他認(rèn)為大模型是通向AGI靠譜的方法。在大模型的落地應(yīng)用中，企業(yè)和研究機(jī)構(gòu)需要面對(duì)多方面的挑戰(zhàn)。首先是數(shù)據(jù)的標(biāo)準(zhǔn)化問題，不同來源和格式的數(shù)據(jù)需要被轉(zhuǎn)化成一種統(tǒng)一的格式，以便于模型的訓(xùn)練和應(yīng)用。

此外，模型的分散性和應(yīng)用場(chǎng)景的復(fù)雜性也大大增加了開發(fā)的難度。例如，在不同的物理環(huán)境下，模型需要調(diào)整其參數(shù)以適應(yīng)特定的硬件和軟件條件。同時(shí)，算力成本和訓(xùn)練時(shí)間的長(zhǎng)短也是制約大模型廣泛應(yīng)用的重要因素。

胡魯輝預(yù)測(cè)下一個(gè)AI 2.0爆發(fā)點(diǎn)及落地大方向?qū)⑹?/strong>AI for Robotics。這一領(lǐng)域的發(fā)展需要模型不僅理解編程或語言處理，更要深入到物理世界的具體應(yīng)用中去。這涉及對(duì)物理環(huán)境的理解和設(shè)計(jì)，需要大模型能夠整合各種感知數(shù)據(jù)，進(jìn)行快速的決策和學(xué)習(xí)，以應(yīng)對(duì)不斷變化的外部條件。這一過程中，模型的訓(xùn)練和應(yīng)用將更加依賴于高效的算力和先進(jìn)的硬件支持。

以下為胡魯輝的演講實(shí)錄：

今天我要分享的是《從多模態(tài)大模型到理解物理世界》。大模型的快速發(fā)展加上不斷的技術(shù)演變，變化很大，我希望將自己的一些實(shí)戰(zhàn)經(jīng)歷分享給大家。

今天主要分享4個(gè)方面。首先從大模型的原理出發(fā)，講一下GPT-4之后硅谷及全球有哪些重大變化；其次結(jié)合大模型和多模態(tài)的特征，分享Transformer以及我在Meta的相關(guān)工作經(jīng)歷；今天的重點(diǎn)是為什么要去理解物理世界，僅僅依靠語言大模型并不能走向通用人工智能，理解物理世界才有可能走向它；最后，結(jié)合多模態(tài)大模型和理解物理世界探討如何接近AGI。

一、大模型開啟AI 2.0時(shí)代，Meta是開源領(lǐng)導(dǎo)者

每個(gè)技術(shù)的快速發(fā)展離不開背后大量的科研創(chuàng)新工作，這是人工智能復(fù)興的原因，因?yàn)槠湓诳焖侔l(fā)展和迭代。人工智能的重要性和意義十分突出，可以說，這次人工智能是第四次計(jì)算時(shí)代或第四次工業(yè)革命。第三次計(jì)算時(shí)代是移動(dòng)互聯(lián)網(wǎng)時(shí)代，我們正處于這個(gè)時(shí)代，根據(jù)每次的發(fā)展，第四次的規(guī)模比第三次要大，且從經(jīng)濟(jì)效益上來講，對(duì)人類社會(huì)的影響力更大。

人工智能在歷史上有兩個(gè)拐點(diǎn)，AlphaGo和ChatGPT。雖然每一個(gè)拐點(diǎn)只代表一個(gè)產(chǎn)品或者技術(shù)，但其對(duì)人類的影響不僅是技術(shù)本身，如AlphaGo，不可能所有公司都做下棋產(chǎn)品或平臺(tái)。對(duì)社會(huì)來說，第一次是利用拐點(diǎn)背后的技術(shù)（如CV或別的技術(shù)）開始AI 1.0時(shí)代。這一次則是基于大模型泛化涌現(xiàn)的能力開始AI 2.0時(shí)代。

ChatGPT發(fā)布了一年多，性能表現(xiàn)的排名仍比較領(lǐng)先。并且現(xiàn)在大模型訓(xùn)練的費(fèi)用或成本越來越高，之前GPT-4訓(xùn)練的時(shí)候需要6000萬美元左右，GPT-5可能更貴。

目前OpenAI是閉源大模型的領(lǐng)導(dǎo)者，Meta是開源的領(lǐng)導(dǎo)者。OpenAI在閉源大模型中的領(lǐng)導(dǎo)地位是公認(rèn)的，Meta的開源大模型Llama和視覺SAM比較領(lǐng)先。其中Llama幫助了很多語言模型開發(fā)公司的團(tuán)隊(duì)，讓他們擁有了很好的基礎(chǔ)。

現(xiàn)在模型中，有三個(gè)閉源和三個(gè)開源比較領(lǐng)先?；蛟S大家疑惑Meta的Llama怎么不見了，Meta在做另外一件更有意義的事情，就是理解物理世界，他們叫世界模型。最近Llama還沒有迭代，大家可以拭目以待，這個(gè)排名還是會(huì)變化的，Llama為很多大語言模型奠定了基礎(chǔ)，幫助很多企業(yè)飛速發(fā)展。

二、Meta有三大SOTA視覺大模型，多模態(tài)、視覺與語言走向融合

Meta的視覺大模型還有很多貢獻(xiàn)。Transformer最初應(yīng)用于語言模型，逐步衍生到視覺，其中比較火的一個(gè)就是ViT，視覺Transformer。

Meta通過ViT或Transformer不斷迭代，有三個(gè)影響比較大的視覺Transformer：一是DeTr，Detection Transformer，它有端到端的Object Detection；二是DINO，通過Transformer開啟了視覺領(lǐng)域的自監(jiān)督，無論是大語言模型還是其他大模型，都不能依賴打標(biāo)簽，需要它能夠自主學(xué)習(xí)監(jiān)督；三是SAM，更多是零樣本，是泛化的能力。

在視覺領(lǐng)域，除了Sora，SAM影響力較大。怎么訓(xùn)練SAM，需要多少資源，或者訓(xùn)練過程中需要注意哪些事情？我去年寫了一篇文章Fine-tune SAM，詳細(xì)講了怎么利用SAM做微調(diào)，如何控制資源，或者利用資源更有效地做微調(diào)。

幾年前，一提到人工智能，就會(huì)想到視覺、語言兩個(gè)支派，CNN、RNN基本上井水不犯河水。做NLP的一波人和做CV的那波人有各自的學(xué)術(shù)派，方法不一樣，會(huì)議也不太一樣。這次深度學(xué)習(xí)，語言模型從LSTM到Word2Vec，到最近的GPT還有BERT。視覺模型最早從分類到檢測(cè)，再到分割，接著從語義分割到實(shí)例分割。

這里有許多地方特別相近，所謂的語言大模型無非是更深層次的一個(gè)相關(guān)性和邏輯推理。視覺也是一樣，邏輯上二者是融合的，技術(shù)上是Transformer。語言層面GPT-4、 Llama比較經(jīng)典；視覺中Sora和SAM都是比較經(jīng)典的例子，它后面的Backbone都是基于Transformer。

無論從邏輯上講語義相關(guān)性，還是技術(shù)上Transformer Backbone，都在逐步融合。

這是一個(gè)好消息。對(duì)研發(fā)工作者而言，以前井水不犯河水的NLP和CV終于有一天融合了。它在發(fā)生一個(gè)質(zhì)的變化。

當(dāng)前AI的核心技術(shù)，也是個(gè)比較靠譜的AGI方法，能從一個(gè)技術(shù)、一個(gè)方向擴(kuò)展到下一階段。但Meta首席AI科學(xué)家楊立昆反而不這么認(rèn)為，JEPA從最初的Image JEPA到Video JEPA有自己的理論。但不管怎么樣，從工程上或者應(yīng)用上，它的效果確實(shí)突出。

打造大模型的核心關(guān)鍵能力是什么?一般人會(huì)說是三個(gè)核心，數(shù)據(jù)、算力、算法。而我根據(jù)一些工作經(jīng)驗(yàn)還歸納出來另外兩點(diǎn)。

一個(gè)是模型架構(gòu)，現(xiàn)在的大模型和以前的深度學(xué)習(xí)算法不同的地方，就是模型架構(gòu)的重要性。通過Backbone或模型架構(gòu)的重塑做遷移學(xué)習(xí)或微調(diào)，不是僅僅把領(lǐng)域數(shù)據(jù)或者領(lǐng)域知識(shí)輸入進(jìn)去，而是通過改變模型架構(gòu)產(chǎn)生一個(gè)新的模型，達(dá)到自己想要的領(lǐng)域模型。

還有一個(gè)是智能工程。Llama是開源的，OpenAI搞出來GPT-3.5，也就是ChatGPT，改變世界的奇點(diǎn)就發(fā)生了。有GPT-3，有數(shù)據(jù)、算力，但能不能制造出GPT-3.5？不同的公司不一樣，根本原因就是智能工程不同。

這五個(gè)里面哪個(gè)最核心、最關(guān)鍵？很多人可能會(huì)說是算力，很貴，買不到H100、A100，但是無論是谷歌還是微軟，都不會(huì)缺乏算力，他們目前卻沒有世界最領(lǐng)先的GPT-4這樣的模型。

國內(nèi)很喜歡說數(shù)據(jù)，沒有數(shù)據(jù)的確很難搞出好的模型，但是很多大廠也不會(huì)缺數(shù)據(jù)。算法基本上是開源的，像Transformer或者一些比較新的算法也是開源的，它也不是最關(guān)鍵因素。而模型架構(gòu)，也可以通過一些微調(diào)、不同的嘗試探索出來。

所以結(jié)合國外的模型和國內(nèi)的現(xiàn)狀，最核心打造大模型的能力應(yīng)該是智能工程。

這也就是說OpenAI的一些人出來創(chuàng)業(yè)搞Claude，剛才大家看到排名中第二領(lǐng)先的就是Claude，就是OpenAI中的人出來創(chuàng)業(yè)做的事情。說明人才是最值錢的。

三、預(yù)測(cè)“后GPT-4”四大發(fā)展趨勢(shì)，理解物理世界有七大特征

現(xiàn)在GPT-4是多模態(tài)大模型，在硅谷及全球人工智能發(fā)展到底有哪些趨勢(shì)？我認(rèn)為有四個(gè)方面，這張圖是根據(jù)我的預(yù)測(cè)讓GPT-4生成的圖例展示。

第一，從語言大模型到多模態(tài)大模型。

第二，邁向向量數(shù)據(jù)庫。目前的大語言模型或多模態(tài)大模型不論多大，都有一定的局限性，導(dǎo)致向量數(shù)據(jù)庫火起來了。大家可以把一部分或大部分的數(shù)據(jù)放在向量數(shù)據(jù)庫里，把相關(guān)的數(shù)據(jù)放在大模型中。

第三，從自動(dòng)Agent到將大模型作為操作系統(tǒng)。Agent比較火，但是它的背后依然是語言大模型或多模態(tài)大模型。Agent相當(dāng)于軟件自動(dòng)實(shí)現(xiàn)。后續(xù)多模態(tài)大模型作為操作系統(tǒng)可能是比較核心的。

第四，開源模型從微調(diào)到引入插件平臺(tái)。ChatGPT相當(dāng)于一個(gè)平臺(tái)，不僅可以微調(diào)，而且可以通過插件作為一個(gè)平臺(tái)，因此插件可能是未來的一個(gè)方向。

為什么模型能夠這么快發(fā)展，為什么我們能夠支撐Scaling Law？很大原因是計(jì)算能力的發(fā)展。CPU時(shí)代有摩爾定律，GPU時(shí)代同樣發(fā)展速度更快。去年英偉達(dá)發(fā)布能夠支撐1億FLOPS的算力，今年他們發(fā)布了新的DGX GB200，去年是GH200，現(xiàn)在是GB200，小了一點(diǎn)，更快一點(diǎn)，但還是一個(gè)量級(jí)的。好幾個(gè)DGX串起來是很大的規(guī)模，近十年之前IBM計(jì)算機(jī)也是相當(dāng)大的，而現(xiàn)在手機(jī)就能支撐以前的算力，GPU其實(shí)也一樣。

有這個(gè)大模型或算力后，應(yīng)用在發(fā)生什么變化？可以看到，AI 2.0比較以前的傳統(tǒng)軟件或互聯(lián)網(wǎng)，用戶和場(chǎng)景可能都一樣。但是以前是用戶從App到服務(wù)軟件再到CPU，現(xiàn)在是用戶從多模態(tài)到基礎(chǔ)模型，然后到GPU，中間可以依賴數(shù)據(jù)庫或者訓(xùn)練數(shù)據(jù)，傳統(tǒng)的用數(shù)據(jù)庫，現(xiàn)在用向量數(shù)據(jù)庫。

接下來關(guān)于理解物理世界，AI賦能了智能手機(jī)、智能車、智能家居等等，圍繞的計(jì)算核心是智能云。現(xiàn)在或未來中心會(huì)是AI factory（人工智能工廠），它的輸入是Token，文字、視覺或視頻，它的輸出就是AI。過去應(yīng)用有手機(jī)、有車，將來就是各種機(jī)器人。未來汽車某種意義上也是一種機(jī)器人。從架構(gòu)來看，AI for Robotics是一個(gè)未來方向，未來即將爆發(fā)的方向，從云計(jì)算、AI工程、基礎(chǔ)模型，生成式AI再到上面的AI for Robotics。

理解物理世界也比較有挑戰(zhàn)性，現(xiàn)在的語言模型只能局限于訓(xùn)練的范圍中，對(duì)外界的理解還是有相當(dāng)?shù)木窒扌浴?/p>

理解物理世界到底有哪些特征，怎么能夠從現(xiàn)有的多模態(tài)大模型轉(zhuǎn)向理解物理世界，有了理解物理世界以后再向AGI接近？我認(rèn)為有七個(gè)方面，最外面的紫色是比較優(yōu)秀的人，因?yàn)槿说乃蕉疾灰粯樱鳛楸容^優(yōu)秀的人能夠理解物理世界的水平。

但GPT-4或最新的GPT-4 Turbo是什么樣？是里面的圈?，F(xiàn)在GPT-4 Turbo和人還是有很大的距離，只有從每個(gè)維度提升發(fā)展，才能真正理解物理世界，更加接近地通用人工智能。

理解物理世界不僅僅是對(duì)空間的理解或者空間智能，因?yàn)閺母拍钌?“空間”相當(dāng)于3D，不包括語言等核心AI。

說到這里，大家可能覺得比較抽象，這也是Meta最近在做的一些事情。Meta在開源大模型或者開源多模態(tài)大模型方面目前顯得“落后”了，但Llama 3馬上來了，是因?yàn)樗押芏嗑ㄔ诹耸澜缒Ｐ椭校瑫r(shí)在治理的7個(gè)方面提高模型的能力。

我最近成立一家公司叫智澄AI，致力于通用人工智能。“澄”的意思是逐步走向真正的智能。

以上是胡魯輝老師演講內(nèi)容的完整整理。