在线中文字幕二区人妻,国内又粗又长又硬又黄视频,亚洲一区二区久久99

智東西（公眾號(hào)：zhidxcom）
編譯 |? 子佩
編輯 |? Panken

智東西1月7日消息，2021開(kāi)年，頂著地表最強(qiáng)語(yǔ)言模型GPT-3的光環(huán)，OpenAI在自然語(yǔ)言處理領(lǐng)域一路高歌猛進(jìn)，于昨日推出兩個(gè)跨越文本與圖像次元的模型：DALL·E和CLIP，前者可以基于文本生成圖像，后者則可以基于文本對(duì)圖片進(jìn)行分類(lèi)，兩者都意在打破自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)兩大門(mén)派“涇渭分明”的界限，實(shí)現(xiàn)多模態(tài)AI系統(tǒng)。

什么是多模態(tài)系統(tǒng)呢？

就像人類(lèi)有視覺(jué)、嗅覺(jué)、聽(tīng)覺(jué)一樣，AI也有自己“眼鼻嘴”，而為了研究的針對(duì)性和深入，科學(xué)家們通常會(huì)將其分為“計(jì)算機(jī)視覺(jué)”、“自然語(yǔ)言處理”、“語(yǔ)音識(shí)別”等研究領(lǐng)域，分門(mén)別類(lèi)地解決不同的實(shí)際問(wèn)題。

每一個(gè)研究領(lǐng)域也可以被稱(chēng)為一種模態(tài)，通常來(lái)說(shuō)，多模態(tài)學(xué)習(xí)（MultiModal Learning）就是在不同的模態(tài)間構(gòu)建聯(lián)系，讓AI學(xué)會(huì)“通感”。

一、GPT-3“繼承者”：看文繪圖的DALL·E

DALL·E的名字取自藝術(shù)家Salvador Dali和皮克斯動(dòng)畫(huà)片機(jī)器人總動(dòng)員（WALL-E），而與GPT-3一樣，它也是一個(gè)具有120億參數(shù)的Transformer語(yǔ)言模型，不同的是，GPT-3生成的是文本，DALL·E生成的是圖像。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲Dali代表作《記憶的永恒》和機(jī)器人總動(dòng)員海報(bào)。

在博客上，OpenAI也大秀了一把DALL·E的“超強(qiáng)想象力”，隨意輸入一句話，DALL·E就能生成相應(yīng)圖片，這個(gè)圖片可能是網(wǎng)絡(luò)上已經(jīng)存在的圖片，也可能是根據(jù)自己的理解“畫(huà)”出的。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲輸入文本分別是：穿芭蕾舞裙遛狗的蘿卜、牛油果形狀的扶手椅、將上部的圖片素描化

DALL·E是如何實(shí)現(xiàn)先理解文字，再創(chuàng)造圖片的呢？

那首先要從理解token開(kāi)始，語(yǔ)言學(xué)中對(duì)token的定義是詞符，或者標(biāo)記。對(duì)于英語(yǔ)來(lái)說(shuō)，每個(gè)字母就是一個(gè)token，每一個(gè)單詞就是一個(gè)tokens。

但在NLP中，tokens并不一定代表完整的單詞，如re、ug等沒(méi)有實(shí)際意義的字母組合也算一個(gè)tokens。

在最早提出Transformer架構(gòu)的論文《Attention is all you need》里，就提到了BPE（Byte-Pair Encoding）編碼方法，簡(jiǎn)單來(lái)說(shuō)，BPE就是通過(guò)分析訓(xùn)練集中每個(gè)單詞的組成，創(chuàng)建一個(gè)基礎(chǔ)詞匯表，詞匯表里涵蓋了一定數(shù)量最常用的tokens。

模型中tokens的數(shù)量是超參數(shù)，也就是訓(xùn)練模型中人為規(guī)定的。

DALL·E同時(shí)包含著B(niǎo)PE編碼的文本和圖像詞匯表，分別涵蓋了16384、8192個(gè)tokens。

當(dāng)需要生成圖片時(shí)，它以單一數(shù)據(jù)流的形式，接收1280個(gè)文本和圖像的tokens（文本256個(gè)tokens，圖像1024個(gè)tokens），建立回歸模型。

與大多數(shù)Transformer模型一樣，DALL·E也采用自注意力機(jī)制（Self-Attention），分析文本內(nèi)部的聯(lián)系。

在DALL·E的64層自注意層中，每層都有一個(gè)注意力mask，就是為了使圖像的每個(gè)tokens都能匹配文本tokens。

OpenAI也表示，更具體的架構(gòu)和詳細(xì)訓(xùn)練過(guò)程會(huì)在之后的博客中公布。

二、普適的DALL·E：從改變物體關(guān)系到創(chuàng)造“不存在”

比起長(zhǎng)篇累牘地描述自己模型的優(yōu)越性，OpenAI則是用大量實(shí)測(cè)案例證明了自己。

1、改變單個(gè)物體的某個(gè)屬性

如動(dòng)圖所示，我們可以通過(guò)簡(jiǎn)單地改變按鈕選項(xiàng)，將鐘改為花盆，再將綠色改為黃色，再將三角形改為正方形。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲原輸入文本：三角形綠色的鐘

2、同時(shí)改變多個(gè)物體以及其位置關(guān)系

將上方的物塊改成書(shū)，再將物體的上下疊放關(guān)系改成左右擺放。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

當(dāng)一句話含有多個(gè)主體時(shí)，例如“紅色的物塊放在綠色的物塊上面”，DALL·E需要分辨出這兩個(gè)物塊是兩個(gè)不同的物體，且他們之間的位置關(guān)系是上下疊放。

但OpenAI的研究人員也承認(rèn)，隨著輸入文本中描述主體的增多和關(guān)系的復(fù)雜，DALL·E生成的圖像會(huì)更不準(zhǔn)確。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲輸入文本：一堆立方體，紅色的立方體在綠色立方體的頂部，綠色立方體在中間，藍(lán)色立方體在底部。

3、可視化透視與背景

如動(dòng)圖所示，將特寫(xiě)圖改成前視圖，將背景從草地改成山上。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲原輸入文本:特寫(xiě)圖下，在草地的水豚

除了二維圖像理解，DALL·E也能將某些類(lèi)型的光學(xué)畸變（Optical Distortions）應(yīng)用到具體場(chǎng)景中，展現(xiàn)出“魚(yú)眼透視”或“球形全景態(tài)”圖等效果。

4、內(nèi)外部結(jié)構(gòu)

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲輸入文本：核桃橫截面圖

5、上下文推理

將文本目標(biāo)“翻譯”成圖像這個(gè)問(wèn)題，是沒(méi)有唯一答案的，且語(yǔ)言中常含有字面所沒(méi)有的引申義。

如“日出時(shí)，坐在田野上的水豚的繪畫(huà)像”這一文本目標(biāo)，其中并沒(méi)有提到水豚的陰影，但根據(jù)經(jīng)驗(yàn)我們也能知道，日出時(shí)，水豚必然會(huì)有由于陽(yáng)光照射產(chǎn)生陰影。

因此，DALL·E就需要通過(guò)Transformer中的上下文推理，通過(guò)自己的“經(jīng)驗(yàn)”，得到這一結(jié)論。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲輸入文本：日出時(shí)，坐在田野上的水豚的繪畫(huà)像。

6、不存在的物品

DALL·E還具有將完全不同的物品合成起來(lái)的能力，創(chuàng)造一些現(xiàn)實(shí)世界不可能出現(xiàn)的物體。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲輸入文本：豎琴狀的蝸牛

三、“zero-shot”踐行者：按詞分圖的CLIP

如果說(shuō)DALL·E是GPT-3在圖像領(lǐng)域的延伸，那CLIP就是主打“zero-shot（零樣本）”，攻破視覺(jué)領(lǐng)域的深度學(xué)習(xí)方法的三大難題。

1、訓(xùn)練所需大量數(shù)據(jù)集的采集和標(biāo)注，會(huì)導(dǎo)致的較高成本。

2、訓(xùn)練好的視覺(jué)模型一般只擅長(zhǎng)一類(lèi)任務(wù)，遷移到其他任務(wù)需要花費(fèi)巨大成本。

3、即使在基準(zhǔn)測(cè)試中表現(xiàn)良好，在實(shí)際應(yīng)用中可能也不如人意。

對(duì)此，OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever曾發(fā)文聲稱(chēng)，語(yǔ)言模型或是一種解法，我們可以通過(guò)文本，來(lái)修改和生成圖像。

基于這一愿景，CLIP應(yīng)運(yùn)而生。

CLIP全稱(chēng)是Contrastive Language-Image Pre-training，根據(jù)字面意思，就是對(duì)比文本-圖像預(yù)訓(xùn)練模型，只需要提供圖像類(lèi)別的文本描述，就能將圖像進(jìn)行分類(lèi)。

怎么分？為什么能分？

CLIP靠的就是預(yù)訓(xùn)練階段，OpenAI從互聯(lián)網(wǎng)中收集的4億個(gè)文本-圖像對(duì)。接著，憑著與GPT-2/3相似的“zero-shot”設(shè)計(jì)，CLIP在不直接針對(duì)基準(zhǔn)進(jìn)行優(yōu)化的同時(shí)，表現(xiàn)出優(yōu)越的性能：魯棒性差距（robustness gap）縮小了75%，性能和深度殘差網(wǎng)絡(luò)ResNet50相當(dāng)。

也就是說(shuō)，CLIP無(wú)需使用ResNet50同樣大的訓(xùn)練樣本，就達(dá)到了原始ResNet50在ImageNet數(shù)據(jù)集上的精確度。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

在眾多數(shù)據(jù)集上，CLIP都有著可以與ResNet50升級(jí)版ResNet101媲美的精度，其中ObjectNet數(shù)據(jù)集代表模型識(shí)別物體不同形態(tài)和背景的能力，ImageNet Rendition和ImageNet Sketch代表模型識(shí)別抽象物體的能力。

雖然二者在ImageNet測(cè)試集上的表現(xiàn)相差無(wú)幾，但非ImageNet設(shè)置更能代表CLIP優(yōu)秀的泛化能力。

為了識(shí)別出未曾見(jiàn)過(guò)的類(lèi)別（圖像或文本），Zero-shot這一概念可以追溯到十年前，而目前計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用的重點(diǎn)是，利用自然語(yǔ)言作為靈活的預(yù)測(cè)空間，實(shí)現(xiàn)泛化和遷移。

在2013年，斯坦福大學(xué)的Richer Socher教授就曾在訓(xùn)練CIFAR-10的模型時(shí)，在詞向量嵌入空間中進(jìn)行預(yù)測(cè)，并發(fā)現(xiàn)該模型可以預(yù)測(cè)兩個(gè)“未見(jiàn)過(guò)”的類(lèi)別。

剛剛登上歷史舞臺(tái)、用自然語(yǔ)言學(xué)習(xí)視覺(jué)概念的CLIP則帶上了更多現(xiàn)代的架構(gòu)，如用注意力機(jī)制理解文本的Transformer、探索自回歸語(yǔ)言建模的Virtex、研究掩蔽語(yǔ)言建模的ICMLM等。

四、詳細(xì)解析，CLIP的“足”與“不足”

在對(duì)CLIP有一個(gè)基本的認(rèn)識(shí)后，我們將從四個(gè)方面詳細(xì)剖析CLIP。

1、從CLIP流程，看三大問(wèn)題如何解決

簡(jiǎn)單來(lái)說(shuō)，CLIP的任務(wù)就是識(shí)別一張圖像所出現(xiàn)的各種視覺(jué)概念，并且學(xué)會(huì)它的名稱(chēng)。比如當(dāng)任務(wù)是對(duì)貓和狗的圖片進(jìn)行分類(lèi)，CLIP模型就需要判斷，目前處理的這張圖片的文字描述是更偏向于“一張貓的照片”，還是一張狗的照片。

在具體實(shí)現(xiàn)上，有如下流程：預(yù)訓(xùn)練圖像編碼器和文本編碼器，得到相互匹配的圖像和文本，基于此，CLIP將轉(zhuǎn)換為zero-shot分類(lèi)器。此外，數(shù)據(jù)集的所有類(lèi)會(huì)被轉(zhuǎn)換為諸如“一只狗的照片”之類(lèi)的標(biāo)簽，以此標(biāo)簽找到能夠最佳配對(duì)的圖像。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

在這個(gè)過(guò)程中，CLIP也能解決之前提到的三大問(wèn)題。

1、昂貴的數(shù)據(jù)集：25000人參與了ImageNet中1400萬(wàn)張圖片的標(biāo)注。與此相比，CLIP使用的是互聯(lián)網(wǎng)上公開(kāi)的文本-圖像對(duì)，在標(biāo)注方面，也利用自監(jiān)督學(xué)習(xí)、對(duì)比方法、自訓(xùn)練方法以及生成建模等方法減少對(duì)人工標(biāo)注的依賴(lài)。

2、只適用于單一任務(wù)：由于已經(jīng)學(xué)會(huì)圖片中的各種視覺(jué)概念，所以CLIP可以執(zhí)行各種視覺(jué)任務(wù)，而不需要額外的訓(xùn)練和調(diào)整。如下也展示了CLIP模型識(shí)別各類(lèi)型圖像中視覺(jué)概念,無(wú)論是食物、場(chǎng)景還是地圖，都是有不錯(cuò)的表現(xiàn)。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

3、實(shí)際應(yīng)用性能不佳：基準(zhǔn)測(cè)試中表現(xiàn)好的模型在實(shí)際應(yīng)用中很可能并沒(méi)有這么好的水平。就像學(xué)生為了準(zhǔn)備考試，只重復(fù)復(fù)習(xí)之前考過(guò)的題型一樣，模型往往也僅針對(duì)基準(zhǔn)測(cè)試中的性能進(jìn)行優(yōu)化。但CLIP模型可以直接在基準(zhǔn)上進(jìn)行評(píng)估，而不必在數(shù)據(jù)上進(jìn)行訓(xùn)練。

2、CLIP的“足”：高效且靈活通用。

CLIP需要從未經(jīng)標(biāo)注、變化多端的數(shù)據(jù)中進(jìn)行預(yù)訓(xùn)練，且要在“zero-shot”，即零樣本的情況下使用。GPT-2/3模型已經(jīng)驗(yàn)證了該思路的可行性，但這類(lèi)模型需要大量的模型計(jì)算，為了減少計(jì)算量，OpenAI的研究人員采用了兩種算法：對(duì)比目標(biāo)（contrastive objective）和Vision Transformer。前者是為了將文本和圖像連接起來(lái)，后者使計(jì)算效率比標(biāo)準(zhǔn)分類(lèi)模型提高了三倍。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

▲CLIP模型在準(zhǔn)確率和處理圖像大小上都優(yōu)于其他兩種算法。

由于CLIP模型可以直接從自然語(yǔ)言中學(xué)習(xí)許多視覺(jué)概念，因此它們比現(xiàn)有的ImageNet模型更加靈活與通用。OpenAI的研究人員在30多個(gè)數(shù)據(jù)集上評(píng)估了CLIP的“zero-shot”性能，包括細(xì)粒度物體分類(lèi)，地理定位，視頻中的動(dòng)作識(shí)別和OCR（光學(xué)字符識(shí)別）等。

下圖也展示了12種模型在27種數(shù)據(jù)集準(zhǔn)確率和處理圖像大小的比較。CLIP-ViT和CLIP-ResNet兩類(lèi)CLIP方法都遙遙領(lǐng)先。

文本秒生成圖像，震驚業(yè)界！詳解OpenAI兩大AI模型

3、CLIP的“不足”：復(fù)雜任務(wù)仍有差距

盡管CLIP在識(shí)別常見(jiàn)物體上表現(xiàn)良好，但在如計(jì)算圖像中物品數(shù)量、預(yù)測(cè)圖片中物品的位置距離等更抽象、復(fù)雜的任務(wù)上，“zero-shot”CLIP表現(xiàn)僅略勝于隨機(jī)分類(lèi)，而在區(qū)分汽車(chē)模型、飛機(jī)型號(hào)或者花卉種類(lèi)時(shí)，CLIP也不好。

且對(duì)于預(yù)訓(xùn)練階段沒(méi)有出現(xiàn)過(guò)的圖像，CLIP泛化能力也很差。例如，盡管CLIP學(xué)習(xí)了OCR，但評(píng)估MNIST數(shù)據(jù)集的手寫(xiě)數(shù)字上，“zero-shot”CLIP準(zhǔn)確率只達(dá)到了88％，遠(yuǎn)低于人類(lèi)在數(shù)據(jù)集中的99.75％精確度。最后，研究人員發(fā)現(xiàn)，CLIP的“zero-shot”分類(lèi)器對(duì)單詞構(gòu)造或短語(yǔ)構(gòu)造比較敏感，但有時(shí)還是需要試驗(yàn)和錯(cuò)誤“提示引擎”的輔助，才能表現(xiàn)良好。

4、CLIP未來(lái)：算法公正仍需努力

研究人員也在博客中提到，CLIP更大的潛力是允許人們?cè)O(shè)計(jì)自己的分類(lèi)，無(wú)需使用特定任務(wù)的訓(xùn)練數(shù)據(jù)。因?yàn)榉诸?lèi)的定義方法會(huì)影響模型的性能和偏差。

如果CLIP中添加的標(biāo)簽包括Fairface種族標(biāo)簽（FairFace是一個(gè)涵蓋不同人種、性別的面部圖像數(shù)據(jù)集）和少數(shù)負(fù)面名詞，例如“犯罪”，“動(dòng)物”等，那么很可能大約32.3%年齡為0至20歲的人像會(huì)被劃分到負(fù)面類(lèi)別中，但在添加“兒童”這一標(biāo)簽后，負(fù)面類(lèi)別的比例大約下降到8.7%。

此外，由于CLIP不需要針對(duì)特定任務(wù)訓(xùn)練數(shù)據(jù)，所以能夠更輕松地完成一些任務(wù)。但這些任務(wù)會(huì)不會(huì)涉及到特定的隱私和監(jiān)視風(fēng)險(xiǎn)，需要進(jìn)一步的研究。

結(jié)語(yǔ)：模型很厲害，監(jiān)管需謹(jǐn)慎

無(wú)論是DALL·E還是CLIP，都采用不同的方法在多模態(tài)學(xué)習(xí)領(lǐng)域跨出了令人驚喜的一步。

但OpenAI的研究人員也反復(fù)強(qiáng)調(diào)，越強(qiáng)大的模型一旦失控，后果也越加可怕，所以兩個(gè)模型后續(xù)的關(guān)于“公平性”、“隱私性”等問(wèn)題研究也會(huì)繼續(xù)進(jìn)行。

今后，文本和圖像的界限是否會(huì)進(jìn)一步被打破，我們能否能順暢地用文字“控制”圖像的分類(lèi)和生成，在現(xiàn)實(shí)生活中將會(huì)帶來(lái)怎樣的改變，都值得我們期待。

來(lái)源：OpenAI

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、GPT-3“繼承者”：看文繪圖的DALL·E

二、普適的DALL·E：從改變物體關(guān)系到創(chuàng)造“不存在”

三、“zero-shot”踐行者：按詞分圖的CLIP

四、詳細(xì)解析，CLIP的“足”與“不足”

結(jié)語(yǔ)：模型很厲害，監(jiān)管需謹(jǐn)慎

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、GPT-3“繼承者”：看文繪圖的DALL·E

二、普適的DALL·E：從改變物體關(guān)系到創(chuàng)造“不存在”

三、“zero-shot”踐行者：按詞分圖的CLIP

四、詳細(xì)解析，CLIP的“足”與“不足”

結(jié)語(yǔ)：模型很厲害，監(jiān)管需謹(jǐn)慎

相關(guān)推薦

一、GPT-3“繼承者”：看文繪圖的DALL·E

二、普適的DALL·E：從改變物體關(guān)系到創(chuàng)造“不存在”

三、“zero-shot”踐行者：按詞分圖的CLIP

四、詳細(xì)解析，CLIP的“足”與“不足”

結(jié)語(yǔ)：模型很厲害，監(jiān)管需謹(jǐn)慎