智東西(公眾號(hào):zhidxcom)
編輯?|?GTIC

智東西4月14日報(bào)道,在剛剛落幕的GTIC 2023中國AIGC創(chuàng)新峰會(huì)上,微軟全渠道事業(yè)部首席技術(shù)官徐明強(qiáng)進(jìn)行了主題為《探索AIGC趨勢及微軟Azure OpenAI在企業(yè)的應(yīng)用》的演講。

大語言模型參數(shù)正在呈現(xiàn)指數(shù)型增長趨勢。但徐明強(qiáng)稱,大語言模型未來仍然會(huì)快速增長,因?yàn)楦哔|(zhì)量語料目前僅使用了1/10,剩下的9/10還有待開發(fā)。而且現(xiàn)在對大語言模型的質(zhì)疑會(huì)在短短1-2年內(nèi)就被新的質(zhì)疑所替代。

這一切的背后都離不開強(qiáng)大算力的支撐,這也決定了所能訓(xùn)練模型的大小、參數(shù)。因此,微軟Azure與OpenAI合作構(gòu)建了專為大規(guī)模AI訓(xùn)練而設(shè)計(jì)的AI超級計(jì)算機(jī),該計(jì)算機(jī)擁有28.5萬個(gè)CPU、10000塊GPU。

徐明強(qiáng)把大語言模型比作一塊海綿,維基百科、醫(yī)學(xué)或科學(xué)論文就是它充分吸收的水,其能力的涌現(xiàn)就需要不斷吸收更多的水分。

他最后將演講落腳點(diǎn)歸結(jié)到企業(yè)應(yīng)用中,在CPU時(shí)代,企業(yè)應(yīng)用時(shí)思考的問題是如何把商業(yè)問題轉(zhuǎn)變?yōu)橛?jì)算問題,也就是通過編譯器將應(yīng)用轉(zhuǎn)為計(jì)算問題,如今則轉(zhuǎn)變?yōu)槿绾伟迅餍懈鳂I(yè)的問題轉(zhuǎn)化為內(nèi)容處理問題。微軟帶來的企業(yè)級ChatGPT(Enterprise ChatGPT)解決了ChatGPT無法解決的第二步問題:它能把企業(yè)內(nèi)部的數(shù)字資產(chǎn)做好索引、做好搜索。

目前,微軟企業(yè)級ChatGPT的應(yīng)用場景包括客戶服務(wù)、銷售市場、內(nèi)容生成、知識(shí)管理、輔助決策等。

以下為徐明強(qiáng)的演講實(shí)錄:

大家好!

我是微軟全渠道事業(yè)部首席技術(shù)官徐明強(qiáng)。其實(shí)我要講的內(nèi)容剛剛周明老師已經(jīng)覆蓋了一部分,我主要想在這里分享一些例子。

一、AI模型呈指數(shù)級增長,還有9/10高質(zhì)量語料有待開發(fā)

首先,我們今天為什么會(huì)聚在這里?一是探討不斷呈指數(shù)級增長的語言模型參數(shù),二是分享關(guān)于GPT-4的各種參數(shù)的猜想。

單從人類的角度來看,這個(gè)模型指數(shù)曲線實(shí)際上還要更加陡峭。

在2015年1月份,AlphaGo打敗了歐洲圍棋冠軍樊麾,但李世石說它只訓(xùn)練過六個(gè)月肯定打不過自己,后來的結(jié)果我們也都知道了。比爾·蓋茨前段時(shí)間也對OpenAI說,你們做的東西很好,希望你們能用ChatGPT來通過一個(gè)中學(xué)的AP(美國大學(xué)預(yù)修課程,Advanced Placement))考試,蓋茨心想,這應(yīng)該夠他們忙個(gè)兩三年了吧,結(jié)果幾個(gè)月之后就達(dá)到了。我們對大語言模型的質(zhì)疑最多也就堅(jiān)持一到兩年,這個(gè)質(zhì)疑就會(huì)被新的質(zhì)疑所取代。

我們有理由相信未來大語言模型還會(huì)以指數(shù)級增長,因?yàn)槟壳案哔|(zhì)量的語料僅使用了1/10,還剩9/10沒被使用,新的挑戰(zhàn)就是如何找到這剩下的9/10。

當(dāng)然,這一切都需要背后強(qiáng)大的算力來進(jìn)行支撐,微軟為OpenAI所提供的高度分布式框架AI Supercomputer(超級計(jì)算機(jī)),是世界第五大超級計(jì)算機(jī),擁有28.5萬個(gè)CPU和1萬個(gè)GPU,這代表著我們所能訓(xùn)練的模型大小、參數(shù),更重要的是所能訓(xùn)練出的模型的參數(shù)。

GPT-3可以達(dá)到Fine-tuning(微調(diào))的精度,在60多萬份問答答卷中達(dá)到70%的分?jǐn)?shù),可以達(dá)到“開卷考試”這個(gè)說法了。

為什么大語言模型會(huì)如此強(qiáng)悍呢?

微軟徐明強(qiáng):探索AIGC增長趨勢,微軟企業(yè)級ChatGPT滿足五大應(yīng)用場景丨GTIC 2023

其實(shí)有一點(diǎn)是我們?nèi)祟惒惶宄?,我們是怎么在教我們的孩子語言的?是不是把語言掰開了、揉碎了一點(diǎn)點(diǎn)教給他,把一些詞法分析、語法分析教給他,結(jié)果發(fā)現(xiàn)效果并不好。

但大模型是怎么做的呢?大語言模型就是一塊海綿,把標(biāo)注好的語料像水一樣充分吸收。如果不知道十萬個(gè)為什么的話,就把維基百科輸入進(jìn)去;不了解醫(yī)學(xué)的話,就把醫(yī)學(xué)論文塞進(jìn)去,然后在一個(gè)個(gè)decode layer(譯碼層)中讓能力涌現(xiàn)出來。那什么時(shí)候可以涌現(xiàn)呢?就像量子的位置和速度測不準(zhǔn)一樣,目前這些能力什么時(shí)候會(huì)涌現(xiàn)還無法測準(zhǔn)。

訓(xùn)練其實(shí)是比較容易的事情,但讓大語言模型學(xué)會(huì)說話比較難。首先需要它學(xué)會(huì)聽話,叫它做什么,它在理解之后就能做什么。我在和一位網(wǎng)絡(luò)運(yùn)營商總裁聊天時(shí)他說,以后他都不再需要助手了,他讓ChatGPT寫的東西完全不會(huì)誤解他的意思,而且寫出來的結(jié)果非常好,它就是一個(gè)InstuctGPT。

ChatGPT曾經(jīng)有40位老師,現(xiàn)在的GPT-4已經(jīng)有1000多位老師了,我們只用授之以漁,告訴它哪一個(gè)答案好,它就能輸入滿意的答案,之前那種一本正經(jīng)的胡說八道的情況已經(jīng)減少很多了。之前,GPT-3在我的簡歷中幫我編造了我很多沒有做過的內(nèi)容,但GPT-4現(xiàn)在已經(jīng)做得非常真實(shí),完全沒有胡說。

二、OpenAI大模型落地企業(yè),NLP項(xiàng)目邊際成本趨零

那大模型該怎樣在企業(yè)中落地呢?

在過去我們處于一個(gè)CPU的時(shí)代,當(dāng)CPU剛出來時(shí),大家發(fā)現(xiàn)這是一個(gè)非常強(qiáng)大的生產(chǎn)力工具,所以大家都在思考如何把商業(yè)問題轉(zhuǎn)變?yōu)橛?jì)算問題,如何通過編譯器把應(yīng)用轉(zhuǎn)變?yōu)橛?jì)算問題,把數(shù)據(jù)庫、各行各業(yè)生產(chǎn)的、金融的問題轉(zhuǎn)變?yōu)橛?jì)算問題。

微軟徐明強(qiáng):探索AIGC增長趨勢,微軟企業(yè)級ChatGPT滿足五大應(yīng)用場景丨GTIC 2023

同樣,我們今天出現(xiàn)的就是一個(gè)新的“CPU”,可以把它叫做Chat ProcessUnit或是Content ProcessUnit。今天我們需要考慮的問題,就是如何把各行各業(yè)的問題變成Chat的問題,變成一個(gè)內(nèi)容處理的問題。

在過去,NLP是一個(gè)非常耗資的工程。為了搜集一個(gè)緊張期待癥的數(shù)據(jù)集,需要全球60萬的人力來幫助進(jìn)行數(shù)據(jù)搜集,這就是一個(gè)血汗工廠。而需要大量數(shù)據(jù)科學(xué)家投入精力的工作就像是個(gè)“冷汗工廠”,需要不斷去調(diào)參數(shù)、選擇模型,這是個(gè)最risky(充滿風(fēng)險(xiǎn)的)的工作。數(shù)據(jù)科學(xué)家的工作如果到了時(shí)間沒有完成的話,是會(huì)讓人冒冷汗的,這就意味著一般的企業(yè)無法支付得起。

如今的ChatGPT是怎么解決緊張期待癥的數(shù)據(jù)搜集的呢?你只需要跟它說,嗨ChatGPT,告訴你兩個(gè)例子:第一個(gè)緊張期待癥的例子是“當(dāng)彩票號(hào)碼被宣讀出來時(shí),我的手掌開始出汗”,另一個(gè)反例是“我無法消除自己的一件事情的緊張不安感”。

告訴它這兩個(gè)例子之后,就可以開始考試了,向它描述自己的癥狀:昨天,我把我的手機(jī)丟在專車上了。我打給滴滴,結(jié)果他們說聯(lián)系不上司機(jī)。過了一個(gè)小時(shí)之后,我再次打電話,他們說司機(jī)沒有看到,我心里郁悶,老婆也一直怪我。直到今天,我的心口想起來就會(huì)痛,我是否有緊張期待癥呢?

ChatGPT的回答中說:“根據(jù)您提供的情況,您似乎沒有緊張期待癥,您貌似是因?yàn)槭謾C(jī)丟失而產(chǎn)生的擔(dān)憂和焦慮情緒,以及事后的不安感,這是一種正常的情緒反應(yīng)?!贝蠹铱矗耆斫饬诉@一段話。

我分享這個(gè)例子是為什么呢?過去流的那些“血汗”和“冷汗”,如今的企業(yè)都不用再流了,過去微軟用十億甚至百億訓(xùn)練出來的大模型,在座的各位以及世界上每個(gè)企業(yè)和每個(gè)人都將用趨零的邊際成本來使用,只要去prompt它就行了。

還有就是寫代碼,我強(qiáng)烈建議大家用ChatGPT來寫代碼,寫代碼只是冰山一角,它真正的生產(chǎn)力在于修代碼、修Bug。我晚上修代碼時(shí)我妻子會(huì)跟我說,1點(diǎn)鐘了,早點(diǎn)休息吧,我總是說5分鐘就行。但碼農(nóng)們都會(huì)知道,5分鐘之后又會(huì)有新的問題出來,5分鐘又5分鐘,一看時(shí)間已經(jīng)早上五點(diǎn)了。但是我把代碼錯(cuò)誤告訴給ChatGPT的話,它就會(huì)說這個(gè)代碼有問題,改完后十有八九是正確的,這樣的生產(chǎn)力絕對是革命性的。

三、微軟與OpenAI加強(qiáng)戰(zhàn)略合作,打造五種企業(yè)級應(yīng)用場景

接下來我說一下它的挑戰(zhàn)以及如何應(yīng)對。

挑戰(zhàn)主要在兩個(gè)方面:一是幻覺,二是知識(shí)局限。幻覺主要是那些不正確、不相關(guān),以及一些毫無意義的信息、虛假事實(shí),或是它創(chuàng)造了不存在的事件或?qū)嶓w?;糜X產(chǎn)生主要是因?yàn)轭A(yù)訓(xùn)練時(shí)的答案都是校對好的,但在加強(qiáng)式學(xué)習(xí)的環(huán)境下,打亂了原來的訓(xùn)練模型。在解決方法上“解鈴還需系鈴人”,加強(qiáng)式學(xué)習(xí)產(chǎn)生的問題就要用加強(qiáng)式學(xué)習(xí)來解決。在GPT-4中,發(fā)現(xiàn)ChatGPT胡說時(shí)就會(huì)給它打差評,它就知道回答有問題了。久而久之,這樣的問題就會(huì)越來越少,最終會(huì)得到解決。

我發(fā)現(xiàn)ChatGPT持續(xù)指數(shù)性的增長對我的挑戰(zhàn)就是,我的PPT變得過時(shí)了。

下面我將給大家匯報(bào)一下微軟將給企業(yè)帶來的企業(yè)級ChatGPT地圖(Enterprise ChatGPT Roadmap)。3月,微軟發(fā)布企業(yè)ChatGPT參考架構(gòu),各企業(yè)IT部門的架構(gòu)師們可以開始研究如何與IT系統(tǒng)集成,有哪些API可以開始熟悉起來,什么樣的系統(tǒng)更適合變成企業(yè)ChatGPT。這樣的好處在于,在云里面企業(yè)用戶的訂閱是一個(gè)單獨(dú)的ChatGPT實(shí)例,里面存放的是各位的私域數(shù)據(jù),所有的安全、隱私、防護(hù)都有一流的審核來作保障。

具體的應(yīng)用場景包括客戶服務(wù)(Chat your Customs)、銷售市場(Chat your Web)、內(nèi)容生成(Chat your Products)、知識(shí)管理(Chat your Docs)、輔助決策(Chat your Data)等。

微軟徐明強(qiáng):探索AIGC增長趨勢,微軟企業(yè)級ChatGPT滿足五大應(yīng)用場景丨GTIC 2023

我可以給大家舉一個(gè)例子,萬科的物業(yè)大家知道是向誰負(fù)責(zé)的嗎?我之前一直以為是向業(yè)主負(fù)責(zé),但聊完之后才知道,物業(yè)是向政府負(fù)責(zé)的,當(dāng)業(yè)主的埋怨特別多時(shí),政府其實(shí)并不開心,政府需要為業(yè)主來考慮。過去的問題在于,當(dāng)業(yè)主打電話、或是通過其它渠道來埋怨、吐槽時(shí),關(guān)鍵詞的審核準(zhǔn)確率只有70%,如果是非常緊急的負(fù)面輿情沒有判斷到時(shí),會(huì)造成一個(gè)很糟糕的局面;但用了ChatGPT之后,當(dāng)天上漲了5個(gè)點(diǎn),最近兩周已上漲到超過90%,對自然語言的理解給輿情控制帶來了如此大的增長。

在內(nèi)容生成方面,昨天我和一位律師聊天時(shí)發(fā)現(xiàn),律所事情太多,當(dāng)老板要看一千份合同,并且發(fā)現(xiàn)中間的合同和標(biāo)準(zhǔn)條款不一樣時(shí),員工只能說因?yàn)楦緵]有時(shí)間去看這么多份的合同。有了OpenAI的ChatGPT之后,它可以把一千份合同挑出來,隨時(shí)看有哪些條款和標(biāo)準(zhǔn)條款不一樣的。內(nèi)容生成上我們還有很大的想象空間。

最后,AI的注意力雖然都讓OpenAI吸引走了,但真正要做一個(gè)Enterprise ChatGPT的系統(tǒng)的話,OpenAI還只是初步,我們還要做好第二步的工作,如何把企業(yè)內(nèi)部的數(shù)字資產(chǎn)做好索引、做好搜索。ChatGPT現(xiàn)在是一個(gè)非常好的開卷考試生,我們要做的是把問題和學(xué)習(xí)材料遞到它手上,這個(gè)工作是大家要注意的。

謝謝大家!微軟愿和大家一起攜手,使用好OpenAI的技術(shù),讓每個(gè)企業(yè)都能成就不凡。

以上是徐明強(qiáng)演講內(nèi)容的完整整理。