智東西(公眾號(hào):zhidxcom)
文 | 軒窗 王穎

智東西5月5日消息,人類在NLP領(lǐng)域的研究已長達(dá)半世紀(jì),現(xiàn)在AI終于揚(yáng)眉吐氣了!5月4日,在斯坦福大學(xué)的會(huì)話問答(CoQA)挑戰(zhàn)賽中,AI的會(huì)話能力已媲美人類,并以0.6分優(yōu)勢全面“碾壓”人類水平!也就是說,人類與這個(gè)模型互動(dòng)更像是與真人之間的交流。

CoQA挑戰(zhàn)賽通過理解文本段落,并回答對話中出現(xiàn)的一系列相互關(guān)聯(lián)的問題,來衡量機(jī)器的性能。此次,微軟亞研院NLP團(tuán)隊(duì)和微軟Redmond語音對話團(tuán)隊(duì)聯(lián)手組成黃金搭檔參賽。

在CoQA挑戰(zhàn)賽歷史上,他們是唯一一個(gè)在模型性能方面達(dá)到人類水平的團(tuán)隊(duì)!他們于2019年3月29日提交的集合系統(tǒng)得分對應(yīng)域內(nèi)、域外和整體F1分別為89.9 / 88.0 / 89.4,而同一組會(huì)話問題和答案的人類表現(xiàn)則分別為89.4 / 87.4 / 88.8。

AI會(huì)話能力超越人類!CoQA挑戰(zhàn)賽微軟創(chuàng)新紀(jì)錄

從2018年至今,人類在NLP領(lǐng)域不斷有好消息傳來。去年10月谷歌推出BERT語言模型在11項(xiàng)NLP任務(wù)中奪得STOA結(jié)果。今年2月,OpenAI展示了其訓(xùn)練的一個(gè)大規(guī)模的無監(jiān)督語言模型GPT-2,可以根據(jù)前文進(jìn)行續(xù)寫,并且不需要特定訓(xùn)練。

這也說明了,當(dāng)下NLP研發(fā)正進(jìn)入一個(gè)黃金時(shí)期!

一、微軟再度贏得斯坦福CoQA挑戰(zhàn)賽

CoQA是一個(gè)大規(guī)模的會(huì)話式問答數(shù)據(jù)集,這些問答數(shù)據(jù)來自不同領(lǐng)域的文章中,機(jī)器學(xué)習(xí)通過從這些文章中提取問答數(shù)據(jù)進(jìn)行會(huì)話問答。CoQA挑戰(zhàn)的目的,是為了衡量機(jī)器對文本的理解能力,檢驗(yàn)機(jī)器在接近人類的對話中回答問題能力的高低。

NLP團(tuán)隊(duì)之前使用斯坦福SQuAD(問題答疑數(shù)據(jù)集)在CoQA領(lǐng)域內(nèi)數(shù)據(jù)集上F1得分超過80%的模型,達(dá)到80.7%,在對話系統(tǒng)模型性能挑戰(zhàn)賽中刷新最佳性能紀(jì)錄。與SQuAD相比,CoQA中的問題更具會(huì)話性,答案可以是自由格式文本,以確保對話中答案的自然性。

CoQA中的會(huì)話問題形式是模仿人類的對話,但一般都很短。進(jìn)行第一個(gè)問題之后的每個(gè)問題都根據(jù)第一個(gè)問題來進(jìn)行問答,這使得簡短問題對于機(jī)器解析更加困難。例如,假設(shè)您向系統(tǒng)提問,“誰是微軟的創(chuàng)始人?”當(dāng)您提出后續(xù)問題“他什么時(shí)候出生?”時(shí),機(jī)器解析需要判斷現(xiàn)在談?wù)摰娜匀皇峭恢黝}。

AI會(huì)話能力超越人類!CoQA挑戰(zhàn)賽微軟創(chuàng)新紀(jì)錄

根據(jù)CoQA排行榜,NLP和SDRG模型取得的成績再次刷新了記錄,機(jī)器閱讀理解已成功達(dá)到人類水平。

這項(xiàng)成就意味著Bing等搜索引擎和Cortana等智能助手與人們的互動(dòng)可以通過這種模型以更自然的方式提供信息,就像人與人之間相互溝通一樣。

二、微軟模型如何“碾壓”人類?

為了更好地測試現(xiàn)有模型的泛化能力,CoQA從七個(gè)不同的領(lǐng)域收集數(shù)據(jù),兒童故事、文學(xué)、中學(xué)和高中英語考試、新聞、維基百科、Reddit和科學(xué)。其中前五種類型的文章用于模型的訓(xùn)練、開發(fā)和測試集,后兩種僅用于測試集。

CoQA使用F1(統(tǒng)計(jì)學(xué)中衡量二分類模型精確度的指標(biāo))指標(biāo)來評估性能。F1評分衡量模型系統(tǒng)的實(shí)際問答效果和預(yù)測情況之間的平均單詞重疊。域內(nèi)F1根據(jù)與訓(xùn)練集相同的域的測試數(shù)據(jù)進(jìn)行評分;并對來自不同域的測試數(shù)據(jù)評分域外F1??傮wF1是整個(gè)測試集的最終得分。

微軟研究人員使用了一種訓(xùn)練模型的策略,模型系統(tǒng)從幾個(gè)相關(guān)任務(wù)中學(xué)習(xí),并將信息用于改進(jìn)目標(biāo)機(jī)器閱讀理解(MRC)任務(wù)。

AI會(huì)話能力超越人類!CoQA挑戰(zhàn)賽微軟創(chuàng)新紀(jì)錄

在這種多階段、多任務(wù)的微調(diào)方法中,研究人員首先在多任務(wù)設(shè)置下從相關(guān)任務(wù)中學(xué)習(xí)MRC相關(guān)背景信息,然后在目標(biāo)任務(wù)上微調(diào)模型,并使用語言建模在兩個(gè)階段中輔助完成任務(wù),以幫助減少會(huì)話式問答模型的過度擬合。

NLP和SDRG的策略起到了有效的作用,他們的機(jī)器模型在CoQA挑戰(zhàn)賽中的強(qiáng)大表現(xiàn)進(jìn)一步證明了這一點(diǎn)。

三、走過半世紀(jì),人類在NLP領(lǐng)域取得十大里程碑

NLP是人工智能領(lǐng)域的一個(gè)重要子領(lǐng)域,同時(shí)也是一種非常吸引人的人機(jī)交互方式,從50年代機(jī)器翻譯和人工智能研究算起,NLP至今有長達(dá)半個(gè)世紀(jì)的歷史了。

在過去的二十多年里,科學(xué)家們利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,讓NLP技術(shù)不斷向前邁進(jìn)。

近四年來,深度學(xué)習(xí)則給NLP帶來了新的學(xué)習(xí)模式。其中在單句翻譯、抽取式閱讀理解、語法檢查等任務(wù)上,更是達(dá)到了可比擬人類的水平。

細(xì)數(shù)半個(gè)世紀(jì)以來,人類在NLP領(lǐng)域有著十大里程碑,分別是:

1、1985復(fù)雜特征集

2、1966詞匯主義

3、1976統(tǒng)計(jì)語言模型

4、2001神經(jīng)語言模型(Neural language models)

5、2008多任務(wù)學(xué)習(xí)(Multi-task learning)

6、2013詞嵌入

7、2013RNN/CNN用于NLP的神經(jīng)網(wǎng)絡(luò)

8、2014序列到序列模型(Sequence-to-sequencemodels)

9、2015注意力機(jī)制和基于記憶的神經(jīng)網(wǎng)絡(luò)

10、2018預(yù)訓(xùn)練語言模型

從2018年至今,人類在NLP領(lǐng)域不斷有好消息傳來。

去年10月谷歌推出BERT語言模型,通過在33億文本的語料上訓(xùn)練語言模型,最終BERT在11項(xiàng)NLP任務(wù)中奪得STOA結(jié)果,在自然語言處理學(xué)界以及工業(yè)界都引起了不小的熱議。

AI會(huì)話能力超越人類!CoQA挑戰(zhàn)賽微軟創(chuàng)新紀(jì)錄

▲OpenAI GPT-2編造的新聞

今年2月,OpenAI展示了其訓(xùn)練的一個(gè)大規(guī)模的無監(jiān)督語言模型GPT-2,具有來自800萬個(gè)網(wǎng)頁的15億數(shù)據(jù)集,其訓(xùn)練目標(biāo)就是基于前面給定的文本,從而預(yù)測接下來的文字。它可以生成連貫的文本段落,并進(jìn)行閱讀理解、機(jī)器翻譯、問答和撰寫摘要,并且所以這些AI能力都不需要特定任務(wù)的訓(xùn)練。

結(jié)語:NLP研發(fā)正迎來黃金時(shí)期

在此次比賽中,由微軟亞研院NLP團(tuán)隊(duì)和微軟Redmond語音對話團(tuán)隊(duì)在比賽中已經(jīng)讓模型在性能方面達(dá)到人類水平,這也標(biāo)志著微軟可以在搜索引擎和語音助手等與人們強(qiáng)交互領(lǐng)域可以更自然地互動(dòng)和提供信息。

自然語言理解被譽(yù)為被譽(yù)為“人工智能皇冠上的明珠”,其進(jìn)步必將會(huì)推動(dòng)人工智能整體進(jìn)展。從目前來看,隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,人類在NLP領(lǐng)域正不斷取得進(jìn)步,更多有趣、驚人的AI在陸續(xù)出現(xiàn),NLP研發(fā)也正迎來又一個(gè)黃金時(shí)期。