智東西(公眾號:zhidxcom)
編譯 | 趙迪
編輯 |?云鵬

智東西1月19日消息,據(jù)外媒報道,近來,AI語言處理工具“tl;dr papers”在推特上得到大量學(xué)者推薦?!皌l;dr papers”運用AI語言處理領(lǐng)域(AI language processing)的前沿技術(shù),根據(jù)論文摘要總結(jié)論文觀點,能將難以理解的學(xué)術(shù)文章提煉為簡潔通俗的短句,增強趣味性,不僅便于讀者閱讀,也為教育科普提供了新手段。同時,它對文章的概括也能啟發(fā)研究人員從新角度重新審視研究對象。

英語俚語中用縮寫“tl;dr”代表“Too Long;Didn’t Read”,意為“文章太長,沒有興趣看”。對于那些有難度、不想看的學(xué)術(shù)論文,“tl;dr papers”正好可以助你一臂之力,它將長篇幅的文章濃縮至一句話,讓你能夠快速瀏覽文章內(nèi)容。

目前,AI語言處理工具在微軟、谷歌等主流公司被廣泛應(yīng)用,但它們對訓(xùn)練數(shù)據(jù)的依賴性較高,不能自主辨別不良信息,甚至?xí)椭鷤鞑ミ@些信息。此外,AI語言處理工具常產(chǎn)生違背基本常識的處理結(jié)果,其準(zhǔn)確性還有待提高。

一、一句話概括高難度論文,新科普手段出現(xiàn)

“tl;dr papers”是由亞什·達尼(Yash Dani)和辛迪·吳(Cindy Wu)在兩年前創(chuàng)建的AI語言處理網(wǎng)站,本意是協(xié)助自己了解更多軟件開發(fā)知識。上周末,學(xué)者們紛紛在推特上分享“tl;dr papers”對其學(xué)術(shù)論文的概括總結(jié),熱度一夜飆升?!皌l;dr papers”主要根據(jù)學(xué)術(shù)論文摘要進行概括,刪減了學(xué)術(shù)術(shù)語,用語簡潔,雖然忽略了概念之間的細(xì)微差別,但整體上總結(jié)準(zhǔn)確,富有趣味性,得到學(xué)者們的廣泛肯定。

澳大利亞國立大學(xué)全球女性領(lǐng)導(dǎo)力研究所所長米歇爾?瑞恩(Michelle Ryan)教授曾發(fā)表一篇關(guān)于“glass cliff”的文章,指出在組織面臨危機或經(jīng)濟低迷時期,女性比男性更有可能被選中擔(dān)任領(lǐng)導(dǎo)角色,這本質(zhì)上是一種性別歧視?!皌l;dr papers”將其概括為“很多女性被置于‘glass cliff’之上,這是一個糟糕的地方”,這句總結(jié)句式簡單、意義明確,小學(xué)生也能毫不費力地看懂。

一夜爆紅的AI語言處理工具,能一句話總結(jié)論文,但仍“難辨是非”

▲Ryan教授在推特上發(fā)文支持“tl;dr papers”

賓夕法尼亞大學(xué)安納伯格傳播學(xué)院的博士生贊恩·格里芬·塔利·庫珀(Zane Griffin Talley Cooper)也用其概括了一篇有關(guān)“數(shù)據(jù)外圍(data peripheries)”的論文,原文內(nèi)容是追溯大數(shù)據(jù)基礎(chǔ)設(shè)施材料的物理學(xué)歷史。這篇論文最后被總結(jié)為“大數(shù)據(jù)存儲在硬盤驅(qū)動器上,硬盤驅(qū)動器由非常小的磁鐵制成,磁鐵從地下開采出來?!睅扃暌庾R到,表面上看“tl;dr papers”是用于娛樂,但實際上它還可以被應(yīng)用到教學(xué)和研究中,比如幫助學(xué)生閱讀復(fù)雜的論文,為在線期刊生成簡化版摘要,方便公眾閱讀。

二、看看機器如何理解,激發(fā)研究人員創(chuàng)造力

莫納什大學(xué)新興技術(shù)研究實驗室的高級研究員賈森·薩多夫斯基(Jathan Sadowski)對“tl;dr papers”很感興趣,將它看作研究人員創(chuàng)造力的催化劑。他認(rèn)為“tl;dr papers”提供的總結(jié)往往具有“偶然的智慧”,這也許是機器學(xué)習(xí)無法完全理解語言的副產(chǎn)品,但機器提供的這些視角能夠幫助在自己的領(lǐng)域挖掘甚深的學(xué)者從更新奇的角度看待自己的研究對象。

薩多夫斯基認(rèn)為,像“tl;dr papers”這樣的AI語言處理工具可以挖掘自身作為“創(chuàng)造力催化劑”的定位。布萊恩·伊諾(Brian Eno)和彼得·施密特(Peter Schmidt)曾創(chuàng)造一組卡片“Oblique Strategies”,每張卡片上都有一個警句或評論,旨在通過鼓勵橫向思維來幫助藝術(shù)家(尤其是音樂家)打破創(chuàng)作障礙?!皌l;dr papers”也可以提供類似的服務(wù),激發(fā)學(xué)者開拓新的思維模式。事實上,一些公司已經(jīng)察覺到AI在這方面的潛力,推出了AI創(chuàng)意寫作助手。

一夜爆紅的AI語言處理工具,能一句話總結(jié)論文,但仍“難辨是非”

▲Oblique Strategies網(wǎng)站隨機生成的警句

三、囿于數(shù)據(jù)庫和統(tǒng)計方法,AI語言處理工具難辨是非

目前AI語言處理工具以訓(xùn)練數(shù)據(jù)為基礎(chǔ),而訓(xùn)練數(shù)據(jù)通常只是從互聯(lián)網(wǎng)上搜集的大量文本,因此這些AI語言處理工具有可能會強調(diào)不良信息,比如重復(fù)涉及種族主義和性別歧視的污言穢語,還可能以更微妙的方式帶有偏見。

AI語言處理工具的不準(zhǔn)確性也令人擔(dān)憂。這些工具運用統(tǒng)計方法處理語言,對內(nèi)容的理解方式與人類不同,這可能會導(dǎo)致一些非?;镜腻e誤,甚至可能危及生命。谷歌搜索曾在回答“癲癇發(fā)作應(yīng)對措施”問題時提供了誤導(dǎo)性的醫(yī)療建議。去年12月,亞馬遜的語音助手Alexa在一個孩子讓其隨機推薦一個挑戰(zhàn)時,引導(dǎo)孩子把手機充電器插到墻上插座的一半,然后用一枚硬幣去觸碰暴露在外的金屬頭。

一夜爆紅的AI語言處理工具,能一句話總結(jié)論文,但仍“難辨是非”

▲用戶發(fā)布了Alexa給出的誤導(dǎo)性信息截圖

這些都說明了AI語言處理工具在結(jié)構(gòu)模型上的弱點,即作為模型基礎(chǔ)的數(shù)據(jù)魚龍混雜,模型采用的方法與人類理解語言的方式也存在差距。薩多夫斯基認(rèn)為,像這樣的AI語言處理工具應(yīng)該小心處理,讓它們盡量可以發(fā)揮正面作用。

結(jié)語:AI語言處理工具拓展應(yīng)用范圍,但精確性還需加強

AI語言處理工具“tl;dr papers”對高難度學(xué)術(shù)論文進行了準(zhǔn)確、簡潔的概括,使學(xué)術(shù)內(nèi)容以更富趣味性的形式呈現(xiàn)在大眾面前。這些概括不僅具有娛樂性,還能夠促進知識科普,激發(fā)研究人員的創(chuàng)造力,助力教學(xué)和研究工作,展現(xiàn)了人工智能語言處理工具廣闊的應(yīng)用前景。

AI語言處理工具長期采用以統(tǒng)計為主的經(jīng)驗主義方法,這種與人類大相徑庭的語言理解方式幫助人們在計算機語言處理上取得了極大進步。未來,這種方法能否進一步消除人們對其錯誤傾向性、準(zhǔn)確性的擔(dān)憂,值得期待。

來源:The Verge