隨著數(shù)據(jù)和模型規(guī)模的大幅擴(kuò)展,大型語(yǔ)言模型(LLMs)的基礎(chǔ)模型已經(jīng)取得了顯著的成功。很多模型通過(guò)零/少樣本學(xué)習(xí),而無(wú)需大量的任務(wù)特定數(shù)據(jù)或模型參數(shù)更新,就能擁有先進(jìn)的能力,包括語(yǔ)言理解、生成、推理和與代碼相關(guān)的任務(wù)。
視覺(jué)任務(wù)不同于語(yǔ)言任務(wù),很難找到一種封閉定義去囊括所有的任務(wù)形式。那么,視覺(jué)任務(wù)的終局是什么?有沒(méi)有可能做到像現(xiàn)在語(yǔ)言任務(wù)的大一統(tǒng)?同時(shí),在這個(gè)大模型、多模態(tài)等前沿領(lǐng)域快速更新迭代的時(shí)代,研究者們又該如何在緊跟日新月異的技術(shù)發(fā)展潮流的同時(shí),做出有自己特色的研究呢?
8月30日晚7點(diǎn),智東西公開(kāi)課推出「大規(guī)模視覺(jué)基礎(chǔ)模型在線研討會(huì)」。研討會(huì)由南開(kāi)大學(xué)副教授李翔博士參與出品。李翔博士入選了南開(kāi)大學(xué)百青計(jì)劃、博士后創(chuàng)新人才支持計(jì)劃,在 CVPR、NeurIPS 及權(quán)威期刊 TPAMI 等上發(fā)表40余篇學(xué)術(shù)論文,谷歌學(xué)術(shù)總引用達(dá)7400余次,合作提出的 PVT 模型入選 ICCV21 Top-10 最具影響力工作(排名第二,第一名為馬爾獎(jiǎng)Swin Transformer)。
本次研討會(huì),香港中文大學(xué)博士后王文海、微軟亞洲研究院研究員宋愷濤和南京理工大學(xué)在讀博士楊凌風(fēng)三位青年學(xué)者將參與主講。他們將分別圍繞主題《“大規(guī)模視覺(jué)基礎(chǔ)模型 + LLM”在開(kāi)放世界任務(wù)中的應(yīng)用初探》、《基于 ChatGPT + Hugging Face 解決復(fù)雜人工智能任務(wù)》和《大型視覺(jué)語(yǔ)言模型的細(xì)粒度視覺(jué)提示及局部定位識(shí)別》進(jìn)行深度講解。
出品人
李翔博士,南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院副教授;入選南開(kāi)大學(xué)百青計(jì)劃、博士后創(chuàng)新人才支持計(jì)劃,主持國(guó)家自然科學(xué)青年基金,獲江蘇省人工智能學(xué)會(huì)優(yōu)秀博士論文獎(jiǎng),CCF優(yōu)秀博士論文提名獎(jiǎng);在CCF A 類(lèi)會(huì)議CVPR、NeurIPS及權(quán)威期刊TPAMI等上發(fā)表40余篇學(xué)術(shù)論文,包括第一作者和通訊作者20余篇;谷歌學(xué)術(shù)總引用達(dá)7400余次,一作代表工作SKNet(CVPR19)引用1700余次;長(zhǎng)期擔(dān)任國(guó)際人工智能頂級(jí)會(huì)議AAAI、CVPR及權(quán)威期刊TPAMI、TIP、TMM審稿人,擔(dān)任PRCV23領(lǐng)域主席,Image and Vision Computing期刊副主編。
主題介紹
香港中文大學(xué)博士后王文海:“大規(guī)模視覺(jué)基礎(chǔ)模型 + LLM”在開(kāi)放世界任務(wù)中的應(yīng)用初探
近年來(lái),以ChatGPT為代表的大規(guī)模語(yǔ)言模型已在自然語(yǔ)言處理開(kāi)放世界任務(wù)中獲得了極大的成功。然而,由于其受到模態(tài)的限制,這些模型在計(jì)算機(jī)視覺(jué)和視覺(jué)語(yǔ)言任務(wù)中的應(yīng)用仍然受到限制。
在本次分享,我們將從大規(guī)模視覺(jué)基礎(chǔ)模型開(kāi)始,探討視覺(jué)基礎(chǔ)模型與大規(guī)模語(yǔ)言模型在以視覺(jué)為中心的開(kāi)放世界任務(wù)中的應(yīng)用。包括:(1)大規(guī)模視覺(jué)基礎(chǔ)模型的構(gòu)建和訓(xùn)練;(2)視覺(jué)基礎(chǔ)模型和大規(guī)模語(yǔ)言模型在開(kāi)放世界視覺(jué)交互系統(tǒng)中協(xié)同應(yīng)用;(3)更靈活的大規(guī)模語(yǔ)言模型在開(kāi)放世界視覺(jué)和視覺(jué)語(yǔ)言任務(wù)中的使用方法。
微軟亞洲研究院研究員宋愷濤:基于 ChatGPT + Hugging Face 解決復(fù)雜人工智能任務(wù)
利用不同領(lǐng)域和模態(tài)的復(fù)雜人工智能任務(wù)是邁向先進(jìn)人工智能的關(guān)鍵一步。雖然針對(duì)不同領(lǐng)域和模態(tài)存在大量的人工智能模型,但它們無(wú)法處理復(fù)雜的人工智能任務(wù)??紤]到大型語(yǔ)言模型(LLMs)在語(yǔ)言理解、生成、交互和推理方面表現(xiàn)出色的能力,我們認(rèn)為 LLMs 可以充當(dāng)控制器,管理現(xiàn)有的人工智能模型來(lái)解決復(fù)雜的人工智能任務(wù),而語(yǔ)言可以作為通用接口來(lái)實(shí)現(xiàn)這一點(diǎn)?;谶@一理念,我們提出了一個(gè)框架,利用 LLMs(例如ChatGPT)來(lái)連接機(jī)器學(xué)習(xí)社區(qū)中的各種人工智能模型(例如Hugging Face)來(lái)解決人工智能任務(wù)。
具體而言,我們使用 ChatGPT 在接收用戶請(qǐng)求時(shí)進(jìn)行任務(wù)規(guī)劃,根據(jù) Hugging Face 中可用的模型功能描述來(lái)選擇模型,使用所選的人工智能模型執(zhí)行每個(gè)子任務(wù),并根據(jù)執(zhí)行結(jié)果總結(jié)回應(yīng)。通過(guò)充分利用 ChatGPT 的強(qiáng)大語(yǔ)言能力和 Hugging Face 中豐富的人工智能模型,我們的系統(tǒng)(即HuggingGPT)能夠涵蓋許多不同模態(tài)和領(lǐng)域的復(fù)雜人工智能任務(wù),并在語(yǔ)言、視覺(jué)、語(yǔ)音和其他具有挑戰(zhàn)性的任務(wù)方面取得令人印象深刻的結(jié)果,為邁向人工通用智能開(kāi)辟了新的道路。
南京理工大學(xué)在讀博士楊凌風(fēng):大型視覺(jué)語(yǔ)言模型的細(xì)粒度視覺(jué)提示及局部定位識(shí)別
大型視覺(jué)語(yǔ)言模型在多個(gè)圖像層級(jí)的任務(wù)上取得優(yōu)秀表現(xiàn),但是其潛在的知識(shí)難以被應(yīng)用于局部定位識(shí)別任務(wù)?,F(xiàn)有的零樣本遷移方法使用了視覺(jué)提示的策略,但是其提示設(shè)計(jì)存在不準(zhǔn)確、引入噪聲等問(wèn)題。
我們通過(guò)流程圖以及實(shí)例可視化展示了我們的解決方法,并在展示了在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。最后,我們對(duì)各個(gè)方法進(jìn)行了有效性分析,并進(jìn)行了視覺(jué)提示的結(jié)果可視化。