智東西(公眾號(hào):zhidxcom)
作者 |?徐珊
編輯 | 云鵬

智東西11月16日?qǐng)?bào)道,昨日,騰訊在其技術(shù)開(kāi)放日舉辦了AGI時(shí)代的“數(shù)據(jù)樞紐”騰訊云向量數(shù)據(jù)庫(kù)技術(shù)&產(chǎn)業(yè)峰會(huì)。在此次大會(huì)上,騰訊云聯(lián)合中國(guó)信通院聯(lián)合發(fā)布向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)。騰訊云向量數(shù)據(jù)庫(kù)成為首家通過(guò)信通院的向量庫(kù)標(biāo)準(zhǔn)測(cè)試的向量數(shù)據(jù)庫(kù),最高支持千億級(jí)向量規(guī)模和500萬(wàn)QPS峰值能力。

向量是AI理解世界的通用數(shù)據(jù)形勢(shì),是多模態(tài)數(shù)據(jù)庫(kù)的壓縮。向量數(shù)據(jù)則是由數(shù)值向量組成的數(shù)據(jù)集合,向量數(shù)據(jù)庫(kù)是以向量嵌入式存儲(chǔ)和管理向量數(shù)據(jù)的數(shù)據(jù)庫(kù),其主要的來(lái)自于對(duì)文本、語(yǔ)音、圖像、視屏等非結(jié)構(gòu)化數(shù)據(jù),提供向量化的功能。

“向量數(shù)據(jù)庫(kù)不僅是支撐大模型的重要基礎(chǔ)設(shè)施,也正在成為企業(yè)以數(shù)據(jù)驅(qū)動(dòng)打造未來(lái)競(jìng)爭(zhēng)力的重要一環(huán)?!彬v訊集團(tuán)高級(jí)執(zhí)行副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生說(shuō)道。他認(rèn)為,目前企業(yè)數(shù)據(jù)庫(kù)內(nèi)80%的數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù),向量數(shù)據(jù)可以讓AI直接解讀語(yǔ)音、視頻等多模態(tài)的數(shù)據(jù)。

據(jù)騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理羅云介紹,目前騰訊云向量數(shù)據(jù)庫(kù)已經(jīng)累積服務(wù)了騰訊內(nèi)部40多個(gè)業(yè)務(wù),日請(qǐng)求量達(dá)1600億次,服務(wù)了包括博世、銷售易、搜狐、好未來(lái)、鏈家等在內(nèi)的超過(guò)1000家外部客戶。

此外,騰訊云向量數(shù)據(jù)庫(kù)和百川智能聯(lián)合發(fā)布的“AGI啟航計(jì)劃”也正式啟動(dòng),向量數(shù)據(jù)庫(kù)免費(fèi)實(shí)例及Baichuan2 400萬(wàn)免費(fèi)Tokens將限量開(kāi)放領(lǐng)取,助力用戶快速搭建RAG應(yīng)用。同時(shí),騰訊云還與硬件廠商、大模型廠商、行業(yè)代表等聯(lián)合成立了“AGI技術(shù)生態(tài)聯(lián)盟”。

國(guó)內(nèi)首個(gè)向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)亮相,日處理1600億請(qǐng)求,對(duì)話騰訊云向量數(shù)據(jù)庫(kù)高管羅云

一、騰訊集團(tuán)高級(jí)執(zhí)行副總裁湯道生:向量數(shù)據(jù)庫(kù)比傳統(tǒng)數(shù)據(jù)庫(kù)的檢索規(guī)模提升數(shù)百倍

“向量數(shù)據(jù)庫(kù)可以成為大模型的外部知識(shí)庫(kù),給大模型輸入最新,最全面,最有效的信息,讓大模型擁有長(zhǎng)記憶,避免聊天時(shí)的斷線,是大模型的最佳拍檔。”湯道生通過(guò)視頻說(shuō)道。他認(rèn)為,AI驅(qū)動(dòng)產(chǎn)業(yè)數(shù)據(jù)變動(dòng)的時(shí)代正在到來(lái),向量數(shù)據(jù)庫(kù)正在成為數(shù)據(jù)的樞紐。

國(guó)內(nèi)首個(gè)向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)亮相,日處理1600億請(qǐng)求,對(duì)話騰訊云向量數(shù)據(jù)庫(kù)高管羅云

據(jù)他介紹,早在2019年,騰訊云向量數(shù)據(jù)庫(kù)已經(jīng)接入了QQ瀏覽器等多業(yè)務(wù)場(chǎng)景,每天處理超過(guò)1600億次的請(qǐng)求。在向量檢索幫助下,QQ瀏覽器檢索成本38%,QQ音樂(lè)的技術(shù)支持也較大提升。

今年8月,騰訊云正式推出向量數(shù)據(jù)庫(kù),如今,騰訊云向量數(shù)據(jù)庫(kù)也成為首個(gè)通過(guò)信通院標(biāo)準(zhǔn)測(cè)試的廠商,該向量庫(kù)擁有千億級(jí)的向量規(guī)模,比傳統(tǒng)數(shù)據(jù)庫(kù)的檢索規(guī)模提升數(shù)百倍。

湯道生認(rèn)為,數(shù)據(jù)在大模型的向量數(shù)據(jù)庫(kù)實(shí)現(xiàn)了智能計(jì)算、智能存儲(chǔ),大幅降低客戶的應(yīng)用門檻和成本。不少用戶基于騰訊云向量數(shù)據(jù)庫(kù)打造相應(yīng)的應(yīng)用,讓用戶在模糊的提示詞下,也可以準(zhǔn)確的找到答案,幫助客戶節(jié)省80%的人工客服成本。

二、騰訊云副總裁陳平:國(guó)內(nèi)擁有130個(gè)大模型,向量數(shù)據(jù)庫(kù)是AGI時(shí)代大模型的最佳拍檔

“向量數(shù)據(jù)庫(kù)已經(jīng)被業(yè)內(nèi)公認(rèn)大模型時(shí)代的數(shù)據(jù)樞紐,因此其建設(shè)也尤為重要?!彬v訊云副總裁陳平談到在新的時(shí)代,AI行業(yè)將會(huì)改變千行百業(yè),傳統(tǒng)行業(yè)需要及時(shí)調(diào)整自己的生產(chǎn)方式,以跟上新的時(shí)代。

國(guó)內(nèi)首個(gè)向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)亮相,日處理1600億請(qǐng)求,對(duì)話騰訊云向量數(shù)據(jù)庫(kù)高管羅云

同時(shí),在新興數(shù)據(jù)技術(shù)集成上,移動(dòng)互聯(lián)網(wǎng)、泛互聯(lián)網(wǎng)等數(shù)據(jù)正呈現(xiàn)指數(shù)級(jí)成長(zhǎng),傳統(tǒng)處理數(shù)據(jù)的能力帶來(lái)壓力,更高效的數(shù)據(jù)存儲(chǔ)需要更智能存儲(chǔ)、梳理等。他認(rèn)為,向量數(shù)據(jù)庫(kù)是AGI時(shí)代大模型的最佳拍檔。

企業(yè)需要將數(shù)據(jù)采集和存儲(chǔ),更多利用大模型的數(shù)據(jù)和存儲(chǔ)。在數(shù)據(jù)采集層,騰訊計(jì)劃部署各種AI芯片,提供穩(wěn)定的服務(wù)性能,為各種各樣的AI廠商提供服務(wù)。在模型層,據(jù)他統(tǒng)計(jì),中國(guó)已經(jīng)有130個(gè)大模型,接下來(lái)需要廠商將大模型沉淀到各個(gè)產(chǎn)業(yè)中。大模型的應(yīng)用并不完全看算力,也看生態(tài)合作。而應(yīng)用層,AGI應(yīng)用需要投入到真實(shí)環(huán)節(jié),也是其實(shí)現(xiàn)價(jià)值最重要的一環(huán)。

在2018年左右,由于自身業(yè)務(wù)的需要,騰訊云就已經(jīng)開(kāi)始打磨向量數(shù)據(jù)庫(kù),如今已經(jīng)成為較為成熟體系?!膀v訊云積極參與向量數(shù)據(jù)庫(kù)相關(guān)標(biāo)準(zhǔn)制定,并通過(guò)搭建AGI技術(shù)生態(tài)聯(lián)盟,與上下游伙伴一道,加強(qiáng)產(chǎn)業(yè)合作,打造更多的行業(yè)解決方案,加速大模型落地。”陳平說(shuō)道。

三、中國(guó)信通院人工智能創(chuàng)新中心負(fù)責(zé)人魏凱:國(guó)內(nèi)數(shù)據(jù)庫(kù)仍以關(guān)系型為主

中國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)開(kāi)始于20世紀(jì)末,并在2013年后迎來(lái)新的繁榮發(fā)展,在2020年后,中國(guó)數(shù)據(jù)庫(kù)迎來(lái)的真正的爆發(fā)?!皵?shù)據(jù)庫(kù)是一個(gè)生命力比較頑強(qiáng)的產(chǎn)業(yè),幾乎每幾年都有一個(gè)熱點(diǎn)。在全球數(shù)據(jù)庫(kù)第二波爆發(fā)階段,中國(guó)趕上了浪潮。”中國(guó)信通院人工智能創(chuàng)新中心負(fù)責(zé)人、云計(jì)算與大數(shù)據(jù)研究所副所長(zhǎng)魏凱說(shuō)道。

數(shù)據(jù)庫(kù)上云成為當(dāng)今產(chǎn)業(yè)行業(yè)重要的趨勢(shì),2022年,國(guó)內(nèi)的公有云市場(chǎng)首次超過(guò)了私有云,市場(chǎng)份額超過(guò)一半。

向量數(shù)據(jù)庫(kù)是存儲(chǔ)檢索、多維度向量最關(guān)鍵的數(shù)據(jù)庫(kù)。向量數(shù)據(jù)庫(kù)與大模型的結(jié)合,成為其當(dāng)下的產(chǎn)業(yè)熱門。向量數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)會(huì)協(xié)同發(fā)展、相互補(bǔ)充。向量數(shù)據(jù)庫(kù)將會(huì)通過(guò)數(shù)據(jù)的向量化來(lái)滿足特定需求,尤其是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)難以處理的大規(guī)模數(shù)據(jù)。

國(guó)內(nèi)首個(gè)向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)亮相,日處理1600億請(qǐng)求,對(duì)話騰訊云向量數(shù)據(jù)庫(kù)高管羅云

目前,全球數(shù)據(jù)庫(kù)產(chǎn)品數(shù)量整體分布呈現(xiàn)以非關(guān)系型數(shù)據(jù)為主。但國(guó)內(nèi)卻出現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展超過(guò)非關(guān)系型數(shù)據(jù)庫(kù)的現(xiàn)象。從創(chuàng)新看,非關(guān)系型數(shù)據(jù)是熱點(diǎn),我國(guó)創(chuàng)新實(shí)力不斷增強(qiáng)。而從標(biāo)準(zhǔn)上看,行業(yè)組織正逐步推動(dòng)我國(guó)標(biāo)準(zhǔn)體系完善。從模式來(lái)看,開(kāi)源模式在全球范圍內(nèi)發(fā)展勢(shì)頭較猛,目前,我國(guó)國(guó)內(nèi)的開(kāi)源數(shù)據(jù)庫(kù)共有42款,開(kāi)源數(shù)據(jù)庫(kù)中69%為關(guān)系型數(shù)據(jù)庫(kù)。

他提到目前向量數(shù)據(jù)庫(kù)的核心技術(shù)有Embedding技術(shù)、向量索引技術(shù)、分布式系統(tǒng)架構(gòu)、硬件加速技術(shù)等。向量數(shù)據(jù)庫(kù)可以在文本、圖像、視頻、生物制藥等多場(chǎng)景中,發(fā)揮其創(chuàng)造性,提供豐富的應(yīng)用。

四、對(duì)話騰訊云向量數(shù)據(jù)庫(kù)負(fù)責(zé)人羅云:智能化數(shù)據(jù)平臺(tái)的數(shù)據(jù)要可流通、可對(duì)話

隨著AI的發(fā)展,整個(gè)計(jì)算機(jī)科學(xué)行業(yè)的底層基礎(chǔ)設(shè)施將會(huì)構(gòu)建全新的方式。

“AGI時(shí)代大模型是提供算力、調(diào)度的智能平臺(tái),向量數(shù)據(jù)庫(kù)就是這個(gè)智能化的數(shù)據(jù)的調(diào)度平臺(tái)的中樞”騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理兼向量數(shù)據(jù)庫(kù)負(fù)責(zé)人羅云認(rèn)為,大模型的本質(zhì)是帶有智能計(jì)算的計(jì)算平臺(tái),將會(huì)將人們所接觸編程語(yǔ)言才可以觸達(dá)的計(jì)算體,轉(zhuǎn)換成人們自然語(yǔ)言就可以接觸的計(jì)算體。

他認(rèn)為AGI時(shí)代,智能化數(shù)據(jù)平臺(tái)將會(huì)存在兩大特點(diǎn),第一、底層數(shù)據(jù)化數(shù)據(jù)將要可以通過(guò)智能化的方式流通;第二則是,能夠和數(shù)據(jù)庫(kù)對(duì)話。因此,在AGI時(shí)代,向量數(shù)據(jù)庫(kù)是數(shù)據(jù)的中樞。通過(guò)向量這樣中間模式,將會(huì)磨平了數(shù)據(jù)之間的差異。

在會(huì)后的采訪環(huán)節(jié),羅云提到向量是一種通用的人工智能背后的數(shù)據(jù)格式,它可能是需要橋接關(guān)鍵數(shù)據(jù)庫(kù)、非關(guān)鍵數(shù)據(jù)庫(kù)、對(duì)象存儲(chǔ)、文件存儲(chǔ)所有的各式各樣結(jié)構(gòu)的數(shù)據(jù),把這些數(shù)據(jù)集中化放在一個(gè)數(shù)據(jù)管理平臺(tái)上。而傳統(tǒng)的插件式向量數(shù)據(jù)庫(kù)相比,很難讓某一個(gè)數(shù)據(jù)庫(kù)的插件支持到其他的格式?!跋蛄繑?shù)據(jù)庫(kù)會(huì)成為智能化AI的一個(gè)索引層,它會(huì)把底層所有的數(shù)據(jù)都智能化的管理起來(lái),讓人類通過(guò)自然語(yǔ)言,通過(guò)向量去做交互?!彼a(bǔ)充道。

國(guó)內(nèi)首個(gè)向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)亮相,日處理1600億請(qǐng)求,對(duì)話騰訊云向量數(shù)據(jù)庫(kù)高管羅云▲中間為騰訊云創(chuàng)始團(tuán)隊(duì)成員、騰訊云數(shù)據(jù)庫(kù)副總經(jīng)理兼向量數(shù)據(jù)庫(kù)負(fù)責(zé)人羅云

AGI時(shí)代的數(shù)據(jù)中樞及既要有傳統(tǒng)數(shù)據(jù)路的企業(yè)級(jí)能力,更需要智能化升級(jí)。向量數(shù)據(jù)庫(kù)需要在可用性、分布式、性能、可靠性等六大能力方面,擁有新的要求,實(shí)現(xiàn)計(jì)算智能化、存儲(chǔ)智能化、接口智能化。

為了加速向量數(shù)據(jù)庫(kù)在企業(yè)的大規(guī)模應(yīng)用,騰訊云還推出了國(guó)內(nèi)“首個(gè)”端到端的向量數(shù)據(jù)庫(kù)解決方案,通過(guò)文本智能化分割、選擇向量化模型、幫助客戶建立索引,再經(jīng)智能化排序?qū)崿F(xiàn)端到端的數(shù)據(jù)接入體驗(yàn)。將端到端召回率提高30%,縮短數(shù)據(jù)接入AI的時(shí)間。

現(xiàn)階段,騰訊云已經(jīng)接入了百余項(xiàng)項(xiàng)目,同時(shí),騰訊已經(jīng)外部接入了千余家企業(yè)。例如,在SaaS領(lǐng)域,幫助企業(yè)客戶快速構(gòu)建私域知識(shí)庫(kù)、智能客服系統(tǒng);在電商行業(yè),使用向量數(shù)據(jù)庫(kù)來(lái)提升推薦、搜索、廣告業(yè)務(wù)的推薦效果;在出行行業(yè),使用向量數(shù)據(jù)庫(kù)來(lái)加速自動(dòng)駕駛模型訓(xùn)練,此外,在教育行業(yè)以及文創(chuàng)等行業(yè)也有廣泛應(yīng)用。

在產(chǎn)業(yè)創(chuàng)新方向上,他提到不少在向量數(shù)據(jù)庫(kù)廠商發(fā)力的點(diǎn)集中在在成本層的一些調(diào)優(yōu),且想要去做AI Native,AI原生的把智能化的東西做成一站式的向量數(shù)據(jù)庫(kù)??蛻粼谙蛄繑?shù)據(jù)庫(kù)的采購(gòu)方面也并未卡在成本環(huán)節(jié),更多在思考怎么樣把自己的行業(yè)know-how和AI的整個(gè)技術(shù)站打通起來(lái)。

對(duì)于向量數(shù)據(jù)庫(kù)的版本迭代節(jié)奏,羅云計(jì)劃在未來(lái)的一年時(shí)間內(nèi)可能會(huì)把向量數(shù)據(jù)庫(kù)升級(jí)的節(jié)奏控制在三個(gè)月到六個(gè)月會(huì)有一個(gè)大的版本,再往后會(huì)隨著AI的進(jìn)展再去看。

結(jié)語(yǔ):騰訊云加速向量數(shù)據(jù)庫(kù)大規(guī)模應(yīng)用

向量數(shù)據(jù)庫(kù)正在成為當(dāng)下大模型熱潮中底層技術(shù)突破重點(diǎn)。通過(guò)向量的方式存儲(chǔ)各式各樣的數(shù)據(jù),能夠讓大模型更快、更自然的理解相應(yīng)的數(shù)據(jù)內(nèi)容,從而給出更準(zhǔn)確、合適的內(nèi)容,幫助企業(yè)提高生產(chǎn)效率。

目前,我國(guó)的數(shù)據(jù)庫(kù)正呈多樣、豐富化的組合方式。騰訊云和信通院一起聯(lián)合50多家企業(yè)共同發(fā)布了國(guó)內(nèi)首個(gè)向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn),推進(jìn)向量數(shù)據(jù)庫(kù)及大模型相關(guān)產(chǎn)業(yè)走向大規(guī)模應(yīng)用。