智東西(公眾號(hào):zhidxcom)
編譯|萬(wàn)貴霞
編輯|云鵬

智東西1月23日消息,谷歌正在通過(guò)“引入團(tuán)隊(duì)+技術(shù)授權(quán)”的方式,加速補(bǔ)齊Gemini在語(yǔ)音與情感理解上的短板。

據(jù)TechCrunch與美國(guó)《連線》昨日?qǐng)?bào)道,谷歌旗下DeepMind已與AI語(yǔ)音初創(chuàng)公司Hume AI達(dá)成授權(quán)合作協(xié)議。Hume AI創(chuàng)始人兼CEO Alan Cowen將與約7名核心工程師加入DeepMind,直接參與Gemini語(yǔ)音與情感智能的研發(fā)。

這筆交易并非整體收購(gòu),根據(jù)Hume AI新任CEO Andrew Ettinger的說(shuō)法,谷歌獲得了Hume AI全部知識(shí)產(chǎn)權(quán)的非獨(dú)家使用權(quán),相關(guān)技術(shù)將被整合進(jìn)谷歌的模型研發(fā)流程,而Hume AI公司主體仍將獨(dú)立運(yùn)營(yíng),并繼續(xù)向其他AI實(shí)驗(yàn)室提供服務(wù)。

Hume AI的核心優(yōu)勢(shì)在于“情感智能”語(yǔ)音模型,該公司專(zhuān)注于通過(guò)語(yǔ)音信號(hào)識(shí)別用戶情緒與心理狀態(tài)。2024年其推出“共情語(yǔ)音接口”(Empathetic Voice Interface),并已累計(jì)融資約8000萬(wàn)美元(約合人民幣5.6億元),預(yù)計(jì)今年?duì)I收可達(dá)1億美元(約合人民幣7億元)

谷歌此次引入其核心團(tuán)隊(duì),被視為在語(yǔ)音體驗(yàn)上正面迎戰(zhàn)ChatGPT語(yǔ)音模式的關(guān)鍵一步。

一、核心團(tuán)隊(duì)加入DeepMind,主打“情感智能”的語(yǔ)音模型

據(jù)報(bào)道,Hume AI創(chuàng)始人兼前CEO Alan Cowen將與多名工程師加入谷歌DeepMind,主要任務(wù)是幫助谷歌將語(yǔ)音與情感智能整合進(jìn)其前沿模型,提升Gemini自然對(duì)話情緒理解方面的能力。

融資5.6億的AI語(yǔ)音新星被谷歌盯上,核心團(tuán)隊(duì)入職DeepMind

▲Hume AI創(chuàng)始人Alan Cowen(圖源:Alan Cowen個(gè)人網(wǎng)站)

Cowen本人擁有心理學(xué)博士背景,這也被認(rèn)為是Hume在“情感建模”方向上的重要優(yōu)勢(shì)。

此次交易的具體金額尚未披露。Hume AI新任CEO、投資人兼科技高管Andrew Ettinger告訴TechCrunch記者,谷歌獲得了Hume AI全部知識(shí)產(chǎn)權(quán)的非獨(dú)家使用權(quán),相關(guān)技術(shù)將被整合進(jìn)谷歌的研發(fā)流程,但公司并未被整體出售。

融資5.6億的AI語(yǔ)音新星被谷歌盯上,核心團(tuán)隊(duì)入職DeepMind

▲Andrew Ettinger繼任Hume AI CEO的消息(圖源:領(lǐng)英Andrew Ettinger個(gè)人主頁(yè))

Hume AI將繼續(xù)對(duì)外提供技術(shù)服務(wù),并計(jì)劃在未來(lái)幾個(gè)月內(nèi)發(fā)布新模型。Ettinger預(yù)計(jì),Hume AI有望在今年實(shí)現(xiàn)約1億美元的營(yíng)收目標(biāo)。

Hume AI成立以來(lái),始終聚焦一個(gè)相對(duì)細(xì)分但潛力巨大的方向——理解人類(lèi)語(yǔ)音中的情緒與心理狀態(tài)。

2024年,Hume AI推出“共情語(yǔ)音接口”,其核心能力在于通過(guò)語(yǔ)音信號(hào)判斷用戶的情緒變化,并據(jù)此調(diào)整回應(yīng)方式。與傳統(tǒng)語(yǔ)音助手側(cè)重指令識(shí)別不同,Hume的模型試圖解決“用戶當(dāng)下處于什么狀態(tài)”這一問(wèn)題。

融資5.6億的AI語(yǔ)音新星被谷歌盯上,核心團(tuán)隊(duì)入職DeepMind

▲Hume AI官網(wǎng)頁(yè)面(圖源:Hume AI官網(wǎng))

WIRED報(bào)道中提到,Hume AI在模型訓(xùn)練過(guò)程中投入了數(shù)百萬(wàn)美元,通過(guò)專(zhuān)家標(biāo)注大量真實(shí)對(duì)話中的情緒線索,使模型能更精細(xì)地區(qū)分語(yǔ)氣、語(yǔ)調(diào)與情緒變化。

PitchBook數(shù)據(jù)顯示,Hume AI目前累計(jì)融資約8000萬(wàn)美元,投資方包括AEGIS Ventures等機(jī)構(gòu)。

二、谷歌補(bǔ)齊Gemini語(yǔ)音短板,語(yǔ)音賽道全面升溫

對(duì)谷歌而言,引入Hume AI團(tuán)隊(duì)并不意外。近年來(lái),谷歌持續(xù)推進(jìn)Gemini Live功能,允許用戶以語(yǔ)音方式與AI進(jìn)行連續(xù)對(duì)話。

上個(gè)月,谷歌還發(fā)布了面向Live API的原生音頻模型,強(qiáng)調(diào)其在復(fù)雜流程處理方面的能力。但在“自然度”和“情感感知”層面,Gemini仍面臨來(lái)自O(shè)penAI等對(duì)手的壓力。

融資5.6億的AI語(yǔ)音新星被谷歌盯上,核心團(tuán)隊(duì)入職DeepMind

谷歌Gemini Live API概覽(圖源:谷歌Cloud)

在此背景下,Hume AI團(tuán)隊(duì)被視為一個(gè)“即插即用”的補(bǔ)強(qiáng)方案。多位匿名消息人士向WIRED透露,Cowen及其團(tuán)隊(duì)將在谷歌內(nèi)部,專(zhuān)注于將情感智能深度嵌入新一代模型

Hume AI并非孤例。過(guò)去一年,語(yǔ)音能力正在成為AI廠商投入資源最多的方向之一。

本月初,AI語(yǔ)音生成公司ElevenLabs披露,其年度經(jīng)常性收入(ARR)已突破3.3億美元(約合人民幣23.1億元),顯示出市場(chǎng)對(duì)高質(zhì)量語(yǔ)音技術(shù)的真實(shí)需求。

與此同時(shí),OpenAI被曝正在與前蘋(píng)果設(shè)計(jì)師Jony Ive團(tuán)隊(duì)合作開(kāi)發(fā)一款主打音頻功能的個(gè)人設(shè)備,為今年發(fā)布做準(zhǔn)備。近期泄露的消息說(shuō),該設(shè)備可能是一款耳塞。

Meta同樣在加速布局。去年,Meta收購(gòu)語(yǔ)音初創(chuàng)公司Play AI,其Ray-Ban智能眼鏡已越來(lái)越依賴(lài)語(yǔ)音輸入,在嘈雜環(huán)境下實(shí)現(xiàn)通話、信息與多媒體控制。投資人Vanessa Larco直言:“在可穿戴設(shè)備上,語(yǔ)音幾乎是唯一可行的輸入方式?!?/p>

融資5.6億的AI語(yǔ)音新星被谷歌盯上,核心團(tuán)隊(duì)入職DeepMind

Ray-Ban智能眼鏡(圖源:Reddit)

結(jié)語(yǔ):“授權(quán)+挖人”成為常態(tài),語(yǔ)音成為AI的“下一層接口”

值得注意的是,Hume AI的交易再次觸及一個(gè)監(jiān)管敏感問(wèn)題:“收購(gòu)式招聘”。與直接并購(gòu)公司不同,大型科技公司通過(guò)引入初創(chuàng)團(tuán)隊(duì)、獲取技術(shù)授權(quán),往往可以繞開(kāi)傳統(tǒng)并購(gòu)所需的反壟斷審查。

類(lèi)似案例已多次出現(xiàn),谷歌此前以授權(quán)方式引入Character AI相關(guān)技術(shù);微軟招募了Inflection團(tuán)隊(duì);亞馬遜引入Adept核心人員;Meta則挖走了Scale AI的CEO。

從當(dāng)前趨勢(shì)來(lái)看,語(yǔ)音正在演變?yōu)锳I與人類(lèi)交互的核心入口。對(duì)科技公司而言,理解“說(shuō)了什么”只是第一步,更重要的是理解“為什么這樣說(shuō)”“說(shuō)話時(shí)的情緒狀態(tài)是什么”。

隨著語(yǔ)音、情感與多模態(tài)能力進(jìn)一步融合,AI的競(jìng)爭(zhēng)焦點(diǎn)正在從模型參數(shù)規(guī)模,轉(zhuǎn)向真實(shí)交互體驗(yàn)的細(xì)節(jié)層面。

來(lái)源:《連線》雜志、TechCrunch