智東西(公眾號(hào):zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

搜狗在超寫(xiě)實(shí)3D數(shù)字人領(lǐng)域再度攻破一城,“跨界”手語(yǔ)數(shù)字人領(lǐng)域?qū)崿F(xiàn)新突破!

5月17日,搜狗發(fā)布全球首個(gè)手語(yǔ)AI合成主播“小聰”,能夠自然流暢地為聽(tīng)障者播報(bào)手語(yǔ),在測(cè)評(píng)中可懂度約85%。

與搜狗以往發(fā)布的3D AI合成主播不同,“小聰”并不能穿越攝影棚為大家口播新聞,也不需要真人原型進(jìn)行形象特征和表情肢體的數(shù)據(jù)采集,只是通過(guò)靈活的手勢(shì)動(dòng)作和表情,為聽(tīng)力障礙人士提供“無(wú)聲的溝通”。

從技術(shù)上來(lái)看,“小聰”的背后基于搜狗長(zhǎng)期研發(fā)積累的AI分身技術(shù),結(jié)合原力科技的行業(yè)領(lǐng)先3D重光照掃描還原完成的手語(yǔ)數(shù)字人高精度模型及采集的動(dòng)畫(huà)數(shù)據(jù),輔助自研的表情肢體手勢(shì)捕捉技術(shù),生產(chǎn)出了高度還原真人發(fā)膚、形象逼真、動(dòng)作自然生動(dòng)的數(shù)字人模型。

從3D AI合成主播到手語(yǔ)AI合成主播,搜狗的分身技術(shù)實(shí)現(xiàn)了哪些突破和挑戰(zhàn)?“小聰”的誕生又將會(huì)給社會(huì)帶來(lái)哪些改變?它未來(lái)還有哪些需要不斷完善的地方?

為了更深一步了解“小聰”的誕生,智東西與少數(shù)媒體對(duì)搜狗AI交互技術(shù)部總經(jīng)理陳偉的團(tuán)隊(duì)進(jìn)行了采訪,在探究“小聰”背后的技術(shù)新突破的同時(shí),進(jìn)一步挖掘搜狗對(duì)“小聰”未來(lái)的戰(zhàn)略布局和構(gòu)思。

一、手語(yǔ)主播的三大技術(shù)優(yōu)勢(shì),表情唇動(dòng)逼真豐富

何為搜狗分身技術(shù)?簡(jiǎn)單來(lái)看,該技術(shù)集成了超寫(xiě)實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)等多項(xiàng)AI技術(shù)。正是基于這項(xiàng)技術(shù),搜狗才能讓超寫(xiě)實(shí)3D數(shù)字人具備自然可懂的手語(yǔ)主播能力。

整體來(lái)看,“小聰”在數(shù)字人寫(xiě)實(shí)度、手語(yǔ)表達(dá)可懂度、手語(yǔ)展現(xiàn)接受度三大方面,都躍上了新的技術(shù)臺(tái)階。

1、超寫(xiě)實(shí)的逼真數(shù)字人效果

數(shù)字人寫(xiě)實(shí)度大幅提升的好處在于,它能顯著提升手語(yǔ)播報(bào)帶來(lái)的真實(shí)感與親切感,進(jìn)一步提高播報(bào)用戶體驗(yàn)。

為此,“小聰”使用了行業(yè)最領(lǐng)先的3D重光照掃描還原、面部肌肉驅(qū)動(dòng)、表情肢體手勢(shì)捕捉技術(shù),能生產(chǎn)出高度還原真人發(fā)膚、形象逼真、動(dòng)作自然生動(dòng)的數(shù)字人模型。

2、高可懂度的手語(yǔ)表達(dá)能力

手語(yǔ)有沒(méi)有像自然語(yǔ)言一樣有一套完整的語(yǔ)言體系?實(shí)際上,手語(yǔ)也有一套自己通用的詞典。

“小聰”基于我國(guó)在2019年發(fā)布的《國(guó)家通用手語(yǔ)詞典》,健聽(tīng)人只需輸入日常生活中的語(yǔ)言文本,就能低延遲地生成高準(zhǔn)確率的手語(yǔ)語(yǔ)言表征。同時(shí),通過(guò)搜狗分身的多模態(tài)生成技術(shù),系統(tǒng)能實(shí)時(shí)預(yù)測(cè)生成對(duì)應(yīng)的超寫(xiě)實(shí)3D數(shù)字人驅(qū)動(dòng)參數(shù),并快速生成數(shù)字人手語(yǔ)播報(bào)視頻。

陳偉談到,“小聰”手語(yǔ)播報(bào)的可懂度在測(cè)評(píng)中達(dá)85%以上,能有效幫助聽(tīng)障者克服理解障礙,達(dá)成信息有效傳遞。

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

3、高接受度的手語(yǔ)展現(xiàn)效果

作為一種視覺(jué)語(yǔ)言,手語(yǔ)表達(dá)不僅僅需要依靠手勢(shì),還需要配合面部表情、唇動(dòng)、姿態(tài)等方式來(lái)傳達(dá)更準(zhǔn)確的意圖,也稱為“非手控信息”的表達(dá)。因此,除了高可懂度的手語(yǔ)表達(dá)能力之外,“小聰”的手語(yǔ)表達(dá)細(xì)節(jié)也十分真實(shí)豐富。

通過(guò)搜狗機(jī)器翻譯,系統(tǒng)能生成覆蓋手部動(dòng)作、面部表情、口動(dòng)唇動(dòng)等多個(gè)維度的手語(yǔ)表征信息。同時(shí),基于搜狗多模態(tài)端到端生成模型進(jìn)行聯(lián)合建模及預(yù)測(cè),生成高準(zhǔn)確率的動(dòng)作、表情、唇動(dòng)等序列,從而實(shí)現(xiàn)自然、地道、接受度更高的手語(yǔ)表達(dá)效果。

基于搜狗分身技術(shù),“小聰”還能實(shí)現(xiàn)快速生成和批量復(fù)制,成為全年無(wú)休的“勞?!?,更好地幫助聽(tīng)障人士解決日常生活、公共服務(wù)、特殊教育等多個(gè)場(chǎng)景下的溝通不暢問(wèn)題。

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

二、面向2700萬(wàn)聽(tīng)障人群,手語(yǔ)合成背后的語(yǔ)言鴻溝

也許有人認(rèn)為,現(xiàn)在的語(yǔ)音轉(zhuǎn)文字技術(shù)如此成熟了,新聞、影視等作品都有字幕,為什么還要大費(fèi)周章地開(kāi)發(fā)手語(yǔ)AI合成主播技術(shù)?相比以往的AI合成主播,它的技術(shù)到底難在哪?

據(jù)世界衛(wèi)生組織發(fā)布的數(shù)據(jù),目前全球聽(tīng)力障礙人群高達(dá)4.66億人,在我國(guó)則有2700萬(wàn)人。其中,受教育程度和了解健聽(tīng)人語(yǔ)言體系越來(lái)越高地主要集中在年輕聽(tīng)障人群中,還有不少中老年聽(tīng)障人士在學(xué)習(xí)上仍有難度。

“我國(guó)2700萬(wàn)聽(tīng)障人群的教育程度是參差不齊的,上了高中、大學(xué)的聽(tīng)障人僅占了很小的比例。”陳偉說(shuō),從學(xué)習(xí)角度來(lái)看,由于聽(tīng)障人士在聽(tīng)力上天生有障礙,少了一個(gè)能更快學(xué)習(xí)語(yǔ)言的因素。所以短期內(nèi),手語(yǔ)仍是聽(tīng)障人士主要的學(xué)習(xí)方式,更是他們主要的表達(dá)方式,難以被字幕所替代。

盡管也有一些電視節(jié)目能夠提供手語(yǔ)解說(shuō),但多以正常語(yǔ)序編排,與手語(yǔ)的特殊表達(dá)結(jié)構(gòu)不符,讓大部分聽(tīng)障人士只能理解不到60%的內(nèi)容。這就導(dǎo)致了許多聽(tīng)障人士無(wú)法常態(tài)化、高質(zhì)量地接收信息,逐漸變得難以融入社會(huì),最終成為被邊緣化群體。

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

與此同時(shí),當(dāng)搜狗聯(lián)合新華社在2020年5月發(fā)布全球首個(gè)3D AI合成主播后,搜狗AI交互技術(shù)團(tuán)隊(duì)開(kāi)始思考,自己在數(shù)字人方向上是否還能沖上更高的技術(shù)壁壘?同時(shí)又能找到有強(qiáng)烈需求的場(chǎng)景?

因此,一群對(duì)手語(yǔ)一竅不通的研發(fā)團(tuán)隊(duì)開(kāi)始與許多聽(tīng)障人士進(jìn)行探討,嘗試挖掘手語(yǔ)AI合成主播這條賽道更大的可能性,并在內(nèi)部組建了一個(gè)除語(yǔ)言、產(chǎn)品、研發(fā)三大體系外的顧問(wèn)團(tuán),包含中國(guó)聾人協(xié)會(huì)的專(zhuān)業(yè)人士、手語(yǔ)學(xué)校的老師,以及手語(yǔ)AI合成主播的真實(shí)用戶——聽(tīng)障人士。

但AI合成主播技術(shù)深厚如搜狗,在面對(duì)手語(yǔ)合成技術(shù)這條新賽道上,也面臨著不少挑戰(zhàn)。

“我們最開(kāi)始接觸手語(yǔ)的時(shí)候發(fā)現(xiàn),它跟我們之前了解的所有語(yǔ)言語(yǔ)種都不太一樣,他是一個(gè)視覺(jué)語(yǔ)言,并不能直接用語(yǔ)音語(yǔ)言的方式去解決手語(yǔ)的事情。”一位參與研發(fā)的團(tuán)隊(duì)成員談到,在手語(yǔ)語(yǔ)言體系的構(gòu)建過(guò)程中,有三個(gè)最主要的難點(diǎn):

1、手語(yǔ)語(yǔ)序結(jié)構(gòu)獨(dú)特,翻譯難

手語(yǔ)的語(yǔ)序結(jié)構(gòu)和漢語(yǔ)語(yǔ)言大有不同,例如漢語(yǔ)中的“貓追老鼠”,在手語(yǔ)表達(dá)中為“貓、老鼠、追”;“開(kāi)車(chē)不準(zhǔn)喝酒”在手語(yǔ)表達(dá)中為“開(kāi)車(chē)、喝酒、不準(zhǔn)”。

這些跟漢語(yǔ)語(yǔ)序表達(dá)的不同,使得研發(fā)團(tuán)隊(duì)難以直接采用原有的語(yǔ)料庫(kù)和數(shù)據(jù)庫(kù)進(jìn)行算法訓(xùn)練。因此,搜狗專(zhuān)門(mén)建立了相應(yīng)的語(yǔ)言規(guī)則嘗試進(jìn)行“漢語(yǔ)-手語(yǔ)”的語(yǔ)序轉(zhuǎn)換,先將手語(yǔ)進(jìn)行翻譯后再給算法進(jìn)行訓(xùn)練。

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

2、詞匯類(lèi)型缺失,表達(dá)差異大

手語(yǔ)的詞匯類(lèi)型并不像漢語(yǔ)那么豐富,并沒(méi)有量詞、程度副詞,更多是直接省略或是采用肢體語(yǔ)言來(lái)表達(dá)。例如漢語(yǔ)中的“我買(mǎi)兩支鉛筆、一本書(shū)”,在手語(yǔ)表達(dá)中為“我買(mǎi)鉛筆、二、書(shū)、一”;“大雪紛飛”在手語(yǔ)表達(dá)中則是表達(dá)一個(gè)“雪”,然后在雪的基礎(chǔ)上加大身體的擺動(dòng)來(lái)體現(xiàn)程度副詞。

因此在詞匯方面,搜狗AI交互團(tuán)隊(duì)還建立了一個(gè)手語(yǔ)到漢語(yǔ)之間的映射詞典,嘗試去解決手語(yǔ)和漢語(yǔ)之間詞匯上的差異問(wèn)題。

3、特有非手控信息,需建立新表情庫(kù)

漢語(yǔ)的博大精深在于,哪怕是同一句話,用不同音調(diào)或語(yǔ)氣也能表達(dá)出不同信息,這讓手語(yǔ)表達(dá)的難度系數(shù)大大提高。因此手語(yǔ)也有特有的非手控信息,通過(guò)不同的表情、口動(dòng)、身體姿態(tài)等方式來(lái)傳達(dá)信息。例如一句“我做的好不好”,皺眉時(shí)是詢問(wèn)的語(yǔ)氣,挑眉時(shí)則是感嘆的語(yǔ)氣。

非手控信息也是搜狗AI交互團(tuán)隊(duì)在開(kāi)發(fā)過(guò)程中遇到的最大難點(diǎn),針對(duì)這一問(wèn)題,搜狗目前正嘗試通過(guò)建立數(shù)據(jù)庫(kù)等規(guī)則方式來(lái)解決。

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

三、技術(shù)難度系數(shù)增大,還需解決恐怖谷難題

值得注意的是,手語(yǔ)語(yǔ)言中的三大問(wèn)題僅僅是語(yǔ)言體系建立方面的難點(diǎn),具體落實(shí)到技術(shù)方面,搜狗也面臨著不少挑戰(zhàn)。

一是數(shù)據(jù)挑戰(zhàn)。陳偉談到,國(guó)內(nèi)從來(lái)沒(méi)有這樣規(guī)?;厮伎既绾螛?gòu)建一個(gè)能讓AI學(xué)習(xí)的手語(yǔ)大數(shù)據(jù)庫(kù),無(wú)論是數(shù)據(jù)體系的構(gòu)建、標(biāo)注的方法,以及如何找到手語(yǔ)專(zhuān)業(yè)老師幫助團(tuán)隊(duì)高效地推進(jìn)研發(fā), 這些對(duì)搜狗AI交互團(tuán)隊(duì)來(lái)說(shuō)都是一個(gè)新的技術(shù)挑戰(zhàn)。

二是算法挑戰(zhàn)。無(wú)論是機(jī)器翻譯還是數(shù)字人生成,搜狗都要面臨更多機(jī)器語(yǔ)言特點(diǎn)的定制。以往搜狗做3D AI合成主播時(shí)一直在強(qiáng)調(diào)唇形、表情,但在手語(yǔ)AI合成主播上還需加上嘴形、表情、姿態(tài)和手部動(dòng)作等維度,并保證在同一時(shí)間內(nèi)完全對(duì)齊。

三是3D驅(qū)動(dòng)挑戰(zhàn)。手語(yǔ)表達(dá)的特殊性需要手語(yǔ)AI合成主播實(shí)現(xiàn)連續(xù)大幅手部動(dòng)作的自然生成?;诖?,搜狗通過(guò)3D建模技術(shù)結(jié)合AI實(shí)時(shí)驅(qū)動(dòng),大大提升手語(yǔ)AI合成主播動(dòng)作的靈活性、可控性和連貫度,提升動(dòng)作表達(dá)能力。

“我們也一直和顧問(wèn)團(tuán)保持非常緊密的聯(lián)系和溝通,對(duì)專(zhuān)業(yè)人士和聽(tīng)障人士覺(jué)得手勢(shì)、位置、運(yùn)動(dòng)等不標(biāo)準(zhǔn)的地方進(jìn)行及時(shí)糾正,這樣才能確保我們每一步的技術(shù)迭代都能時(shí)刻得到最真實(shí)的反饋?!标悅フ劦健?/p>

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

當(dāng)一個(gè)數(shù)字人無(wú)限接近真人時(shí),不少細(xì)節(jié)容易讓人感到害怕。例如有人認(rèn)為,搜狗去年推出的3D數(shù)字人張嘴時(shí),看不到聲帶或咽喉的共振,或是模型偶爾的穿模,這些都容易讓人產(chǎn)生恐懼感。但如果將合成主播做成卡通形象,盡管能解決恐怖谷問(wèn)題,但用戶和數(shù)字人交互的親切感、體驗(yàn)感也大大降低。

“當(dāng)我看到一個(gè)數(shù)字人時(shí)沒(méi)有產(chǎn)生恐怖谷效應(yīng),我會(huì)覺(jué)得我和數(shù)字人之間時(shí)有情感連接的,交流時(shí)就像是面對(duì)面的溝通?!标悅ヌ岬剑@也是搜狗做數(shù)字人的初衷。

為了減少“小聰”的恐怖谷效應(yīng),搜狗對(duì)“小聰”的皮膚材質(zhì)、紋理、手勢(shì)形狀等渲染都進(jìn)行了優(yōu)化,寫(xiě)實(shí)度大大提高。“我們認(rèn)為在未來(lái)一到兩年的時(shí)間內(nèi),3D建模會(huì)突破恐怖谷效應(yīng)。”陳偉說(shuō)。

同時(shí)在他看來(lái),真正讓人覺(jué)得不恐怖的狀態(tài)還需要在數(shù)字人的表達(dá)能力和對(duì)話能力上進(jìn)行突破?!爸挥袛?shù)字人或AI越來(lái)越像人的時(shí)候,人機(jī)交互的可能性才能做到真正的自然交互,才能實(shí)現(xiàn)人和數(shù)字人的情感連接?!标悅ソ忉?zhuān)@也是搜狗堅(jiān)定不移地把重心放在數(shù)字人超寫(xiě)實(shí)方面的原因。

揭秘搜狗手語(yǔ)AI合成主播背后:跨越語(yǔ)言溝通的“鴻溝”,搜狗分身技術(shù)是核心

四、今年Q4規(guī)模應(yīng)用,手語(yǔ)AI合成主播的兩大落地方向

現(xiàn)階段,“小聰”手語(yǔ)AI合成主播從數(shù)據(jù)到算法,再到3D建模等工程化技術(shù)仍在持續(xù)地優(yōu)化迭代。陳偉預(yù)計(jì),到今年第四季度,“小聰”將真正實(shí)現(xiàn)規(guī)模應(yīng)用。

在落地方面,“小聰”也將從實(shí)時(shí)場(chǎng)景和非實(shí)時(shí)場(chǎng)景兩個(gè)方向落地。

在實(shí)時(shí)新聞信息、公共廣播信息等實(shí)時(shí)場(chǎng)景方面,搜狗將考慮人機(jī)交互與多模態(tài)動(dòng)作的結(jié)合,把手語(yǔ)放到人機(jī)交互的環(huán)境中,方便聽(tīng)障人士自主地與機(jī)器進(jìn)行交流。

在偏文化娛樂(lè)和生活相關(guān)等非實(shí)時(shí)場(chǎng)景中,搜狗也將和更多電視媒體,以及對(duì)內(nèi)容播報(bào)有強(qiáng)需求的團(tuán)隊(duì)合作,通過(guò)“小聰”將視頻和文字內(nèi)容視頻化,讓更多節(jié)目都能通過(guò)手語(yǔ)的方式進(jìn)行信息傳遞,幫助聽(tīng)障人群更好地融入社會(huì)生活,同時(shí)也減輕傳統(tǒng)手語(yǔ)老師的工作壓力。

“我們希望通過(guò)聚焦數(shù)字人技術(shù),讓它為社會(huì)創(chuàng)造更大的價(jià)值?!标悅フ劦剑@不僅是嘴形的播報(bào),而是充分把數(shù)字人的靈活性、真實(shí)性、自然連貫的性能全部發(fā)揮出來(lái),做出高品質(zhì)且符合國(guó)家標(biāo)準(zhǔn)的手語(yǔ)表達(dá)技術(shù),真正提高手語(yǔ)的普及力度和應(yīng)用范圍。

結(jié)語(yǔ):搜狗AI合成主播打開(kāi)行業(yè)創(chuàng)新突破口

作為我國(guó)AI合成主播的行業(yè)風(fēng)向標(biāo),搜狗一直不斷精進(jìn)數(shù)字人技術(shù),在增加機(jī)器的溫度,拉近人機(jī)之間關(guān)系的同時(shí),也幫助傳統(tǒng)內(nèi)容行業(yè)提高生產(chǎn)力和創(chuàng)新力。

這次搜狗將分身技術(shù)聚焦在更少數(shù)的聽(tīng)障人群,去挑戰(zhàn)一個(gè)又一個(gè)新的技術(shù)難關(guān),不僅讓我們看到了搜狗攀爬技術(shù)壁壘的魄力,也看到了搜狗作為一家企業(yè)的社會(huì)責(zé)任感和擔(dān)當(dāng),也是一次與弱勢(shì)群體的共情。

也許對(duì)更大規(guī)模的健聽(tīng)人群來(lái)說(shuō),“小聰”的誕生對(duì)自己的生活并沒(méi)有帶來(lái)任何改變。但對(duì)我國(guó)那2700萬(wàn)聽(tīng)障人士而言,這也是他們能拉近與社會(huì)的距離,更輕松、更溫暖地感受當(dāng)下生活,甚至輕松走出國(guó)門(mén)的重要技術(shù)突破。