偷拍自拍国产自拍,国产伦精品免费福利播放,国产精品高清在线

智東西（公眾號(hào)：zhidxcom）
作者 | 韋世瑋
編輯 | 漠影

搜狗在超寫(xiě)實(shí)3D數(shù)字人領(lǐng)域再度攻破一城，“跨界”手語(yǔ)數(shù)字人領(lǐng)域?qū)崿F(xiàn)新突破！

5月17日，搜狗發(fā)布全球首個(gè)手語(yǔ)AI合成主播“小聰”，能夠自然流暢地為聽(tīng)障者播報(bào)手語(yǔ)，在測(cè)評(píng)中可懂度約85%。

與搜狗以往發(fā)布的3D AI合成主播不同，“小聰”并不能穿越攝影棚為大家口播新聞，也不需要真人原型進(jìn)行形象特征和表情肢體的數(shù)據(jù)采集，只是通過(guò)靈活的手勢(shì)動(dòng)作和表情，為聽(tīng)力障礙人士提供“無(wú)聲的溝通”。

從技術(shù)上來(lái)看，“小聰”的背后基于搜狗長(zhǎng)期研發(fā)積累的AI分身技術(shù)，結(jié)合原力科技的行業(yè)領(lǐng)先3D重光照掃描還原完成的手語(yǔ)數(shù)字人高精度模型及采集的動(dòng)畫(huà)數(shù)據(jù)，輔助自研的表情肢體手勢(shì)捕捉技術(shù)，生產(chǎn)出了高度還原真人發(fā)膚、形象逼真、動(dòng)作自然生動(dòng)的數(shù)字人模型。

從3D AI合成主播到手語(yǔ)AI合成主播，搜狗的分身技術(shù)實(shí)現(xiàn)了哪些突破和挑戰(zhàn)？“小聰”的誕生又將會(huì)給社會(huì)帶來(lái)哪些改變？它未來(lái)還有哪些需要不斷完善的地方？

為了更深一步了解“小聰”的誕生，智東西與少數(shù)媒體對(duì)搜狗AI交互技術(shù)部總經(jīng)理陳偉的團(tuán)隊(duì)進(jìn)行了采訪，在探究“小聰”背后的技術(shù)新突破的同時(shí)，進(jìn)一步挖掘搜狗對(duì)“小聰”未來(lái)的戰(zhàn)略布局和構(gòu)思。

一、手語(yǔ)主播的三大技術(shù)優(yōu)勢(shì)，表情唇動(dòng)逼真豐富

何為搜狗分身技術(shù)？簡(jiǎn)單來(lái)看，該技術(shù)集成了超寫(xiě)實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、實(shí)時(shí)面部動(dòng)作生成及驅(qū)動(dòng)等多項(xiàng)AI技術(shù)。正是基于這項(xiàng)技術(shù)，搜狗才能讓超寫(xiě)實(shí)3D數(shù)字人具備自然可懂的手語(yǔ)主播能力。

整體來(lái)看，“小聰”在數(shù)字人寫(xiě)實(shí)度、手語(yǔ)表達(dá)可懂度、手語(yǔ)展現(xiàn)接受度三大方面，都躍上了新的技術(shù)臺(tái)階。

1、超寫(xiě)實(shí)的逼真數(shù)字人效果

數(shù)字人寫(xiě)實(shí)度大幅提升的好處在于，它能顯著提升手語(yǔ)播報(bào)帶來(lái)的真實(shí)感與親切感，進(jìn)一步提高播報(bào)用戶體驗(yàn)。

為此，“小聰”使用了行業(yè)最領(lǐng)先的3D重光照掃描還原、面部肌肉驅(qū)動(dòng)、表情肢體手勢(shì)捕捉技術(shù)，能生產(chǎn)出高度還原真人發(fā)膚、形象逼真、動(dòng)作自然生動(dòng)的數(shù)字人模型。

2、高可懂度的手語(yǔ)表達(dá)能力

手語(yǔ)有沒(méi)有像自然語(yǔ)言一樣有一套完整的語(yǔ)言體系？實(shí)際上，手語(yǔ)也有一套自己通用的詞典。

“小聰”基于我國(guó)在2019年發(fā)布的《國(guó)家通用手語(yǔ)詞典》，健聽(tīng)人只需輸入日常生活中的語(yǔ)言文本，就能低延遲地生成高準(zhǔn)確率的手語(yǔ)語(yǔ)言表征。同時(shí)，通過(guò)搜狗分身的多模態(tài)生成技術(shù)，系統(tǒng)能實(shí)時(shí)預(yù)測(cè)生成對(duì)應(yīng)的超寫(xiě)實(shí)3D數(shù)字人驅(qū)動(dòng)參數(shù)，并快速生成數(shù)字人手語(yǔ)播報(bào)視頻。

陳偉談到，“小聰”手語(yǔ)播報(bào)的可懂度在測(cè)評(píng)中達(dá)85%以上，能有效幫助聽(tīng)障者克服理解障礙，達(dá)成信息有效傳遞。

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

3、高接受度的手語(yǔ)展現(xiàn)效果

作為一種視覺(jué)語(yǔ)言，手語(yǔ)表達(dá)不僅僅需要依靠手勢(shì)，還需要配合面部表情、唇動(dòng)、姿態(tài)等方式來(lái)傳達(dá)更準(zhǔn)確的意圖，也稱為“非手控信息”的表達(dá)。因此，除了高可懂度的手語(yǔ)表達(dá)能力之外，“小聰”的手語(yǔ)表達(dá)細(xì)節(jié)也十分真實(shí)豐富。

通過(guò)搜狗機(jī)器翻譯，系統(tǒng)能生成覆蓋手部動(dòng)作、面部表情、口動(dòng)唇動(dòng)等多個(gè)維度的手語(yǔ)表征信息。同時(shí)，基于搜狗多模態(tài)端到端生成模型進(jìn)行聯(lián)合建模及預(yù)測(cè)，生成高準(zhǔn)確率的動(dòng)作、表情、唇動(dòng)等序列，從而實(shí)現(xiàn)自然、地道、接受度更高的手語(yǔ)表達(dá)效果。

基于搜狗分身技術(shù)，“小聰”還能實(shí)現(xiàn)快速生成和批量復(fù)制，成為全年無(wú)休的“勞?！?，更好地幫助聽(tīng)障人士解決日常生活、公共服務(wù)、特殊教育等多個(gè)場(chǎng)景下的溝通不暢問(wèn)題。

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

二、面向2700萬(wàn)聽(tīng)障人群，手語(yǔ)合成背后的語(yǔ)言鴻溝

也許有人認(rèn)為，現(xiàn)在的語(yǔ)音轉(zhuǎn)文字技術(shù)如此成熟了，新聞、影視等作品都有字幕，為什么還要大費(fèi)周章地開(kāi)發(fā)手語(yǔ)AI合成主播技術(shù)？相比以往的AI合成主播，它的技術(shù)到底難在哪？

據(jù)世界衛(wèi)生組織發(fā)布的數(shù)據(jù)，目前全球聽(tīng)力障礙人群高達(dá)4.66億人，在我國(guó)則有2700萬(wàn)人。其中，受教育程度和了解健聽(tīng)人語(yǔ)言體系越來(lái)越高地主要集中在年輕聽(tīng)障人群中，還有不少中老年聽(tīng)障人士在學(xué)習(xí)上仍有難度。

“我國(guó)2700萬(wàn)聽(tīng)障人群的教育程度是參差不齊的，上了高中、大學(xué)的聽(tīng)障人僅占了很小的比例。”陳偉說(shuō)，從學(xué)習(xí)角度來(lái)看，由于聽(tīng)障人士在聽(tīng)力上天生有障礙，少了一個(gè)能更快學(xué)習(xí)語(yǔ)言的因素。所以短期內(nèi)，手語(yǔ)仍是聽(tīng)障人士主要的學(xué)習(xí)方式，更是他們主要的表達(dá)方式，難以被字幕所替代。

盡管也有一些電視節(jié)目能夠提供手語(yǔ)解說(shuō)，但多以正常語(yǔ)序編排，與手語(yǔ)的特殊表達(dá)結(jié)構(gòu)不符，讓大部分聽(tīng)障人士只能理解不到60%的內(nèi)容。這就導(dǎo)致了許多聽(tīng)障人士無(wú)法常態(tài)化、高質(zhì)量地接收信息，逐漸變得難以融入社會(huì)，最終成為被邊緣化群體。

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

與此同時(shí)，當(dāng)搜狗聯(lián)合新華社在2020年5月發(fā)布全球首個(gè)3D AI合成主播后，搜狗AI交互技術(shù)團(tuán)隊(duì)開(kāi)始思考，自己在數(shù)字人方向上是否還能沖上更高的技術(shù)壁壘？同時(shí)又能找到有強(qiáng)烈需求的場(chǎng)景？

因此，一群對(duì)手語(yǔ)一竅不通的研發(fā)團(tuán)隊(duì)開(kāi)始與許多聽(tīng)障人士進(jìn)行探討，嘗試挖掘手語(yǔ)AI合成主播這條賽道更大的可能性，并在內(nèi)部組建了一個(gè)除語(yǔ)言、產(chǎn)品、研發(fā)三大體系外的顧問(wèn)團(tuán)，包含中國(guó)聾人協(xié)會(huì)的專(zhuān)業(yè)人士、手語(yǔ)學(xué)校的老師，以及手語(yǔ)AI合成主播的真實(shí)用戶——聽(tīng)障人士。

但AI合成主播技術(shù)深厚如搜狗，在面對(duì)手語(yǔ)合成技術(shù)這條新賽道上，也面臨著不少挑戰(zhàn)。

“我們最開(kāi)始接觸手語(yǔ)的時(shí)候發(fā)現(xiàn)，它跟我們之前了解的所有語(yǔ)言語(yǔ)種都不太一樣，他是一個(gè)視覺(jué)語(yǔ)言，并不能直接用語(yǔ)音語(yǔ)言的方式去解決手語(yǔ)的事情。”一位參與研發(fā)的團(tuán)隊(duì)成員談到，在手語(yǔ)語(yǔ)言體系的構(gòu)建過(guò)程中，有三個(gè)最主要的難點(diǎn)：

1、手語(yǔ)語(yǔ)序結(jié)構(gòu)獨(dú)特，翻譯難

手語(yǔ)的語(yǔ)序結(jié)構(gòu)和漢語(yǔ)語(yǔ)言大有不同，例如漢語(yǔ)中的“貓追老鼠”，在手語(yǔ)表達(dá)中為“貓、老鼠、追”；“開(kāi)車(chē)不準(zhǔn)喝酒”在手語(yǔ)表達(dá)中為“開(kāi)車(chē)、喝酒、不準(zhǔn)”。

這些跟漢語(yǔ)語(yǔ)序表達(dá)的不同，使得研發(fā)團(tuán)隊(duì)難以直接采用原有的語(yǔ)料庫(kù)和數(shù)據(jù)庫(kù)進(jìn)行算法訓(xùn)練。因此，搜狗專(zhuān)門(mén)建立了相應(yīng)的語(yǔ)言規(guī)則嘗試進(jìn)行“漢語(yǔ)-手語(yǔ)”的語(yǔ)序轉(zhuǎn)換，先將手語(yǔ)進(jìn)行翻譯后再給算法進(jìn)行訓(xùn)練。

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

2、詞匯類(lèi)型缺失，表達(dá)差異大

手語(yǔ)的詞匯類(lèi)型并不像漢語(yǔ)那么豐富，并沒(méi)有量詞、程度副詞，更多是直接省略或是采用肢體語(yǔ)言來(lái)表達(dá)。例如漢語(yǔ)中的“我買(mǎi)兩支鉛筆、一本書(shū)”，在手語(yǔ)表達(dá)中為“我買(mǎi)鉛筆、二、書(shū)、一”；“大雪紛飛”在手語(yǔ)表達(dá)中則是表達(dá)一個(gè)“雪”，然后在雪的基礎(chǔ)上加大身體的擺動(dòng)來(lái)體現(xiàn)程度副詞。

因此在詞匯方面，搜狗AI交互團(tuán)隊(duì)還建立了一個(gè)手語(yǔ)到漢語(yǔ)之間的映射詞典，嘗試去解決手語(yǔ)和漢語(yǔ)之間詞匯上的差異問(wèn)題。

3、特有非手控信息，需建立新表情庫(kù)

漢語(yǔ)的博大精深在于，哪怕是同一句話，用不同音調(diào)或語(yǔ)氣也能表達(dá)出不同信息，這讓手語(yǔ)表達(dá)的難度系數(shù)大大提高。因此手語(yǔ)也有特有的非手控信息，通過(guò)不同的表情、口動(dòng)、身體姿態(tài)等方式來(lái)傳達(dá)信息。例如一句“我做的好不好”，皺眉時(shí)是詢問(wèn)的語(yǔ)氣，挑眉時(shí)則是感嘆的語(yǔ)氣。

非手控信息也是搜狗AI交互團(tuán)隊(duì)在開(kāi)發(fā)過(guò)程中遇到的最大難點(diǎn)，針對(duì)這一問(wèn)題，搜狗目前正嘗試通過(guò)建立數(shù)據(jù)庫(kù)等規(guī)則方式來(lái)解決。

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

三、技術(shù)難度系數(shù)增大，還需解決恐怖谷難題

值得注意的是，手語(yǔ)語(yǔ)言中的三大問(wèn)題僅僅是語(yǔ)言體系建立方面的難點(diǎn)，具體落實(shí)到技術(shù)方面，搜狗也面臨著不少挑戰(zhàn)。

一是數(shù)據(jù)挑戰(zhàn)。陳偉談到，國(guó)內(nèi)從來(lái)沒(méi)有這樣規(guī)?；厮伎既绾螛?gòu)建一個(gè)能讓AI學(xué)習(xí)的手語(yǔ)大數(shù)據(jù)庫(kù)，無(wú)論是數(shù)據(jù)體系的構(gòu)建、標(biāo)注的方法，以及如何找到手語(yǔ)專(zhuān)業(yè)老師幫助團(tuán)隊(duì)高效地推進(jìn)研發(fā)，這些對(duì)搜狗AI交互團(tuán)隊(duì)來(lái)說(shuō)都是一個(gè)新的技術(shù)挑戰(zhàn)。

二是算法挑戰(zhàn)。無(wú)論是機(jī)器翻譯還是數(shù)字人生成，搜狗都要面臨更多機(jī)器語(yǔ)言特點(diǎn)的定制。以往搜狗做3D AI合成主播時(shí)一直在強(qiáng)調(diào)唇形、表情，但在手語(yǔ)AI合成主播上還需加上嘴形、表情、姿態(tài)和手部動(dòng)作等維度，并保證在同一時(shí)間內(nèi)完全對(duì)齊。

三是3D驅(qū)動(dòng)挑戰(zhàn)。手語(yǔ)表達(dá)的特殊性需要手語(yǔ)AI合成主播實(shí)現(xiàn)連續(xù)大幅手部動(dòng)作的自然生成?；诖?，搜狗通過(guò)3D建模技術(shù)結(jié)合AI實(shí)時(shí)驅(qū)動(dòng)，大大提升手語(yǔ)AI合成主播動(dòng)作的靈活性、可控性和連貫度，提升動(dòng)作表達(dá)能力。

“我們也一直和顧問(wèn)團(tuán)保持非常緊密的聯(lián)系和溝通，對(duì)專(zhuān)業(yè)人士和聽(tīng)障人士覺(jué)得手勢(shì)、位置、運(yùn)動(dòng)等不標(biāo)準(zhǔn)的地方進(jìn)行及時(shí)糾正，這樣才能確保我們每一步的技術(shù)迭代都能時(shí)刻得到最真實(shí)的反饋?！标悅フ劦健?/p>

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

當(dāng)一個(gè)數(shù)字人無(wú)限接近真人時(shí)，不少細(xì)節(jié)容易讓人感到害怕。例如有人認(rèn)為，搜狗去年推出的3D數(shù)字人張嘴時(shí)，看不到聲帶或咽喉的共振，或是模型偶爾的穿模，這些都容易讓人產(chǎn)生恐懼感。但如果將合成主播做成卡通形象，盡管能解決恐怖谷問(wèn)題，但用戶和數(shù)字人交互的親切感、體驗(yàn)感也大大降低。

“當(dāng)我看到一個(gè)數(shù)字人時(shí)沒(méi)有產(chǎn)生恐怖谷效應(yīng)，我會(huì)覺(jué)得我和數(shù)字人之間時(shí)有情感連接的，交流時(shí)就像是面對(duì)面的溝通?！标悅ヌ岬剑@也是搜狗做數(shù)字人的初衷。

為了減少“小聰”的恐怖谷效應(yīng)，搜狗對(duì)“小聰”的皮膚材質(zhì)、紋理、手勢(shì)形狀等渲染都進(jìn)行了優(yōu)化，寫(xiě)實(shí)度大大提高。“我們認(rèn)為在未來(lái)一到兩年的時(shí)間內(nèi)，3D建模會(huì)突破恐怖谷效應(yīng)。”陳偉說(shuō)。

同時(shí)在他看來(lái)，真正讓人覺(jué)得不恐怖的狀態(tài)還需要在數(shù)字人的表達(dá)能力和對(duì)話能力上進(jìn)行突破?！爸挥袛?shù)字人或AI越來(lái)越像人的時(shí)候，人機(jī)交互的可能性才能做到真正的自然交互，才能實(shí)現(xiàn)人和數(shù)字人的情感連接?！标悅ソ忉?zhuān)@也是搜狗堅(jiān)定不移地把重心放在數(shù)字人超寫(xiě)實(shí)方面的原因。

揭秘搜狗手語(yǔ)AI合成主播背后：跨越語(yǔ)言溝通的“鴻溝”，搜狗分身技術(shù)是核心

四、今年Q4規(guī)模應(yīng)用，手語(yǔ)AI合成主播的兩大落地方向

現(xiàn)階段，“小聰”手語(yǔ)AI合成主播從數(shù)據(jù)到算法，再到3D建模等工程化技術(shù)仍在持續(xù)地優(yōu)化迭代。陳偉預(yù)計(jì)，到今年第四季度，“小聰”將真正實(shí)現(xiàn)規(guī)模應(yīng)用。

在落地方面，“小聰”也將從實(shí)時(shí)場(chǎng)景和非實(shí)時(shí)場(chǎng)景兩個(gè)方向落地。

在實(shí)時(shí)新聞信息、公共廣播信息等實(shí)時(shí)場(chǎng)景方面，搜狗將考慮人機(jī)交互與多模態(tài)動(dòng)作的結(jié)合，把手語(yǔ)放到人機(jī)交互的環(huán)境中，方便聽(tīng)障人士自主地與機(jī)器進(jìn)行交流。

在偏文化娛樂(lè)和生活相關(guān)等非實(shí)時(shí)場(chǎng)景中，搜狗也將和更多電視媒體，以及對(duì)內(nèi)容播報(bào)有強(qiáng)需求的團(tuán)隊(duì)合作，通過(guò)“小聰”將視頻和文字內(nèi)容視頻化，讓更多節(jié)目都能通過(guò)手語(yǔ)的方式進(jìn)行信息傳遞，幫助聽(tīng)障人群更好地融入社會(huì)生活，同時(shí)也減輕傳統(tǒng)手語(yǔ)老師的工作壓力。

“我們希望通過(guò)聚焦數(shù)字人技術(shù)，讓它為社會(huì)創(chuàng)造更大的價(jià)值?！标悅フ劦剑@不僅是嘴形的播報(bào)，而是充分把數(shù)字人的靈活性、真實(shí)性、自然連貫的性能全部發(fā)揮出來(lái)，做出高品質(zhì)且符合國(guó)家標(biāo)準(zhǔn)的手語(yǔ)表達(dá)技術(shù)，真正提高手語(yǔ)的普及力度和應(yīng)用范圍。

結(jié)語(yǔ)：搜狗AI合成主播打開(kāi)行業(yè)創(chuàng)新突破口

作為我國(guó)AI合成主播的行業(yè)風(fēng)向標(biāo)，搜狗一直不斷精進(jìn)數(shù)字人技術(shù)，在增加機(jī)器的溫度，拉近人機(jī)之間關(guān)系的同時(shí)，也幫助傳統(tǒng)內(nèi)容行業(yè)提高生產(chǎn)力和創(chuàng)新力。

這次搜狗將分身技術(shù)聚焦在更少數(shù)的聽(tīng)障人群，去挑戰(zhàn)一個(gè)又一個(gè)新的技術(shù)難關(guān)，不僅讓我們看到了搜狗攀爬技術(shù)壁壘的魄力，也看到了搜狗作為一家企業(yè)的社會(huì)責(zé)任感和擔(dān)當(dāng)，也是一次與弱勢(shì)群體的共情。

也許對(duì)更大規(guī)模的健聽(tīng)人群來(lái)說(shuō)，“小聰”的誕生對(duì)自己的生活并沒(méi)有帶來(lái)任何改變。但對(duì)我國(guó)那2700萬(wàn)聽(tīng)障人士而言，這也是他們能拉近與社會(huì)的距離，更輕松、更溫暖地感受當(dāng)下生活，甚至輕松走出國(guó)門(mén)的重要技術(shù)突破。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、手語(yǔ)主播的三大技術(shù)優(yōu)勢(shì)，表情唇動(dòng)逼真豐富

二、面向2700萬(wàn)聽(tīng)障人群，手語(yǔ)合成背后的語(yǔ)言鴻溝

三、技術(shù)難度系數(shù)增大，還需解決恐怖谷難題

四、今年Q4規(guī)模應(yīng)用，手語(yǔ)AI合成主播的兩大落地方向

結(jié)語(yǔ)：搜狗AI合成主播打開(kāi)行業(yè)創(chuàng)新突破口

相關(guān)推薦

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

一、手語(yǔ)主播的三大技術(shù)優(yōu)勢(shì)，表情唇動(dòng)逼真豐富

二、面向2700萬(wàn)聽(tīng)障人群，手語(yǔ)合成背后的語(yǔ)言鴻溝

三、技術(shù)難度系數(shù)增大，還需解決恐怖谷難題

四、今年Q4規(guī)模應(yīng)用，手語(yǔ)AI合成主播的兩大落地方向

結(jié)語(yǔ)：搜狗AI合成主播打開(kāi)行業(yè)創(chuàng)新突破口

相關(guān)推薦

一、手語(yǔ)主播的三大技術(shù)優(yōu)勢(shì)，表情唇動(dòng)逼真豐富

二、面向2700萬(wàn)聽(tīng)障人群，手語(yǔ)合成背后的語(yǔ)言鴻溝

三、技術(shù)難度系數(shù)增大，還需解決恐怖谷難題

四、今年Q4規(guī)模應(yīng)用，手語(yǔ)AI合成主播的兩大落地方向