虛擬數(shù)字人,是存在于數(shù)字世界的“人”,通過動(dòng)作捕捉、三維建模、語音合成等技術(shù)高度還原真實(shí)人類,再借助AR/MR/VR等終端呈現(xiàn)出來的立體“人”。在人工智能、虛擬現(xiàn)實(shí)等新技術(shù)浪潮的帶動(dòng)下,虛擬數(shù)字人制作過程得到有效簡化、各方面性能獲得飛躍式提升,開始從外觀的數(shù)字化逐漸深入到行為的交互化、思想的智能化。以虛擬主播、虛擬員工等為代表的數(shù)字人成功進(jìn)入大眾視野,并以多元的姿態(tài)在影視、游戲、傳媒、文旅、金融等眾多領(lǐng)域大放異彩。

12月3日,首屆數(shù)字人開發(fā)者大會(huì)在北京召開。首屆數(shù)字人行業(yè)盛會(huì)由國家互聯(lián)網(wǎng)信息辦公室信息化發(fā)展局和中關(guān)村科技園區(qū)管理委員會(huì)作為指導(dǎo)單位,中國信息通信院、浦發(fā)銀行以及中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟主辦,凌云光技術(shù)協(xié)辦。會(huì)上,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(簡稱“AIIA 聯(lián)盟”)和中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟(簡稱“ZAI 聯(lián)盟”)數(shù)字人工作委員會(huì)首次發(fā)布了《2020 年虛擬數(shù)字人發(fā)展白皮書》,白皮書回顧了虛擬數(shù)字人發(fā)展歷程,重點(diǎn)分析了虛擬數(shù)字人關(guān)鍵技術(shù)和產(chǎn)業(yè)發(fā)展現(xiàn)狀,對虛擬數(shù)字人的未來發(fā)展趨勢進(jìn)行了展望,剖析了數(shù)字人發(fā)展中的制約因素。

本期內(nèi)參來源:中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟? 中關(guān)村數(shù)智人工智能產(chǎn)業(yè)聯(lián)盟

原標(biāo)題:

《2020 年虛擬數(shù)字人發(fā)展白皮書》

作者:顏媚 等

一、什么是虛擬數(shù)字人

1、虛擬數(shù)字人研究范疇

“虛擬數(shù)字人”一詞最早源于 1989 年美國國立醫(yī)學(xué)圖書館發(fā)起的“可視人計(jì)劃”(Visible Human Project, YHP)。2001年, 國內(nèi)以“中國數(shù)字化虛擬人體的科技問題”為主題的香山科學(xué)會(huì)議第 174 次學(xué)術(shù)討論會(huì)提出了“數(shù)字化虛擬人體”的概念。

這些“虛擬數(shù)字人”主要是指人體結(jié)構(gòu)的可視化,以三維形式顯示人體解剖結(jié)構(gòu)的大小、形狀、位置及器官間的相互空間關(guān)系,即利用人體信息,實(shí)現(xiàn)人體解剖結(jié)構(gòu)的數(shù)字化。主要應(yīng)用于醫(yī)療領(lǐng)域的人體解剖教學(xué)、臨床診療等。

與上述醫(yī)療領(lǐng)域的數(shù)字化人體不同,本篇中所分析的虛擬數(shù)字人(以下簡稱“數(shù)字人”)是指具有數(shù)字化外形的虛擬人物。與具備實(shí)體的機(jī)器人不同,虛擬數(shù)字人依賴顯示設(shè)備存在。虛擬數(shù)字人宜具備以下三方面特征:

一是擁有人的外觀,具有特定的相貌、性別和性格等人物特征;

二是擁有人的行為,具有用語言、面部表情和肢體動(dòng)作表達(dá)的能力;

三是擁有人的思想,具有識別外界環(huán)境、并能與人交流互動(dòng)的能力。

2、虛擬數(shù)字人發(fā)展歷程

虛擬數(shù)字人的發(fā)展與其制作技術(shù)的進(jìn)步密不可分,從最早的手工繪制到現(xiàn)在的 CG(Computer Graphics,電腦繪圖)、人工智能合成,虛擬數(shù)字人大致經(jīng)歷了萌芽、探索、初級和成長四個(gè)階段,詳見下圖。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人發(fā)展歷程

20 世紀(jì) 80 年代,人們開始嘗試將虛擬人物引入到現(xiàn)實(shí)世界中,虛擬數(shù)字人步入萌芽階段。該時(shí)期虛擬數(shù)字人的制作技術(shù)以手工繪制為主,應(yīng)用極為有限。1982 年,日本動(dòng)畫《超時(shí)空要塞》播出后,制作方將女主角林明美包裝成演唱?jiǎng)赢嫴迩母枋?,并制作了音樂專輯,該專輯成功打入?dāng)時(shí)日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一位虛擬歌姬。

1984 年,英國人 George Stone 創(chuàng)作出一個(gè)名為Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動(dòng)作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數(shù)支廣告,一度成為英國家喻戶曉的虛擬演員。由于技術(shù)的限制,其虛擬形象是由真人演員通過特效化妝和手繪實(shí)現(xiàn)。

21 世紀(jì)初,傳統(tǒng)手繪逐漸被 CG、動(dòng)作捕捉等技術(shù)取代,虛擬數(shù)字人步入探索階段。該階段的虛擬數(shù)字人開始達(dá)到實(shí)用水平,但造價(jià)不菲,主要出現(xiàn)在影視娛樂行業(yè),如數(shù)字替身、虛擬偶像等。電影制作中的數(shù)字替身一般利用動(dòng)作捕捉技術(shù),真人演員穿著動(dòng)作捕捉服裝,臉上點(diǎn)上表情捕捉點(diǎn),通過攝像機(jī)、動(dòng)作捕捉設(shè)備將真人演員的動(dòng)作、表情采集處理,經(jīng)計(jì)算機(jī)處理后賦予給虛擬角色。

2001 年,《指環(huán)王》中的角色咕嚕就是由 CG 技術(shù)和動(dòng)作捕捉技術(shù)產(chǎn)生,這些技術(shù)后續(xù)還在《加勒比海盜》、《猩球崛起》等電影制作中使用。2007 年,日本制作了第一個(gè)被廣泛認(rèn)可的虛擬數(shù)字人“初音未來”,初音未來是二次元風(fēng)格的少女偶像,早期的人物形象 主 要 利 用 CG 技 術(shù)合成 , 人物聲音采用雅馬哈的VOCALOID系列語音合成,呈現(xiàn)形式還相對粗糙。

近五年,得益于深度學(xué)習(xí)算法的突破,數(shù)字人的制作過程得到有效簡化,虛擬數(shù)字人開始步入正軌,進(jìn)入初級階段。該時(shí)期人工智能成為虛擬數(shù)字人不可分割的工具,智能驅(qū)動(dòng)的數(shù)字人開始嶄露頭角。

2018 年,新華社與搜狗聯(lián)合發(fā)布的“AI合成主播”,可在用戶輸入新聞文本后,在屏幕展現(xiàn)虛擬數(shù)字人形象并進(jìn)行新聞播報(bào),且唇形動(dòng)作能與播報(bào)聲音實(shí)時(shí)同步。

2019 年,浦發(fā)銀行和百度共同發(fā)布的數(shù)字員工“小浦”,也是利用自然語言處理、語音識別、計(jì)算機(jī)視覺等人工智能技術(shù)制作的虛擬數(shù)字人,可通過移動(dòng)設(shè)備為用戶提供“面對面”的銀行業(yè)務(wù)服務(wù)。

當(dāng)前,虛擬數(shù)字人正朝著智能化、便捷化、精細(xì)化、多樣化發(fā)展,步入成長期。2019 年,美國影視特效公司數(shù)字王國軟件研發(fā)部負(fù)責(zé)人 Doug Roble 在 TED 演講時(shí)展示了自己的虛擬數(shù)字人“DigiDoug”,可在照片寫實(shí)級逼真程度的前提下,進(jìn)行實(shí)時(shí)的表情動(dòng)作捕捉及展現(xiàn)。今年,三星旗下的STAR Labs在CES國際消費(fèi)電子展上展出了其虛擬數(shù)字人項(xiàng)目 NEON,NEON 是一種由人工智能所驅(qū)動(dòng)的虛擬人物,擁有近似真人的形象及逼真的表情動(dòng)作,具備表達(dá)情感和溝通交流的能力。

3、當(dāng)前虛擬數(shù)字人通用系統(tǒng)框架及運(yùn)作流程

當(dāng)前虛擬數(shù)字人作為新一代人機(jī)交互平臺,仍處于發(fā)展期,還未有統(tǒng)一的通用系統(tǒng)框架。這份白皮書根據(jù)虛擬數(shù)字人的制作技術(shù)以及目前市場上提供的數(shù)字人服務(wù)和產(chǎn)品結(jié)構(gòu),總結(jié)出虛擬數(shù)字人通用系統(tǒng)框架,如下圖所示。虛擬數(shù)字人系統(tǒng)一般情況下由人物形象、語音生成、動(dòng)畫生成、音視頻合成顯示、交互等 5 個(gè)模塊構(gòu)成。

人物形象根據(jù)人物圖形資源的維度,可分為 2D 和 3D 兩大類,從外形上又可分為卡通、擬人、寫實(shí)、超寫實(shí)等風(fēng)格; 語音生成模塊和 動(dòng)畫生成模塊可分別基于文本生成對應(yīng)的人物語音以及與之相匹配的人物動(dòng)畫; 音視頻合成顯示模塊將語音和動(dòng)畫合成視頻,再顯示給用戶。 交互模塊使數(shù)字人具備交互功能,即通過語音語義識別等智能技術(shù)識別用戶的意圖,并根據(jù)用戶當(dāng)前意圖決定數(shù)字人后續(xù)的語音和動(dòng)作,驅(qū)動(dòng)人物開啟下一輪交互。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人通用系統(tǒng)框架

交互模塊為擴(kuò)展項(xiàng),根據(jù)其有無,可將數(shù)字人分為交互型數(shù)字人和非交互型數(shù)字人。非交互型數(shù)字人體統(tǒng)的運(yùn)作流程如下圖非交互類虛擬數(shù)字人系統(tǒng)運(yùn)作流程所示。系統(tǒng)依據(jù)目標(biāo)文本生成對應(yīng)的人物語音及動(dòng)畫,并合成音視頻呈現(xiàn)給用戶。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲非交互類虛擬數(shù)字人系統(tǒng)運(yùn)作流程

交互型數(shù)字人根據(jù)驅(qū)動(dòng)方式的不同可分為智能驅(qū)動(dòng)型和真人驅(qū)動(dòng)型。 智能驅(qū)動(dòng)型數(shù)字人可通過智能系統(tǒng)自動(dòng)讀取并解析識別外界輸入信息,根據(jù)解析結(jié)果決策數(shù)字人后續(xù)的輸出文本,然后驅(qū)動(dòng)人物模型生成相應(yīng)的語音與動(dòng)作來使數(shù)字人跟用戶互動(dòng)。

該人物模型是預(yù)先通過AI技術(shù)訓(xùn)練得到的,可通過文本驅(qū)動(dòng)生成語音和對應(yīng)動(dòng)畫,業(yè)內(nèi)將此模型稱為TTSA(Text To Speech & Animation)人物模型。 真人驅(qū)動(dòng)型數(shù)字人則是通過真人來驅(qū)動(dòng)數(shù)字人,主要原理是真人根據(jù)視頻監(jiān)控系統(tǒng)傳來的用戶視頻,與用戶實(shí)時(shí)語音,同時(shí)通過動(dòng)作捕捉采集系統(tǒng)將真人的表情、動(dòng)作呈現(xiàn)在虛擬數(shù)字人形象上,從而與用戶進(jìn)行交互。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲智能驅(qū)動(dòng)型虛擬數(shù)字人運(yùn)作流程

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲真人驅(qū)動(dòng)型虛擬數(shù)字人運(yùn)作流程

二、虛擬數(shù)字人關(guān)鍵技術(shù)趨勢

1、虛擬數(shù)字人技術(shù)架構(gòu)

當(dāng)前,虛擬數(shù)字人的制作涉及眾多技術(shù)領(lǐng)域,且制作方式尚未完全定型,通過對現(xiàn)有虛擬數(shù)字人制作中涉及的常用技術(shù)進(jìn)行調(diào)研,本白皮書在虛擬數(shù)字人通用系統(tǒng)框架的基礎(chǔ)上提煉出五橫兩縱的技術(shù)架構(gòu),如下圖所示。

“五橫”是指用于數(shù)字人制作、交互的五大技術(shù)模塊,即人物生成、人物表達(dá)、合成顯示、識別感知、分析決策等模塊。 其中,人物表達(dá)包括語音生成和動(dòng)畫生成。動(dòng)畫生成則包含驅(qū)動(dòng)(動(dòng)作生成)和渲染兩大部分?!皟煽v”是指 2D、3D 數(shù)字人,3D 數(shù)字人需要額外使用三維建模技術(shù)生成數(shù)字形象,信息維度增加,所需的計(jì)算量更大。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人技術(shù)架構(gòu)

這份白皮書重點(diǎn)關(guān)注虛擬數(shù)字人制作過程涉及的建模、驅(qū)動(dòng)、渲染三大關(guān)鍵技術(shù)。

2、建模 : 靜態(tài)掃描建模仍為主流

相機(jī)陣列掃描重建替代結(jié)構(gòu)光掃描重建成為人物建模主流方式。早期的靜態(tài)建模技術(shù)以結(jié)構(gòu)光掃描重建為主。結(jié)構(gòu)光掃描重建可以實(shí)現(xiàn) 0.1 毫米級的掃描重建精度,但其掃描時(shí)間長,一般在 1 秒以上,甚至達(dá)到分鐘級,對于人體這類運(yùn)動(dòng)目標(biāo)在友好度和適應(yīng)性方面都差強(qiáng)人意,因此被更多的應(yīng)用于工業(yè)生產(chǎn)、檢測領(lǐng)域。

近年來,拍照式相機(jī)陣列掃描重建得到飛速發(fā)展,目前可實(shí)現(xiàn)毫秒級高速拍照掃描(高性能的相機(jī)陣列精度可達(dá)到亞毫米級),滿足數(shù)字人掃描重建需求,成為當(dāng)前人物建模主流方式。國際上 IR、Ten24 等公司已經(jīng)將靜態(tài)重建技術(shù)完全商業(yè)化,服務(wù)于好萊塢大型影視數(shù)字人制作,國內(nèi)凌云光等公司制作的拍照式人體掃描系統(tǒng)也已經(jīng)在電影、游戲、虛擬主播項(xiàng)目中成功應(yīng)用。

相比靜態(tài)重建技術(shù),動(dòng)態(tài)光場重建不僅可以重建人物的幾何模型,還可一次性獲取動(dòng)態(tài)的人物模型數(shù)據(jù),并高品質(zhì)重現(xiàn)不同視角下觀看人體的光影效果,成為數(shù)字人建模重點(diǎn)發(fā)展方向。動(dòng)態(tài)光場重建是目前世界上最新的深度掃描技術(shù),此技術(shù)可忽略材質(zhì),直接采集三維世界的光線,然后實(shí)時(shí)渲染出真實(shí)的動(dòng)態(tài)表演者模型,它主要包含人體動(dòng)態(tài)三維重建和光場成像兩部分。

人體動(dòng)態(tài)三維重建一直是計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)等領(lǐng)域研究的重點(diǎn),主要采用攝像機(jī)陣列采集動(dòng)態(tài)數(shù)據(jù),可重建高低頻幾何、紋理、材質(zhì)、三維運(yùn)動(dòng)信息。光場成像是計(jì)算攝像學(xué)領(lǐng)域一項(xiàng)新興技術(shù),它不同于現(xiàn)有僅展示物體表面光照情況的 2D 光線地圖,光場可以存儲空間中所有光線的方向和角度,從而產(chǎn)出場景中所有表面的反射和陰影,這為人體三維重建提供了更加豐富的圖像信息。

近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關(guān)研究,其中 Microsoft 的 108 攝像機(jī) MRstudio已經(jīng)在全球各大洲均有建設(shè);Google 的 Relightable 系統(tǒng)將結(jié)構(gòu)光、動(dòng)態(tài)建模、重光照技術(shù)集成到一起,在一套系統(tǒng)中包含模型重建、動(dòng)作重建、光照重建的全部功能;國內(nèi)清華大學(xué)、商湯科技、華為等也展開了相關(guān)研究,并取得國際水平的同步進(jìn)展。

3、驅(qū)動(dòng) : 智能合成 、 動(dòng)作捕捉遷移

2D、3D 數(shù)字人均已實(shí)現(xiàn)嘴型動(dòng)作的智能合成,其他身體部位的動(dòng)作目前還只支持錄播。2D、3D 數(shù)字人嘴型動(dòng)作智能合成的底層邏輯是類似的,都是建立輸入文本到輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,主要是對已采集到的文本到語音和嘴型視頻(2D)/嘴型動(dòng)畫(3D)的數(shù)據(jù)進(jìn)行模型訓(xùn)練,得到一個(gè)輸入任意文本都可以驅(qū)動(dòng)嘴型的模型,再通過模型智能合成。

然而,2D 視頻和 3D 嘴型動(dòng)畫底層的數(shù)學(xué)表達(dá)不一樣,2D 視頻是像素表達(dá);3D 嘴型動(dòng)畫是 3D 模型對應(yīng)的 BlendShape 的向量表達(dá)。除了嘴型之外的動(dòng)作,包含眨眼、微點(diǎn)頭、挑眉等動(dòng)畫目前都是通過采用一種隨機(jī)策略或某個(gè)腳本策略將預(yù)錄好的視頻/3D 動(dòng)作進(jìn)行循環(huán)播放來實(shí)現(xiàn)。例如 3D 肢體動(dòng)作目前就是通過在某個(gè)位置觸發(fā)這個(gè)預(yù)錄好的肢體動(dòng)作數(shù)據(jù)得到。

觸發(fā)策略是通過人手動(dòng)配置得到的,未來希望通過智能分析文本,學(xué)習(xí)人類的表達(dá),實(shí)現(xiàn)自動(dòng)配置。截至目前,國內(nèi)外科技企業(yè)在數(shù)字人動(dòng)作智能合成方面都有一定進(jìn)展,國際上如 Reallusion 公司研究的利用語音生成面部表情的 Craytalk 技術(shù)已在動(dòng)畫制作中被成功商用,國內(nèi)搜狗、相芯科技等公司也有部分項(xiàng)目落地應(yīng)用。

通過將捕捉采集的動(dòng)作遷移至數(shù)字人是目前3D數(shù)字人動(dòng)作生成的主要方式,核心技術(shù)是動(dòng)作捕捉。動(dòng)作捕捉技術(shù)按照實(shí)現(xiàn)方式的不同,可分為光學(xué)式、慣性式、電磁式及基于計(jì)算機(jī)視覺的動(dòng)作捕捉等?,F(xiàn)階段,光學(xué)式和慣性式動(dòng)作捕捉占據(jù)主導(dǎo)地位,基于計(jì)算機(jī)視覺的動(dòng)作捕捉成為聚焦熱點(diǎn)。 光學(xué)動(dòng)作捕捉通過對目標(biāo)上特定光點(diǎn)的監(jiān)視和跟蹤來完成運(yùn)動(dòng)捕捉的任務(wù)。

最常用的是基于 Marker(馬克點(diǎn))的光學(xué)動(dòng)作捕捉,即在演員身上粘貼能夠反射紅外光的馬克點(diǎn),通過攝像頭對反光馬克點(diǎn)的追蹤,來對演員的動(dòng)作進(jìn)行捕捉。這種方式對動(dòng)作的捕捉精度高,但對環(huán)境要求也高,并且造價(jià)高昂。光學(xué)式解決方案比較出名的企業(yè)有英國的Vicon,美國的 OptiTrack 和魔神(MotionAnalysis),國內(nèi)的 Nokov、uSens、青瞳視覺等。

慣性動(dòng)作捕捉主要是基于慣性測量單元(Inertial Measurement Unit,IMU)來完成對人體動(dòng)作的捕捉,即把集成了加速度計(jì)、陀螺儀和磁力計(jì)的IMU 綁在人體的特定骨骼節(jié)點(diǎn)上,通過算法對測量數(shù)值進(jìn)行計(jì)算,從而完成動(dòng)作捕捉。這種慣性動(dòng)作捕捉方案價(jià)格相對低廉,但精度較低,會(huì)隨著連續(xù)使用時(shí)間的增加產(chǎn)生累積誤差,發(fā)生位置漂移。

慣性式動(dòng)捕方案的代表性企業(yè)有荷蘭的 Xsens,以及國內(nèi)的諾亦騰(Noitom)、幻境、國承萬通等。 基于計(jì)算機(jī)視覺的動(dòng)作捕捉主要是通過采集及計(jì)算深度信息來完成對動(dòng)作的捕捉,是近些年才興起的技術(shù)。這種視覺動(dòng)捕方式因其簡單、易用、低價(jià),已成為目前使用的頻率較高的動(dòng)作捕捉方案,代表性產(chǎn)品有 Leap Motion、微軟Kinect 等。以上動(dòng)捕方案的性能對比如下圖所示。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲主流動(dòng)作捕捉方案性能對比

4、 渲染:真實(shí)性和實(shí)時(shí)性均大幅提升

PBR(Physically Based Rendering,基于物理的渲染技術(shù))渲染技術(shù)的進(jìn)步以及重光照等新型渲染技術(shù)的出現(xiàn)使數(shù)字人皮膚紋理變得真實(shí),突破了恐怖谷效應(yīng)。恐怖谷效應(yīng)由日本機(jī)器人專家森政弘提出,認(rèn)為人們對機(jī)器人的親和度隨著其仿真程度增加而增高,但當(dāng)達(dá)到一個(gè)較高的臨界點(diǎn)時(shí),親和度會(huì)突然跌入谷底,產(chǎn)生排斥、恐懼和困惑等負(fù)面心理。數(shù)字人恐怖谷效應(yīng)主要由數(shù)字人外表、表情動(dòng)作上與真人的差異帶來,其中外表真實(shí)感的關(guān)鍵就是皮膚材質(zhì)的真實(shí)感,無論是塑料感還是蠟像感都會(huì)給人類帶來不適。在 PBR 技術(shù)出現(xiàn)之前,限于相關(guān)軟硬件的發(fā)展程度,所有的 3D 渲染引擎,更多的著重在于實(shí)現(xiàn) 3D 效果,在真實(shí)感體現(xiàn)方面差強(qiáng)人意。

PBR 是基于真實(shí)物理世界的成像規(guī)律模擬的一類渲染技術(shù)的集合,它的關(guān)鍵在于微表面模型和能量守恒計(jì)算,通過更真實(shí)的反映模型表面反射光線和折射光線的強(qiáng)弱,使得渲染效果突破了塑料感。目前常見的幾款 3D 引擎,如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR實(shí)現(xiàn)。

重光照技術(shù)通過采集模擬多種光照條件的圖像數(shù)據(jù),測算數(shù)字人表面光照反射特性,并合成出數(shù)字人模型在新的光照下的渲染結(jié)果,使計(jì)算機(jī)中的虛擬數(shù)字人在任意虛擬環(huán)境下都可以呈現(xiàn)近乎真實(shí)的效果,它徹底改變了傳統(tǒng)渲染方式通過模擬皮膚復(fù)雜的透射反射來計(jì)算渲染總會(huì)帶來誤差的局面。

該技術(shù)在 2000 年初由南加州大學(xué)實(shí)驗(yàn)室創(chuàng)建LightStage 平臺時(shí)提出,并開始了相關(guān)研究,目前已經(jīng)經(jīng)過 7代的迭代發(fā)展,已被成功應(yīng)用到《阿凡達(dá)》、《復(fù)仇者聯(lián)盟》等眾多經(jīng)典影片的角色制作中。國內(nèi)清華大學(xué)、浙江大學(xué)也都建設(shè)了重光照系統(tǒng),可以實(shí)現(xiàn)高精度人體光照采集與重建。

實(shí)時(shí)渲染技術(shù)的突破助力寫實(shí)類數(shù)字人實(shí)現(xiàn)實(shí)時(shí)交互,應(yīng)用范圍快速擴(kuò)大。實(shí)時(shí)渲染指圖形數(shù)據(jù)的實(shí)時(shí)計(jì)算與輸出,其每一幀都是針對當(dāng)時(shí)實(shí)際的環(huán)境光源、相機(jī)位置和材質(zhì)參數(shù)計(jì)算出來的圖像。與離線渲染相比,實(shí)時(shí)渲染面臨較大挑戰(zhàn)。一是渲染時(shí)長短,實(shí)時(shí)渲染每秒至少要渲染 30 幀,即在 33 毫秒內(nèi)完成一幀畫面渲染,離線渲染則可以花費(fèi)數(shù)小時(shí)甚至更長時(shí)間渲染一幀畫面;二是計(jì)算資源有限,實(shí)時(shí)渲染受限于時(shí)效要求,計(jì)算資源一般是不能及時(shí)調(diào)整,而離線渲染受時(shí)效限制較低,可臨時(shí)調(diào)配更多的計(jì)算資源。

早期的實(shí)時(shí)渲染只能選擇高度抽象和簡化過的渲染算法,犧牲了畫面質(zhì)量。隨著硬件能力的提升和算法的突破,渲染速度、渲染效果的真實(shí)度、渲染畫面的分辨率均大幅提升,在虛擬人物實(shí)時(shí)渲染方面,已經(jīng)能做到以假亂真。

2016 年,EpicGames 聯(lián)合 3Lateral、Cubic Motion、Ninja Theory 等公司聯(lián)合開發(fā)的可實(shí)時(shí)驅(qū)動(dòng)的虛擬人物在當(dāng)年的 Siggraph(Special Interest Group for Computer GRAPHICS,計(jì)算機(jī)圖形圖像特別興趣小組,致力于推廣和發(fā)展計(jì)算機(jī)繪圖和動(dòng)畫制作的軟硬件技術(shù))會(huì)議中做了演示,成功在消費(fèi)級的硬件環(huán)境下實(shí)時(shí)渲染了高質(zhì)量的虛擬角色。

2018 年 5 月,騰訊發(fā)布虛擬人 Siren,也一個(gè)支持實(shí)時(shí)渲染的虛擬人物。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲離線渲染與實(shí)時(shí)渲染對比

三、虛擬數(shù)字人產(chǎn)業(yè)應(yīng)用現(xiàn)狀

1、虛擬數(shù)字人產(chǎn)業(yè)視圖

當(dāng)前虛擬數(shù)字人理論和技術(shù)日益成熟,應(yīng)用范圍不斷擴(kuò)大,產(chǎn)業(yè)正在逐步形成、不斷豐富 ,相應(yīng)的商業(yè)模式也在持續(xù)演進(jìn)和多元化。虛擬數(shù)字人的產(chǎn)業(yè)鏈從上到下可以分為基礎(chǔ)層、平臺層和應(yīng)用層,如下圖所示。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人產(chǎn)業(yè)視圖

基礎(chǔ)層?;A(chǔ)層為虛擬數(shù)字人提供基礎(chǔ)軟硬件支撐,硬件包括顯示設(shè)備、光學(xué)器件、傳感器、芯片等,基礎(chǔ)軟件包括建模軟件、渲染引擎。 顯示設(shè)備是數(shù)字人的載體,既包括手機(jī)、電視、投影、LED 顯示等 2D 顯示設(shè)備,也包括裸眼立體、AR、VR 等 3D 顯示設(shè)備。 光學(xué)器件用于視覺傳感器、用戶顯示器的制作。 傳感器用于數(shù)字人原始數(shù)據(jù)及用戶數(shù)據(jù)的采集。

芯片用于傳感器數(shù)據(jù)預(yù)處理和數(shù)字人模型渲染、AI 計(jì)算。 建模軟件能夠?qū)μ摂M數(shù)字人的人體、衣物進(jìn)行三維建模。 渲染引擎能夠?qū)艄?、毛發(fā)、衣物等進(jìn)行渲染,主流引擎包括 Unity Technologies 公司的 Unity 3D、Epic Games公司的 Unreal Engine 等??傮w來看,處于基礎(chǔ)層的廠商已經(jīng)深耕行業(yè)多年,已經(jīng)形成了較為深厚的技術(shù)壁壘。

平臺層。平臺層包括軟硬件系統(tǒng)、生產(chǎn)技術(shù)服務(wù)平臺、AI 能力平臺,為虛擬數(shù)字人的制作及開發(fā)提供技術(shù)能力。建模系統(tǒng)和動(dòng)作捕捉系統(tǒng)通過產(chǎn)業(yè)鏈上游的傳感器、光學(xué)器件等硬件獲取真人/實(shí)物的各類信息,利用軟件算法實(shí)現(xiàn)對人物的建模、動(dòng)作的重現(xiàn);渲染平臺用于模型的云端渲染。解決方案平臺基于自身技術(shù)能力為廣大客戶提供數(shù)字人解決方案。AI 能力平臺提供計(jì)算機(jī)視覺、智能語音、自然語言處理技術(shù)能力。平臺層匯聚的企業(yè)較多,騰訊、百度、搜狗、魔琺科技、相芯科技均有提供相應(yīng)數(shù)字人技術(shù)服務(wù)平臺。

應(yīng)用層。應(yīng)用層是指虛擬數(shù)字人技術(shù)結(jié)合實(shí)際應(yīng)用場景領(lǐng)域,切入各類,形成行業(yè)應(yīng)用解決方案,賦能行業(yè)領(lǐng)域。按照應(yīng)用場景或行業(yè)的不同,已經(jīng)出現(xiàn)了娛樂型數(shù)字人(如虛擬主播、虛擬偶像)、教育型數(shù)字人(如虛擬教師)、助手型數(shù)字人(如虛擬客服、虛擬導(dǎo)游、智能助手)、影視數(shù)字人(如替身演員或虛擬演員)等。不同外形、不同功能的虛擬數(shù)字人賦能影視、傳媒、游戲、金融、文旅等領(lǐng)域,根據(jù)需求為用戶提供定制化服務(wù)。

2、虛擬數(shù)字人重點(diǎn)領(lǐng)域應(yīng)用環(huán)境及典型應(yīng)用案例分析

虛擬數(shù)字人應(yīng)用給傳統(tǒng)領(lǐng)域帶來變革。通過虛擬數(shù)字人產(chǎn)品與生產(chǎn)生活相融合,其規(guī)模化、可定制化、可復(fù)制化的能力能夠推動(dòng)改善傳統(tǒng)環(huán)節(jié)流程、提升效能、降低成本等,大幅提升業(yè)務(wù)體驗(yàn),給傳統(tǒng)領(lǐng)域帶來變革。典型的應(yīng)用領(lǐng)域、場景及充當(dāng)?shù)慕巧缦聢D所示。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲虛擬數(shù)字人應(yīng)用領(lǐng)域、場景及角色

虛擬數(shù)字人+影視。特效電影廣受市場認(rèn)可,扶持政策的密集出臺,以數(shù)字替身為代表的虛擬數(shù)字人+影視類的產(chǎn)品應(yīng)用正在展現(xiàn)廣闊的市場前景。影視是對視覺效果的要求最高且最大程度影響社會(huì)對數(shù)字人形象認(rèn)知、品牌的一個(gè)領(lǐng)域。近年來中國影視數(shù)字人特效取得快速發(fā)展,部分特效大片獲得市場認(rèn)可。2019 年中國影視票房收入超過 640 億級別,連續(xù)多年增長8%左右,其中特效電影約占 10%。國家對于影視特效的發(fā)展十分重視,先后出臺了一系列相關(guān)扶持政策。

2019 年,科技部、文化部聯(lián)合六部委發(fā)布《關(guān)于促進(jìn)文化和科技深度融合的指導(dǎo)意見》,提出加強(qiáng)激光放映、虛擬現(xiàn)實(shí)、光學(xué)捕捉、影視攝錄、高清制播、圖像編輯等高端文化裝備自主研發(fā)及產(chǎn)業(yè)化。2020 年,國家電影局《關(guān)于促進(jìn)科幻電影發(fā)展的若干意見》,提出以科幻電影特效技術(shù)發(fā)展引領(lǐng)帶動(dòng)電影特效水平整體提升,并要落實(shí)財(cái)稅支持政策,同時(shí)對入駐影視文化基地的科技企業(yè)進(jìn)行租金減免。

于 2019 年 2 月 22 日在中國內(nèi)地上映的《阿麗塔:戰(zhàn)斗天使》是虛擬數(shù)字人技術(shù)與影視相結(jié)合的典型應(yīng)用案例之一。劇中的女主角阿麗塔是一位完全采用數(shù)字人技術(shù)制作的角色。該電影通過采用特殊的面部捕捉儀器對真人演員人臉細(xì)節(jié)進(jìn)行精準(zhǔn)捕捉,然后將其作為電腦中虛擬角色的運(yùn)動(dòng)依據(jù),使虛擬角色的動(dòng)作和表情能像真人一樣自然逼真。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲2013-2019 中國電影票房收入增長趨勢

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲中國內(nèi)地電影票房總收入 TOP10

虛擬數(shù)字人+傳媒。以虛擬主播為代表傳媒行業(yè)應(yīng)用很好的滿足了媒體傳播領(lǐng)域?qū)?nèi)容生成方面的業(yè)務(wù)需求,成為了融媒體時(shí)代的傳媒利器。據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計(jì),2019 年中國視頻直播行業(yè)收入達(dá)到 1082 億人民幣,全國有 3.9 億人在關(guān)注虛擬偶像,其中最大的二次元活動(dòng)社區(qū)B站月活用戶達(dá) 1140 萬,虛擬主播占直播營收 40%。

同期,B站、虎牙等大型直播平臺也都開啟了線上、線下虛擬主播活動(dòng)。如Bilibili Macro Link系列活動(dòng)VR直播觀看如數(shù)達(dá)到 660 萬,10 萬級的“up主”(指在視頻網(wǎng)站、論壇、FTP站點(diǎn)上傳視頻音頻文件的人)就可以達(dá)到 100 萬級真人主播的應(yīng)收。此外,在傳統(tǒng)媒體領(lǐng)域,以虛擬主持人為代表的數(shù)字人應(yīng)用也開始進(jìn)入公眾視野。在2019 年央視網(wǎng)絡(luò)春晚舞臺上,以撒貝寧為原型制作的AI虛擬主持人“小小撒”首次上崗與原型同臺秀技。這也是國內(nèi)第一次人類主持人和自己的虛擬孿生數(shù)字人共同主持大規(guī)模的國家級文化活動(dòng),引起了業(yè)界及網(wǎng)民的強(qiáng)烈關(guān)注。

虛擬數(shù)字人+游戲。游戲市場日趨激烈,對于精品的需求日益增長,或是虛擬數(shù)字人技術(shù)在該領(lǐng)域落地的福音。2019 年游戲市場規(guī)模達(dá)到 2300 億,其中與數(shù)字人相關(guān)度較大的RPG類游戲約占 30%的份額。我國國內(nèi)游戲監(jiān)管環(huán)境和游戲版號審批政策仍舊趨嚴(yán),游戲用戶數(shù)相比 2018 年僅增加 0.1 億,市場競爭日趨激烈,對于精品的需求越來越高。

虛擬數(shù)字人技術(shù)則能夠有效簡化和加快游戲動(dòng)畫制作過程,可以在有限成本的情況下讓游戲中更多的虛擬角色都具備豐富的肢體動(dòng)作和精細(xì)的面部表情,給玩家?guī)砀两挠螒蝮w驗(yàn)。例如網(wǎng)易伏羲實(shí)驗(yàn)室成功將虛擬數(shù)字人技術(shù)應(yīng)用到《逆水寒》等多個(gè)游戲劇情動(dòng)畫場景制作中,在無手工參與下,快速生成動(dòng)畫,這使得大量的虛擬角色都能富有視覺的表達(dá)能力。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲2015-2019 中國游戲市場實(shí)際銷售收入

虛擬數(shù)字人+金融。虛擬數(shù)字人能夠有效助力金融機(jī)構(gòu)實(shí)現(xiàn)“降本增效”,各大金融巨頭爭相布局“數(shù)字員工”。運(yùn)用金融科技實(shí)現(xiàn)“降本增效”應(yīng)對市場競爭成為金融行業(yè)發(fā)展共識,以科技為核心的競爭導(dǎo)向,帶來了金融機(jī)構(gòu)信息科技投入的逐年增加。據(jù)輕金融統(tǒng)計(jì),2019 年,16 家全國性銀行科技總投入超千億,總計(jì)1034.1億元。其中工農(nóng)中建四大行投入均超過100億元,建行投入最高,達(dá)到 176.33 億元。

虛擬數(shù)字人擁有擬人的表情動(dòng)作,可進(jìn)行智能對話,能夠與服務(wù)類場景較多的金融行業(yè)天然結(jié)合。多家金融機(jī)構(gòu)正利用虛擬數(shù)字人技術(shù)打造“數(shù)字員工”,成為了科技創(chuàng)新、降本增效的重要方向。以中國工商銀行為例,其推出的數(shù)字人銀行員工,在移動(dòng)終端和大屏等媒介上展現(xiàn)數(shù)字?jǐn)M態(tài)形象,能夠在產(chǎn)品營銷講解、金融業(yè)務(wù)辦理、資訊播報(bào)、咨詢問答等多個(gè)業(yè)務(wù)場景,實(shí)現(xiàn)與用戶的可視化交互,為用戶帶來個(gè)性化服務(wù),有效解除用戶顧慮,提升用戶體驗(yàn)和駐留時(shí)間,真正讓數(shù)字化服務(wù)“聽得見”的同時(shí)也“看得見”。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲部分國際領(lǐng)先金融機(jī)構(gòu)信息技術(shù)投入金額與增速

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲全國性科技總投入與占營收比重

虛擬數(shù)字人+文旅。數(shù)字文旅產(chǎn)業(yè)表現(xiàn)突出,以虛擬講解員為代表的虛擬數(shù)字人應(yīng)用或?yàn)槠湄暙I(xiàn)蓬勃力量。據(jù)中國旅游研究院統(tǒng)計(jì),2019 年前三季度,文旅營業(yè)收入 62187 億元,比上年同期增長 7.6%,特別是數(shù)字文旅產(chǎn)業(yè)表現(xiàn)突出,成為文旅產(chǎn)業(yè)轉(zhuǎn)型升級的重要引擎。數(shù)字文化內(nèi)容與互聯(lián)網(wǎng)旅游、智慧旅游、虛擬旅游等新模式聯(lián)動(dòng)發(fā)展,特別是疫情期間得到不斷增長。

目前,虛擬數(shù)字人在文旅領(lǐng)域暫時(shí)還沒有落地產(chǎn)品,但相關(guān)概念產(chǎn)品已經(jīng)開始映入公眾眼簾。例如商湯科技在 2020世界人工智能大會(huì)(WAIC)上展示的AI數(shù)字人“小糖”。“小糖”可依托于展臺前的滑動(dòng)屏幕,為觀眾介紹和講述預(yù)先設(shè)定好的講解內(nèi)容。虛擬數(shù)字人帶來的全新展示方式和講解模式,在幫助文旅場館解決人力不足問題的同時(shí),更憑借其智能化、電子化和展示效果多樣化的特性,為文旅行業(yè)的未來帶來更多可能性。

數(shù)字人正走進(jìn)現(xiàn)實(shí)!AI大腦+高顏值,白皮書看懂四大關(guān)鍵技術(shù)五大應(yīng)用 | 智東西內(nèi)參

▲2012-2019 全國國內(nèi)旅游人數(shù)

四、虛擬數(shù)字人發(fā)展趨勢和制約因素

1、虛擬數(shù)字人未來發(fā)展趨勢

虛擬數(shù)字人的采集、制作流程逐步簡單化、一體化,迭代式提升真實(shí)感。未來數(shù)字人的制作技術(shù)將會(huì)變得更加簡單,會(huì)有更加一體化、自動(dòng)化的設(shè)備同步獲取模型、身體、表情、手指運(yùn)動(dòng)、聲音等所有數(shù)據(jù),無需穿戴專業(yè)傳感設(shè)備。在特定的環(huán)境下人們甚至無法分辨數(shù)字人的真假,可以更加自然與數(shù)字人交流互動(dòng)。

虛擬數(shù)字人的交互方式衍變,智能化程度不斷加深。全雙工技術(shù)將推進(jìn)數(shù)字人的交互方式衍變,讓數(shù)字人擁有一次喚醒、多次交互的能力,具備實(shí)時(shí)智能響應(yīng)、智能打斷、智能糾錯(cuò)、多輪對話等功能。另外,隨著計(jì)算機(jī)視覺、語音和自然語言處理等人工智能技術(shù)的不斷進(jìn)步,虛擬數(shù)字人將逐漸具備“看”、“聽”、“說”、“懂”的能力。

虛擬數(shù)字人逐漸實(shí)現(xiàn)在多場景、多領(lǐng)域的融合、應(yīng)用、落地。盡管目前數(shù)字人的發(fā)展環(huán)境、整體情況還處于尚未成熟的起步階段,但隨著虛擬數(shù)字人技術(shù)的精進(jìn)、市場價(jià)值的釋放,其將更全面、更深入地融入影視、金融、文旅等各個(gè)領(lǐng)域,充分發(fā)揮應(yīng)用價(jià)值,迸發(fā)巨大的潛力。

2、虛擬數(shù)字人發(fā)展制約因素

目前,制約虛擬數(shù)字人產(chǎn)業(yè)發(fā)展的因素主要有以下幾個(gè)方面。

政策環(huán)境層面,行業(yè)依然處于培育期,缺乏政策與資本扶持。一是缺少上下游協(xié)作交流平臺,制約整體產(chǎn)業(yè)化發(fā)展。虛擬數(shù)字人產(chǎn)業(yè)鏈長,參與主體多,既有大型平臺企業(yè)、也有中小單位和初創(chuàng)公司,行業(yè)溝通成本高。二是行業(yè)投資回報(bào)周期較長,為數(shù)字人產(chǎn)業(yè)投資豎立了“無形壁壘”。數(shù)字人產(chǎn)業(yè)還不完全成熟,投資回報(bào)周期較傳統(tǒng)技術(shù)應(yīng)用更長,缺乏長期耐心資本來扶持企業(yè)成長。由于缺乏資本力量的推動(dòng),各產(chǎn)業(yè)規(guī)模擴(kuò)張與資源整合的進(jìn)程相對滯后。

技術(shù)應(yīng)用層面,制作方式自動(dòng)化程度低、生產(chǎn)門檻高,關(guān)鍵技術(shù)還不夠完全成熟。目前 3D 數(shù)字人建模依然需要大量的人工制作參與,整體制作效率相對較低,與部分應(yīng)用場景快速、批量制作的需求并不匹配。此外,在虛擬數(shù)字人的關(guān)鍵技術(shù)方面,還存在實(shí)時(shí)面部表情捕捉與還原精準(zhǔn)度不足、語音識別在強(qiáng)噪聲干擾及遠(yuǎn)場識別等方面還很難達(dá)到實(shí)用化要求等瓶頸,需要加大研究力度以提高算法精度。

人才培養(yǎng)層面,技術(shù)人才、綜合人才極度缺乏,人才供應(yīng)體系不完善。數(shù)字人的技術(shù)跨度大,從制作端的美術(shù)師、模型師、綁定師、材質(zhì)師、動(dòng)作捕捉師、燈光師、特效師、攝像師、導(dǎo)演、特效演員,到技術(shù)端的光學(xué)工程師、硬件工程師、軟件工程師、算法工程師、系統(tǒng)工程師,以及運(yùn)營端的產(chǎn)品經(jīng)理、經(jīng)紀(jì)人等每一個(gè)環(huán)節(jié)的人才都很重要,急需一套完善的人才供應(yīng)體系,特別是跨界人才體系,才能保障產(chǎn)業(yè)的良性運(yùn)轉(zhuǎn)。

標(biāo)準(zhǔn)體系層面,行業(yè)內(nèi)缺乏統(tǒng)一技術(shù)標(biāo)準(zhǔn)和體系,產(chǎn)品質(zhì)量良莠不齊。數(shù)字人的產(chǎn)業(yè)處于發(fā)展初期,制作型公司、技術(shù)型公司、運(yùn)營型公司、應(yīng)用型公司均已入場,但各企業(yè)的技術(shù)、產(chǎn)品質(zhì)量差異較大。通過建立虛擬數(shù)字人的技術(shù)、產(chǎn)品標(biāo)準(zhǔn)體系,保護(hù)優(yōu)質(zhì)數(shù)字人廠商,促進(jìn)行業(yè)健康發(fā)展。

安全倫理層面,相關(guān)法律法規(guī)和倫理規(guī)范尚待完善,存在潛在風(fēng)險(xiǎn)。虛擬數(shù)字人技術(shù)在發(fā)展中會(huì)引發(fā)一些法律問題和倫理風(fēng)險(xiǎn),需要提前建立相關(guān)制度進(jìn)行防范。虛擬世界里面的虛擬人物所有權(quán)、犯罪行為尚沒有法律上的界定。虛擬數(shù)字人帶來的沉浸式體驗(yàn)可能會(huì)對用戶的精神、心理狀態(tài)帶來影響,改變用戶在脫離虛擬世界后的行為,比如可能會(huì)增加暴力傾向,存在一定倫理風(fēng)險(xiǎn)。

智東西認(rèn)為,現(xiàn)在,在AI+5G的加持下,“虛擬數(shù)字人”的蓬勃發(fā)展才剛剛開始,而這只是第三產(chǎn)業(yè)智能化趨勢的一個(gè)縮影,隨著我國產(chǎn)業(yè)轉(zhuǎn)型升級的腳步逐漸加速,將會(huì)有各種形態(tài)的虛擬數(shù)字人出現(xiàn)在各行各業(yè)。