智東西(公眾號(hào):zhidxcom)
編輯?| 云鵬

智東西7月18日消息,近日,由智東西和智東西公開(kāi)課主辦的GTIC 2022全球AIoT智能家居峰會(huì)(以下簡(jiǎn)稱AIoT智能家居峰會(huì))正式舉辦,10位行業(yè)重磅大咖就AIoT智能家居的技術(shù)突破、創(chuàng)新應(yīng)用和行業(yè)展望展開(kāi)了精彩的深度探討。

峰會(huì)以“新變量 新未來(lái)”為主題,采用線上形式進(jìn)行,在全網(wǎng)16個(gè)渠道同步直播,線上觀看人數(shù)達(dá)到了90多萬(wàn)人。

當(dāng)前,家居場(chǎng)景是AIoT的重要落地方向之一,隨著智能化技術(shù)的快速發(fā)展,技術(shù)邊界不斷被突破,語(yǔ)音在新型人機(jī)交互入口中的作用越來(lái)越明顯。

在本次峰會(huì)上,阿里巴巴達(dá)摩院語(yǔ)音AIoT產(chǎn)研負(fù)責(zé)人田彪博士以《智能家居環(huán)境復(fù)雜聲學(xué)挑戰(zhàn)下的語(yǔ)音交互技術(shù)》為主題進(jìn)行了演講,全面介紹了阿里巴巴達(dá)摩院在相關(guān)重要技術(shù)方向的思考和進(jìn)展。

田彪博士以電視、音箱和室內(nèi)機(jī)器人等家居場(chǎng)景下典型產(chǎn)品的研發(fā)實(shí)踐為例,介紹了聲學(xué)設(shè)計(jì)、麥克風(fēng)陣列處理、遠(yuǎn)場(chǎng)語(yǔ)音交互、語(yǔ)音模組和芯片等技術(shù)的設(shè)計(jì)思想與方案架構(gòu),如何通過(guò)技術(shù)的進(jìn)步給用戶帶來(lái)更好更便捷的自然語(yǔ)音交互體驗(yàn)。同時(shí),他結(jié)合產(chǎn)業(yè)落地情況與研究進(jìn)展介紹了下一代的產(chǎn)品和技術(shù)演進(jìn)趨勢(shì)。

以下為田彪演講實(shí)錄整理:

我今天演講的主題是《智能家居環(huán)境復(fù)雜聲學(xué)挑戰(zhàn)下的語(yǔ)音交互技術(shù)》,主要會(huì)講三個(gè)部分,第一部分,在智能家居情況下,語(yǔ)音交互核心技術(shù),包括技術(shù)產(chǎn)品化的情況,前面會(huì)講一下復(fù)雜聲學(xué)場(chǎng)景的定義還有模式化的概念。

第二部分主要會(huì)講解一下我們?cè)谡Z(yǔ)音AI這個(gè)方面,在算法層面核心的技術(shù)理念和進(jìn)展。第三個(gè)我會(huì)把我們整個(gè)產(chǎn)品化的應(yīng)用案例跟大家做介紹,同時(shí)會(huì)對(duì)我們后面的技術(shù)做展望。

不僅是家,包括公共空間,在整個(gè)語(yǔ)音交互的過(guò)程中都會(huì)受到很多聲學(xué)的挑戰(zhàn)性因素的影響,比如洗衣機(jī)、掃地機(jī)器人。家居過(guò)程中噪聲,對(duì)智能音箱或者電視上的語(yǔ)音交互,會(huì)造成噪聲影響。

阿里達(dá)摩院田彪:如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)?

除了噪聲之外,有混響的影響,包括干擾,因?yàn)榧依锟赡苡泻芏嗳耍哉麄€(gè)場(chǎng)景下,產(chǎn)品都會(huì)受到聲學(xué)因素的影響。

在車?yán)锩?、家里面,更多的就是遠(yuǎn)角方向性干擾會(huì)占比會(huì)更多一點(diǎn)。車?yán)锩嬲麄€(gè)空間會(huì)小一點(diǎn),它擴(kuò)散場(chǎng)的噪聲會(huì)強(qiáng),但是混響會(huì)比較小。

我們?cè)诠部臻g,混響也很高,整個(gè)擴(kuò)散場(chǎng)的噪聲也很強(qiáng),在不同場(chǎng)景下,聲學(xué)挑戰(zhàn)的每個(gè)因素的重要性是不一樣的,所以我們的技術(shù)方案,在算法層面對(duì)于不同因素會(huì)有不同的算法處理,整個(gè)算法會(huì)出現(xiàn)碎片化,應(yīng)用方案會(huì)出現(xiàn)不同的設(shè)計(jì)。

具體來(lái)講,會(huì)涉及到具體應(yīng)用過(guò)程中因素的影響,比如麥克風(fēng)陣列的選擇,數(shù)字麥還是模擬麥,算法上復(fù)雜度更高還是復(fù)雜度更低,跟算法資源、芯片資源都密切相關(guān),這就會(huì)涉及到芯片的選型、對(duì)于功耗的控制、對(duì)于用戶數(shù)據(jù)安全的保障,還涉及到云上的AI能力的對(duì)接,怎么去選擇不同的云的能力,方案碎片化會(huì)比較嚴(yán)重。

算法、芯片、云,不同的環(huán)節(jié)結(jié)合就沒(méi)那么緊密,會(huì)比較零散零散,這樣雖然很容易拼起來(lái),但整個(gè)方案的語(yǔ)音交互體驗(yàn)就沒(méi)有那么好。整個(gè)產(chǎn)品開(kāi)發(fā)的過(guò)程就會(huì)有更多的困難,進(jìn)度也會(huì)受一定的影響。

現(xiàn)在整個(gè)行業(yè)都在做類似的事情,就是怎么把聲學(xué)的技術(shù)硬件做模組化的設(shè)計(jì),使得整個(gè)語(yǔ)音交互端側(cè)的核心鏈路能夠?qū)崿F(xiàn)統(tǒng)一的封裝,這樣會(huì)使得整個(gè)方案進(jìn)入平臺(tái)化的狀態(tài)。

阿里達(dá)摩院田彪:如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)?

這樣與硬件相關(guān)的技術(shù)和經(jīng)驗(yàn)?zāi)軌蛞越y(tǒng)一的形式來(lái)被沉淀下來(lái),客戶去集成語(yǔ)音交互能力的時(shí)候,能夠使用標(biāo)準(zhǔn)的接口跟API去對(duì)接,能夠大幅降低語(yǔ)音AI能力開(kāi)發(fā)的難度,同時(shí)在這個(gè)上面也可以進(jìn)行二次的開(kāi)發(fā),更好的去滿足特定產(chǎn)品的需求。

我們核心的產(chǎn)品形態(tài)會(huì)是語(yǔ)音交互模組,后面我會(huì)再更細(xì)節(jié)的去講一下,我們阿里云AI這塊整個(gè)的技術(shù)棧,整個(gè)語(yǔ)音交互鏈路都會(huì)去設(shè)計(jì),包括端上的信號(hào)的處理、回聲消除、降噪波束形成、聲源定位,包含端側(cè)的喚醒命令值、快捷指令,包括硬件層面聲學(xué)硬件的設(shè)計(jì)跟服務(wù)。

阿里達(dá)摩院田彪:如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)?

云端上有很多我們傳統(tǒng)的語(yǔ)義理解、對(duì)話管理、語(yǔ)音合成、聲紋識(shí)別,在這個(gè)過(guò)程中我們會(huì)聚焦在核心的技術(shù)方向上,持續(xù)的去投入跟建設(shè),盡量去推動(dòng)技術(shù)邊界的擴(kuò)展、技術(shù)深度的提升。

今天我會(huì)更多的去講我們?cè)诙松闲盘?hào)處理相關(guān)的算法的理念跟方案,設(shè)計(jì)就會(huì)使得我們整體上對(duì)于復(fù)雜聲學(xué)因素的影響,能夠盡量去降低整個(gè)算法的影響效果,整個(gè)用戶體驗(yàn)也會(huì)變好。我們?cè)诼晫W(xué)前端有三個(gè)核心理念,也有對(duì)應(yīng)的技術(shù)方案。

首先我們要去解決前端處理,包括回聲消除、噪聲降噪、自動(dòng)增益控制,傳統(tǒng)的三A技術(shù)都是基于自適應(yīng)濾波信號(hào)處理的方法去做的,在現(xiàn)在這個(gè)時(shí)代,我們更多的會(huì)去結(jié)合信號(hào)處理的濾波,以及我們基于深度學(xué)習(xí)模型去做統(tǒng)一的方案,這個(gè)是我們大的理念,把回聲消除的線性部分,后處理部分跟降噪的部分,還包括自動(dòng)增益控制的部分,使用 hybrid的架構(gòu),去把它融合,發(fā)揮模型的非線性建模的能力,以及自適應(yīng)濾波對(duì)環(huán)境對(duì)資源開(kāi)銷小的優(yōu)勢(shì)。

整體而言,這個(gè)方案在我們的很多的模組對(duì)外輸出方案上都得到了實(shí)現(xiàn),也能看到對(duì)于傳統(tǒng)的信號(hào)處理算法技術(shù)有非常顯著的提升。相關(guān)的技術(shù)方案,我們之前也參加國(guó)際比賽,拿到不錯(cuò)的成績(jī)。看方案屬于國(guó)際上現(xiàn)在比較前沿的技術(shù)架構(gòu)。

第二部分,我們會(huì)基于盲源分離的方案去把混響回聲消除、聲源分離,都通過(guò)盲源分離理論去統(tǒng)一起來(lái)。

同時(shí)我們?cè)谶@一塊不僅會(huì)把前端的不同任務(wù)通過(guò)統(tǒng)一的框架去處理,也會(huì)跟語(yǔ)音喚醒去做進(jìn)一步的聯(lián)合,使得喚醒的信息能夠反饋到前端來(lái),能夠指導(dǎo)前端,讓盲源分離能夠處理得更好。

這樣的技術(shù)方案對(duì)于信道相關(guān)沒(méi)有做太多的假設(shè),不需要有更多的經(jīng)驗(yàn)的要求,這樣就使得我們整個(gè)方案非常適用于小的陣列,也更容易被各種各樣的設(shè)備去集成,同時(shí)在各種場(chǎng)景下有非常好的適配性。

整體上從技術(shù)核心層面,使得我們整個(gè)算法方案有很強(qiáng)的適配性,能夠幫助我們?nèi)ソ鉀Q前面說(shuō)的常見(jiàn)的技術(shù)方案碎片化問(wèn)題。

第三就是說(shuō)進(jìn)一步的統(tǒng)一融合,會(huì)把視覺(jué)跟聽(tīng)覺(jué)的能力進(jìn)一步的融合。我們知道視覺(jué)對(duì)噪聲是非常魯棒的,它不會(huì)受噪聲的影響。但是語(yǔ)音算法無(wú)論你怎么去做,它對(duì)于強(qiáng)噪聲特別復(fù)雜的場(chǎng)景,還是有力所能不及的地方,這個(gè)時(shí)候如果能夠使用到視覺(jué)信息,非常有助于我們把整個(gè)語(yǔ)音效果做得更好。

如果我們有人臉的信息,我們可以把語(yǔ)音段里的人聲跟非人聲段做很好的區(qū)分,傳統(tǒng)的技術(shù)很難去做,性價(jià)比非常低,它很難去把語(yǔ)音跟非語(yǔ)音說(shuō)明的很精準(zhǔn),但是視覺(jué)的話,能夠監(jiān)控你的面部特征、唇動(dòng)的特征,能夠區(qū)分語(yǔ)音和非語(yǔ)音。

做麥克風(fēng)陣列的同學(xué)可能都知道,如果你能夠很好的區(qū)分噪聲跟語(yǔ)音的話,整個(gè)信號(hào)的噪聲統(tǒng)計(jì)量跟信號(hào)的統(tǒng)計(jì)量就能估計(jì)的更準(zhǔn)確。

所以這一塊我們?nèi)诤狭艘曈X(jué)的信息,這三塊的技術(shù),我們?cè)谧罱鼉赡甓家呀?jīng)發(fā)表了最新的成果,感興趣的同學(xué)和同仁可以去搜索一下我們阿里語(yǔ)音的論文,就可以看到更多的細(xì)節(jié)。

在識(shí)別還有合成層面,我們最近也在逐步推進(jìn),以前大模型大部分還是在云端去做服務(wù)的。端上一般我們以喚醒快捷指令離線的方案去做,但是對(duì)于大詞匯量的語(yǔ)音識(shí)別系統(tǒng)在端上來(lái)跑,尤其在嵌入系統(tǒng)上去跑,還是有非常大的挑戰(zhàn)的。

我們W語(yǔ)言實(shí)驗(yàn)室基于我們自己研發(fā)的神經(jīng)網(wǎng)架構(gòu)得到端的語(yǔ)音識(shí)別框架,它可以做到非常小的尺寸,而且精度能夠做得非常高,能夠純文本地的實(shí)現(xiàn)的語(yǔ)音識(shí)別系統(tǒng),在我們的淘寶直播的應(yīng)用場(chǎng)景,在大概10兆以內(nèi)的內(nèi)存開(kāi)銷下,就能夠去做到非常大詞匯量的語(yǔ)音識(shí)別系統(tǒng),而且跟我們?cè)贫说男Ч浅=咏?/p>

我們?cè)赥TS方面,無(wú)論是模型的構(gòu)造還是計(jì)算量層面,也做了非常多的技術(shù)突破,使得整個(gè)TTS能夠跟云端相媲美,整個(gè)技術(shù)核心的語(yǔ)音交互的技術(shù)也都往端上遷移。

總體而言就是說(shuō)我們會(huì)把前端跟喚醒聯(lián)合建模,還有識(shí)別合成,我們面向復(fù)雜聲學(xué)挑戰(zhàn)下的語(yǔ)音交互技術(shù),逐步在端上去實(shí)現(xiàn)全站的語(yǔ)音交互能力。

這是我們整體的模組方案的架構(gòu)圖。我們會(huì)從OS層到 AI能力層,最后再到產(chǎn)品的形態(tài)以及服務(wù)。

阿里達(dá)摩院田彪:如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)?

我們的核心的邊界還是以模組的形式去服務(wù)更多的客戶,包括我們內(nèi)部的天貓的客戶,也包括我們外部很多的客戶。

我們現(xiàn)在核心的有幾個(gè)型號(hào)的產(chǎn)品,高性價(jià)比的模組、算力更強(qiáng)的高性能語(yǔ)音模組、多模態(tài)的模組,會(huì)把我們之前前面講的統(tǒng)一的技術(shù)方案,整個(gè)語(yǔ)音交互技術(shù),都會(huì)在模組形態(tài)上進(jìn)行集成,這樣它能以一種模組的形態(tài)被集成到客戶的各個(gè)產(chǎn)品里面去。

然后是RTOS的系統(tǒng),主要是面向音箱家電的產(chǎn)品,像廠商就會(huì)集成我們模組去構(gòu)造它語(yǔ)音交互的能力,高性能的語(yǔ)音模組就會(huì)去處理非常有挑戰(zhàn)的場(chǎng)景,整個(gè)算法復(fù)雜度還會(huì)提升。

比如說(shuō)移動(dòng)機(jī)器人、掃地機(jī),算法復(fù)雜度比較高,使用的麥克風(fēng)也比較多,這樣我們有挑戰(zhàn)的家居場(chǎng)景下的設(shè)備,能夠去集成我們這樣高性能的語(yǔ)音模組。

多模態(tài)模組會(huì)面向公眾空間,剛才講的像地鐵車站它噪聲非常強(qiáng),有些受人流的噪聲影響也很大。我們就會(huì)把本地的視覺(jué)的能力跟前面模態(tài)融合的前端算法融合起來(lái)。它核心特點(diǎn)就是性能比較高。

我們通過(guò)統(tǒng)一的建模方法,把混響完全分離,回聲消除都通過(guò)分離方案進(jìn)行構(gòu)造的話,它就能夠用比較低復(fù)雜度的設(shè)計(jì),使得算法能夠在小的資源的芯片上能夠得到高性能。

另外它基于多核異構(gòu)的芯片,使用的是RTOS的系統(tǒng),所以成本來(lái)講也是比較有競(jìng)爭(zhēng)力的。

另外我們也使極極功耗的喚醒,能夠使得整個(gè)系統(tǒng)處于非常低功耗的狀態(tài),整個(gè)電流功耗水平能夠做的比較低,使得整個(gè)設(shè)備尤其電池類的設(shè)備,就能夠具有更好的待機(jī)時(shí)長(zhǎng)。

在整個(gè)智能設(shè)備的打造過(guò)程中,會(huì)涉及到非常多的硬件聲學(xué)方面的工作。對(duì)于最終呈現(xiàn)出來(lái)的語(yǔ)音交互效果都有著非常重要的影響。

比如說(shuō)麥克風(fēng)如果質(zhì)量不夠好的話,算法收到的信號(hào)質(zhì)量就很低,整個(gè)算法效果處理之后也不會(huì)很好,最后語(yǔ)音效果也不好。比如說(shuō)喇叭,最后對(duì)打斷喚醒都是有非常很大的影響的,所以在這個(gè)里面我們?cè)试S團(tuán)隊(duì)提供聲學(xué)硬件研發(fā)設(shè)計(jì)跟量產(chǎn)的服務(wù),包括原理圖的設(shè)計(jì)、電聲性能的測(cè)量測(cè)試,包括端到端的產(chǎn)線,還有性能調(diào)優(yōu)。

我們也有消聲室、測(cè)聽(tīng)室環(huán)境,使得我們?cè)谟布用嬉材軌驗(yàn)樗惴ㄌ峁┓浅:玫幕A(chǔ)。

我們的高性價(jià)比語(yǔ)音模組芯片,比如像小雅的音箱、早教機(jī),包括兩輪車車載精靈設(shè)備,都集成了我們兩麥的模組跟算法,我們高性能的有更高復(fù)雜度的算法會(huì)應(yīng)用在掃地機(jī)、機(jī)械狗,在移動(dòng)高噪的場(chǎng)景下,我們會(huì)使用這樣模組,解決高噪大回聲移動(dòng)遠(yuǎn)場(chǎng)的挑戰(zhàn)。

阿里達(dá)摩院田彪:如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)?

我們的多模模組用的比較多的是地鐵線,我們17年就開(kāi)始來(lái)做公眾空間的語(yǔ)音交互,以前像云端AI,一開(kāi)始使用更多的使用是“close talking”的場(chǎng)景,在真正的公共空間能把語(yǔ)音交互很好的使用起來(lái),我們做了比較早的技術(shù)突破跟產(chǎn)品化,也在全國(guó)各地的很多的地鐵線上都進(jìn)行了落地。協(xié)同辦公的場(chǎng)景、電商的場(chǎng)景都能用到我們模組方案。

后面我主要會(huì)講一下我們最新的布局,達(dá)摩院的使命是要持續(xù)的去探索技術(shù)邊界,通過(guò)算法技術(shù)的進(jìn)步,去解鎖語(yǔ)音在各種挑戰(zhàn)性新場(chǎng)景下的應(yīng)用。

達(dá)摩院的技術(shù)創(chuàng)新全景圖,叫做懂你的語(yǔ)音AI,我們?cè)诠娞?hào)上做了非常長(zhǎng)的文章介紹,匯報(bào)我們整個(gè)中央端語(yǔ)音交互技術(shù),向所有的同仁做匯報(bào),大家感興趣的可以去搜索相關(guān)關(guān)鍵詞找到全文。

阿里達(dá)摩院田彪:如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)?

總體而言,我們會(huì)在前端通過(guò)聯(lián)合優(yōu)化的聲學(xué)前端使得整個(gè)語(yǔ)音交互首先能夠聽(tīng)清,涉及到非常多的信號(hào)處理聯(lián)合建模,語(yǔ)音增強(qiáng)喚醒的一體化建模相關(guān)技術(shù)的布局。

第二個(gè)就是說(shuō)解決語(yǔ)音到文字的模態(tài)轉(zhuǎn)換,這樣我們會(huì)在統(tǒng)一語(yǔ)音識(shí)別的基礎(chǔ)框架以及嘈雜環(huán)境下來(lái)進(jìn)行說(shuō)話人的識(shí)別,在這方面工作也有很多進(jìn)展。在GPS層面,我們會(huì)把它的高自然度、高表現(xiàn)力技術(shù)持續(xù)去突破。

在能聽(tīng)到人的語(yǔ)音之后,我們拿到文本,會(huì)通過(guò)語(yǔ)音聲學(xué)NLP的聯(lián)合建模、標(biāo)準(zhǔn)學(xué)習(xí)的技術(shù),使得我們整體對(duì)口語(yǔ)的語(yǔ)言理解達(dá)到更高的層次,真正實(shí)現(xiàn)語(yǔ)音交互能夠更懂你。

以上是田彪演講內(nèi)容的完整整理。