宅男影院免费在线观看,亚洲av中文字幕乱码,手机av在线国产精品

智東西（公眾號(hào)：zhidxcom）
編輯?| 云鵬

智東西7月18日消息，近日，由智東西和智東西公開(kāi)課主辦的GTIC 2022全球AIoT智能家居峰會(huì)（以下簡(jiǎn)稱AIoT智能家居峰會(huì)）正式舉辦，10位行業(yè)重磅大咖就AIoT智能家居的技術(shù)突破、創(chuàng)新應(yīng)用和行業(yè)展望展開(kāi)了精彩的深度探討。

峰會(huì)以“新變量新未來(lái)”為主題，采用線上形式進(jìn)行，在全網(wǎng)16個(gè)渠道同步直播，線上觀看人數(shù)達(dá)到了90多萬(wàn)人。

當(dāng)前，家居場(chǎng)景是AIoT的重要落地方向之一，隨著智能化技術(shù)的快速發(fā)展，技術(shù)邊界不斷被突破，語(yǔ)音在新型人機(jī)交互入口中的作用越來(lái)越明顯。

在本次峰會(huì)上，阿里巴巴達(dá)摩院語(yǔ)音AIoT產(chǎn)研負(fù)責(zé)人田彪博士以《智能家居環(huán)境復(fù)雜聲學(xué)挑戰(zhàn)下的語(yǔ)音交互技術(shù)》為主題進(jìn)行了演講，全面介紹了阿里巴巴達(dá)摩院在相關(guān)重要技術(shù)方向的思考和進(jìn)展。

田彪博士以電視、音箱和室內(nèi)機(jī)器人等家居場(chǎng)景下典型產(chǎn)品的研發(fā)實(shí)踐為例，介紹了聲學(xué)設(shè)計(jì)、麥克風(fēng)陣列處理、遠(yuǎn)場(chǎng)語(yǔ)音交互、語(yǔ)音模組和芯片等技術(shù)的設(shè)計(jì)思想與方案架構(gòu)，如何通過(guò)技術(shù)的進(jìn)步給用戶帶來(lái)更好更便捷的自然語(yǔ)音交互體驗(yàn)。同時(shí)，他結(jié)合產(chǎn)業(yè)落地情況與研究進(jìn)展介紹了下一代的產(chǎn)品和技術(shù)演進(jìn)趨勢(shì)。

以下為田彪演講實(shí)錄整理：

我今天演講的主題是《智能家居環(huán)境復(fù)雜聲學(xué)挑戰(zhàn)下的語(yǔ)音交互技術(shù)》，主要會(huì)講三個(gè)部分，第一部分，在智能家居情況下，語(yǔ)音交互核心技術(shù)，包括技術(shù)產(chǎn)品化的情況，前面會(huì)講一下復(fù)雜聲學(xué)場(chǎng)景的定義還有模式化的概念。

第二部分主要會(huì)講解一下我們?cè)谡Z(yǔ)音AI這個(gè)方面，在算法層面核心的技術(shù)理念和進(jìn)展。第三個(gè)我會(huì)把我們整個(gè)產(chǎn)品化的應(yīng)用案例跟大家做介紹，同時(shí)會(huì)對(duì)我們后面的技術(shù)做展望。

不僅是家，包括公共空間，在整個(gè)語(yǔ)音交互的過(guò)程中都會(huì)受到很多聲學(xué)的挑戰(zhàn)性因素的影響，比如洗衣機(jī)、掃地機(jī)器人。家居過(guò)程中噪聲，對(duì)智能音箱或者電視上的語(yǔ)音交互，會(huì)造成噪聲影響。

阿里達(dá)摩院田彪：如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)？

除了噪聲之外，有混響的影響，包括干擾，因?yàn)榧依锟赡苡泻芏嗳耍哉麄€(gè)場(chǎng)景下，產(chǎn)品都會(huì)受到聲學(xué)因素的影響。

在車?yán)锩?、家里面，更多的就是遠(yuǎn)角方向性干擾會(huì)占比會(huì)更多一點(diǎn)。車?yán)锩嬲麄€(gè)空間會(huì)小一點(diǎn)，它擴(kuò)散場(chǎng)的噪聲會(huì)強(qiáng)，但是混響會(huì)比較小。

我們?cè)诠部臻g，混響也很高，整個(gè)擴(kuò)散場(chǎng)的噪聲也很強(qiáng)，在不同場(chǎng)景下，聲學(xué)挑戰(zhàn)的每個(gè)因素的重要性是不一樣的，所以我們的技術(shù)方案，在算法層面對(duì)于不同因素會(huì)有不同的算法處理，整個(gè)算法會(huì)出現(xiàn)碎片化，應(yīng)用方案會(huì)出現(xiàn)不同的設(shè)計(jì)。

具體來(lái)講，會(huì)涉及到具體應(yīng)用過(guò)程中因素的影響，比如麥克風(fēng)陣列的選擇，數(shù)字麥還是模擬麥，算法上復(fù)雜度更高還是復(fù)雜度更低，跟算法資源、芯片資源都密切相關(guān)，這就會(huì)涉及到芯片的選型、對(duì)于功耗的控制、對(duì)于用戶數(shù)據(jù)安全的保障，還涉及到云上的AI能力的對(duì)接，怎么去選擇不同的云的能力，方案碎片化會(huì)比較嚴(yán)重。

算法、芯片、云，不同的環(huán)節(jié)結(jié)合就沒(méi)那么緊密，會(huì)比較零散零散，這樣雖然很容易拼起來(lái)，但整個(gè)方案的語(yǔ)音交互體驗(yàn)就沒(méi)有那么好。整個(gè)產(chǎn)品開(kāi)發(fā)的過(guò)程就會(huì)有更多的困難，進(jìn)度也會(huì)受一定的影響。

現(xiàn)在整個(gè)行業(yè)都在做類似的事情，就是怎么把聲學(xué)的技術(shù)硬件做模組化的設(shè)計(jì)，使得整個(gè)語(yǔ)音交互端側(cè)的核心鏈路能夠?qū)崿F(xiàn)統(tǒng)一的封裝，這樣會(huì)使得整個(gè)方案進(jìn)入平臺(tái)化的狀態(tài)。

阿里達(dá)摩院田彪：如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)？

這樣與硬件相關(guān)的技術(shù)和經(jīng)驗(yàn)?zāi)軌蛞越y(tǒng)一的形式來(lái)被沉淀下來(lái)，客戶去集成語(yǔ)音交互能力的時(shí)候，能夠使用標(biāo)準(zhǔn)的接口跟API去對(duì)接，能夠大幅降低語(yǔ)音AI能力開(kāi)發(fā)的難度，同時(shí)在這個(gè)上面也可以進(jìn)行二次的開(kāi)發(fā)，更好的去滿足特定產(chǎn)品的需求。

我們核心的產(chǎn)品形態(tài)會(huì)是語(yǔ)音交互模組，后面我會(huì)再更細(xì)節(jié)的去講一下，我們阿里云AI這塊整個(gè)的技術(shù)棧，整個(gè)語(yǔ)音交互鏈路都會(huì)去設(shè)計(jì)，包括端上的信號(hào)的處理、回聲消除、降噪波束形成、聲源定位，包含端側(cè)的喚醒命令值、快捷指令，包括硬件層面聲學(xué)硬件的設(shè)計(jì)跟服務(wù)。

阿里達(dá)摩院田彪：如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)？

云端上有很多我們傳統(tǒng)的語(yǔ)義理解、對(duì)話管理、語(yǔ)音合成、聲紋識(shí)別，在這個(gè)過(guò)程中我們會(huì)聚焦在核心的技術(shù)方向上，持續(xù)的去投入跟建設(shè)，盡量去推動(dòng)技術(shù)邊界的擴(kuò)展、技術(shù)深度的提升。

今天我會(huì)更多的去講我們?cè)诙松闲盘?hào)處理相關(guān)的算法的理念跟方案，設(shè)計(jì)就會(huì)使得我們整體上對(duì)于復(fù)雜聲學(xué)因素的影響，能夠盡量去降低整個(gè)算法的影響效果，整個(gè)用戶體驗(yàn)也會(huì)變好。我們?cè)诼晫W(xué)前端有三個(gè)核心理念，也有對(duì)應(yīng)的技術(shù)方案。

首先我們要去解決前端處理，包括回聲消除、噪聲降噪、自動(dòng)增益控制，傳統(tǒng)的三A技術(shù)都是基于自適應(yīng)濾波信號(hào)處理的方法去做的，在現(xiàn)在這個(gè)時(shí)代，我們更多的會(huì)去結(jié)合信號(hào)處理的濾波，以及我們基于深度學(xué)習(xí)模型去做統(tǒng)一的方案，這個(gè)是我們大的理念，把回聲消除的線性部分，后處理部分跟降噪的部分，還包括自動(dòng)增益控制的部分，使用 hybrid的架構(gòu)，去把它融合，發(fā)揮模型的非線性建模的能力，以及自適應(yīng)濾波對(duì)環(huán)境對(duì)資源開(kāi)銷小的優(yōu)勢(shì)。

整體而言，這個(gè)方案在我們的很多的模組對(duì)外輸出方案上都得到了實(shí)現(xiàn)，也能看到對(duì)于傳統(tǒng)的信號(hào)處理算法技術(shù)有非常顯著的提升。相關(guān)的技術(shù)方案，我們之前也參加國(guó)際比賽，拿到不錯(cuò)的成績(jī)。看方案屬于國(guó)際上現(xiàn)在比較前沿的技術(shù)架構(gòu)。

第二部分，我們會(huì)基于盲源分離的方案去把混響回聲消除、聲源分離，都通過(guò)盲源分離理論去統(tǒng)一起來(lái)。

同時(shí)我們?cè)谶@一塊不僅會(huì)把前端的不同任務(wù)通過(guò)統(tǒng)一的框架去處理，也會(huì)跟語(yǔ)音喚醒去做進(jìn)一步的聯(lián)合，使得喚醒的信息能夠反饋到前端來(lái)，能夠指導(dǎo)前端，讓盲源分離能夠處理得更好。

這樣的技術(shù)方案對(duì)于信道相關(guān)沒(méi)有做太多的假設(shè)，不需要有更多的經(jīng)驗(yàn)的要求，這樣就使得我們整個(gè)方案非常適用于小的陣列，也更容易被各種各樣的設(shè)備去集成，同時(shí)在各種場(chǎng)景下有非常好的適配性。

整體上從技術(shù)核心層面，使得我們整個(gè)算法方案有很強(qiáng)的適配性，能夠幫助我們?nèi)ソ鉀Q前面說(shuō)的常見(jiàn)的技術(shù)方案碎片化問(wèn)題。

第三就是說(shuō)進(jìn)一步的統(tǒng)一融合，會(huì)把視覺(jué)跟聽(tīng)覺(jué)的能力進(jìn)一步的融合。我們知道視覺(jué)對(duì)噪聲是非常魯棒的，它不會(huì)受噪聲的影響。但是語(yǔ)音算法無(wú)論你怎么去做，它對(duì)于強(qiáng)噪聲特別復(fù)雜的場(chǎng)景，還是有力所能不及的地方，這個(gè)時(shí)候如果能夠使用到視覺(jué)信息，非常有助于我們把整個(gè)語(yǔ)音效果做得更好。

如果我們有人臉的信息，我們可以把語(yǔ)音段里的人聲跟非人聲段做很好的區(qū)分，傳統(tǒng)的技術(shù)很難去做，性價(jià)比非常低，它很難去把語(yǔ)音跟非語(yǔ)音說(shuō)明的很精準(zhǔn)，但是視覺(jué)的話，能夠監(jiān)控你的面部特征、唇動(dòng)的特征，能夠區(qū)分語(yǔ)音和非語(yǔ)音。

做麥克風(fēng)陣列的同學(xué)可能都知道，如果你能夠很好的區(qū)分噪聲跟語(yǔ)音的話，整個(gè)信號(hào)的噪聲統(tǒng)計(jì)量跟信號(hào)的統(tǒng)計(jì)量就能估計(jì)的更準(zhǔn)確。

所以這一塊我們?nèi)诤狭艘曈X(jué)的信息，這三塊的技術(shù)，我們?cè)谧罱鼉赡甓家呀?jīng)發(fā)表了最新的成果，感興趣的同學(xué)和同仁可以去搜索一下我們阿里語(yǔ)音的論文，就可以看到更多的細(xì)節(jié)。

在識(shí)別還有合成層面，我們最近也在逐步推進(jìn)，以前大模型大部分還是在云端去做服務(wù)的。端上一般我們以喚醒快捷指令離線的方案去做，但是對(duì)于大詞匯量的語(yǔ)音識(shí)別系統(tǒng)在端上來(lái)跑，尤其在嵌入系統(tǒng)上去跑，還是有非常大的挑戰(zhàn)的。

我們W語(yǔ)言實(shí)驗(yàn)室基于我們自己研發(fā)的神經(jīng)網(wǎng)架構(gòu)得到端的語(yǔ)音識(shí)別框架，它可以做到非常小的尺寸，而且精度能夠做得非常高，能夠純文本地的實(shí)現(xiàn)的語(yǔ)音識(shí)別系統(tǒng)，在我們的淘寶直播的應(yīng)用場(chǎng)景，在大概10兆以內(nèi)的內(nèi)存開(kāi)銷下，就能夠去做到非常大詞匯量的語(yǔ)音識(shí)別系統(tǒng)，而且跟我們?cè)贫说男Ч浅＝咏?/p>

我們?cè)赥TS方面，無(wú)論是模型的構(gòu)造還是計(jì)算量層面，也做了非常多的技術(shù)突破，使得整個(gè)TTS能夠跟云端相媲美，整個(gè)技術(shù)核心的語(yǔ)音交互的技術(shù)也都往端上遷移。

總體而言就是說(shuō)我們會(huì)把前端跟喚醒聯(lián)合建模，還有識(shí)別合成，我們面向復(fù)雜聲學(xué)挑戰(zhàn)下的語(yǔ)音交互技術(shù)，逐步在端上去實(shí)現(xiàn)全站的語(yǔ)音交互能力。

這是我們整體的模組方案的架構(gòu)圖。我們會(huì)從OS層到 AI能力層，最后再到產(chǎn)品的形態(tài)以及服務(wù)。

阿里達(dá)摩院田彪：如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)？

我們的核心的邊界還是以模組的形式去服務(wù)更多的客戶，包括我們內(nèi)部的天貓的客戶，也包括我們外部很多的客戶。

我們現(xiàn)在核心的有幾個(gè)型號(hào)的產(chǎn)品，高性價(jià)比的模組、算力更強(qiáng)的高性能語(yǔ)音模組、多模態(tài)的模組，會(huì)把我們之前前面講的統(tǒng)一的技術(shù)方案，整個(gè)語(yǔ)音交互技術(shù)，都會(huì)在模組形態(tài)上進(jìn)行集成，這樣它能以一種模組的形態(tài)被集成到客戶的各個(gè)產(chǎn)品里面去。

然后是RTOS的系統(tǒng)，主要是面向音箱家電的產(chǎn)品，像廠商就會(huì)集成我們模組去構(gòu)造它語(yǔ)音交互的能力，高性能的語(yǔ)音模組就會(huì)去處理非常有挑戰(zhàn)的場(chǎng)景，整個(gè)算法復(fù)雜度還會(huì)提升。

比如說(shuō)移動(dòng)機(jī)器人、掃地機(jī)，算法復(fù)雜度比較高，使用的麥克風(fēng)也比較多，這樣我們有挑戰(zhàn)的家居場(chǎng)景下的設(shè)備，能夠去集成我們這樣高性能的語(yǔ)音模組。

多模態(tài)模組會(huì)面向公眾空間，剛才講的像地鐵車站它噪聲非常強(qiáng)，有些受人流的噪聲影響也很大。我們就會(huì)把本地的視覺(jué)的能力跟前面模態(tài)融合的前端算法融合起來(lái)。它核心特點(diǎn)就是性能比較高。

我們通過(guò)統(tǒng)一的建模方法，把混響完全分離，回聲消除都通過(guò)分離方案進(jìn)行構(gòu)造的話，它就能夠用比較低復(fù)雜度的設(shè)計(jì)，使得算法能夠在小的資源的芯片上能夠得到高性能。

另外它基于多核異構(gòu)的芯片，使用的是RTOS的系統(tǒng)，所以成本來(lái)講也是比較有競(jìng)爭(zhēng)力的。

另外我們也使極極功耗的喚醒，能夠使得整個(gè)系統(tǒng)處于非常低功耗的狀態(tài)，整個(gè)電流功耗水平能夠做的比較低，使得整個(gè)設(shè)備尤其電池類的設(shè)備，就能夠具有更好的待機(jī)時(shí)長(zhǎng)。

在整個(gè)智能設(shè)備的打造過(guò)程中，會(huì)涉及到非常多的硬件聲學(xué)方面的工作。對(duì)于最終呈現(xiàn)出來(lái)的語(yǔ)音交互效果都有著非常重要的影響。

比如說(shuō)麥克風(fēng)如果質(zhì)量不夠好的話，算法收到的信號(hào)質(zhì)量就很低，整個(gè)算法效果處理之后也不會(huì)很好，最后語(yǔ)音效果也不好。比如說(shuō)喇叭，最后對(duì)打斷喚醒都是有非常很大的影響的，所以在這個(gè)里面我們?cè)试S團(tuán)隊(duì)提供聲學(xué)硬件研發(fā)設(shè)計(jì)跟量產(chǎn)的服務(wù)，包括原理圖的設(shè)計(jì)、電聲性能的測(cè)量測(cè)試，包括端到端的產(chǎn)線，還有性能調(diào)優(yōu)。

我們也有消聲室、測(cè)聽(tīng)室環(huán)境，使得我們?cè)谟布用嬉材軌驗(yàn)樗惴ㄌ峁┓浅：玫幕A(chǔ)。

我們的高性價(jià)比語(yǔ)音模組芯片，比如像小雅的音箱、早教機(jī)，包括兩輪車車載精靈設(shè)備，都集成了我們兩麥的模組跟算法，我們高性能的有更高復(fù)雜度的算法會(huì)應(yīng)用在掃地機(jī)、機(jī)械狗，在移動(dòng)高噪的場(chǎng)景下，我們會(huì)使用這樣模組，解決高噪大回聲移動(dòng)遠(yuǎn)場(chǎng)的挑戰(zhàn)。

阿里達(dá)摩院田彪：如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)？

我們的多模模組用的比較多的是地鐵線，我們17年就開(kāi)始來(lái)做公眾空間的語(yǔ)音交互，以前像云端AI，一開(kāi)始使用更多的使用是“close talking”的場(chǎng)景，在真正的公共空間能把語(yǔ)音交互很好的使用起來(lái)，我們做了比較早的技術(shù)突破跟產(chǎn)品化，也在全國(guó)各地的很多的地鐵線上都進(jìn)行了落地。協(xié)同辦公的場(chǎng)景、電商的場(chǎng)景都能用到我們模組方案。

后面我主要會(huì)講一下我們最新的布局，達(dá)摩院的使命是要持續(xù)的去探索技術(shù)邊界，通過(guò)算法技術(shù)的進(jìn)步，去解鎖語(yǔ)音在各種挑戰(zhàn)性新場(chǎng)景下的應(yīng)用。

達(dá)摩院的技術(shù)創(chuàng)新全景圖，叫做懂你的語(yǔ)音AI，我們?cè)诠娞?hào)上做了非常長(zhǎng)的文章介紹，匯報(bào)我們整個(gè)中央端語(yǔ)音交互技術(shù)，向所有的同仁做匯報(bào)，大家感興趣的可以去搜索相關(guān)關(guān)鍵詞找到全文。

阿里達(dá)摩院田彪：如何用“模組化”解決AI語(yǔ)音場(chǎng)景“碎片化”痛點(diǎn)？

總體而言，我們會(huì)在前端通過(guò)聯(lián)合優(yōu)化的聲學(xué)前端使得整個(gè)語(yǔ)音交互首先能夠聽(tīng)清，涉及到非常多的信號(hào)處理聯(lián)合建模，語(yǔ)音增強(qiáng)喚醒的一體化建模相關(guān)技術(shù)的布局。

第二個(gè)就是說(shuō)解決語(yǔ)音到文字的模態(tài)轉(zhuǎn)換，這樣我們會(huì)在統(tǒng)一語(yǔ)音識(shí)別的基礎(chǔ)框架以及嘈雜環(huán)境下來(lái)進(jìn)行說(shuō)話人的識(shí)別，在這方面工作也有很多進(jìn)展。在GPS層面，我們會(huì)把它的高自然度、高表現(xiàn)力技術(shù)持續(xù)去突破。

在能聽(tīng)到人的語(yǔ)音之后，我們拿到文本，會(huì)通過(guò)語(yǔ)音聲學(xué)NLP的聯(lián)合建模、標(biāo)準(zhǔn)學(xué)習(xí)的技術(shù)，使得我們整體對(duì)口語(yǔ)的語(yǔ)言理解達(dá)到更高的層次，真正實(shí)現(xiàn)語(yǔ)音交互能夠更懂你。

以上是田彪演講內(nèi)容的完整整理。

欧美精品一区二区三区观看,欧美精品一区二区三区观看,日本五十路和六十路的区别,爽爽无码18禁免费国产,色av性av丰满av,深爱五月天深爱开心激情网,欧美日韩极品视频在线播放,91 亚洲视频在线观看,在线你懂的视频在线

相關(guān)推薦