智東西(公眾號:zhidxcom)
作者 | 韋世瑋
編輯 | 漠影

思必馳在AI智慧辦公賽道上正不斷玩出新花樣!

兩個月前的上海AWE(中國家電及消費電子博覽會)上,思必馳首次亮相了面向智慧辦公場景的新產(chǎn)品——會議魔方M1,具有藍牙和USB兩種連接方式、360°全向麥克風拾音、智能降噪和錄音轉(zhuǎn)文字等功能,大大滿足了各類辦公場景的會議需求。

作為我國人工智能語音行業(yè)的獨角獸,思必馳在這條賽道上已布局多年,構(gòu)建了語音識別、聲紋識別、口語對話系統(tǒng)等一系列核心技術(shù),其自然語言交互解決方案已落地車聯(lián)網(wǎng)、IoT及政務(wù)、金融等行業(yè)場景。

與此同時,思必馳長期以來也為許多合作伙伴提供了會議場景下,聲音采集和處理的軟硬件解決方案。而會議魔方M1推出,也是思必馳將這部分智能語音技術(shù)向更加專業(yè)的方向集成拓展。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

作為思必馳智能語音技術(shù)的集大成產(chǎn)品之一,會議魔方M1背后的技術(shù)城池是如何構(gòu)建的?能解決哪些行業(yè)及用戶的痛點需求?未來產(chǎn)品迭代路徑是如何規(guī)劃的?

為此,智東西與思必馳智慧辦公業(yè)務(wù)負責人進行了深入交流,在嘗試尋找上述答案的同時,也看到了不少思必馳打磨會議魔方系列背后的思路和閃光點。

一、三大核心技術(shù)加持,會議魔方的技術(shù)護城河

在深入交流之前,我們也親自體驗了一下會議魔方M1,看看使用它來進行遠程會議是不是真的那么方便。

剛拿到會議魔方M1,我們感覺它比一臺iPhone 12要重一些,形狀是一個塔尖被削平的倒金字塔形立方體,重量只有260g,方便攜帶。

在一次業(yè)務(wù)周會中,我們體驗了一下它在多人遠程會議場景下的使用效果,并和手機進行了對比。參加遠程會議的異地同事反饋,會議魔方的拾音效果明顯優(yōu)于手機,對環(huán)境噪音的抑制能力很強,以往在遠程會議中不可避免的鍵盤敲擊聲、開關(guān)門聲、以及空調(diào)運轉(zhuǎn)聲等,在使用會議魔方時,都沒有聽見。與會發(fā)言者們的聲音也始終非常清晰,無論遠近,聽到的音量都幾乎一致,沒有忽高忽低現(xiàn)象出現(xiàn)。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

如果要使用會議魔方的錄音以及語音轉(zhuǎn)寫功能,在初次使用時,首先要下一個名為曉語聽聽APP,打開后根據(jù)軟件提示進行綁定。綁定成功后,直接點擊軟件下方的藍色加號開啟錄音,會議魔方M1就會同步開啟錄音,記錄會議內(nèi)容。

開始錄音一秒后,手機端的錄音工作界面就會開始出現(xiàn)實時轉(zhuǎn)文字的內(nèi)容。遇到想要重點記住的內(nèi)容時,我們只需要點擊APP錄音界面的“M一下,轉(zhuǎn)寫界面就會出現(xiàn)高亮部分,能更好地一眼區(qū)分哪里是用戶關(guān)注的會議重點。會議結(jié)束后,我們只需點擊會議魔方M1上方的結(jié)束錄音,手機端的轉(zhuǎn)寫工作也能很快結(jié)束。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

從結(jié)果上來看,在我們長達3個小時的會議中,會議魔方M1除了口語交流中的少數(shù)同音詞、多意詞沒有識別準確外,其他大部分的對話內(nèi)容都能準確且流暢地轉(zhuǎn)寫完成。還可以快速生成會議記錄,一鍵分享給參會的同事。

之后,智東西在和思必馳智慧辦公業(yè)務(wù)負責人的溝通中了解到,會議魔方M1流暢的遠程會議體驗背后有三大核心算法技術(shù),一是拾音,包括遠距離拾音;二是智能降噪;三是對語音進行識別和轉(zhuǎn)寫,整個過程也是溝通信息被數(shù)字化和智能化處理的過程。

1、拾音:5米內(nèi)全方位清晰拾音

用戶所處的空間環(huán)境不同,給會議魔方M1帶來的拾音挑戰(zhàn)也不同。目前,會議魔方能夠做到在75分貝條件下,清晰拾取5米內(nèi)的任何語音。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

2、降噪:3項智能降噪核心

拾音后的降噪工作是一個大工程,涉及到噪聲抑制、回聲消除、增益放大等技術(shù)。

一方面,通常會議場景中也會存在許多噪音,包括會議室外有人說話、走動、敲鍵盤,或是室內(nèi)空調(diào)、風扇的聲音,會議魔方M1則需要對這部分噪音進行噪聲抑制,把會議中的人聲清晰地呈現(xiàn)出來。

另一方面,由于設(shè)備的揚聲器和麥克風連接得很近,當人們在講話過程中很容易出現(xiàn)回音,這也會影響到用戶的通話效果,這時就需要對拾音內(nèi)容進行回聲消除。

同時在遠距離拾音過程中,有些說話人離麥克風較遠,會議魔方M1也需要對這部分聲音進行增益放大處理。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

3、轉(zhuǎn)寫:實際會議場景中準確率達95%

正如前面的體驗,目前會議魔方M1在轉(zhuǎn)寫方面有兩項核心功能,一是區(qū)分說話人,根據(jù)聲紋和音色的不同,讓轉(zhuǎn)寫文字能按不同說話人段落顯示;二是文本智能校正,識別口語中常出現(xiàn)的反復(fù)、停頓等表達,讓轉(zhuǎn)寫文本更加流暢。

此外,會議魔方M1通用的轉(zhuǎn)寫準確率約95%,還支持中英文混合識別、離線轉(zhuǎn)寫分析等功能。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

二、遠程會議需求爆發(fā)背后,溝通的數(shù)字化與智能化

實際上,會議魔方M1的誕生,離不開思必馳對智慧辦公場景深刻觀察。

思必馳發(fā)現(xiàn),現(xiàn)在的企業(yè)會議場景中經(jīng)常會遇到一個尷尬情況,那就是常常聽不清會議內(nèi)容或是需要喊話交流,一定程度上影響了會議的質(zhì)量和效率。

另一方面,企業(yè)日常中有許多會議或面對面的溝通,都沒有被進一步的數(shù)字化或智能化處理,難以對會議中的一些價值內(nèi)容進行深入挖掘。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

“那思必馳作為專業(yè)語音和語義技術(shù)的企業(yè),能夠解決其中的一些關(guān)鍵點?!必撠熑私忉?,這也是思必馳做會議魔方M1的優(yōu)勢所在。

首先是思必馳的拾音和智能降噪技術(shù),能夠幫助企業(yè)解決聲音的質(zhì)量問題,讓用戶不管是在小型還是大型會議場景下都能清晰交流。其次是思必馳的語音識別和轉(zhuǎn)寫技術(shù),能夠?qū)崿F(xiàn)溝通的數(shù)字化。

同時,將一場會議面對面溝通的所有語音轉(zhuǎn)成文字,能讓用戶快速去獲得整個會議的信息,再通過機器學(xué)習(xí)技術(shù)對信息進行結(jié)構(gòu)化處理,從而實現(xiàn)會議效率和內(nèi)容價值的進一步提升。

“我們外部環(huán)境的變化,疫情的變化也導(dǎo)致越來越多人需要遠程或在家辦公?!必撠熑搜a充,在這個環(huán)境下還有另一個細分場景,那就是家里或咖啡廳場景下的個人設(shè)備需求,能夠讓用戶的遠程溝通更加清晰,并且還能實時記錄交流內(nèi)容。

而這些都是思必馳決定研發(fā)會議魔方M1的重要出發(fā)點。

三、千億規(guī)模藍海市場下,智能會議業(yè)務(wù)的創(chuàng)新邏輯

目前思必馳面對整個會議場景的思路是構(gòu)建一個終端設(shè)備+云服務(wù)的生態(tài)模式,這也是發(fā)展的核心,具體到產(chǎn)品業(yè)務(wù)的拓展大致有三類方向。

一是思必馳在錄音采集方面已經(jīng)做了單款采集設(shè)備,但適合小型、中型和大型等各類會議場景的采集設(shè)備也存在不同區(qū)別,而這個方面思必馳會繼續(xù)做縱深拓展,做得更專業(yè)。

二是從橫向來看,為了給用戶帶來更豐富便捷的智能會議體驗,思必馳也將選擇通過深度合作的方式,補全多模態(tài)交互的產(chǎn)品組合。

三是所有傳統(tǒng)的會議設(shè)備都能和思必馳的語音轉(zhuǎn)寫終端做配合,將傳統(tǒng)設(shè)備變成一個也能智能語音轉(zhuǎn)寫的會議設(shè)備。

思必馳會議魔方背后有何黑科技?三大算法核心技術(shù)加持!

除此之外,未來會議魔方M1還需繼續(xù)打磨和優(yōu)化,這主要體現(xiàn)在算法和軟件兩個層面。

算法方面,會議魔方的智能降噪算法技術(shù)將實現(xiàn)更大突破和提升。軟件的安全性、易用性和可擴展性也是思必馳接下來重點優(yōu)化的方向。尤其是會議魔方主要面向企業(yè)用戶,對產(chǎn)品的安全性要求更為嚴格。

在可拓展性方面,思必馳在未來也將推出針對大型會議的產(chǎn)品,實現(xiàn)多個設(shè)備的互聯(lián)互通,從而拓展產(chǎn)品的使用空間。而在信息化上,思必馳表示也將面向多人協(xié)作場景提供更多軟件服務(wù),特別是利用到語義識別或關(guān)鍵信息提取等技術(shù),與企業(yè)化流程相結(jié)合,目標是降低企業(yè)的運營成本。

結(jié)語:遠程辦公浪潮爆發(fā),AI語音賽道的機遇和挑戰(zhàn)

過去一年的疫情影響下,云辦公、語音視頻會議等辦公方式逐漸成為大多數(shù)人的常態(tài),徹底點燃了智能辦公行業(yè)的發(fā)展浪潮。

盡管在后疫情時代下,人們的辦公方式也有所轉(zhuǎn)變,但企業(yè)對辦公效率智能化、數(shù)字化的需求已成行業(yè)的一大趨勢,越來越多的玩家也抓住機會入局,想著要分一杯羹。在這一市場浪潮下,思必馳也為行業(yè)的創(chuàng)新發(fā)展提供了一個重要思路。

歸根結(jié)底,這也是一場技術(shù)與企業(yè)實現(xiàn)更深入結(jié)合的關(guān)鍵階段。相信在未來,隨著人們利用語音技術(shù)提取和挖掘信息價值形成一個成熟方法論,也將能廣泛地拓展到政務(wù)、醫(yī)療等更多細分場景,讓各行各業(yè)都能更好地實現(xiàn)降本增效。