智東西(公眾號:zhidxcom)
編 | 王穎

導(dǎo)語:微軟利用人工智能轉(zhuǎn)錄會議音頻,新系統(tǒng)使用云端麥克風陣列。

智東西9月16日消息,微軟語音和對話研究小組的科學家最近研發(fā)了一個系統(tǒng),利用內(nèi)置于智能手機、筆記本電腦和平板電腦中的麥克風來提高音頻質(zhì)量。

這個系統(tǒng)通過智能硬件連接互聯(lián)網(wǎng),在云端形成臨時的麥克風陣列,可以實時高精度轉(zhuǎn)錄音頻。研究小組計劃在Interspeech 2019年會議上發(fā)表相關(guān)的研究論文。

會議室的音頻無法及時可靠地傳達給遠程參加會議的各方時,總會令人感到非常無奈。音響效果的差異和干擾總是導(dǎo)致線路另一端接收的音頻清晰度降低。

接下來我們一起了解一下,微軟設(shè)計的云端麥克風系統(tǒng),是如何提高音頻轉(zhuǎn)錄的精度和效率的。

微軟最新AI系統(tǒng)!使用云端麥克風陣列,音頻轉(zhuǎn)錄精度提升22.4%

一、云端麥克風陣列提高音頻精度

微軟團隊的解決方案是一個端到端系統(tǒng),首先從不同的麥克風收集聲音信號,然后進行波束成形,這種技術(shù)能使麥克風陣列對來自特定方向的聲音更加敏感。

該系統(tǒng)的主要研究人員Takuya Yoshioka在博客中寫道:“我們方法背后的核心思想是利用與會者通常攜帶到會議現(xiàn)場的筆記本電腦和智能手機等任何與互聯(lián)網(wǎng)相連的設(shè)備,虛擬地在云端形成一個臨時的麥克風陣列?!?/p>

由一個識別信號之間關(guān)系的模型進行編排。在波束形成過程中,信號被反饋到下游的語音識別模塊,然后對它們進行合并、注釋并發(fā)送回與會者。

據(jù)研究團隊介紹,通過他們的方法,使用云端麥克風陣列,參加會議時人們可以使用已經(jīng)帶到會議現(xiàn)場的手機、筆記本電腦和平板電腦實時高精度轉(zhuǎn)錄音頻,無需專用的硬件設(shè)備。

Takuya Yoshioka指出,這種方法在理論上要比執(zhí)行上簡單,因為不同設(shè)備之間的音頻保真度存在很大差異,不同麥克風捕捉到的語音信號彼此并不一致。設(shè)備的數(shù)量及其相對位置在每次會議之間的不一致也增加了麥克風陣列的設(shè)計難度。

二、語音轉(zhuǎn)錄系統(tǒng)仍需進一步完善

研究人員報告說,在定性測試中,他們的人工智能系統(tǒng)在使用3個麥克風和7個麥克風的情況下,其性能分別比單設(shè)備系統(tǒng)高出14.8%和22.4%。

研發(fā)團隊表示,他們的系統(tǒng)還不完善,偶爾會因為重疊的語音而出錯。測試中,有10%的錄音中包含不止一個說話者,這時語音轉(zhuǎn)錄的錯誤率為13.6%。

論文中Takuya Yoshioka和他的同事寫道:“我們將設(shè)備分布在放假各處,獲得了更好的空間覆蓋率,研究顯示了多個異步麥克風在真實場景中滿足轉(zhuǎn)錄的有效性?!?/p>

結(jié)語:語音轉(zhuǎn)錄技術(shù)提升還需加大研發(fā)投入

微軟在語音轉(zhuǎn)錄方面的研究迎合了市場的需求。去年夏天,微軟在語音轉(zhuǎn)錄方面的研究已經(jīng)應(yīng)用在了微軟365上,可以自主將語音轉(zhuǎn)換為文本,與會者還能通過視頻記錄轉(zhuǎn)換文本,使錄音文件的文本轉(zhuǎn)錄變得更加簡單便捷。

幾個月后,微軟在又OneDrive和SharePoint中推出了音頻和視頻文件的自動轉(zhuǎn)錄功能,進一步提升了文本轉(zhuǎn)換的效率。

語音文本的實時轉(zhuǎn)錄,在辦公和學習場景中都有很強的實用性。目前,語音轉(zhuǎn)錄系統(tǒng)還不完善,轉(zhuǎn)錄的準確性還有待提升,在數(shù)據(jù)、算法等方面還需要更多的研發(fā)投入,以滿足消費者在不同場景下的需求。

論文鏈接:https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文來自:VentureBeat