亚洲精品久久久久久首页,国产三级精品三级网站,国产精品国三级国暖暖

智東西（公眾號：zhidxcom）
編 | 王穎

導(dǎo)語：微軟利用人工智能轉(zhuǎn)錄會議音頻，新系統(tǒng)使用云端麥克風陣列。

智東西9月16日消息，微軟語音和對話研究小組的科學家最近研發(fā)了一個系統(tǒng)，利用內(nèi)置于智能手機、筆記本電腦和平板電腦中的麥克風來提高音頻質(zhì)量。

這個系統(tǒng)通過智能硬件連接互聯(lián)網(wǎng)，在云端形成臨時的麥克風陣列，可以實時高精度轉(zhuǎn)錄音頻。研究小組計劃在Interspeech 2019年會議上發(fā)表相關(guān)的研究論文。

會議室的音頻無法及時可靠地傳達給遠程參加會議的各方時，總會令人感到非常無奈。音響效果的差異和干擾總是導(dǎo)致線路另一端接收的音頻清晰度降低。

接下來我們一起了解一下，微軟設(shè)計的云端麥克風系統(tǒng)，是如何提高音頻轉(zhuǎn)錄的精度和效率的。

微軟最新AI系統(tǒng)！使用云端麥克風陣列，音頻轉(zhuǎn)錄精度提升22.4%

一、云端麥克風陣列提高音頻精度

微軟團隊的解決方案是一個端到端系統(tǒng)，首先從不同的麥克風收集聲音信號，然后進行波束成形，這種技術(shù)能使麥克風陣列對來自特定方向的聲音更加敏感。

該系統(tǒng)的主要研究人員Takuya Yoshioka在博客中寫道：“我們方法背后的核心思想是利用與會者通常攜帶到會議現(xiàn)場的筆記本電腦和智能手機等任何與互聯(lián)網(wǎng)相連的設(shè)備，虛擬地在云端形成一個臨時的麥克風陣列?！?/p>

由一個識別信號之間關(guān)系的模型進行編排。在波束形成過程中，信號被反饋到下游的語音識別模塊，然后對它們進行合并、注釋并發(fā)送回與會者。

據(jù)研究團隊介紹，通過他們的方法，使用云端麥克風陣列，參加會議時人們可以使用已經(jīng)帶到會議現(xiàn)場的手機、筆記本電腦和平板電腦實時高精度轉(zhuǎn)錄音頻，無需專用的硬件設(shè)備。

Takuya Yoshioka指出，這種方法在理論上要比執(zhí)行上簡單，因為不同設(shè)備之間的音頻保真度存在很大差異，不同麥克風捕捉到的語音信號彼此并不一致。設(shè)備的數(shù)量及其相對位置在每次會議之間的不一致也增加了麥克風陣列的設(shè)計難度。

研究人員報告說，在定性測試中，他們的人工智能系統(tǒng)在使用3個麥克風和7個麥克風的情況下，其性能分別比單設(shè)備系統(tǒng)高出14.8%和22.4%。

研發(fā)團隊表示，他們的系統(tǒng)還不完善，偶爾會因為重疊的語音而出錯。測試中，有10%的錄音中包含不止一個說話者，這時語音轉(zhuǎn)錄的錯誤率為13.6%。

論文中Takuya Yoshioka和他的同事寫道：“我們將設(shè)備分布在放假各處，獲得了更好的空間覆蓋率，研究顯示了多個異步麥克風在真實場景中滿足轉(zhuǎn)錄的有效性?！?/p>

微軟在語音轉(zhuǎn)錄方面的研究迎合了市場的需求。去年夏天，微軟在語音轉(zhuǎn)錄方面的研究已經(jīng)應(yīng)用在了微軟365上，可以自主將語音轉(zhuǎn)換為文本，與會者還能通過視頻記錄轉(zhuǎn)換文本，使錄音文件的文本轉(zhuǎn)錄變得更加簡單便捷。

幾個月后，微軟在又OneDrive和SharePoint中推出了音頻和視頻文件的自動轉(zhuǎn)錄功能，進一步提升了文本轉(zhuǎn)換的效率。

語音文本的實時轉(zhuǎn)錄，在辦公和學習場景中都有很強的實用性。目前，語音轉(zhuǎn)錄系統(tǒng)還不完善，轉(zhuǎn)錄的準確性還有待提升，在數(shù)據(jù)、算法等方面還需要更多的研發(fā)投入，以滿足消費者在不同場景下的需求。

論文鏈接：https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

原文來自：VentureBeat