實時語音識別是一種能夠?qū)崟r音頻流轉(zhuǎn)換為文字的技術(shù),通過語音識別模型將人類語音轉(zhuǎn)化為可識別的文本形式。要實現(xiàn)高質(zhì)量的實時語音識別并不容易,通常包含音頻獲取、音頻預(yù)處理、特征提取、特征分析與識別、解碼轉(zhuǎn)錄以及后處理輸出等一系列復(fù)雜的步驟。

而在我們?nèi)粘I詈凸ぷ髦械木€上會議、多人交互等場景下,需要同時處理多個人的音頻流,并實現(xiàn)超低延遲、多人并發(fā)、實時準(zhǔn)確的語音識別,更是面臨諸多挑戰(zhàn)。

首先在計算層面,由于需要同時處理多個語音數(shù)據(jù)流,并及時響應(yīng),因此需要大量高性能且靈活可擴(kuò)展的計算資源支持。同時,多人并發(fā)的情況下,需要傳輸大量的語音數(shù)據(jù)。如果數(shù)據(jù)傳輸延遲較高,則會影響語音識別的實時性。此外,如果數(shù)據(jù)傳輸過程中出現(xiàn)丟包、誤碼等問題,也會對語音識別的結(jié)果產(chǎn)生一定的影響。

因此,要實現(xiàn)超低延遲大并發(fā)實時智能語音識別,不僅需要進(jìn)行優(yōu)化算法,以提高計算效率、降低計算資源消耗,同時還要優(yōu)化數(shù)據(jù)通信協(xié)議,提高數(shù)據(jù)傳輸效率。

Achronix與Myrtle.ai共同推出了超低延遲大并發(fā)實時智能語音識別方案。該方案的硬件平臺采用基于Achronix Speedster7t FPGA的VectorPath加速卡和x86架構(gòu)服務(wù)器來實現(xiàn),可以同時支持多達(dá)4000個RTS,在保證低延遲的同時識別正確率高于90%,且相比ASR云服務(wù)成本大大降低。

VectorPath加速卡搭載Achronix 7nm Speedster7t FPGA,同時集成了400G以太網(wǎng)接口、多個PCIe接口和高帶寬GDDR6存儲器接口等一系列先進(jìn)的I/O接口,傳輸速率可達(dá)32GT/S。Speedster7t FPGA集成了高密度機(jī)器學(xué)習(xí)處理器(MLP)陣列和二維片上網(wǎng)絡(luò)(2D NoC)。其中,MLP除了浮點乘加運(yùn)算,還支持對多種定浮點數(shù)格式進(jìn)行拆分和組合運(yùn)算,能夠為AI和數(shù)據(jù)密集型計算提供ASIC級的計算速度。而2D NoC可以沿著行/列在FPGA結(jié)構(gòu)中或向著邊緣接口高速移動數(shù)據(jù),進(jìn)而釋放更多的邏輯單元用于計算任務(wù)。

10月24日19點,Achronix聯(lián)合智猩猩策劃的「Achronix加速實時語音識別技術(shù)公開課」將開講,由Achronix資深現(xiàn)場應(yīng)用工程師黃侖主講,主題為《超低延遲大并發(fā)實時智能語音識別加速方案》。

此次公開課,黃侖首先會從概念、應(yīng)用場景、面臨的問題等維度對實時智能語音識別技術(shù)進(jìn)行介紹,之后他將講解超低延遲大并發(fā)實時智能語音識別方案,并對其硬件平臺中基于Achronix Speedster7t FPGA的VectorPath加速卡進(jìn)行重點解讀。最后,黃侖還會分享超低延遲大并發(fā)實時智能語音識別方案的優(yōu)勢和落地案例。

Achronix黃侖:超低延遲大并發(fā)實時智能語音識別加速方案|公開課預(yù)告

公開課內(nèi)容

主題:FPGA加速超低延遲大并發(fā)實時智能語音識別
提綱:
1、實時智能語音識別技術(shù)概述
2、超低延遲大并發(fā)實時智能語音識別方案
3、基于Speedster7t FPGA的VectorPath加速卡解析
4、方案優(yōu)勢與落地案例

主講人:

黃侖, Achronix資深現(xiàn)場應(yīng)用工程師,擁有上海交通大學(xué)通信工程碩士學(xué)位,目前主要負(fù)責(zé)華東地區(qū)的客戶技術(shù)支持。于2017年加入Achronix,擁有15年以上的FPGA相關(guān)研發(fā)和市場經(jīng)驗。

課程信息

直播時間:10月24日19:00
直播地點:智猩猩直播間