[智東西· 硬創(chuàng)先鋒,專注于全球智能行業(yè)創(chuàng)業(yè)公司報(bào)道。針對(duì)海外智能行業(yè)創(chuàng)業(yè)公司,我們將推出系列報(bào)道,本期主角是Reflekt,一家提供增強(qiáng)現(xiàn)實(shí)工業(yè)解決方案的AR平臺(tái)。]

智東西(公眾號(hào):zhidxcom

文|十四

導(dǎo)語(yǔ):

語(yǔ)音識(shí)別,是未來(lái)人機(jī)交互的關(guān)鍵,這似乎已成為一種共識(shí)。去年,美國(guó)加州山景城成立了一家智能語(yǔ)音識(shí)別、搜索初創(chuàng)公司——DeepGram。目前已經(jīng)拿下了孵化公司Y Combinator(YC)和Zillionize的種子輪投資。這兩家孵化器的眼光有多毒辣,就不贅述了??纯礃I(yè)界的這個(gè)說(shuō)法就知道了:在硅谷,有兩種孵化器,一種叫YC,一種叫其他。

這家AI公司要做音頻版”谷歌”  讓搜聲音像搜網(wǎng)頁(yè)一樣簡(jiǎn)單

DeepGram聚焦在一個(gè)前景巨大的產(chǎn)業(yè)

DeepGram被形容為音頻版的谷歌,因?yàn)樗峁┗诰W(wǎng)頁(yè)的智能語(yǔ)音檢索API,能分辨口誤、口音、俗語(yǔ)等問(wèn)題,為用戶提供需要的信息。DeepGram的搜索范疇包括通話、會(huì)議、播客、視頻短片、演講等。

這樣的工作,之所以被重視,主要還是智能語(yǔ)音龐大的前景。

YC指出,美國(guó)每年有幾十億小時(shí)的音源通信,這花費(fèi)了逾10億美元。而其中,只有不到四分之一的產(chǎn)品涵蓋了分析、搜索的功能。

此外,智能語(yǔ)音還可用于智能家居信息交互的入口,這可是個(gè)預(yù)計(jì)到2019年規(guī)模達(dá)1500億美元+的市場(chǎng)。它還在車載系統(tǒng)、可穿戴設(shè)備領(lǐng)域頗有前景。

DeepGram干了兩件事!

老實(shí)說(shuō),依靠大量存儲(chǔ)的音頻源來(lái)建立語(yǔ)音搜索是一件太愚蠢和困難的工作。DeepGram的出現(xiàn),有兩個(gè)很重要的基礎(chǔ):人工智能建模(自動(dòng)分析語(yǔ)音流并進(jìn)行歸類)和模糊搜索(fuzzy search),它們奠定了智能語(yǔ)音的可行性,于是DeepGram只要做兩件事:

1、 建立音頻數(shù)據(jù)庫(kù):云存儲(chǔ)技術(shù)的出現(xiàn)大大降低了音頻數(shù)據(jù)庫(kù)的成本,幾乎所有的智能硬件初創(chuàng)公司都會(huì)對(duì)此加以利用。

2、 基于GPU的算法:DeepGram采用了關(guān)鍵詞搜索和模糊搜索項(xiàng)結(jié)合的方式,將準(zhǔn)確度提高到90%以上,并利用深度學(xué)習(xí)技術(shù)來(lái)分析語(yǔ)音的復(fù)雜性。

兩個(gè)人的團(tuán)隊(duì)

領(lǐng)英顯示,這家公司的員工規(guī)模不超過(guò)10個(gè)人。事實(shí)上,主要只有CEO Scott Stephenson和CTO Noah Shutty兩人。

相當(dāng)有趣的是,Scott Stephenson還是個(gè)研究暗物質(zhì)的物理學(xué)家。這或許從某種程度上意味著,語(yǔ)音識(shí)別的技術(shù)壁壘并沒(méi)有我們想象的那么高,未必非得脫胎于高校、科研機(jī)構(gòu)等。

據(jù)悉,這倆人現(xiàn)在已經(jīng)推出了DeepGram的免費(fèi)試用插件,用戶注冊(cè)后,每個(gè)月能進(jìn)行40小時(shí)的智能語(yǔ)音搜索。不過(guò),鑒于DeepGram的準(zhǔn)確度依然有待提高,Stephenson和Shutty還在想辦法改進(jìn)它的功能性。

項(xiàng)目仍處在很早期

據(jù)公開(kāi)資料,YC孵化器在種子輪給這個(gè)團(tuán)隊(duì)投資了12萬(wàn)美元,看得出,還處在非常早期的階段,DeepGram除了提供API也還沒(méi)有獨(dú)立可用的產(chǎn)品,如果上面DeppGram在做的兩件事能夠把基礎(chǔ)搭好,則能證明這個(gè)“音頻版谷歌”的可行性。

這家AI公司要做音頻版”谷歌”  讓搜聲音像搜網(wǎng)頁(yè)一樣簡(jiǎn)單