2019年,對于所有人工智能公司而言,AI的規(guī)?;虡I(yè)落地都是一道“魔考”。?

近日,搜狗公司做了一件事,向錄音筆硬件廠商開放搜狗聽寫服務(wù),接入這一能力的錄音筆,就可以像搜狗AI錄音筆一樣智能,實現(xiàn)語音轉(zhuǎn)寫、實時互譯、智能編輯等功能。 ?

這件事乍一看平淡無奇,AI賦能產(chǎn)業(yè)也是老生常談的話題。但如果用時間線把搜狗布局AI的打法串起來,你會發(fā)現(xiàn)這一背后別有洞天。?

從最早的技術(shù)開放平臺搜狗“知音引擎”到硬件產(chǎn)品AI翻譯機、錄音筆,再到如今開放產(chǎn)品背后的AI服務(wù)能力,搜狗AI落地又進(jìn)入一個新的階段,服務(wù)成了輸出的重點。?

搜狗AI交互技術(shù)中心總經(jīng)理王硯峰的一句話更是直指AI商業(yè)落地的“痛點”,“只做技術(shù)是不夠的,沒有面向場景的深度優(yōu)化,技術(shù)就是一種雞肋”。?

一、轉(zhuǎn)變背后:硬件打磨技術(shù)體驗,軟件搶占市場

早在2016年,搜狗開始做語音開放平臺“知音引擎”,并嘗試將技術(shù)推向行業(yè),但探索一段時間后,搜狗決定暫時不將這條路作為主攻方向。

原因是時機不到。在AI平臺發(fā)展早期,軟件免費的思路還停留在很多人心中,“你給我技術(shù),我?guī)湍阕銎放票硶背蔀橐环N早期玩法,再加上通用技術(shù)平臺的體驗并不理想,技術(shù)提供商沒有獲得行業(yè)太多認(rèn)可。 ?

另一方面,面對百度、科大訊飛等玩家的語音平臺,盡管搜狗也有不錯的技術(shù)積累,但在生態(tài)資源的比拼上也并不占優(yōu)勢。

因此,從2017年下半年開始,搜狗不再大力去推技術(shù)開放平臺,而是沉下心來將技術(shù)下沉,打磨場景與硬件,并在2018年上半年推出AI翻譯機和AI錄音筆產(chǎn)品。

?從打造智能硬件到開放聽寫服務(wù),搜狗AI之變

以錄音筆為例,傳統(tǒng)的錄音筆功能單一,主要就是錄音。而搜狗AI錄音筆則不同,錄音后,它可以提供準(zhǔn)確率高達(dá)95%以上的語音轉(zhuǎn)寫,還具備實時互譯、云端分享、中英同傳等多種AI 功能。憑借著語音轉(zhuǎn)寫和離線翻譯等方面優(yōu)秀的表現(xiàn),搜狗錄音筆上市后,短時間內(nèi)就在多個電商平臺取得了單品銷量第一的成績,在這一領(lǐng)域構(gòu)建了核心的競爭優(yōu)勢。

與此同時,行業(yè)的觀念也開始轉(zhuǎn)變。行業(yè)一些玩家意識到,通用技術(shù)平臺雖然免費,但并不會針對具體場景做優(yōu)化,往往導(dǎo)致產(chǎn)品體驗不足。在尋找更優(yōu)的技術(shù)方案同時,行業(yè)為技術(shù)付費的意識開始增強。

這時不少公司主動找到搜狗,甚至包括一些硬件上的競爭對手,詢問能否購買搜狗的AI翻譯能力。王硯峰回憶道,“盡管提供技術(shù)平臺和提供服務(wù)能力都是ToB,但兩者的感受完全不同,最初行業(yè)都涌入技術(shù)開放平臺,但在方案上沒有誰真正不可替代,客戶可以在多家之間來回切換;但當(dāng)你在一個場景形成獨特優(yōu)勢、構(gòu)建核心壁壘后,行業(yè)會更尊重你,愿意購買你的服務(wù)能力?!?/p>

這成為搜狗再一次轉(zhuǎn)身,改變AI的落地方向的導(dǎo)火索。?

隨著硬件之路的深入,搜狗意識到一個問題,在C端硬件市場,即使是最大的玩家,往往也很難占據(jù)50%以上的市場份額。這跟軟件完全不同,軟件可以發(fā)揮網(wǎng)絡(luò)效應(yīng),一家獨大,占據(jù)一個市場80%以上的份額。典型的代表就是手機市場的多品牌和安卓操作系統(tǒng)的一家獨大。?

此外,錄音筆是一個相對狹小的市場,我國每年的銷量均在400萬臺徘徊,并且這一市場有搜狗、科大訊飛等科技公司,還有索尼、愛國者等硬件企業(yè),競爭同樣激烈。?

再加上搜狗是一家“技術(shù)范”十足的公司,線下渠道能力以及銷售能力相比傳統(tǒng)的硬件廠商并不占優(yōu)勢。

這意味著搜狗很難在硬件上一家獨大。如何搶占更大的市場份額?如果硬件不能,軟件上是否有機會?經(jīng)過搜狗內(nèi)部一番思考,王硯峰認(rèn)為,軟件這條路是有希望的,經(jīng)過場景的深度優(yōu)化后,即使面對BAT等互聯(lián)網(wǎng)巨頭,搜狗在AI翻譯、語音轉(zhuǎn)寫上也具有明顯優(yōu)勢。?

因此,搜狗決定再往前邁一步,開放AI錄音筆背后的聽寫服務(wù),為錄音筆行業(yè)提供OS系統(tǒng),成為軟件服務(wù)的核心提供者。?

這是否又意味著硬件對搜狗的重要性會下降?王硯峰表示,硬件依然是主戰(zhàn)場,和AI一樣,都是搜狗的幾大戰(zhàn)略之一,因此硬件和開放服務(wù)對于搜狗同樣重要。?

在他看來,智能硬件和AI技術(shù)研究是密不可分的,硬件是AI技術(shù)的載體,AI是硬件產(chǎn)品的靈魂。只有面向用戶體驗,深入場景打磨技術(shù),將技術(shù)、硬件、場景融合才能構(gòu)建AI的競爭力。另一方面,開放聽寫服務(wù),可以將搜狗打磨好的技術(shù)方案,以服務(wù)能力對外輸出,推動搜狗AI的規(guī)?;涞?。

用硬件打磨技術(shù)體驗,用軟件服務(wù)搶占市場、規(guī)模化落地,這一策略正在成為搜狗AI新的打法,也體現(xiàn)了其對AI落地更深層的思考。?

二、“只做技術(shù)是不夠的,關(guān)鍵是服務(wù)能力”

回到錄音筆行業(yè),我們今天見到的錄音筆,無論是外觀還是功能,跟2000年前后的產(chǎn)品并無太多變化。

也正是傳統(tǒng)錄音筆單一的功能、低頻次的使用場景,智能手機正在成為它的替代品,目前手機錄音APP已可以完成大部分場景的錄音,有力地沖擊這一市場的發(fā)展。?

這也導(dǎo)致錄音筆一直是個小眾市場,近幾年每年的銷量都在430萬臺左右,銷量一直停滯不前甚至一度下滑。而各家比拼的無非音質(zhì)、電量、存儲空間的提升,至于用戶使用錄音筆到底做什么,背后的服務(wù)體驗如何,行業(yè)鮮有思考。

搜狗本次開放的聽寫服務(wù),則依托自身扎實的AI技術(shù)和錄音筆場景的深度實踐。去年3月搜狗發(fā)布了一款A(yù)I錄音筆,經(jīng)過用戶較長一段時間的使用,搜狗對海量的用戶行為數(shù)據(jù)進(jìn)行深入分析后,第一次為行業(yè)呈現(xiàn)了用戶的真實畫像。?

從打造智能硬件到開放聽寫服務(wù),搜狗AI之變?

搜狗發(fā)現(xiàn),使用錄音筆的第一大場景并非大家預(yù)想的媒體采訪,而是企業(yè)內(nèi)部的商務(wù)場景,比如會議記錄,占比高達(dá)44%;第二大場景是企業(yè)內(nèi)部培訓(xùn),占比為24%;第三大場景才是采訪,占比21%,這三大場景加在一起占了錄音筆使用場景的90%。?

而且在使用錄音筆的用戶中,每周使用頻次超過三次以上的用戶占比達(dá)60%,每周超過10次的占比達(dá)15%;在錄音時長上,41%的用戶錄音超過10分鐘。 可見,大比重的用戶保持較高的使用頻次和使用時長。?

這三大核心場景也促使搜狗進(jìn)一步思考,AI可以為用戶帶來什么價值。比如一場會議錄音可能長達(dá)數(shù)小時,語音轉(zhuǎn)成文字長達(dá)數(shù)萬字,用戶如何準(zhǔn)確、輕松的整理內(nèi)容,快速出稿,以及編輯完后,如何快速的分享給同事等等。

基于這些思考,搜狗更有針對性的將AI技術(shù)融入聽寫服務(wù)中,為行業(yè)輸出優(yōu)質(zhì)的產(chǎn)品體驗。

從打造智能硬件到開放聽寫服務(wù),搜狗AI之變?

具體而言,首先搜狗開放了高準(zhǔn)確度的語音轉(zhuǎn)寫能力,并支持10余種語音識別及方言識別。它采用業(yè)界領(lǐng)先的深層Transformer-based 端到端聲學(xué)模型、神經(jīng)網(wǎng)絡(luò)語言模型、智能標(biāo)點預(yù)測技術(shù)等,語音轉(zhuǎn)寫準(zhǔn)確率可達(dá)95% 以上。?

第二,麥克風(fēng)陣列和語音增強技術(shù)。搜狗基于“云端+本地”結(jié)合,打造了雙麥語音方案,并針對遠(yuǎn)場噪音環(huán)境,做了專門的降噪算法。

第三,個性化語音識別技術(shù)。語音轉(zhuǎn)寫時,關(guān)鍵詞識別錯誤給用戶體驗帶來的體驗是糟糕的。搜狗通過打通輸入法賬號體系,基于產(chǎn)品中用戶數(shù)據(jù)的使用習(xí)慣,自動挖掘用戶的個性化詞組,使用戶常用語的轉(zhuǎn)寫錯誤率下降40%以上。?

第四,智能編輯與多端同步編輯。語音轉(zhuǎn)寫不是目的,用戶的最終目的是編輯成文。通過云端智能糾錯編輯技術(shù),搜狗聽寫可以針對置信度低的轉(zhuǎn)寫結(jié)果提供多個候選詞,針對口頭語、重復(fù)詞進(jìn)行自動文本順滑。此外它還支持三到四人的人聲識別,語音轉(zhuǎn)寫時在內(nèi)容上自動區(qū)分說話人。?

第五,云存儲服務(wù)。用戶的錄音和文字都可以長期安全地保存在云端。?

搜狗王硯峰解釋道,市面上做AI技術(shù)輸出的公司,更多是把技術(shù)以API接口的形式輸出,但“只做技術(shù)是不夠的,沒有面向場景的深度優(yōu)化,技術(shù)就是一種雞肋”。?

區(qū)別與此,搜狗重點做了兩件事,一是把中臺服務(wù)做得更完善,包含賬戶管理、轉(zhuǎn)寫技術(shù)、云同步功能、智能編輯等;二是提供了服務(wù)接入層,合作伙伴可以通過藍(lán)牙開放協(xié)議零成本接入,讓用戶通過PC 和移動端享用搜狗聽寫的增值服務(wù)。?

回到錄音筆行業(yè),單純比拼硬件的商業(yè)模式已經(jīng)持續(xù)了近20年。而在搜狗聽寫服務(wù)背后,市場的天花板似乎正在打開,以AI+軟件服務(wù)+硬件的方式,正在重新定義錄音筆和新的商業(yè)模式。 ?

三、聽寫服務(wù)的基石:搜狗輸入法

搜狗聽寫服務(wù)的背后,有一個容易被忽視的存在——搜狗輸入法,它對于聽寫服務(wù),乃至搜狗AI都意義重大。?

目前搜狗輸入法APP 已擁有超4.5 億的日活用戶,PC 端更是占據(jù)99% 的市場份額,語音請求峰值已超7 億次,穩(wěn)居全球最大的中文語音應(yīng)用。?

搜狗輸入法背后的龐大用戶和海量數(shù)據(jù),首先為聽寫服務(wù)提供了絕佳的“練兵場”,聽寫服務(wù)中核心的語音轉(zhuǎn)寫技術(shù)早就在輸入法中上線,不同的是,輸入法中語音轉(zhuǎn)寫的場景以單句話為主,而錄音筆中語音轉(zhuǎn)寫是更長的篇幅。經(jīng)過海量數(shù)據(jù)和真實場景的優(yōu)化,搜狗的語音轉(zhuǎn)寫才能達(dá)到95%以上的效果。?

從打造智能硬件到開放聽寫服務(wù),搜狗AI之變

其次,搜狗輸入法提供“入口”優(yōu)勢,移動端和PC端的輸入法都支持搜狗聽寫服務(wù)。在PC輸入法上,聽寫服務(wù)作為一項應(yīng)用直接內(nèi)置到PC輸入法的工具箱中,當(dāng)錄音筆插到電腦上后,輸入法就能自動探測到它,幫助用戶進(jìn)行音頻管理,并提供聽寫服務(wù)。針對存量錄音筆,這一方式可謂直接增加了其附加值。

憑借著99%的市場覆蓋率,PC輸入法有一個獨特的優(yōu)勢,凡是工具性、效率性的工具都可以內(nèi)置其中,不需要二次安裝,用戶隨時調(diào)用,這大大提升了用戶使用的便捷性。

在移動端,搜狗在輸入法APP中也開放了聽寫服務(wù)的接口,一方面4.5億日活用戶帶來一個龐大的市場,能夠讓用戶更便捷的使用聽寫服務(wù),龐大使用量也可以更快速的迭代聽寫服務(wù)背后的AI技術(shù)和產(chǎn)品體驗。?

另一方面,將聽寫服務(wù)直接內(nèi)置到輸入法上,避免了賬號打通的問題,可以更便捷的使用賬號的歷史數(shù)據(jù)提供個性化的聽寫服務(wù)。

不只是聽寫服務(wù),在搜狗AI的版圖中,輸入法就是AI技術(shù)的練兵場,它為技術(shù)研究設(shè)置問題,為技術(shù)的演進(jìn)提供源源不斷的數(shù)據(jù)洪流,又提供最佳的落地載體,扮演著“源頭活水”的角色。?

王硯峰也表示,開放聽寫服務(wù)只是搜狗的第一步,未來搜狗將會進(jìn)一步發(fā)揮輸入法的入口優(yōu)勢,將自身的語音翻譯能力都以服務(wù)的形式開放出來,為用戶帶來更大價值的同時,搶占更廣闊的軟件服務(wù)市場。

從輸出技術(shù)到打造硬件,再到提供服務(wù),是搜狗AI發(fā)展的一個轉(zhuǎn)折點,也是搜狗AI落地的深化。