智東西(公眾號:zhidxcom)
文 | 寓揚
移動互聯(lián)網(wǎng)時代,智能手機已經(jīng)成為我們的“貼身之物”,我們每個人都是“手機人”。我們通過應用商店下載各種APP,來滿足自身多樣化的需求??梢姡珹PP服務對我們彌足重要。
在語音交互入口下,我們的人機交互方式也將由現(xiàn)在的觸屏轉(zhuǎn)變?yōu)檎Z音。同樣我們也需要一個語音“應用商店”,承載各種語音技能,來滿足我們多樣化的需求。
而海知智能就是一家在語音交互入口下做“應用商店”和“APP”的創(chuàng)業(yè)公司,即專注于語義理解,提供第三方Bot開放平臺和Skill開發(fā)工具。Bot可理解為聊天機器人,或一個虛擬助理,它可以實現(xiàn)人機交互,提供各種滿足人們需求的內(nèi)容服務。
近期智東西和海知智能CEO謝殿俠圍繞語音交互入口展開深入對話,看看這家專攻語義理解的創(chuàng)業(yè)公司,潛伏三年究竟鑄了把什么劍?如何看待風口下的語音交互行業(yè)?風口下又將作出怎樣的抉擇?
一、始于硅谷的創(chuàng)業(yè)團隊
謝殿俠是一個非常健談的人,有時拋出一個問題,就能滔滔不絕的談論一番,再配上一陣爽朗的笑聲,確實給人一種江湖豪杰“謝大俠”的感覺。
他略帶調(diào)侃的講起了和CTO丁力一起創(chuàng)業(yè)的故事。謝殿俠在北京大學讀書期間,搞了一個幾百人的“北大愛樂社”,而在這些社員中就有一個叫丁力的。后來他1997年北大畢業(yè)后,就去了方正技術(shù)研究院工作。2014年他在硅谷再次遇到了那個“丁力”。
謝殿俠一直在思考怎么讓知識系統(tǒng)化,讓知識流動起來,從而產(chǎn)生更大的價值,而多年的工作經(jīng)歷給予了他更多產(chǎn)品、行業(yè)、市場的經(jīng)驗。而丁力從研究生到博士以及后續(xù)工作都在學術(shù)界從事知識圖譜領域的研究和實踐。
經(jīng)過幾個月的洽談,在2014年下半年,兩人便決定圍繞語義理解開始創(chuàng)業(yè),深耕家居市場,做Bot應用,并在2015年拿了聯(lián)創(chuàng)永宣馮濤的天使投資。
謝殿俠回憶到,當時幾個因素促成了此次創(chuàng)業(yè)。其一4G開始普及,傳統(tǒng)的智能硬件也剛剛開始,未來機器人、智能硬件將會對語音交互有巨大的需求;其二隨著深度學習的發(fā)展,語音識別準確率大大提高,這樣語義理解的前置條件就靠譜了;其三,傳統(tǒng)知識圖譜成本高,并且無法做到全、新、準,而2012年谷歌則推動了知識圖譜技術(shù)的發(fā)展;其四盡管語義理解很難做,但是通過對邊界的界定,是可以做出用戶可容忍范圍內(nèi)的產(chǎn)品的。
以上條件的成熟,加上對未來智能硬件市場的看好,謝殿俠便和丁力便義無反顧地選擇了自然語言處理(NLP)和知識圖譜(KG)這個方向。當時他們樂觀的認為1年左右市場就會起來,但預想并沒有如期而至。
2016年上半年是海知智能的低谷期,智能硬件等業(yè)務并沒有如期發(fā)展起來。盡管其技術(shù)也應用在了一些機器人中,如賢二機器僧,但整個行業(yè)生態(tài)沒有起來。機緣巧合之下,海知智能介入了智能客服、智能分析員等業(yè)務,作為當下生存的變現(xiàn)渠道。
而隨著國外亞馬遜Echo的成功,2016年下半年國內(nèi)在智能音箱等市場也起來了,許多企業(yè)開始找海知智能合作,其業(yè)務營收也隨著風口而水漲船高。
目前,海知智能團隊約50人左右,其中一半為研發(fā)人員,一半為產(chǎn)品人員。
二、NLP+KG打造技能平臺
那么海知智能到底做什么呢?如果將語音交互拆開來說,大體可以分為以下過程:拾音喚醒、語音識別、語義理解、語音合成。大家耳熟能詳?shù)目拼笥嶏w做的就是語音識別部分,它處理的對象是聲音,將聲音轉(zhuǎn)換成文本;而海知智能做的就是語義理解部分,處理的對象就是文本,理解文本的意圖,并調(diào)動相應的服務。
謝殿俠將這種能力稱為Bot(智能助理)或者Skill(技能),“Bot的實質(zhì)是它構(gòu)建了一個領域的知識圖譜,通過人能夠理解的語言和人交流”。而在技術(shù)路線上,海知智能通過知識圖譜+自然語言處理相結(jié)合的方式去搭建Bot平臺以及技能插件。

(海知智能的Bot引擎)
簡單來講Bot可以理解為手機中一個完整的“應用商店”,它里面有各種內(nèi)容和服務,只有有了應用商店,你才能夠下載你想要的內(nèi)容,獲取你想要的服務。而Skill就像應用商店的“APP”,它是一種單個的技能服務,但是它的維度比觸屏更高,是通過語音的方式控制的。比如智能音箱中“查天氣”、“百科問答”等都是一個Skill,而眾多Skill就匯聚成一個Bot平臺,而這背后需要知識圖譜和NLP(自然語言處理)的支持。
謝殿俠談到,語義理解是非常難的一塊,只有限定語義理解的邊界才能夠做出在用戶容忍度之內(nèi)的產(chǎn)品。通過限定特定場景、特定用戶、特定問題這三個邊界條件,海知智能選擇了家居這個場景。家庭對應的產(chǎn)品是冰箱、空調(diào)、電視、音箱、機器人等;用戶可能有一對夫妻、老人和孩子;問題則是從他們早上起床、音樂、新聞、天氣、出行、菜譜、講故事等。
圍繞這條線,經(jīng)過3年時間的打磨,海知智能在音樂、百科類、詩詞、有聲資源(喜馬拉雅、蜻蜓、荔枝)、天氣等方面建立完善的知識圖譜,并深耕家庭場景,形成了50多個技能插件。
海知智能的Bot平臺號稱“第三方Bot開放平臺”。首先這個平臺不僅提供整個Bot的輸出,也提供單個技能的輸出,并且在此基礎上,開發(fā)者能夠進行自己的個性化優(yōu)化。其次,它的開放不僅對于開發(fā)者,也對B端的平臺開放,如百度DuerOS平臺、思必馳的DUI平臺。
最后,它還提供開發(fā)工具,降低技能的開發(fā)成本,讓工程師,甚至普通人員來開發(fā)他們自己的技能。具體而言,比如你是一個菜譜內(nèi)容提供商,有100萬個文字菜譜,通過海知智能平臺的開發(fā)工具可以在較短的時間內(nèi)變成知識圖譜,并形成基于Bot的Skill技能。目前這個平臺還在內(nèi)測階段,有近10家廠商通過海知智能的平臺開發(fā)技能,涉及政府、新聞、旅行客服等。
謝殿俠坦言,他們只深耕語義理解這個細分領域,如果要想形成閉環(huán),必須要采取開放合作的模式,同時他們也愿意開放,甚至向有業(yè)務競爭關系的對手開放,共同把技能平臺這塊市場做起來。
目前,小米電視、小米AI音箱、海爾冰箱、康力優(yōu)藍機器人、張小盒機器人、賢二機器人等都使用海知智能的技能插件,如近期推出是小米AI音箱中就使用了海知智能的17個技能插件。此外,百度DuerOS平臺、思必馳DUI開放平臺、小米水滴平臺都是其合作伙伴。
三、“獨辟蹊徑”的盈利模式
在語音交互行業(yè)都面臨變現(xiàn)難題的當下,海知智能是否盈利,以及如何營收呢?謝殿俠表示,海知現(xiàn)金流為正,目前年營業(yè)額達千萬。
但他也談到在智能家居技能方面采取免費模式,比如和小米的合作。前提是小米有足夠的流量,可沿用應用商店的分成模式,有獲得預期收入的可能。對于用戶流量規(guī)模較小的,可以采用授權(quán)模式,按照設備或者調(diào)用次數(shù)進行收費。
但靠免費怎么能夠盈利?海知的收入到底來源于哪里?最終謝殿俠透露了當下的核心盈利來源,目前智能客服業(yè)務和智能分析員的B端業(yè)務構(gòu)成了其收入的主要來源。
他近一步談到,之前做語義理解,做機器人的Bot平臺,但是生態(tài)沒起來,公司的業(yè)務就沒有預期增長,必須將技術(shù)應用在當下“接地氣”的項目中。而機緣巧合之下,他們?nèi)ツ杲槿肓酥悄芸头I域。
當時一個潛在合作項目存在大量智能客服的需求,又對原來的智能客服不太滿意,而海知智能通過技術(shù)測評,發(fā)現(xiàn)可以通過其平臺的開發(fā)工具,提供一套簡單實用的智能客服技能。這給了謝殿俠一個啟發(fā),他們能夠憑借Bot的能力做智能客服。
智能客服確實是當下技術(shù)應用的一個剛需,但現(xiàn)有市場中玩家的技術(shù)力量不足,謝殿俠便在去年就啟動了相關業(yè)務。目前他們也在為另一家大型客戶構(gòu)建智能客服,項目已經(jīng)基本敲定,這塊業(yè)務預計未來一兩年會較快發(fā)展。
通過其商業(yè)模式,我們發(fā)現(xiàn),盡管海知智能定位于打造家居Bot平臺以及技能插件,但是這塊市場尚屬早期,目前盈利模式并不清晰,反而是當下需求較大的智能客服和智能分析員業(yè)務成為了它的主要收入。海知當下的選擇,代表了他們對技術(shù)落地的新思考,也為公司拓展了更多的生存空間。
不僅感慨,目前市面上許多做Bot的公司如何生存盈利?或許在光鮮的Demo展示之外,不得不將技術(shù)落地到當下需求性強、能夠解決的實際問題上,來獲得生存。
四、提供標準工具打造個性化產(chǎn)品
涉及到打造產(chǎn)品,必然面臨一個問題,如何打造差異化的產(chǎn)品?如何提升用戶體驗?
關于用戶體驗,謝殿俠認為,首先界定邊界非常重要,只有深耕某一場景的語義理解,才能夠做出用戶能夠容忍的技能服務;其次,海知智能在3年前就開始從事知識圖譜等的積累,目前在音樂、百科等領域積累了豐富的知識圖譜,這也大大提升了語義搜索能力;此外,海知的Bot管理工具可以和人工相結(jié)合,讓人工參與,從而提升差異化。
具體來講,海知智能在NLP層面是通過對話模板進行機器學習,由人來寫少量的對話模板,再由海知通過平臺進行學習、理解。謝殿俠認為,這種方式比端到端的學習方式解釋性更強,領域的優(yōu)化空間也更大。因為算法最后不能解決所有的問題,一個領域的數(shù)據(jù)量不足夠大, NLP中的問題也沒法解決。針對這個問題,可以提供一個足夠強的工具,讓Bot領域的專家、工程師等干預這個過程,將算法和人工相結(jié)合的方式提升Bot的管理能力。
而另一個問題就在于差異化。他談到,目前海知的合作主要分為兩類,一類像和海爾的合作,海知提供一整套Bot/Skill的解決方案,對接硬件、語音識別、語音合成,落地到海爾。海爾也可以通過其平臺的開發(fā)工具,進行設定,打造個性化的產(chǎn)品。
小米的合作是另一種模式,小米有自己的Bot平臺,海知則是通過開放API(應用程序接口)的形式,將自己的技能插件輸出給小米的技能平臺。
前者的輸出像是輸出了一個手機上的“應用商店”,而后者的輸出則像應用商店中的“APP”。即便是對不同廠家輸出了相同的技能,隨著用戶的使用,數(shù)據(jù)的訓練,也會進行自適應,呈現(xiàn)個性化的差異。并且,人工也可以針對不同場景去干預。
五、語音交互的痛點是基于場景的個性化服務
回到語音交互這個大入口,尤其是今年火爆的智能音箱市場。他談到,語音命令并不是語音交互的核心痛點,比如在冰箱上設定溫度,一方面遙控器足夠方便,另一方面語音交互準確率并沒有那么高。那么語音交互的痛點究竟在哪里呢?
他認為語音命令、語音控制只是錦上添花的事情。比如海爾打造的冰箱,最核心的不是聽歌,也不是查天氣,最核心的應該是基于廚房場景所提供的個性化服務。當你要做一道菜時,是拿手機搜菜譜,還是直接問一下冰箱更方便呢?當你做菜時,豬肉和杏仁食材能不能搭配呢?當你要減肥,如何制定營養(yǎng)飲食體系?而這個冰箱中的語音交互就相當于一個私人營養(yǎng)師,它會比你電腦搜索、APP查詢更高效。
可以看出,謝殿俠眼中的語音交互核心在于Bot,針對每個場景提供智能助理,連接各種服務。而服務的打磨和體驗,則有賴于知識圖譜和NLP技術(shù)在邊界范圍內(nèi)進一步完善。
謝殿俠也認為智能音箱在家庭場景中是有剛需的,它可以為用戶提供從早上的鬧鐘、新聞、路況、菜譜、音樂、故事等價值,它是一個典型的MVP(最小可用功能體)。但受限于文化、家庭環(huán)境等因素,智能音箱在中國環(huán)境可能沒有美國那么成功,但它會逐步發(fā)展起來,預計今年智能音箱市場將達百萬臺,明年千萬臺的規(guī)模。
謝殿俠所理解的智能音箱是一個基因Bot的MVP,他認為有電的地方都可以有語音交互。而Bot實質(zhì)上不僅僅可以是音箱、也可以是冰箱、空調(diào)、電視等等,它實質(zhì)上構(gòu)建了一個領域的知識圖譜,通過人能夠理解的語言和人交流。
對于語音技術(shù)落地到家庭場景而言,他更看好智能電視,其次才是智能音箱。他談到,現(xiàn)在出貨的電視都是語音交互的電視,而剩下的就是怎么在語義技能上做起來,這也正是海知智能等發(fā)力Skill平臺的機會所在。
結(jié)語:語音技能的崛起
如果說當下火爆的智能音箱、智能電視等推動了智能硬件的迅速發(fā)展,那么接下來智能硬件對“技能商店”以及“技能”的需求將會大幅增長。
謝殿俠認為,人們?nèi)粘I罘罩械男枨蟊热缯f要8萬個Skill(技能)才能夠滿足,而發(fā)展最迅速的亞馬遜Alexa也只有1.5萬個技能,技能只有達到一個更高的臨界點,Bot和人溝通起來,才能大部分命中人們的需求。在這種情況下,行業(yè)需要開放,大家共同來做并集。
語音交互會是人機交互中的一場大變革,而硬件之上的交互內(nèi)容,下一個“應用商店”又會誕生在哪里?




