這跟傳統(tǒng)理解的天氣預(yù)報(bào)不一樣。用戶使用自然語(yǔ)言交互,他沒(méi)有說(shuō)我要問(wèn)天氣,或者天氣預(yù)報(bào),當(dāng)我們真正在生活中產(chǎn)生對(duì)天氣情況查詢的需求,對(duì)話都很場(chǎng)景化,場(chǎng)景比如”今天下雨不,去上海要帶傘嗎”,實(shí)際需要理解的是時(shí)間、地點(diǎn)、是否下雨。
這幾個(gè)例子,同樣是詢問(wèn)天氣,但用戶只想了解溫度,機(jī)器進(jìn)行語(yǔ)義理解后,只回復(fù)了氣溫?cái)?shù)據(jù)和建議;由此產(chǎn)生多輪詢問(wèn),切換時(shí)間、切換城市,都能針對(duì)性回答問(wèn)題。所以,作為天氣這么一個(gè)最基本的服務(wù),智能化在于怎樣使用戶通過(guò)更自然的方式表達(dá)訴求,機(jī)器通過(guò)更人性化的方式滿足訴求。
比較早的時(shí)候是機(jī)械鬧鐘,上發(fā)條,到點(diǎn)就會(huì)響鈴,然后手動(dòng)摁掉鬧鐘停止?,F(xiàn)在大家用智能手機(jī)設(shè)的鬧鐘可以實(shí)現(xiàn)到點(diǎn)后手動(dòng)停止,或推遲多長(zhǎng)時(shí)間再喚醒。智能化的鬧鐘可以怎么玩?篇幅有限,我們只看一個(gè)環(huán)節(jié):鬧鐘設(shè)置完畢,也在規(guī)定時(shí)間響起,如何有效喚醒主人起床或關(guān)閉鬧鐘?
基于語(yǔ)義理解,我們可以做到如下圖:
如果用戶成功回答問(wèn)題,艾如意寶寶反饋關(guān)閉成功,鬧鐘就不再響了。如果用戶回答錯(cuò)誤,我們還能設(shè)置音箱給用戶多次回答的機(jī)會(huì),直到答對(duì)后音箱成功關(guān)閉,這時(shí)候人也該清醒了。有些情況下,用戶真的無(wú)法回答或需要賴床,基于語(yǔ)義理解,我們也可以做到比如:
這時(shí)候艾如意寶寶知道用戶要往后延遲起床,仍然知趣地鬧鐘關(guān)閉成功,說(shuō):哎呀,還是拗不過(guò)主人。
所以人“人”交互,人和機(jī)器人的交互設(shè)計(jì),就有很大的不同。人不是機(jī)器,會(huì)有模糊,會(huì)有不同表達(dá)方法,我們希望智能音箱中的機(jī)器人也能人格化,被當(dāng)成一個(gè)伙伴而不是冰冷的機(jī)器。
停止鬧鐘功能,除了上面舉例的詩(shī)詞之外,也可以設(shè)為成語(yǔ)接龍,比如音箱里的艾如意寶寶說(shuō)春風(fēng)化雨,用戶說(shuō)雨過(guò)天晴,艾如意寶寶說(shuō)鬧鐘關(guān)閉成功了。當(dāng)然玩成語(yǔ)接龍也有可能想不起來(lái),艾如意寶寶也會(huì)更換不同的題型,提供足夠的容錯(cuò)空間,比如再玩點(diǎn)兒別的:口算55+66等于幾?中國(guó)有幾個(gè)省等等,當(dāng)艾如意寶寶明白你的意圖、同時(shí)具備了一些知識(shí)技能后,就可以與你深層次互動(dòng), 來(lái)達(dá)到設(shè)計(jì)好的目的。
我舉鬧鐘這個(gè)例子來(lái)表明,通過(guò)語(yǔ)義理解可以定制出這么一類新的智能產(chǎn)品交互模式,能夠使機(jī)器與人像人與人一樣進(jìn)行有趣、有用的互動(dòng)。
這些新的產(chǎn)品交互模式可以基于具備的領(lǐng)域服務(wù)資源進(jìn)行整合。比如需要有所有詩(shī)詞的知識(shí),才能夠知道詩(shī)句的上一句和下一句。當(dāng)這些領(lǐng)域覆蓋后,結(jié)合系統(tǒng)的機(jī)制,就可以整合形成我們剛剛演示的鬧鐘喚醒停止功能。以此類推,通過(guò)不同領(lǐng)域服務(wù)與語(yǔ)義理解的組合,可以形成各種各樣意想不到的打破傳統(tǒng)產(chǎn)品交互設(shè)計(jì)帶來(lái)的效果。
如果早上想聽(tīng)新聞,就對(duì)音箱說(shuō),音箱里面的艾如意寶寶將文本的新聞通過(guò)一些初級(jí)或深入的分析,再用TTS語(yǔ)音合成找到結(jié)果,或直接調(diào)用有聲資源將現(xiàn)成的音頻資源播放給你聽(tīng)。目前我們平臺(tái)整合了約1500萬(wàn)網(wǎng)絡(luò)音頻資源,從兒童故事到名家講壇,從名著章回到相聲小品,在你說(shuō)你想聽(tīng)什么后,大都可以直接為你播放。
比如,我想聽(tīng)羅胖子講互聯(lián)網(wǎng)。音箱能反饋什么?結(jié)果為返回羅振宇的一期邏輯思維“五問(wèn)互聯(lián)網(wǎng)”的節(jié)目。傳統(tǒng)的搜索很難做到這點(diǎn),為什么呢?因?yàn)樗阉鳌蔽蚁肼?tīng)羅胖子講互聯(lián)網(wǎng)”會(huì)出現(xiàn)很多東西,如何才能命中這個(gè)準(zhǔn)確的內(nèi)容呢?
從技術(shù)實(shí)現(xiàn)來(lái)講,還有幾個(gè)問(wèn)題:第一,艾如意寶寶需要知道,用戶是想聽(tīng)一個(gè)節(jié)目;第二,知道用戶要聽(tīng)節(jié)目后,還要明白用戶要聽(tīng)什么內(nèi)容;第三,撇去次要信息,解析出羅胖子是個(gè)人,講互聯(lián)網(wǎng)話題。
那么誰(shuí)是羅胖子? 有的人說(shuō),是羅振宇,有的人會(huì)說(shuō),不,是羅永浩。這兩個(gè)都是胖子,都還有點(diǎn)名氣,為什么系統(tǒng)返回了羅振宇講互聯(lián)網(wǎng)的內(nèi)容呢?在相對(duì)成熟的體系里,系統(tǒng)把羅振宇、羅永浩等字符串映射到一個(gè)個(gè)實(shí)體:一個(gè)名字是羅振宇的人被稱為羅胖子,是前央視的記者,后來(lái)自己創(chuàng)業(yè)做邏輯思維,是個(gè)媒體人,常常開(kāi)講從技術(shù)到人文到各領(lǐng)域的見(jiàn)解;一個(gè)叫羅永浩的人也被稱為羅胖子,錘子手機(jī)的CEO,過(guò)去做英語(yǔ)培訓(xùn),搞行為藝術(shù),他可能更多的是會(huì)推銷錘子手機(jī),或者是講講英語(yǔ)等。有了這些判斷,系統(tǒng)定位了羅胖子更可能是羅振宇。最后就搜索匹配關(guān)于互聯(lián)網(wǎng)話題的內(nèi)容,結(jié)果邏輯思維節(jié)目中有一期叫“五問(wèn)互聯(lián)網(wǎng)”。這個(gè)過(guò)程既包含了自然語(yǔ)言理解,也包含了知識(shí)圖譜應(yīng)用。
當(dāng)內(nèi)容體量非常大,人們的問(wèn)法說(shuō)法也非常多時(shí),命中率通過(guò)應(yīng)用這些技術(shù)會(huì)比傳統(tǒng)關(guān)鍵字搜索高不少。當(dāng)然,想窮盡所有的說(shuō)法,給所有用戶的所有表達(dá)習(xí)慣一個(gè)滿意的答案,還有一段路要走。
音樂(lè),對(duì)于智能音箱來(lái)講,是非常重要的一個(gè)功能。目前,我們已經(jīng)整合了千萬(wàn)量級(jí)的音樂(lè)元數(shù)據(jù),也能覆蓋了用戶關(guān)于音樂(lè)點(diǎn)播的多樣化的說(shuō)法。目前主要有三個(gè)方面的智能化特點(diǎn):
下圖是我們總體的技術(shù)架構(gòu),左邊是IOT智能硬件、機(jī)器人、即時(shí)通訊的工具、APP、網(wǎng)頁(yè)或者是電話,其中的語(yǔ)音識(shí)別和語(yǔ)音合成我們不涉足。但多輪對(duì)話的機(jī)制、自然語(yǔ)言理解到語(yǔ)義搜索,接著對(duì)應(yīng)到領(lǐng)域服務(wù),領(lǐng)域服務(wù)獲得內(nèi)容之后,通過(guò)自然語(yǔ)言生成答案,中間核心部分是機(jī)器學(xué)習(xí)和知識(shí)圖譜技術(shù)。
在領(lǐng)域服務(wù)方面,一來(lái),通過(guò)開(kāi)放接口對(duì)接大量第三方數(shù)據(jù),另外,我們平臺(tái)提供專門的語(yǔ)義工具箱可以為機(jī)器人運(yùn)營(yíng)方或者產(chǎn)品品牌方使用,用來(lái)設(shè)計(jì)自己的個(gè)性化特色。海知智能ruyi.ai作為開(kāi)放的技術(shù)平臺(tái),采用開(kāi)放的業(yè)務(wù)模式,從底層的技術(shù)到上層應(yīng)用都對(duì)外開(kāi)放,大家可以做出屬于自己的個(gè)性化機(jī)器人大腦。
例如,如果有一款音箱,接入了技術(shù)平臺(tái)上的艾如意寶寶機(jī)器人后,勾選音樂(lè)服務(wù)、有聲資源服務(wù)、天氣、笑話、百科知識(shí)等等服務(wù),就可以實(shí)現(xiàn)基本的語(yǔ)音交互了,機(jī)器能聽(tīng)懂你,還能給你答案或者結(jié)果。當(dāng)然,如果僅這些功能可能會(huì)出現(xiàn)千機(jī)一面的現(xiàn)象,一千種產(chǎn)品接一個(gè)技術(shù)平臺(tái),不做任何個(gè)性化編輯,雷同度將非常高。但使用了語(yǔ)義管理的工具箱,幾乎任何人學(xué)會(huì)后都可以對(duì)機(jī)器人大腦增刪改寫(xiě)自己的問(wèn)答對(duì)兒、去做自己需要的二次開(kāi)發(fā)定制機(jī)器人的技能。前者對(duì)無(wú)任何相關(guān)專業(yè)基礎(chǔ)的文科生來(lái)說(shuō),只需經(jīng)過(guò)不到三天的培訓(xùn),就可以掌握這個(gè)工具;后者則需要一定的開(kāi)發(fā)技術(shù),能做出自己想要的東西。 兩種定制模式結(jié)合,將智能音箱打造成從內(nèi)而外的個(gè)性化機(jī)器人。
海知智能是一家創(chuàng)業(yè)公司,提供語(yǔ)義API開(kāi)放技術(shù)服務(wù),但不會(huì)重點(diǎn)面向開(kāi)放領(lǐng)域做,而是針對(duì)若干垂直領(lǐng)域做深做透。除了開(kāi)放給合作伙伴,我們也開(kāi)放給同行;如果同行有自己的API,覺(jué)得自己的更好的部分用自己的,沒(méi)有的或者沒(méi)有我們好的可以用我們的。因?yàn)橛脩粢婚_(kāi)口說(shuō)話,覆蓋的領(lǐng)域范圍就非常的多,大家把各自專業(yè)或者專長(zhǎng)的 API結(jié)合起來(lái)滿足用戶盡可能多的連續(xù)性需求。平臺(tái)開(kāi)放,不僅僅把語(yǔ)義管理工具箱開(kāi)放給大家,把技術(shù)接口開(kāi)放給開(kāi)發(fā)者,同時(shí)不管文科生還是理科生,內(nèi)容的運(yùn)營(yíng)者還是程序員工程師,可以在這個(gè)技術(shù)平臺(tái)的基礎(chǔ)之上,經(jīng)過(guò)二次加工或開(kāi)發(fā),形成具備個(gè)性特色乃至人格化的機(jī)器人大腦的技能,為自己的品牌服務(wù)。如果愿意,也可以把這些大腦技能打包后做成領(lǐng)域服務(wù),提供給第三方。我們很快會(huì)開(kāi)放這些功能,把開(kāi)發(fā)者二次設(shè)計(jì)開(kāi)發(fā)的技能變成一個(gè)公開(kāi)的領(lǐng)域服務(wù)。這樣一來(lái),其他人做的機(jī)器人大腦也可以用你的領(lǐng)域服務(wù),豐富自己的機(jī)器人大腦技能。
因此,我們也在與若干高校、企業(yè)等,發(fā)起中文開(kāi)放知識(shí)圖譜聯(lián)盟,就希望能夠讓大家把數(shù)據(jù)通過(guò) API開(kāi)放互聯(lián),一起來(lái)讓中文的智能機(jī)器人具備越來(lái)越強(qiáng)的服務(wù)能力。
目前,海知智能已經(jīng)做了二十多個(gè)領(lǐng)域,尤其像音樂(lè)有聲資源,與Echo做過(guò)專門對(duì)比,撇開(kāi)Echo的高超的英語(yǔ)能力不談(這家伙只有英文版),我們的成熟度,包括用戶體驗(yàn)、數(shù)據(jù)數(shù)量、覆蓋的用戶說(shuō)法等等,相對(duì)echo的這些方面,都有了些超越,覆蓋的說(shuō)法更多,命中率也更高。
另外像鬧鐘這種類型的服務(wù),這也是他所沒(méi)有的,echo只是簡(jiǎn)單的設(shè)置一個(gè)鬧鐘,還是用語(yǔ)音輸入法的方式設(shè)計(jì)產(chǎn)品。但是我們已經(jīng)具備了這個(gè)能力,可以讓這個(gè)事做得非常有意思。當(dāng)然Echo及其 Alexa還是非常強(qiáng)大的,其整體體驗(yàn)也是非常棒的。只是從我們的角度來(lái)講,到目前為止,海知智能ruyi.ai及其艾如意寶寶機(jī)器人在支持中文的智能音箱方面,智能化程度上和資源的整合方面達(dá)到了一定的成熟程度,不亞于 Alexa(英文能力)。我們支持幾家音箱的品牌最近也會(huì)陸續(xù)的上市。
不遠(yuǎn)的未來(lái),每一個(gè)家庭的每一個(gè)房間,都應(yīng)該有一臺(tái)智能音箱。2017年是智能音箱爆發(fā)的第一年,會(huì)是中國(guó)智能音箱元年。也許是兩三年,或者三五年,它應(yīng)該不比智能手機(jī)普及的速度更慢,會(huì)覆蓋更多的家庭的場(chǎng)景,會(huì)變成家庭的一個(gè)不可或缺的新成員。
所以,海知智能的使命是“人人會(huì)做機(jī)器人”。就是把打造機(jī)器人大腦的門檻,降低到足夠低,只要你會(huì)用電腦,會(huì)玩微信公眾號(hào)你就可以做一個(gè)自己的機(jī)器人大腦,像過(guò)去做個(gè)app或者是網(wǎng)頁(yè)一樣為大家提供服務(wù)。最終希望有那么一天,人人能有機(jī)器人,機(jī)器人在方方面面為你服務(wù),讓你工作生活更加輕松如意。
Q:你們用的到語(yǔ)音識(shí)別、語(yǔ)音合成之類的技術(shù)嗎?自己不研發(fā)的話和哪家企業(yè)合作?
謝殿俠:我們不做語(yǔ)音識(shí)別和語(yǔ)音合成,也不碰硬件,只專注于語(yǔ)義API,專注于這個(gè)技術(shù)的平臺(tái)。我們的輸入端是文本,所以任何一家語(yǔ)音識(shí)別的公司,轉(zhuǎn)換成文本之后我們都可以對(duì)接,并且可以根據(jù)語(yǔ)音識(shí)別的結(jié)果通過(guò)語(yǔ)義理解來(lái)做對(duì)應(yīng)的修復(fù)和優(yōu)化。
Q: 免費(fèi)的開(kāi)放平臺(tái),能夠獲取大量的用戶數(shù)據(jù)豐富知識(shí)圖譜,整體的商業(yè)模式是怎樣的?
謝殿俠:我們并不是完全免費(fèi),F(xiàn)reemium的方式,有限的免費(fèi)。比如在針對(duì)硬件服務(wù)這部分,我們有對(duì)應(yīng)的licence加API調(diào)用的收費(fèi)方式,以及包含使用了音樂(lè)等第三方的收費(fèi)服務(wù)。
Q: 語(yǔ)音轉(zhuǎn)文本會(huì)存在錯(cuò)誤率,對(duì)后續(xù)意圖識(shí)別影響會(huì)很大嗎?特別是bot后端對(duì)接海量服務(wù)的時(shí)候,意圖識(shí)別的準(zhǔn)確率和效率的問(wèn)題
謝殿俠: 語(yǔ)音識(shí)別的確是會(huì)有錯(cuò)誤率,比如說(shuō)不管是大家差錯(cuò)率降到百分之幾,比較小的差錯(cuò)率對(duì)我們影響不大。我們可以通過(guò)語(yǔ)義理解來(lái)修復(fù)語(yǔ)音識(shí)別的差錯(cuò),即使兩邊是完全松耦合對(duì)接,當(dāng)然緊耦合也有可能會(huì)帶來(lái)更好的結(jié)果。當(dāng)差錯(cuò)率比較小的時(shí)候,我們是有可能去修復(fù)錯(cuò)誤結(jié)果來(lái)提升整體的理解準(zhǔn)確性,但是如果差錯(cuò)率比較大,比如說(shuō)有噪音或者聽(tīng)歌過(guò)程中打斷進(jìn)行交互時(shí)語(yǔ)音識(shí)別錯(cuò)誤率偏高時(shí),語(yǔ)義理解進(jìn)行修復(fù)的難度就會(huì)比較大。所以說(shuō),當(dāng)差錯(cuò)率小到一定程度的時(shí)候,我們可以起到好的作用,當(dāng)差錯(cuò)率大到一定程度的話,我們暫時(shí)還無(wú)法保障結(jié)果的有效性。
Q:專注垂直領(lǐng)域,有深度才能夠智能。
謝殿俠:對(duì),因?yàn)閺默F(xiàn)在來(lái)講,比如說(shuō)人臉識(shí)別突破了機(jī)器視覺(jué)能夠超越人類的識(shí)別能力,語(yǔ)音識(shí)別也接近了,但是語(yǔ)義理解和自動(dòng)化處理知識(shí),這一塊機(jī)器和人相比還是有距離的。在這種情況下,我一直強(qiáng)調(diào)一個(gè)觀點(diǎn),“叫特定場(chǎng)景,特定用戶,面向特定問(wèn)題提供特定的領(lǐng)域服務(wù),圍繞著垂直把事情做透”。
智能音箱表面上來(lái)講是個(gè)單品,和機(jī)器人相比比較簡(jiǎn)單,我們把智能音箱定義成機(jī)器人的 MVP。所以如果要把產(chǎn)品做好還是有很大難度,比如首先需要把芯片板卡成本降到足夠低,穩(wěn)定性提高到足夠的高;然后是語(yǔ)音識(shí)別,語(yǔ)義理解的中間的環(huán)節(jié),還有內(nèi)容的資源整合。這些環(huán)節(jié)做好做透,既有技術(shù)含量高的地方需要去挑戰(zhàn),也有苦活、臟活、累活的做做通 。當(dāng)然音樂(lè)等版權(quán)內(nèi)容領(lǐng)域, 這一年多經(jīng)歷了版權(quán)不斷變化收緊和行業(yè)格局進(jìn)行變化調(diào)整的過(guò)程,我們一直在對(duì)接各種各樣正版的資源。不管是技術(shù)上還是商務(wù)上,這條路已經(jīng)打通。所以從智能音箱這個(gè)產(chǎn)業(yè)鏈角度來(lái)講是天時(shí)地利人和,萬(wàn)事俱備只欠東風(fēng),接下來(lái)就看有多少品牌來(lái)做以及做到多大的量的問(wèn)題。
Q:智能音箱的價(jià)格大概會(huì)是多少?
謝殿俠:音箱的成本主要取決于硬件,喇叭的質(zhì)量、芯片板卡、外觀,然后是材質(zhì),還有軟件這塊的成本,當(dāng)然還有可能的內(nèi)容資源成本,比如版權(quán)音樂(lè)但不會(huì)太高,所以核心的成本還是在硬件上。目前我所知道的價(jià)格大概有的一千多的,有的是做三五百的,當(dāng)然三五百的各塊的品質(zhì)是相對(duì)有限,但是基本上一千塊錢左右的,作為一個(gè)喇叭,它的質(zhì)量已經(jīng)非常好了,再加上語(yǔ)音交互,結(jié)合好的內(nèi)容,這個(gè)體驗(yàn)是相當(dāng)不錯(cuò)。
Q:人人都有自己的 bot,平行世界的自己?
謝殿俠:我這兒說(shuō)的人人有自己的機(jī)器人,可能跟平行世界里的自己還有點(diǎn)不一樣,平行世界自己是你的影子,現(xiàn)在我們可能側(cè)重的還在于說(shuō)為你服務(wù)的機(jī)器人。就像過(guò)去的皇帝, 以后每個(gè)人都可以是皇帝,因?yàn)槟阋部梢杂腥龑m六院,七十二妃,文武百官,不過(guò)都是機(jī)器人,不管是什么形態(tài)。音樂(lè)背后可以是一個(gè)機(jī)器人,實(shí)際上新聞也可以是一個(gè)機(jī)器人,導(dǎo)購(gòu)也可以是機(jī)器人,換句話說(shuō),以后所有的服務(wù)都可以用機(jī)器人來(lái)做,就好像電腦上用網(wǎng)頁(yè)來(lái)為大家提供服務(wù),手機(jī)app為大家服務(wù)一樣。所有人能提供的服務(wù),未來(lái)都可能會(huì)讓機(jī)器人先在前端來(lái)提供。當(dāng)然這個(gè)機(jī)器人的形態(tài)可能體現(xiàn)在智能硬件上,尤其智能音箱,結(jié)合到app里面也可以,放在網(wǎng)頁(yè)上也沒(méi)問(wèn)題。而且機(jī)器人適應(yīng)我、習(xí)慣我后,機(jī)器人就和我就建立了一個(gè)關(guān)系,機(jī)器人熟悉了我的性格、我的偏好、甚至我的脾氣,這時(shí),機(jī)器人成為一個(gè)與我非常熟的朋友。這時(shí)的機(jī)器人有兩個(gè)特點(diǎn):第一這個(gè)機(jī)器人非常專業(yè),第二這個(gè)機(jī)器人與我非常默契。
所以我們說(shuō)的個(gè)性化的平臺(tái),除了不同的品牌的機(jī)器人會(huì)有不同個(gè)性化特點(diǎn);另外,即便同一個(gè)機(jī)器人在服務(wù)不同用戶的時(shí)候可以和用戶建立獨(dú)特的關(guān)系。比如最基本的你可以叫機(jī)器人小狗或者小貓、翠花,機(jī)器人也會(huì)問(wèn)你,請(qǐng)問(wèn)我怎么稱呼你,你可以讓它叫你老爺、老王等等。(本文獨(dú)家首發(fā)鈦媒體,根據(jù)海知智能創(chuàng)始人、 CEO謝殿俠在鈦坦白上的分享整理)
………………………………………………
鈦坦白第27期,也是“AI已來(lái)”系列第一期,六位鈦客的精彩分享已經(jīng)結(jié)束,干貨會(huì)陸續(xù)發(fā)布:http://m.chcmb.cn/tag/1508094
時(shí)間:12月26日、27日19點(diǎn)-22點(diǎn)
地點(diǎn):鈦坦白|人工智能(微信群)
報(bào)名入群:在微信公號(hào)“鈦媒體”(taimeiti),發(fā)送“鈦坦白”
推薦鈦客、贊助、合作:請(qǐng)與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
你預(yù)測(cè)對(duì)了
還可以