搜狗地圖總經(jīng)理孔祥來
鈦媒體注:鈦媒體T-EDGE國際年度盛典,作為鈦媒體年度最重要、在科技領(lǐng)域最舉足輕重的年度國際峰會,每一年年末希望能夠?qū)Ξ?dāng)年發(fā)生的和未來可能發(fā)生的做一些重要盤點和預(yù)判,同時,搭建一個平臺通過線上線下交流,助力全球前沿創(chuàng)新者的價值發(fā)現(xiàn)與落地。
12月17日,搜狗地圖總經(jīng)理孔祥來在鈦媒體T-EDGE國際年度盛典上分享了搜狗智能副駕這款語音交互產(chǎn)品開發(fā)歷程與用戶體驗,
在孔祥來看來,目前我們所接觸的所有交互方式中,只有語音才是在車內(nèi)場景中最合理的交互方式,因為當(dāng)你在開車的時候,你的手、眼都屬于被占用的一個狀態(tài),想要安全駕駛就不能因此分心。
目前的汽車廠商與導(dǎo)航供應(yīng)商在車內(nèi)都有類似的解決方案,但是經(jīng)過實際體驗它們的產(chǎn)品并不能完全解決用戶痛點,搜狗智能副駕的研發(fā)初衷正是圍繞這些尚未被解決的痛點進(jìn)行的。
傳統(tǒng)模式的語音基本上是這樣一個漏斗的模型。第一級:語音識別率。第二級:受限于語意理解的正確率。第三級:受限于搜索的正確率。
搜狗智能副駕所強(qiáng)調(diào)的語音交互,并不是簡單地用語音識別把用戶說的話簡單翻譯過來就結(jié)束了,而是要通過后續(xù)一系列的語意、地圖層面做一些分析工作,最終給用戶一個正確的反饋結(jié)果。
今天我想要介紹的搜狗智能副駕,這里面有相當(dāng)一部分技術(shù)其實跟同傳也是相關(guān)的,也就是搜狗語音技術(shù),搜狗在過去一年以來在AI領(lǐng)域里面所做的嘗試,即把語音識別技術(shù)、語意理解技術(shù)和地圖導(dǎo)航技術(shù)結(jié)合起來,在汽車場景中向用戶提供內(nèi)容解決方案。
在介紹“搜狗智能副駕”之前,先給大家看一下,我們所調(diào)查到的用戶在車內(nèi)的一個需求的情況?,F(xiàn)在我們發(fā)現(xiàn),用戶在車內(nèi)信息交互的需求,其實主要就是兩類,一類是駕駛相關(guān)的,比如說導(dǎo)航、路況、沿途信息等,大概要占到92%。還有一類是互聯(lián)網(wǎng)相關(guān)的,比如說聽音樂、廣播、新聞、聊微信等這些東西,用戶在車內(nèi)的信息交互需求,占比最高的主要就是這兩類。
目前,用戶的這種需求是怎么被滿足的呢?在汽車場景里面,凡是用戶想聽歌、打電話的時候,汽車制造商都已經(jīng)為用戶提供了一些解決方案,但是以前主要都是基于物理的這種按鍵或旋紐,很不方便,所以我們也注意到在最近的一兩年里邊,汽車制造商已經(jīng)開始把這種語音識別的技術(shù)引入到車內(nèi)來。
語音交互毫無疑問是在車?yán)锩嬉粋€最合理的一種交互方式,因為畢竟你在開車的時候,你的手跟、眼都是屬于被占用的一個狀態(tài)。
汽車廠商做出來的語音交互主要問題就是聽不懂,你跟系統(tǒng)絮絮叨叨說了半天,系統(tǒng)只按它自己的邏輯去解釋,你如果不按它的方法來輸入指令的話,它就拒絕配合你。
現(xiàn)在除了汽車廠商在提供這種語音交互的這種解決方案之外,互聯(lián)網(wǎng)廠商不是也在做這些事情嗎?有很多的互聯(lián)網(wǎng)廠商現(xiàn)在已經(jīng)開始在自己的車內(nèi)的場景里,比如導(dǎo)航功能中開始植入這種語音交互的能力,互聯(lián)網(wǎng)廠商目前做得怎么樣?
導(dǎo)航供應(yīng)商所提供的語音交互的表現(xiàn)主要所反應(yīng)出來的問題其實就是說不清,我們知道語音交互它是個雙向的概念,不光是你說的東西機(jī)器能聽懂,同時機(jī)器也應(yīng)該說人能聽懂的東西,不能當(dāng)人說完了之后,機(jī)器只管把結(jié)果給你列出來,然后讓你再去重新選擇和交互,如果是這樣一種交互方式的話,在車內(nèi)毫無疑問是非常不安全的。
所以,我們總結(jié)下來就是,就目前來看,用戶體驗到的語音交互,要么就是聽不懂,要不就是說不清,用戶真正需要的語音交互是什么呢?它是需要一個自然的語言對話,能夠聽懂用戶想要什么,能夠像人一樣地去講出這個答案。下面我們看一下,我們認(rèn)為真正的語音交互應(yīng)該是什么樣的。
這就是我們想為大家推出的搜狗智能副駕的一個初衷,我們希望真正能在車內(nèi),用戶是以這樣一種交互方式去跟系統(tǒng)打交道的,而我們這個產(chǎn)品實際已經(jīng)在7月初的時候發(fā)布了,現(xiàn)在安卓和iPhone手機(jī)都可以下載搜狗地圖,搜狗地圖里面會有一個模式叫做智能副駕,進(jìn)到這個模式之后就可以跟汪仔進(jìn)行語音交互,你可以說出你的需求是什么,它對話的方式大概就是這樣的。
你先喚醒它,比如“你好汪仔”,他就會問你要去哪兒,你說去奧森,它知道奧森是有南門跟北門的,于是乎它會說奧森有兩個你去哪一個,是南門還是北門。如果你說南門,最終它就會找到奧森的南門并且自動為你啟動導(dǎo)航。
大家不要小看這個簡單的過程,實際上這個過程背后是有非常復(fù)雜的技術(shù)的支撐,才能保證有這樣一個良好的體驗的。在汽車上的一個智能助手,如果想做到一個良好的語音交互體驗的話,我們認(rèn)為有4點需要做到:
第一個,聽得對。這是最基本的,當(dāng)用戶說出一段話后能夠正確地轉(zhuǎn)譯成文字。
第二個,聽得懂。就是你光聽對了不行,你得知道他想表達(dá)什么,什么意思。
第三個,能夠說。幫用戶搜索到結(jié)果反饋后,需要正確地把它表達(dá)出來。
第四個,要有相關(guān)非常豐富的知識,否則無法解決想要的問題。
我們來看一個實際的例子,比如說用戶對系統(tǒng)說要去某個地方,系統(tǒng)會識別到很多的可能性,進(jìn)入到語意分析環(huán)節(jié),當(dāng)我們把地圖引入進(jìn)來的時候,決策后會發(fā)現(xiàn)某個地方的概率更高,所以最終分析下來用戶應(yīng)該想去這個地方。
我說這個例子是想跟大家說,在聽得對這個環(huán)節(jié),不是簡單地用語音識別把用戶說的話簡單翻譯過來就結(jié)束了,而是說你要通過后續(xù)的一系列的像語意、地圖層面做的一些分析的工作,然后你才能知道用戶說的哪一個是對的。通過這個例子就能發(fā)現(xiàn),我們通過語意和地圖的糾錯,使最終系統(tǒng)選出了正確的目的地。
像我們剛才在視頻里看到的一些例子,比如你想在路上順便加油、吃麥當(dāng)勞等行為,目前在搜狗一個龐大的語意網(wǎng)絡(luò)里面,已經(jīng)能夠聽懂10萬個類似像這樣的語意路徑,也就說你表達(dá)一種需求,你可能有不同的說法,在語意分析引擎這邊,它能夠兼容很多種說法,現(xiàn)在我們整個的對話路徑已經(jīng)超過了10萬個。
接下來我們來看看,比如說在傳統(tǒng)語音交互里面,你說你要去首都機(jī)場的時候,它會說我給你找到5個目的地,我們的做法是直接精簡成你要去哪個航站樓或者航班號(這樣只有15個字),這種方式就是用戶所能接受的非常自然的語音交互。
所有的這些能夠聽得懂,是建立在一個非常重要的基礎(chǔ)上,我們對地圖數(shù)據(jù)做了非常重要的重構(gòu),我們把這個稱之為主子關(guān)系,我們大概能夠挖掘出500多萬的主子關(guān)系。
除了主子關(guān)系還有所謂的容器關(guān)系(比如說搜狗公司在搜狗網(wǎng)絡(luò)大廈里面),還有很多的商圈地片,當(dāng)你說你要去大鐘寺的時候,不是簡單給你導(dǎo)到大鐘寺地鐵站,而是問你要去大鐘寺的什么地方,這些都是我們定義的叫做地圖知識。
除了地圖知識之外還有很多跨域的知識,像航班、洗車、車站等都是我們所謂的有知識的范疇。傳統(tǒng)模式的語音基本上是這樣一個漏斗的模型:
第一級:語音識別率。
第二級:受限于語意理解的正確率。
第三級:受限于搜索的正確率。
最終一個漏斗剩下來,會話的成功率只有68.4%,大家可能會疑問怎么第一個環(huán)節(jié)語音識別正確率只有80%,這是因為現(xiàn)在有很多的語音的識別雖然都說自己的所謂字正確率能夠達(dá)到90%幾,但是你一旦把它變成一個句子的話,馬上迅速地識別率就會下降下來。
而搜狗這邊的做法是,每一級我們都會有一個糾錯,都會根據(jù)后面的結(jié)果對前面進(jìn)行反向糾錯的過程。我們最后做下來的話,會話成功率能夠做到90%,這個都是搜狗的自有技術(shù)。
搜狗這次所提供的智能副駕,核心關(guān)鍵點是在于所有的東西全部都是自己的核心技術(shù),能夠確保有最佳的用戶體驗,屬于一個技術(shù)與體驗的閉環(huán)。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論