圖片來源:視覺中國

在鈦媒體在線課“鈦坦白”第47期,我們邀請了三位鈦客分享對于人機(jī)交互方式中的語音交互的看法。本期鈦客之一、奇點機(jī)智聯(lián)合創(chuàng)始人兼CTO林德康,是國際計算語言學(xué)學(xué)會會士(ACL Fellow),前Google研究院高級管理科學(xué)家(senior staff research scientist),在加入Google之前擔(dān)任加拿大阿爾伯塔大學(xué)計算機(jī)教授。他在自然語言處理及理解領(lǐng)域總共發(fā)表過90余篇論文,其研究總計被引用超過14000次,對自然語言解析和詞匯語義做出重要貢獻(xiàn)。

本文節(jié)選自林德康在鈦坦白的分享。如果您還不是鈦媒體Pro用戶,希望查看鈦坦白所有干貨,進(jìn)入鈦坦白九個專業(yè)群交流,并查看更豐富的專業(yè)數(shù)據(jù)和信息,可點擊:http://m.chcmb.cn/pro 注冊。

以下根據(jù)林德康在鈦坦白的分享實錄整理:  

大家好,很高興和大家聊聊語音交互這個話題,我們公司正在做一個專為Android生態(tài)所打造的應(yīng)用助手,用戶通過語音的方式即可操控手機(jī)應(yīng)用中的各項功能,因此正好有一些心得經(jīng)驗可以和大家分享。

語音助手將成為下一代搜索的核心

2016年是人工智能元年,智能語音技術(shù)作為人工智能應(yīng)用最成熟的技術(shù)之一,在智能助手、智能家居、智能車載、智能可穿戴領(lǐng)域有了迅猛發(fā)展。
全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

中國智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

中國智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長

據(jù)權(quán)威數(shù)據(jù)顯示,2016 年全球智能語音市場規(guī)模達(dá) 82.2億美元,同比增長 32.4%。中國智能語音產(chǎn)業(yè)市場規(guī)模也逐步擴(kuò)大,2016年59.2 億元產(chǎn)業(yè)規(guī)模,同比增長47.1%,預(yù)計2017年產(chǎn)業(yè)規(guī)模將突破100億,同比增長69.8%,且增速顯著高于全球市場,約占全球市場份額14%。 

人工智能也已被看作未來手機(jī)發(fā)展的重要方向之一,從蘋果iPhone的 Siri 到微軟Windows phone的Cortana,從谷歌Pixel的 Google Assistant到三星S8的 Bixby,從華為Mate 9內(nèi)置的Alexa到HTC U11的DuerOS,現(xiàn)在幾乎每一款旗艦智能手機(jī),都內(nèi)置了一位“虛擬助手”。
語音識別技術(shù)的進(jìn)步

語音識別技術(shù)的進(jìn)步

在深度學(xué)習(xí)出現(xiàn)以后,語音識別從幾乎每一句都有錯誤到現(xiàn)在接近人類的水平,可以說有非常大的進(jìn)步。語音助手也不再只是機(jī)械式地與用戶互動,而是能夠智能化的分析和感知用戶思想?,F(xiàn)在的語音交互,與其他交互方式相比,具有三個優(yōu)勢:

一是語音交互的速度快。斯坦福有一項研究表明,語音輸入的速度是鍵盤輸入的三倍。

二是語音界面是扁平化的。任何一個功能都可以依據(jù)指令直接到達(dá)。比如微信里的功能通常需要幾個甚至十幾個點擊才能完成,而用語音說一句就行了。

三是不需要學(xué)習(xí)。通常每個應(yīng)用都是經(jīng)過學(xué)習(xí)以后才會使用,但使用語音就可以省略學(xué)習(xí)的過程。

據(jù)市場研究公司Fivesight調(diào)查,約有72%的美國用戶已將語音助手作為對搜索引擎的補(bǔ)充,Siri已成為僅次谷歌之后的第二大移動“搜索引擎”。市場推動下,智能語音助手將成為下一代搜索的核心,以及新生態(tài)的核心。

語音交互+圖形界面是最好的組合

語音交互過程通常由三部分構(gòu)成:第一步,把聲音轉(zhuǎn)成文字(語音識別);第二步,把文字轉(zhuǎn)換成意圖;第三步,把意圖變成可以執(zhí)行的命令,調(diào)用各應(yīng)用API或網(wǎng)頁來完成指令。也就是說,第三步舍棄了你手機(jī)里的APP和其原有界面,直接在語音助手上集成功能,如打車、外賣等。

那么,對于一個語音助手開發(fā)者來說,前兩步,比的是AI團(tuán)隊多強(qiáng)大,第三步,比的是你的BD團(tuán)隊多強(qiáng)大。

現(xiàn)在的手機(jī)助手一般是用一個聊天界面跟后臺服務(wù)對接,谷歌的手機(jī)助手就集成了谷歌里的問答、導(dǎo)航、本地搜索等多種服務(wù)。這個提供問答功能的系統(tǒng)就是我在谷歌的團(tuán)隊做的網(wǎng)頁問答系統(tǒng),你還可以問它天氣情況,它顯示的是華氏度,如果你問攝氏度是多少,它就會把同樣的答案用攝氏度回答出來。

但“對話框+后臺服務(wù)“也有不盡人意的地方,比如連接后臺服務(wù)是一個相當(dāng)復(fù)雜的過程, 通常需要工程師去完成。還有在對話框里重現(xiàn)用戶體驗不是一件容易的事情。還經(jīng)常做得不如原生應(yīng)用好。再者語音助手和后臺服務(wù)的經(jīng)濟(jì)利益可能會有沖突。比如航班搜索,它只列出了航班和價格,但是如果需要下單就不在應(yīng)用助手頁面里了。
命令行界面:1d

命令行界面:1d

圖形界面:2d

圖形界面:2d

對話界面:1.5d?

對話界面:1.5d

在從前,命令行界面是很常見的界面,但現(xiàn)在的年輕人也許根本就沒見過,微軟DOS操作系統(tǒng)的命令行界面,因為只能在一行里輸入,所以我稱它是“一維”的,我們熟悉的圖形界面是“二維”的,而對話框界面退了半步是“1.5維”。

圖形界面具有很多的優(yōu)點,比如語音輸入的速度比敲鍵盤要快得多,但是視覺能夠收到的信息要比聽到的信息快得多,所以最好的組合是把語音和圖形界面結(jié)合起來,在圖形界面上增加了一層語音交互,原有的圖形交互不僅可以繼續(xù)使用,在應(yīng)用里的任何地方還可以用語音交互,這樣,就形成了一個立體“三維”界面。

語音助手“小不點”如何實現(xiàn)自主學(xué)習(xí)功能?

小不點與常見的手機(jī)助手有兩點主要的不同:

一是小不點不會將用戶局限在語音助手的對話框里。而 Siri、Google Assistant 等常見的語音助手,都是以應(yīng)用程序界面的形式出現(xiàn),即用戶與助手的交互鎖定在同一個對話框內(nèi)。

這涉及到用戶體驗重構(gòu)的問題。例如,當(dāng)你在攜程 APP 上購買機(jī)票時,可以按照時間、價格等因素排序,也可以篩選只考慮某一航空公司的飛機(jī)。但想要在語音助手的對話框內(nèi)實現(xiàn)這些功能非常困難,然而這些功能又恰好是用戶的需求所在。小不點的操作模式是直接將用戶帶入 APP 頁面,自然利用 APP 已經(jīng)實現(xiàn)的功能模塊,不需要再對應(yīng)用程序進(jìn)行重構(gòu)。

二是小不點代替用戶手指點擊界面,這繞開了語音助手對接應(yīng)用程序 API 接口時所遇到的商務(wù)拓展難題。與 Deepsahre 一樣,語音助手也普遍需要一家一家地談合作伙伴。實際上,用戶用得越多的應(yīng)用,越不愿意給你開 API 。因為它不需要你的流量,而且它也不知道開了 API 之后會有什么其他的影響。小不點繞開了 API 的限制,想要小不點“學(xué)會”使用某個 APP ,研發(fā)人員只需錄制這個 APP 相關(guān)功能使用時的點擊路徑即可。

目前,小不點已經(jīng)“學(xué)會”一百多個 APP 的使用方法,而這其中只有百度地圖等少數(shù)幾個應(yīng)用程序開放了允許第三方調(diào)用的 API 接口。有 API 可以調(diào)用的時候,我們當(dāng)然會用,因為 API 的響應(yīng)速度很快。比如百度提供了導(dǎo)航的API,我們就不必用模擬點擊來完成導(dǎo)航任務(wù),而是直接調(diào)用API達(dá)到結(jié)果。

一旦遇到小不點目前還沒有實現(xiàn)的APP操作,其中的智能學(xué)習(xí)功能則可以發(fā)揮作用。當(dāng)用戶激活學(xué)習(xí)功能后,只需按照平時的步驟操作,小不點會自動記錄,用戶日后再次下達(dá)指令后,自動完成所有操作和跳轉(zhuǎn)。目前,安卓應(yīng)用商店有約 280 萬個應(yīng)用,團(tuán)隊無法靠蠻力記錄所有應(yīng)用程序的所有操作路徑。因此,小不點自帶的“學(xué)習(xí)”功能,此時就派上了用場。 

比如我想查手機(jī)上的流量,小不點幫我做的是在百度上搜索“查流量”,但“小不點”的好處是用戶可以教它從前不會做或做錯的事情,例如先教它查詢流量的過程,再對它說“查詢流量”就可以達(dá)到我的目的了。用戶教給小不點的命令馬上就可以使用,甚至可以分享給別人。我想很多人都體驗過給父母做技術(shù)支持是一件相當(dāng)不容易的事情,如果很多人教給小不點同一個命令,我們就會把它加到公共庫里,這樣所有人都可以使用,小不點就會越用越好用,越用越懂你。

教“小不點”查看流量

關(guān)于“小不點”錄制過程的探討

群友A:剛才您教小不點查流量時,“小不點”很快就學(xué)會了,速度很快,能稍微詳細(xì)一點兒介紹一下它的學(xué)習(xí)機(jī)制/原理嗎? 

林德康:“小不點”是用程序點擊, 所以比人點得快得多。在錄制模式里,用戶每一個點擊都被我們記下來,然后根據(jù)用戶說的語句進(jìn)行推廣。這樣的話,假如你錄了“打車去西直門”,以后再說“打車去國貿(mào)”小不點也會做。

群友A:要從用戶的輸入里提煉出一個核心的命令詞進(jìn)行推廣嗎?比如 “打車去西直門”里的“打車”? 

林德康:大多數(shù)時候,這事不難。如果用戶說了“西直門”,又把“西直門”填在一個搜索框里,這多半就是參數(shù)。泛化需要詞向量,查流量的例子其實不需要參數(shù),所以只要記住用戶語句和操作序列的對應(yīng)就好了。

群友:以后它會操作"打車去國貿(mào)" 是根據(jù)"國貿(mào)"跟"西直門"在詞庫里是相近詞來判斷的嗎?需不需要也識別"打車"這個動詞呢?

林德康:“國貿(mào)”和“西直門”是同一類東西,可以通過無監(jiān)督學(xué)習(xí)的辦法得到,它們的詞向量會很像。“打車”是需要識別的。

群友B:大部分的命令都需要用戶先錄嗎?

林德康:我們需要“小不點”先能完成很多命令,這樣才會有人用。希望以后的大部分命令是用戶錄制的。

群友B:很多日常用的命令不是很有重復(fù)性,花很多時間錄制,只用一次兩次。用戶是否愿意去一個個命令去錄呢?

林德康:應(yīng)該只有少部分用戶錄制命令就可以了,因為一旦錄下來,所有人都有可能用到。

群友B:因為是程序,比人手點擊快得多,會按人錄入的完整點擊操作嗎?是不是有多余步驟?多占了存儲?

林德康:其他應(yīng)用使用小不點會占些存儲,但是點擊本身并不需要多占存儲。

(本文獨家首發(fā)鈦媒體,根據(jù)ACL會士、奇點機(jī)智聯(lián)合創(chuàng)始人林德康在鈦坦白上的分享整理) 

……………………………………………………   

 鈦坦白第48期:透視基層醫(yī)療 

詳情:http://m.chcmb.cn/2709410.html 

本文系作者 葛佳音 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 不過還有很多難關(guān)需要克服,但隨著技術(shù)的發(fā)展,像咪咕靈犀,siri這樣的,未來說不定能改變我們的生活方式。

    回復(fù) 2017.08.01 · via pc

快報

更多

20:34

大風(fēng)、降水來襲,長江江蘇段部分區(qū)域?qū)嵤┡R時交通管制

19:59

國航C919正式投入北京—廈門、北京—哈爾濱兩條航線運營

19:57

中鋁國際:2025年歸母凈利潤2.58億元,同比增長16.47%

19:19

伊朗稱已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國外長通電話,討論地區(qū)局勢

18:35

2025年玩具(不含潮玩)國內(nèi)市場零售總額達(dá)1035.3億元

18:08

全國豬價跌破5元,創(chuàng)歷史新低

18:07

時代天使2025年實現(xiàn)收入3.7億美元,同比增長37.8%

17:57

電魂網(wǎng)絡(luò):擬投資4920萬元取得上海漫魂51%股權(quán)

17:51

美國1天超3000場反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長稱武裝部隊“正等著美軍地面行動”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭”

16:55

中信證券:配置上建議繼續(xù)堅守中國優(yōu)勢制造業(yè),靜待4月決斷

16:38

美國土安全部資金中斷進(jìn)入第44天,創(chuàng)美國史上最長政府部分“停擺”紀(jì)錄

16:17

北京啟動智能網(wǎng)聯(lián)新能源汽車商業(yè)保險開發(fā)應(yīng)用,統(tǒng)一適配L2至L4全級別智能網(wǎng)聯(lián)新能源汽車

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書,加速布局AI智能家居

16:15

中國國家創(chuàng)新指數(shù)綜合排名世界第9位,較上年提升1位

1

掃描下載App