在12月15日的2018 T-EDGE 全球創(chuàng)新大會(huì)上,阿里巴巴人工智能實(shí)驗(yàn)室語(yǔ)音助手首席科學(xué)家聶再清發(fā)表了主題演講。圍繞語(yǔ)音交互的下一代發(fā)展,聶再清從阿里巴巴對(duì)語(yǔ)音、語(yǔ)義、人機(jī)交互的理解與落地場(chǎng)景進(jìn)行了闡述。
在聶再清看來(lái),AI 新技術(shù)正在打造下一代人機(jī)交互方式,這也是人把物理世界數(shù)字化的人機(jī)交互過(guò)程,而語(yǔ)音助手則成為當(dāng)下AI 落地的一個(gè)熱門(mén)場(chǎng)景。
這也解釋了當(dāng)下智能音箱的風(fēng)靡。不論是訂外賣(mài)、拉窗簾、聽(tīng)音樂(lè),語(yǔ)音交互技術(shù)已經(jīng)進(jìn)入消費(fèi)的日常生活,據(jù)了解,由阿里巴巴推出的智能音箱“天貓精靈”,自面世不到一年(從2017年8月8日正式開(kāi)售到2018年7月5日),銷(xiāo)售量就突破了500萬(wàn)臺(tái),今年雙十一期間更是成為了消費(fèi)電子行業(yè)(天貓平臺(tái))單品銷(xiāo)量冠軍。
談及人工智能領(lǐng)域自然語(yǔ)言理解技術(shù)的挑戰(zhàn),聶再清表示,挑戰(zhàn)主要來(lái)自自然語(yǔ)言理解的多樣性和歧義性。
因此,阿里巴巴正在根據(jù)公開(kāi)大數(shù)據(jù)自動(dòng)生成語(yǔ)料來(lái)解決冷啟動(dòng)語(yǔ)料缺乏問(wèn)題,利用融合知識(shí)圖譜和用戶畫(huà)像的深度學(xué)習(xí)算法打造強(qiáng)大的語(yǔ)義理解能力,以及通過(guò)深度強(qiáng)化學(xué)習(xí)方法在與用戶的聊天中自動(dòng)學(xué)習(xí)最佳人機(jī)對(duì)話策略。
“語(yǔ)音助手已經(jīng)進(jìn)入大家的日常生活,需要各個(gè)開(kāi)發(fā)者參與其中,我們希望搭建簡(jiǎn)單易用的AI平臺(tái),把我們積累的人工智能技術(shù)和創(chuàng)新賦能給開(kāi)發(fā)者。”聶再清表示。
以下為聶再清在2018 T-EDGE 全球創(chuàng)新大會(huì)上的演講實(shí)錄,經(jīng)鈦媒體編輯后發(fā)布:
大家好,我是阿里巴巴人工智能實(shí)驗(yàn)室的聶再清,今天給大家分享的題目是“語(yǔ)音助手,下一代人機(jī)交互入口”,阿里巴巴人工智能實(shí)驗(yàn)室的一個(gè)重要使命就是用AI的新技術(shù)打造下一代的人機(jī)交互方式。
什么是我們認(rèn)為的人機(jī)交互方式?就是人類(lèi)把物理世界數(shù)字化時(shí)跟機(jī)器的交互過(guò)程,在座的可能有一些人經(jīng)歷了剛開(kāi)始只有用鍵盤(pán)和計(jì)算機(jī)交互的時(shí)代,用dos系統(tǒng)一行一行的輸入,人跟機(jī)器交互需要學(xué)習(xí)培訓(xùn),一般人不會(huì)用計(jì)算機(jī),慢慢我們有了圖形界面,我們用鼠標(biāo)點(diǎn)一下就可以,更多人不經(jīng)過(guò)培訓(xùn)就可以使用了。
現(xiàn)在大家正在用手機(jī)進(jìn)行物理世界的數(shù)字化。所有人,包括老年人,包括幾歲的小孩都可以用手機(jī)觸達(dá)數(shù)字世界,并不斷數(shù)字化物理世界的很多信息。你通過(guò)微信或釘釘確認(rèn)一個(gè)好友邀請(qǐng),就是把物理世界的好友關(guān)系數(shù)字化,你看到帳號(hào)上的信息,就是看到你銀行的數(shù)字世界的信息。這種通過(guò)手機(jī)的觸屏交互方式越來(lái)越自然,學(xué)習(xí)成本非常底,幾乎人人都參與進(jìn)來(lái)了,也極大地豐富了我們?cè)贫说臄?shù)字世界的內(nèi)容。
但這也有一個(gè)壞處,很多人都在長(zhǎng)時(shí)間地低頭玩手機(jī),甚至有一個(gè)新詞“低頭族”來(lái)描述這一現(xiàn)象,描繪的就是大量的人把大量時(shí)間放在通過(guò)手機(jī)和數(shù)字世界的交互上,這種生活方式不是非常健康的,我們希望一個(gè)更健康更自然的交互方式,這個(gè)方式就是我們認(rèn)為的語(yǔ)音助手。
剛開(kāi)始,智能音箱和語(yǔ)音助手在美國(guó)很受歡迎,而現(xiàn)在我們知道中國(guó)用戶更喜歡這樣的方式。用數(shù)據(jù)說(shuō)一下,去年雙十一,我們只用九個(gè)小時(shí)就賣(mài)了一百萬(wàn)臺(tái)智能音箱,從一年前天貓精靈面世開(kāi)始不到一年就賣(mài)了五百萬(wàn)臺(tái)。今年,我們已經(jīng)成為電子消費(fèi)行業(yè)在天貓平臺(tái)上雙十一的銷(xiāo)量冠軍,智能音箱在雙十一期間也超過(guò)了手機(jī)這個(gè)品類(lèi)的銷(xiāo)量。天貓精靈已經(jīng)成為最受歡迎的中文語(yǔ)音助手(智能音箱),在全球智能音箱市場(chǎng)也是第三(在Amazon和Google之后)。
語(yǔ)音助手已經(jīng)在進(jìn)入每個(gè)人的日常生活,有很多場(chǎng)景都可以使用語(yǔ)音助手,比如早上起床后開(kāi)燈開(kāi)窗簾;收聽(tīng)天氣預(yù)報(bào)以及新聞;中午可以訂外賣(mài),到了晚上睡覺(jué)前可以聽(tīng)著最喜歡的輕音樂(lè)入睡……在一天24小時(shí)里,很多的場(chǎng)景都可以幫助到。
如果把語(yǔ)音助手變成大家的第一個(gè)交互入口的話,我們需要各行各業(yè)的開(kāi)發(fā)者都加入進(jìn)來(lái),把他們的內(nèi)容、服務(wù)、基礎(chǔ)設(shè)施都連上我們的助手。甚至我們?cè)诒本┑囊患茵B(yǎng)老院都安裝了天貓精靈,幫助行動(dòng)不便的老人用語(yǔ)音控制家電。老人們都非常喜歡,因?yàn)槟軒椭麄冏龊芏嗍虑椤?/strong>
為了讓每個(gè)開(kāi)發(fā)者都能參與打造我們的語(yǔ)音助手,我們希望搭建簡(jiǎn)單易用的AI平臺(tái),把我們積累的人工智能技術(shù)和創(chuàng)新賦能給開(kāi)發(fā)者。我們推出了AliGenie這個(gè)語(yǔ)音助手平臺(tái)。這個(gè)平臺(tái)涵蓋了一個(gè)又全又準(zhǔn)的知識(shí)圖譜,不僅僅是百科的知識(shí),還有優(yōu)酷的知識(shí),有蝦米音頻的知識(shí)。
我們把通用的百科知識(shí)和這些Vertical的知識(shí)結(jié)合起來(lái),把物理世界的人和物一一對(duì)應(yīng)到我們的知識(shí)圖譜上去?;谶@個(gè)圖譜,AliGenie提供四種基本AI能力:語(yǔ)音識(shí)別能力、自然語(yǔ)言處理能力、語(yǔ)音合成的能力、還有用戶畫(huà)像和個(gè)性化推薦的能力。
任何一個(gè)開(kāi)發(fā)者就可以使用到這四種基本的能力,這四個(gè)基本能力之上,我們還提供四種類(lèi)型的對(duì)話:
第一種,業(yè)務(wù)完成,比如說(shuō)打開(kāi)燈和窗簾這種任務(wù),天貓精靈可以幫你通過(guò)對(duì)話形式解決;
第二種,知識(shí)問(wèn)答,就是你有一個(gè)問(wèn)題,天貓精靈能夠把你的每個(gè)問(wèn)題都回答好。
第三種,智能聊天,是我自己提出來(lái)的,這個(gè)聊天和我們的閑聊有很大的區(qū)別,待會(huì)兒我還會(huì)重點(diǎn)介紹;
最后一種,閑聊,是能夠接住用戶的任何一句輸入的聊天服務(wù)。
由于時(shí)間關(guān)系,今天我主要介紹一下自然語(yǔ)言理解和智能聊天。
什么是語(yǔ)音助手里的自然語(yǔ)言理解?舉例來(lái)說(shuō),你問(wèn)天貓精靈明天天氣怎么樣,它需要了解用戶意圖是要了解天氣預(yù)報(bào),這個(gè)工作就是意圖識(shí)別(intent detection);天貓精靈還需要從用戶請(qǐng)求里獲得兩個(gè)參數(shù):一個(gè)是時(shí)間一個(gè)是地點(diǎn),我們要把“明天”、“北京”這個(gè)時(shí)間和地點(diǎn)作為參數(shù)輸入給API,這個(gè)工作就是槽填充(slot filling);知道了意圖和槽值(以及上下文),讓天貓精靈決定下一步要做什么,是對(duì)話管理(dialog management);所以自然語(yǔ)言理解在智能助手里面做三件事:意圖識(shí)別、槽填充、對(duì)話管理。
講講這三件事的挑戰(zhàn),以及我們?cè)趺唇鉀Q的。
大家都知道,自然語(yǔ)言理解是人工智能里面最難的范疇,它的挑戰(zhàn)主要來(lái)自于哪里?來(lái)自于自然語(yǔ)言的多樣性和歧義性。
“明天天氣怎么樣”有幾十萬(wàn)種說(shuō)法,如果我們沒(méi)有足夠的訓(xùn)練數(shù)據(jù)的話,你的智能助手沒(méi)有理解對(duì),用戶會(huì)認(rèn)為是智障,大家對(duì)它的期待很高,所以我們?cè)趺茨茏尣皇菣C(jī)器學(xué)習(xí)專(zhuān)家的開(kāi)發(fā)者的人也能夠開(kāi)發(fā)這類(lèi)應(yīng)用,這是我們平臺(tái)要做的事情。
現(xiàn)在我們主要的解決方案是按照公開(kāi)大數(shù)據(jù)自動(dòng)生成的語(yǔ)料讓開(kāi)發(fā)人員標(biāo)注,用一個(gè)基于規(guī)則的方法自動(dòng)解決冷啟動(dòng)是語(yǔ)料缺乏的問(wèn)題,利用融合知識(shí)圖譜和用戶畫(huà)像的深度學(xué)習(xí)算法打造強(qiáng)大的語(yǔ)義理解能力,以及通過(guò)深度強(qiáng)化學(xué)習(xí)方法在與用戶的聊天中自動(dòng)學(xué)習(xí)最佳人機(jī)對(duì)話策略。
下面我介紹一下我們?cè)谘邪l(fā)的智能聊天能力。
作為對(duì)比,先看看什么是閑聊。閑聊是一種基于人類(lèi)曾經(jīng)發(fā)生過(guò)的對(duì)話庫(kù)來(lái)回答用戶請(qǐng)求服務(wù)。在閑聊技術(shù)體系里,機(jī)器并不需要真正理解用戶的請(qǐng)求。閑聊有幾個(gè)特點(diǎn),一般都是單輪或者很少的輪數(shù),它的好處是任何話題都能接住。閑聊的用處在于接住用戶的每一句請(qǐng)求,不讓用戶因?yàn)樘熵埦`聽(tīng)不懂他/她的某一句話就不和天貓精靈玩了。
但我不希望跟用戶進(jìn)行太長(zhǎng)時(shí)間的閑聊,因?yàn)槿绻脩舾熵埦`聊一百輪閑聊,用戶還是記不住什么東西,這是在浪費(fèi)用戶的時(shí)間。這是不符合我們的價(jià)值觀,我們希望人能夠通過(guò)我們聊天能夠?qū)W到知識(shí),或者變得更加快樂(lè)。
再來(lái)看看智能聊天。
智能聊天需要要理解用戶請(qǐng)求,同時(shí)用強(qiáng)大的知識(shí)圖譜制作聊天的知識(shí)點(diǎn),通過(guò)跟用戶對(duì)話,把我們知識(shí)圖譜里面的知識(shí)灌輸給用戶。我們希望跟用戶聊的越多越好,他會(huì)學(xué)到很多知識(shí),我們希望用戶聊完以后學(xué)到知識(shí)并慢慢變成我們的朋友。
智能聊天是能用深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)對(duì)話策略的,因?yàn)榫退闾熵埦`聊錯(cuò)一點(diǎn),沒(méi)有多大的關(guān)系,用戶只是會(huì)對(duì)這個(gè)回復(fù)不太高興(不像任務(wù)完成時(shí)需要100%準(zhǔn)確完成主人的任務(wù))。通過(guò)深度強(qiáng)化學(xué)習(xí),下次天貓精靈就可能更好地知道到底應(yīng)該怎么和這類(lèi)用戶聊天。我認(rèn)為深度強(qiáng)化學(xué)習(xí)能夠應(yīng)用在智能聊天的對(duì)話策略學(xué)習(xí)這個(gè)領(lǐng)域。
總結(jié)一下,語(yǔ)音助手已經(jīng)進(jìn)入大家的日常生活,需要各個(gè)開(kāi)發(fā)者參與其中,我們希望搭建簡(jiǎn)單易用的AI平臺(tái),把我們積累的人工智能技術(shù)和創(chuàng)新賦能給開(kāi)發(fā)者。以上就是我全部的演講內(nèi)容,謝謝大家。
(本文首發(fā)鈦媒體,編輯蘇建勛整理)






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論