思必馳首席科學(xué)家、聯(lián)合創(chuàng)始人俞凱

鈦媒體注:在7月15日鈦媒體和《商業(yè)價值》聯(lián)合主辦的2016移動互聯(lián)網(wǎng)創(chuàng)新大會(MIIC)上,思必馳首席科學(xué)家、聯(lián)合創(chuàng)始人俞凱以“人機交互中的認(rèn)知智能”為題進(jìn)行了演講。

俞凱認(rèn)為,從PC互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)到現(xiàn)在物聯(lián)網(wǎng)時代,這三個階段中有兩個最大不同:首先是信息數(shù)量的指數(shù)級增長;另外就是人機交互模式的變革。

到了物聯(lián)網(wǎng)時代,人機交互模式的主要特點就是通過語音進(jìn)行復(fù)雜的信息處理,這當(dāng)中最為依賴的技術(shù)就是 NLP(自然語言處理)與對話系統(tǒng),而對話系統(tǒng)又可分為三種技術(shù)類型:

1、問答式對話:提出問題后機器能夠告訴我答案,是告訴答案,不是告訴我各種可選擇的搜索結(jié)果,答案意味著要去篩選。

2、閑聊式對話:一個很典型的場景的就是初期的iPhone用戶調(diào)戲Siri,這類往往沒有商業(yè)模式但是體現(xiàn)了某種機器智能。

3、任務(wù)型對話:第三類是任務(wù)型對話,是能夠真的幫助你完成任務(wù)。比如說訂一杯咖啡,是買星巴克還是其他家,通過任務(wù)型對話幫你完成任務(wù),這是對話技術(shù)最關(guān)鍵的部分。

思必馳最重要的特點是把對話交互技術(shù)作為核心來組織各種各樣的語音智能,深耕垂直場景的語音交互技術(shù),現(xiàn)在主要是在做智能車載、智能家居、智能機器人的語音解決方案。

但同時思必馳意識到,這樣一類涉及到單純的語音界面,解決不到交互認(rèn)知的問題,要同時解決記憶、推理、建議以及相應(yīng)的一些決策的問題,一定要從人工智能和認(rèn)知計算的角度上解決問題。

俞凱強調(diào),語音交互與識別是兩種完全不同的概念,他表示:

“從交互平臺上講,不單單有感知,還要有認(rèn)知,這個就是所謂自然語言認(rèn)知交互的未來。把理解和決策表述這樣認(rèn)知技術(shù),與前端強大的識別技術(shù)結(jié)合在一起,進(jìn)行更多的搜索和數(shù)據(jù)處理,才能實現(xiàn)知識意義上更加自由的交互?!?/p>

(思必馳首席科學(xué)家、聯(lián)合創(chuàng)始人俞凱在2016MIIC上的演講視頻實錄)

以下是俞凱在2016移動互聯(lián)網(wǎng)創(chuàng)新大會(MIIC)上的演講全文,經(jīng)鈦媒體編輯:

我既是一個從業(yè)者也是一個研究者,今天想和大家分享一點不同的東西。提到語音,絕大部分人的第一個反應(yīng)是語音識別,希望講完以后大家知道語音交互和識別是兩種不同的概念。

縱觀智能交互發(fā)展史,其實互聯(lián)網(wǎng)經(jīng)歷了三個階段:第一個是PC互聯(lián)網(wǎng),第二個是移動互聯(lián)網(wǎng),第三個是硬件物聯(lián)網(wǎng),這三個階段有兩大不同的特點:

1、數(shù)量。手機數(shù)量是在十億這個級別,物聯(lián)網(wǎng)是百億級別,數(shù)量的增長對信息傳輸要求越來越高。
2、交互。屏幕越來越小,甚至到了智能硬件上屏幕都消失了,這使得人和機器交互的模式產(chǎn)生了天翻地覆的變化。

我這里大概列一下從80年代到目前人和機器進(jìn)行信息交互,我們整個一個發(fā)展歷程。

a.80年代的時候Windows32,不知道在座有多少人使用過,當(dāng)時的交互的界面主要是用來組織存儲;
b.90年代出現(xiàn)了互聯(lián)網(wǎng)之后,我們主要的交互模式是通過網(wǎng)站的瀏覽來實現(xiàn)復(fù)雜信息的獲??;
c.2000年,谷歌和百度這一類搜索引擎的出現(xiàn),使得獲取信息的交互方式變成搜索的模式,這個時候我們的人機交互載體都是鼠標(biāo)和鍵盤;
d.21世紀(jì)第一個十年,我們交互模式變了,變成可以用手機和智能硬件去搜索和處理。

這時候目標(biāo)不再是簡單的搜索,我估計現(xiàn)在幾乎沒有人在手機上的功能只是用瀏覽器搜索,我們可以下達(dá)很多命令,去讓手機幫忙完成,這個目標(biāo)是進(jìn)行信息本身的處理,既包括了信息的獲得,又包括了后端信息的處理。在這個過程當(dāng)中,很關(guān)鍵的一個模態(tài)就是所謂的交互。

物聯(lián)網(wǎng)時代的人機交互特點:交互

剛才說到在發(fā)展過程里面,人和機器交互的模式,如果想進(jìn)行復(fù)雜信息傳輸,沒有屏幕的時候,幾乎只能夠用語音,用語音是不是識別就夠了,曾經(jīng)有人暢想識別就夠了,這一撥人就是蘋果,讓我們看一下蘋果是怎么暢想的。

你們可以看到,機器是被動地執(zhí)行人類命令的助理,這個過程當(dāng)中很重要的一件事情是機器對人的任何命令都能準(zhǔn)確識別,然后可以和人進(jìn)行對話和相應(yīng)的交互,完成人的指令。

實際上在iPhone真正發(fā)展起來以后,它的觀點有所變化,2015年出了一件大事,這個時候我們就要回顧一下iPhone它的交互是什么樣子。

最初2代iPhone是沒有語音功能的,蘋果當(dāng)時做了一個調(diào)查,75%用戶希望加一個語音的功能,在后兩代iPhone推出卻發(fā)現(xiàn)只有5%的用戶去使它。后來又做了一個研究,得出一個結(jié)論,語音不好用的主要原因是它不是自然語言,如果不能和人自由交互,這個東西沒有前途。

后來他們收購了一家公司,就是后來的Siri,集成到蘋果的iPhone當(dāng)中,發(fā)現(xiàn)一個很有趣的現(xiàn)象,87%的用戶都是在調(diào)戲Siri,很少用Siri去真正完成任務(wù),發(fā)現(xiàn)這個語音特別不穩(wěn)定,有時候很準(zhǔn),有時候不準(zhǔn)。而且剛才都是我說一句,機器回復(fù)一句,這樣的模式不行。

到了在2014年的時候,要判斷未來什么樣的東西是下一代,最后是看最終用戶的目標(biāo),單句的語音理解可能還不行,于是就提出一個很重要的概念,用對話的技術(shù)改造Siri,這是為什么在2015年收購了一家英國的人工智能公司vocalIQ,加強語音交互。

收購這家公司后,Siri原來的團(tuán)隊不滿意了,很多都離職了。離職之后又推出一個新的產(chǎn)品Viv,是一個對話產(chǎn)品,這里面會強調(diào)不單單是單獨這樣的交互,我要用對話的方式去改造。人類對對話的核心需求到底是什么?

NLP(自然語言處理)與對話系統(tǒng)

很多人認(rèn)為,我們搞人工語音和機器交互界面,真正做這個對話交互的研究的時候,我們會發(fā)現(xiàn)自然語言處理里面出現(xiàn)一個新的任務(wù),隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的產(chǎn)品新出現(xiàn)的——叫做自然口語對話,希望以自然口語對話的方式實現(xiàn)真正機器助理這樣思路。

這里面包括蘋果的Siri向這個方向走的,最近facebook出現(xiàn)了對話API,認(rèn)為是人工智能的未來,這里面到底有什么東西?

實際上在我們剛開始所有的東西里面,一開始我說到了搞語音還是那句話,大家反應(yīng)是識別,我說到對話它的新東西就在這,我們可能要解決三類,從技術(shù)上講有不同的類型:

1、問答式對話:一類是問答,我說一個你能夠告訴我答案,大家要注意是告訴答案,不是告訴我各種可選擇的搜索結(jié)果,答案意味著要去篩選,我給的圖片是IBM的沃森在這個節(jié)目上用這個機器對話的方式,就機器問答的方式戰(zhàn)勝人類選手的圖片。

2、閑聊式對話:第二類是閑聊,調(diào)戲Siri這塊,這類往往沒有商業(yè)模式但是體現(xiàn)了某種機器智能。

3、任務(wù)型對話:第三類是任務(wù)型對話,真的幫助你完成任務(wù)。比如買一杯咖啡,是買星巴克還是其他家,通過任務(wù)型對話幫你完成任務(wù),這是對話技術(shù)最關(guān)鍵的部分。

作為從公司的角度來講,思必馳最重要的特點是把對話交互技術(shù)作為核心來組織各種各樣的語音智能,深耕垂直場景的語音交互技術(shù),現(xiàn)在主要是在做智能車載、智能家居、智能機器人的語音解決方案,核心一點就是在智能硬件上做語音交互。

我們這家公司做的就是智能硬件物聯(lián)網(wǎng)時代的交互智能平臺,在語音識別加上自然語言處理的基礎(chǔ)之上做架構(gòu)性的調(diào)整,去做后面交互反饋智能的實時。

自然語言交互的預(yù)期:交互與認(rèn)知

可以看一下,人類對交互反饋智能預(yù)期是什么,剛剛曾經(jīng)看過Siri,有人對這個Siri做了一個很有趣的視頻,Siri達(dá)不到我們的要求,Siri這種情況下怎么處理?(視頻)。

這個視頻看著是一個笑話,最大的不同是這個機器介入到了人與人之間的交互,開始主動的做一些事,比如說想逃。

這樣一類涉及到單純的語音界面,解決不到交互認(rèn)知的問題,要同時解決記憶、推理、建議以及相應(yīng)的一些決策的問題。這個就是我們在人工智能和認(rèn)知計算上的角度上來說,去解決交互智能很關(guān)鍵的點,思必馳是第一個把認(rèn)知智能的概念引入到國內(nèi)公司。

一、人工智能與認(rèn)知計算

簡單說一下,現(xiàn)在智能本身大概有這么幾個層面,計算,感知認(rèn)知到抽象思維,這幾個層面里面,感知的部分沒有強調(diào),實際上可以單獨講一次,我們今天主要強調(diào)認(rèn)知。

認(rèn)知本身有三層次,大部分人認(rèn)識到理解很重要,這是靜態(tài)認(rèn)知;所謂動態(tài)認(rèn)知是指給了一句話知道要反饋什么,叫做反饋控制;還有認(rèn)知進(jìn)化,想反饋的時候我的習(xí)慣是什么,這一類產(chǎn)生進(jìn)化,這是三個不同的層次。

我們看的比較具體的東西。到底交互和這個識別之間是什么關(guān)系,我們看一個關(guān)于糾正方面的錄像。(視頻)

90%的人甚至更多,在我第一次放這個錄像,第一個反應(yīng)就是這機器方言識別不好,真的是這樣嗎?如果各位在你們的手機里面,沒有發(fā)現(xiàn)識別率是百分之百軟件的話,我說這么一句話,山東話識別率到90%以上你們會覺得什么樣?一定會覺得不錯。而這里只識別錯了一位數(shù)字,識別基本到了90%。

問題的關(guān)鍵難點不在于百分之百的識別率,而在于容錯與糾正?!暗仍S春來到蘇州后約他九點到九寨溝吃飯”,這個例子是說到蘇州后在九寨溝吃飯,這話理解有非常多不確定性,只有在你有上下文的情況下,你知道我在什么條件下說這個事,才能更加準(zhǔn)確的理解。

除了容錯還得能推理,到底糾正哪一段,需要后面的智能,重要的是這哥們是一個真實的用戶,他不是一個工程師。所以不按常理出牌,老打斷這個機器,人被打斷好辦,機器被打斷全都亂套。

二、認(rèn)知性自然口語交互

這樣一個事情,理解、推理問題的處理和單純的語音識別其實是互補。而這個就是我們所說,要做認(rèn)知性的自然口語交互,它和普通的框架有什么不一樣呢?

各位看到了紅色的部分是原始的框架,白色的部分是認(rèn)知性的框架,最大的特點就是加入對話管理和環(huán)境感知,使得對語音識別錯誤更加的容忍,實在容忍不了的部分,通過交互去糾正過來,在這個里面不認(rèn)為語音識別精確,認(rèn)為語音是是高效的管道而已,這些不確定性在情節(jié)理解中被消除掉的。

各位可以看到,這是加入了對話環(huán)境以后,可以去處理這樣的問題。當(dāng)然這只是一個局限撥號領(lǐng)域,相關(guān)的東西已經(jīng)在車載一些產(chǎn)品當(dāng)中應(yīng)用的還在不斷的拓展相關(guān)的領(lǐng)域。

給大家這個概念,從交互平臺上講,不單單有感知,還要有認(rèn)知,這個就是所謂自然語言認(rèn)知交互的未來,把理解和決策表述這樣認(rèn)知技術(shù),與前端非常強大的識別和非常好的合成技術(shù)結(jié)合在一起,在以后認(rèn)知還會向后邊擴展,會進(jìn)行更多的搜索和數(shù)據(jù)處理,實現(xiàn)知識意義上更加自由的交互。

所以我們在智能硬件時代,今天核心講的是認(rèn)知智能當(dāng)中的理解和對話控制,以及打斷搶話這樣一類的技術(shù),真正涉及到的技術(shù),其實還包括了噪聲處理技術(shù)、遠(yuǎn)場技術(shù)、提示糾正推理的技術(shù),這些感知認(rèn)知抽象思維技術(shù)合在一起,就成為智能硬件物聯(lián)網(wǎng)時代的工智能綜合技術(shù)。(本文首發(fā)鈦媒體,根據(jù)俞凱在2016移動互聯(lián)網(wǎng)創(chuàng)新大會(MIIC)上的演講整理,編輯/李玉鵬)

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 交互是雙向,識別是單向

    回復(fù) 2016.07.27 · via android

快報

更多

07:09

一季度業(yè)績預(yù)告加速披露,近九成公司預(yù)喜

07:08

港股IPO活力持續(xù)釋放,科技賽道成資本“新寵”

07:06

美聯(lián)儲4月維持利率不變的概率為97.9%

07:01

港股IPO動態(tài):今日華沿機器人等5股上市

07:01

A股IPO動態(tài):今日悅龍科技上市

2026-03-29 22:59

以色列一工業(yè)區(qū)遭襲,危險物質(zhì)泄漏

2026-03-29 22:22

海南自由貿(mào)易港民營企業(yè)座談會舉行

2026-03-29 22:12

中國科學(xué)院院士:全固態(tài)電池或至少再等5年

2026-03-29 22:11

今年以來逾1370萬人次旅客訪港

2026-03-29 22:08

下周(3月30日-4月5日)市場大事預(yù)告

2026-03-29 22:06

民調(diào)顯示美國選民對特朗普“不滿意率”創(chuàng)新高

2026-03-29 21:43

納比勒·法赫米將擔(dān)任新一任阿盟秘書長

2026-03-29 21:07

群核科技通過港交所聆訊:2025年實現(xiàn)盈利,沖刺“全球空間智能第一股”

2026-03-29 21:05

油價飆升埃及多措施節(jié)能,埃及上調(diào)公共交通票價

2026-03-29 21:05

英矽智能與禮來達(dá)成AI藥物研發(fā)合作,交易總值最高可達(dá)27.5億美元

2026-03-29 21:04

3月29日新聞聯(lián)播速覽20條

2026-03-29 21:01

中國銀河證券:中長期仍看好科技板塊產(chǎn)業(yè)驅(qū)動與周期板塊漲價線索的雙主線

2026-03-29 20:34

大風(fēng)、降水來襲,長江江蘇段部分區(qū)域?qū)嵤┡R時交通管制

2026-03-29 19:59

國航C919正式投入北京—廈門、北京—哈爾濱兩條航線運營

2026-03-29 19:57

中鋁國際:2025年歸母凈利潤2.58億元,同比增長16.47%

1

掃描下載App