今年互聯(lián)網(wǎng)女皇的報(bào)告發(fā)布了,相比去年用了10%的篇幅大談?wù)Z音交互,今年的報(bào)告對于語音交互似乎冷靜了許多。不過我們?nèi)匀荒芸吹?,?bào)告指出,來自Google Assistant的數(shù)據(jù)顯示,接近70%的請求都是自然語言、對話方式發(fā)出的,機(jī)器學(xué)習(xí)已經(jīng)驅(qū)動(dòng)Google的語音識別率從2013年的不足80%,提升至如今的95%(國內(nèi)大部分平臺公布的識別率是97%)。
我們可以看一看去年的報(bào)告,其中提到,快速簡便、個(gè)性化的語音交互很可能代替人們的雙手,成為人機(jī)交換的新模式。解放了雙手和視覺,能將“在線”這一概念延伸的更遠(yuǎn)。
可讓人困惑的是,語音交互應(yīng)用,尤其是中文語音交互真的離我們那么近了嗎?
面對Siri,讓她來段beatbox之外,好像也沒有什么好說的??吹綀?bào)告中的數(shù)據(jù)后,我破天荒的長按home鍵,看到屏幕上那行“請問需要什么幫助”后竟然沒由來的感到一絲尷尬,這感覺和我面對不熟的親戚時(shí)搜腸刮肚找話題的感覺一樣。
我知道語音助手們能幫我做很多事,搜索、打電話、發(fā)信息、叫外賣……可我就是開不了那個(gè)口。
我相信有很多人跟我一樣,除了在不方便聽微信語音時(shí)點(diǎn)個(gè)長按識別或者開車時(shí)指揮一下XX地圖之外,寧愿死守著手指與鍵盤老一套的交互方式。這究竟是怎么一回事?
語音交互真有這么厲害?
首先我們來看看,語音交互已經(jīng)走到哪一地步了。
簡單來說,語音交互的關(guān)鍵在于兩點(diǎn),一個(gè)是語音識別準(zhǔn)確率,另一個(gè)則是自然語言處理(你經(jīng)常能看到的NLP)水平。
語音識別將聲音轉(zhuǎn)換成波形文件,對聲音進(jìn)行分幀,再從每一幀中提取包含內(nèi)容信息的多維向量,這一過程就是聲學(xué)特征提取。提取特征后再將特征組成音素(單詞發(fā)音的構(gòu)成,類似于音標(biāo),對應(yīng)漢語則是聲母、韻母)。
而有了音素之后,還需要大量語音數(shù)據(jù),對應(yīng)聲紋幀和聲學(xué)特征利用隱馬爾可夫模型、Viterbi算法考慮語音與音素的匹配程度、音素之間轉(zhuǎn)換的概率再加上可以解決多音字問題的語音模型,最終形成一個(gè)有足夠多節(jié)點(diǎn)的網(wǎng)絡(luò),識別語音時(shí),只需要找到與聲音最匹配的路徑就好。
計(jì)算能力加強(qiáng)、數(shù)據(jù)量增大,加上深層學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)將計(jì)算機(jī)視覺應(yīng)用于語音波形文件之上,語音識別準(zhǔn)確率提高幾乎是必然的結(jié)果。方言、多音字、語音語速個(gè)性化這些問題也正在被一一解決中,例如科大訊飛就表示自己可以利用“基于說話人編碼和i-vector的深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)算法,以完全不需要人工干預(yù)的方式率先在產(chǎn)品中解決了深度學(xué)習(xí)框架下的說話人自適應(yīng)問題。”
而NLP則是一個(gè)大話題,和語音交互有關(guān)的自然是其中語音處理的部分。從理解到生成反饋,其中涉及到大量有關(guān)機(jī)器學(xué)習(xí)的復(fù)雜問題,這里就不再贅述。我們只需要知道的是,計(jì)算能力、數(shù)據(jù)量、機(jī)器學(xué)習(xí)三個(gè)關(guān)鍵指標(biāo)的發(fā)展,已經(jīng)極大的提高了語音交互的應(yīng)用性。吳恩達(dá)曾經(jīng)說過,“人們很快會(huì)習(xí)慣與機(jī)器流暢交流的時(shí)光,而忘記以前是如何與機(jī)器交互的”,如此可以看出,語音交互似乎已經(jīng)可以代替如今人機(jī)交互中的很大一部分了。
語音交互應(yīng)用范疇:先讓速記下崗
語音交互已經(jīng)在我們生活中的哪些場景開始應(yīng)用了?目前來說,與其稱之為“徹底的改變交互”,不如說“更多的代替人工”。最典型的例子就是在很多發(fā)布會(huì)上看到語音識別速記,其準(zhǔn)確率已經(jīng)和人工齊平甚至超過了人工。
語料庫累積不夠、識別能力和理解能力有限,在這些大前提下,語音交互應(yīng)用于有特定場景的服務(wù)系統(tǒng)似乎更為實(shí)際。例如客服、人工服務(wù)窗口等等,從其業(yè)務(wù)范疇制定語音交互系統(tǒng)或許可行,如同線上智能客服。
除了單純的識別文字,語音交互更大的價(jià)值在于把聲音中更豐富的內(nèi)容傳遞給機(jī)器。旋律、語種、情緒還有最關(guān)鍵的聲紋,這些都是文字中無法體現(xiàn)的。如何挖掘這些信息的價(jià)值,語音這個(gè)不算新鮮的交互方式的溝通密度達(dá)到一個(gè)新的維度,這些才是語音交互的革命性所在。相比之下,讓Siri幫你找個(gè)加油站,已經(jīng)是語音交互最最淺層的應(yīng)用了。
可我還是覺得和Siri說話好尷尬
那么回到最初的問題,面對語音交互我們?yōu)槭裁撮_不了口?
這一點(diǎn)和我們與整個(gè)物理世界交互的方式有關(guān)。從原始人時(shí)期開始,我們想挪動(dòng)石塊就會(huì)伸手,想召喚朋友就呼喊。從一開始,我們和物體的交互方式就是動(dòng)手,而和生物的交互方式則是語言。當(dāng)我們和非人甚至非生命體用語音交互時(shí),我們心中常常默認(rèn)TA是有“人性”的,比如寵物、植物等等,古代艷情小說里也常寫到,書生日夜與畫中美人交談,最終畫成精幻做人形。
后來進(jìn)入了機(jī)器時(shí)代,雖然機(jī)械已經(jīng)能代替我們做很多事,可我們和機(jī)械的交互依舊是物理式的。包括如今通過終端操作移動(dòng)互聯(lián)網(wǎng),雖然只是手指,但還是物理層面。甚至到傳說中吹氣指揮行動(dòng)的呼吸控制型輪椅,但凡不是語音交互,人們的接受度都不低。
而互聯(lián)網(wǎng)的出現(xiàn)更是把人與生命體之間原有的方式極大的改變了,不用說話,以物理方式(打字)也能進(jìn)行交流,甚至給彼此留出了更多斟詞酌句的時(shí)間,說錯(cuò)話了可以撤回,還能用表情包斗圖呢??纯创蠹沂窃陲埦稚险f的話多還是微信群里斗的圖多,很快我們就能知道計(jì)算機(jī)對生物之間交互的方式改變了多少。
而到了語音交互,則是徹底改變了我們和物理世界的交互模式,更考驗(yàn)著我們對于“人性”的固執(zhí)認(rèn)識。尤其是在被給予了很多希望的物聯(lián)網(wǎng)領(lǐng)域,想象一下,如果你回到家不是用手去摸開關(guān),而是在空蕩蕩的房間里說一聲“開燈”,這畫面是不是有點(diǎn)詭異?同理,做語音助手的都喜歡給自己起個(gè)人一樣的名字,目的就是為了增強(qiáng)人性、消除用戶的不適感。
對于人類這種被計(jì)算機(jī)調(diào)教的越來越依賴物理交互的生物來說,將語音交互帶入生活簡直是在開生活習(xí)慣的倒車,忍不住要說一聲好別扭。
或許在語音交互普及方面,我們除了要克服技術(shù)方面的難題,更多的還要克服我們自己。
(彩蛋:打開百度圖片,在搜索框中輸入siri,不要點(diǎn)搜索,看看默認(rèn)結(jié)果第一個(gè)是什么,回來告訴我你怕不怕)






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論
舉個(gè)栗子,就好像電子書剛推出時(shí)看的不適應(yīng),可是當(dāng)真的獲得了便利的話,就不會(huì)這么想了。例如現(xiàn)在的靈犀,siri這樣的語音助手等真的熟悉后,用得還是蠻順手的。
文章里已經(jīng)提到,“做語音助手的都喜歡給自己起個(gè)人一樣的名字,目的就是為了增強(qiáng)人性、消除用戶的不適感。”,如此只是一個(gè)陌生助理到老朋友(?)的過程,更多的是時(shí)間問題,并不必盯著“尷尬”談。