圖片來源@視覺中國
文|趙賽坡
語音作為人機(jī)交互的全新入口,已經(jīng)在過去幾年席卷全世界。語音技術(shù)的進(jìn)步,不僅體現(xiàn)在各式各樣的智能設(shè)備里,還在不斷賦能移動(dòng)設(shè)備輸入法的變革,依托語音便捷的交互方式,輸入法里語音輸入也在悄然改變著用戶與設(shè)備交互的模式。
在技術(shù)領(lǐng)域,某些影響深遠(yuǎn)的技術(shù)研發(fā)往往被稱為「登月計(jì)劃」。本周,百度在語音領(lǐng)域的「一小步」,也實(shí)現(xiàn)了人類語音「登月」的一大步。
在百度輸入法發(fā)布會(huì)上,百度公布了語音領(lǐng)域的四項(xiàng)重大技術(shù)突破。這其中,在線語音領(lǐng)域全球首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δP停⊿MLTA,全稱為「Streaming trancated multi-layer attention」)成為焦點(diǎn),這也意味著,學(xué)術(shù)界談?wù)摱嗄甑淖⒁饬δP徒K于實(shí)現(xiàn)了大規(guī)模在線商用。
此舉意義重大。一方面,這是業(yè)界第一個(gè)基于注意力模型的在線語音產(chǎn)品,凸顯出百度在語音技術(shù)研發(fā)的領(lǐng)先;另一方面,作為 AI 的基礎(chǔ)功能,語音技術(shù)在百度 AI 技術(shù)賦能產(chǎn)品創(chuàng)新的作用越來越大,這也是當(dāng)下百度 AI 戰(zhàn)略落地的重要觀察窗口。
接下來,本文將從此次公布的流式多級(jí)的截?cái)嘧⒁饬δP腿胧?,揭秘這項(xiàng)技術(shù)背后的意義,同時(shí)結(jié)合語音技術(shù)賦能百度其他產(chǎn)品線的案例,進(jìn)一步探討這家公司的 AI 戰(zhàn)略方向。
過去幾年,AI 被詬病的一大原因就是技術(shù)落地困難,一項(xiàng)實(shí)驗(yàn)室的技術(shù)即便再怎么先進(jìn),倘若無法再商業(yè)化的場景里得以應(yīng)用,多少都有些當(dāng)代「屠龍術(shù)」的意味。
比如語音領(lǐng)域的注意力模型(Attention模型)。
注意力模型是一種基于對(duì)一句話里每個(gè)音節(jié)或漢字音頻特征的機(jī)器學(xué)習(xí)模型。通過機(jī)器學(xué)習(xí)的方法,將音頻特征自動(dòng)挖掘出來。也就是說,這種方法下的語音識(shí)別過程,變成了一個(gè)字一個(gè)字的滾動(dòng)生成過程。
由于擺脫了傳統(tǒng)語音識(shí)別的狀態(tài)建模和按語音幀進(jìn)行解碼,該模型可以直接實(shí)現(xiàn)語音和文本一體化的端到端建模,擁有學(xué)術(shù)界公認(rèn)的建模精度。
但這個(gè)技術(shù)長期以來無法得以大規(guī)模應(yīng)用。一方面,無法解決流式解碼的問題,傳統(tǒng)的注意力模型大都是基于整句的建模,比如 Google 的 LAS 模型就是其中的代表。整個(gè)建模過程需要通過云端/服務(wù)器的解碼能力。這也意味著,當(dāng)用戶通過語音交互時(shí),語音需要上傳到云端,這對(duì)于移動(dòng)設(shè)備的用戶體驗(yàn)影響非常大。
另一方面,如上文所言,在傳統(tǒng)的注意力模型里,一般是通過機(jī)器學(xué)習(xí)提取整句音頻信息,也就是說語音輸入的句子越長,進(jìn)行特征選擇的難度越大。出錯(cuò)的概率越高,而一旦某個(gè)環(huán)節(jié)出現(xiàn)錯(cuò)誤,錯(cuò)誤的傳導(dǎo)還會(huì)進(jìn)一步提過錯(cuò)誤率,最終反映在用戶體驗(yàn)上的感受則是,用戶語音說完一段話后,機(jī)器完全理解不了。
這也是此次百度流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA 所要解決的難題。主要包括兩個(gè)重要的技術(shù)突破,其一,利用 CTC 語音識(shí)別算法,對(duì)連續(xù)語音進(jìn)行自動(dòng)截?cái)?,然后在這一系列語音小段的基礎(chǔ)上搭建注意力模型。其二,引入一種特殊的多級(jí)Attention機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。
根據(jù)百度官方的說法,由于所有計(jì)算通過 CPU 實(shí)現(xiàn),不需要額外增加GPU,整個(gè)云端的計(jì)算資源消耗與此前的語音模型持平。而在輸入法精度上,大量數(shù)據(jù)測試結(jié)果顯示,相對(duì)于早先的模型,相對(duì)準(zhǔn)確率提升了 15%。
更重要的是,這不僅是業(yè)界第一次提出了流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA,也在全球范圍內(nèi),實(shí)現(xiàn)了基于注意力模型的在線語音識(shí)別服務(wù)的首次規(guī)?;瘧?yīng)用。百度已成功將這種注意力模型部署上線到語音輸入法全線產(chǎn)品,服務(wù)中國數(shù)億用戶,也因此,此次技術(shù)突破不再僅僅是一個(gè)實(shí)驗(yàn)室技術(shù)的展現(xiàn),而是成為一個(gè)個(gè)普通用戶都可以享受的技術(shù)紅利。
一年前的百度輸入法升級(jí)里,基于 Deep Peak 2模型的語音模型,大幅提升了不同場景下語音識(shí)別的準(zhǔn)確率。而一年后,輸入法升級(jí)還帶來了離線語音、中英混合輸入、普通話方言混合輸入的升級(jí)。
這其中,離線語音識(shí)別的場景最特殊。由于語音識(shí)別需要網(wǎng)絡(luò)的支持,當(dāng)沒有網(wǎng)絡(luò)或者網(wǎng)絡(luò)穩(wěn)定的時(shí)候,常常出現(xiàn)語音識(shí)別成功率低、識(shí)別速度慢等情況。
雖然通過離線語音已解決一部體驗(yàn)問題,但過去離線語音與在線語音相比,準(zhǔn)確率相差懸殊,體驗(yàn)得不到根本解決。
針對(duì)這一場景,百度語音技術(shù)團(tuán)隊(duì)優(yōu)化了輸入法上嵌入式識(shí)別的 deep peak2 系統(tǒng),大幅提升了離線語音識(shí)別準(zhǔn)確率。根據(jù)百度透露的數(shù)字,目前百度輸入法離線語音輸入準(zhǔn)確率已高于行業(yè)平均水平35%,這也讓用戶可以在沒有網(wǎng)絡(luò)的場景里流暢快速使用。
上述注意力模型等一系列技術(shù)創(chuàng)新也是百度語音技術(shù)推動(dòng)產(chǎn)品發(fā)展的一個(gè)縮影。
比如地圖。去年 12 月的新版地圖里,語音就作為一個(gè)重要的交互方式,涵蓋了導(dǎo)航路線、地點(diǎn)查找以及小度助手等等。
而在翻譯領(lǐng)域,去年 10 月,百度研發(fā)的具備預(yù)測能力和可控延遲的即時(shí)機(jī)器翻譯系統(tǒng),實(shí)現(xiàn)了兩種語言之間的高質(zhì)量、低延遲翻譯。這其中,通過上下文無關(guān)音素組合的中英文混合建模單元,讓語音識(shí)別的方法具有泛化性能好、對(duì)噪聲魯棒、中英文混合識(shí)別等特點(diǎn)。
與此同時(shí),正如百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰在百度大腦論壇上所言,「百度大腦既帶動(dòng)了百度業(yè)務(wù)的升級(jí),也在推動(dòng)社會(huì)智能化升級(jí)」。與行業(yè)其他 AI 巨頭們目前的策略一致,語音技術(shù)不僅是百度多個(gè)產(chǎn)品線創(chuàng)新的動(dòng)力,也已經(jīng)并正在通過百度大腦向行業(yè)賦能。
以遠(yuǎn)場識(shí)別算法為例,通過麥克風(fēng)陣列前端處理算法,可以識(shí)別目標(biāo)說話人 3-5米距離的說話。目前,基于語音遠(yuǎn)場方案技術(shù)的「小度機(jī)器人人機(jī)語音交互點(diǎn)餐」已在上海肯德基旗艦店投入應(yīng)用。
2018 年的百度世界大會(huì)上,百度大腦也帶來多個(gè)語音技術(shù)升級(jí)。比如「一次喚醒連續(xù)交互」的技術(shù)突破,用戶只需喚醒一次就可以連續(xù)多輪對(duì)話,機(jī)器能夠準(zhǔn)確識(shí)別用戶說話時(shí)的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的用戶等,用戶的體驗(yàn)更自然、流暢,為語音交互提供了更多想象空間。
作為當(dāng)下 AI 的一個(gè)單項(xiàng)技能,語音技術(shù)依然有巨大的突破空間。一方面,語音識(shí)別在安靜環(huán)境、普通話識(shí)別的識(shí)別率的確已經(jīng)比較高了,但在復(fù)雜環(huán)境以及口音、方言等環(huán)境里的識(shí)別率還不盡如人意。
另一方面,語音技術(shù)不僅是聲音與文字之間的轉(zhuǎn)換問題,也不是單純的軟件或硬件問題,面向未來的語音技術(shù)是硬軟一體、語音語言一體、識(shí)別和交互一體。
百度這次推出的流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,無疑是中文在線語音識(shí)別歷史上的又一次突破。
而未來,百度語音的重要著力點(diǎn)是向下朝低端芯片發(fā)展,向上超語音語義一體化和交互發(fā)展。最終,百度語音將建立從硬件底層芯片、到上層的智能硬件系統(tǒng),再到系統(tǒng)軟件,語音客戶端,語音服務(wù)器及后端交互一體化的全鏈路語音交互技術(shù)。
基于百度龐大的用戶和豐富的產(chǎn)品,這些技術(shù)將讓用戶享受 AI 的福利,而透過百度大腦,還將持續(xù)賦能各行各業(yè)。(本文首發(fā)鈦媒體)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論