圖片來源@視覺中國

文|趙賽坡

語音作為人機(jī)交互的全新入口,已經(jīng)在過去幾年席卷全世界。語音技術(shù)的進(jìn)步,不僅體現(xiàn)在各式各樣的智能設(shè)備里,還在不斷賦能移動(dòng)設(shè)備輸入法的變革,依托語音便捷的交互方式,輸入法里語音輸入也在悄然改變著用戶與設(shè)備交互的模式。

在技術(shù)領(lǐng)域,某些影響深遠(yuǎn)的技術(shù)研發(fā)往往被稱為「登月計(jì)劃」。本周,百度在語音領(lǐng)域的「一小步」,也實(shí)現(xiàn)了人類語音「登月」的一大步。

在百度輸入法發(fā)布會(huì)上,百度公布了語音領(lǐng)域的四項(xiàng)重大技術(shù)突破。這其中,在線語音領(lǐng)域全球首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δP停⊿MLTA,全稱為「Streaming trancated multi-layer attention」)成為焦點(diǎn),這也意味著,學(xué)術(shù)界談?wù)摱嗄甑淖⒁饬δP徒K于實(shí)現(xiàn)了大規(guī)模在線商用。

此舉意義重大。一方面,這是業(yè)界第一個(gè)基于注意力模型的在線語音產(chǎn)品,凸顯出百度在語音技術(shù)研發(fā)的領(lǐng)先;另一方面,作為 AI 的基礎(chǔ)功能,語音技術(shù)在百度 AI 技術(shù)賦能產(chǎn)品創(chuàng)新的作用越來越大,這也是當(dāng)下百度 AI 戰(zhàn)略落地的重要觀察窗口。

接下來,本文將從此次公布的流式多級(jí)的截?cái)嘧⒁饬δP腿胧?,揭秘這項(xiàng)技術(shù)背后的意義,同時(shí)結(jié)合語音技術(shù)賦能百度其他產(chǎn)品線的案例,進(jìn)一步探討這家公司的 AI 戰(zhàn)略方向。

1. 技術(shù)突破:學(xué)術(shù)界一大難題的落地

過去幾年,AI 被詬病的一大原因就是技術(shù)落地困難,一項(xiàng)實(shí)驗(yàn)室的技術(shù)即便再怎么先進(jìn),倘若無法再商業(yè)化的場景里得以應(yīng)用,多少都有些當(dāng)代「屠龍術(shù)」的意味。

比如語音領(lǐng)域的注意力模型(Attention模型)。

注意力模型是一種基于對(duì)一句話里每個(gè)音節(jié)或漢字音頻特征的機(jī)器學(xué)習(xí)模型。通過機(jī)器學(xué)習(xí)的方法,將音頻特征自動(dòng)挖掘出來。也就是說,這種方法下的語音識(shí)別過程,變成了一個(gè)字一個(gè)字的滾動(dòng)生成過程。

由于擺脫了傳統(tǒng)語音識(shí)別的狀態(tài)建模和按語音幀進(jìn)行解碼,該模型可以直接實(shí)現(xiàn)語音和文本一體化的端到端建模,擁有學(xué)術(shù)界公認(rèn)的建模精度。

但這個(gè)技術(shù)長期以來無法得以大規(guī)模應(yīng)用。一方面,無法解決流式解碼的問題,傳統(tǒng)的注意力模型大都是基于整句的建模,比如 Google 的 LAS 模型就是其中的代表。整個(gè)建模過程需要通過云端/服務(wù)器的解碼能力。這也意味著,當(dāng)用戶通過語音交互時(shí),語音需要上傳到云端,這對(duì)于移動(dòng)設(shè)備的用戶體驗(yàn)影響非常大。

另一方面,如上文所言,在傳統(tǒng)的注意力模型里,一般是通過機(jī)器學(xué)習(xí)提取整句音頻信息,也就是說語音輸入的句子越長,進(jìn)行特征選擇的難度越大。出錯(cuò)的概率越高,而一旦某個(gè)環(huán)節(jié)出現(xiàn)錯(cuò)誤,錯(cuò)誤的傳導(dǎo)還會(huì)進(jìn)一步提過錯(cuò)誤率,最終反映在用戶體驗(yàn)上的感受則是,用戶語音說完一段話后,機(jī)器完全理解不了。

這也是此次百度流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA 所要解決的難題。主要包括兩個(gè)重要的技術(shù)突破,其一,利用 CTC 語音識(shí)別算法,對(duì)連續(xù)語音進(jìn)行自動(dòng)截?cái)?,然后在這一系列語音小段的基礎(chǔ)上搭建注意力模型。其二,引入一種特殊的多級(jí)Attention機(jī)制,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。

根據(jù)百度官方的說法,由于所有計(jì)算通過 CPU 實(shí)現(xiàn),不需要額外增加GPU,整個(gè)云端的計(jì)算資源消耗與此前的語音模型持平。而在輸入法精度上,大量數(shù)據(jù)測試結(jié)果顯示,相對(duì)于早先的模型,相對(duì)準(zhǔn)確率提升了 15%。

更重要的是,這不僅是業(yè)界第一次提出了流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA,也在全球范圍內(nèi),實(shí)現(xiàn)了基于注意力模型的在線語音識(shí)別服務(wù)的首次規(guī)?;瘧?yīng)用。百度已成功將這種注意力模型部署上線到語音輸入法全線產(chǎn)品,服務(wù)中國數(shù)億用戶,也因此,此次技術(shù)突破不再僅僅是一個(gè)實(shí)驗(yàn)室技術(shù)的展現(xiàn),而是成為一個(gè)個(gè)普通用戶都可以享受的技術(shù)紅利。

2. 賦能:從內(nèi)到外

一年前的百度輸入法升級(jí)里,基于 Deep Peak 2模型的語音模型,大幅提升了不同場景下語音識(shí)別的準(zhǔn)確率。而一年后,輸入法升級(jí)還帶來了離線語音、中英混合輸入、普通話方言混合輸入的升級(jí)。

這其中,離線語音識(shí)別的場景最特殊。由于語音識(shí)別需要網(wǎng)絡(luò)的支持,當(dāng)沒有網(wǎng)絡(luò)或者網(wǎng)絡(luò)穩(wěn)定的時(shí)候,常常出現(xiàn)語音識(shí)別成功率低、識(shí)別速度慢等情況。

雖然通過離線語音已解決一部體驗(yàn)問題,但過去離線語音與在線語音相比,準(zhǔn)確率相差懸殊,體驗(yàn)得不到根本解決。

針對(duì)這一場景,百度語音技術(shù)團(tuán)隊(duì)優(yōu)化了輸入法上嵌入式識(shí)別的 deep peak2 系統(tǒng),大幅提升了離線語音識(shí)別準(zhǔn)確率。根據(jù)百度透露的數(shù)字,目前百度輸入法離線語音輸入準(zhǔn)確率已高于行業(yè)平均水平35%,這也讓用戶可以在沒有網(wǎng)絡(luò)的場景里流暢快速使用。

上述注意力模型等一系列技術(shù)創(chuàng)新也是百度語音技術(shù)推動(dòng)產(chǎn)品發(fā)展的一個(gè)縮影。

比如地圖。去年 12 月的新版地圖里,語音就作為一個(gè)重要的交互方式,涵蓋了導(dǎo)航路線、地點(diǎn)查找以及小度助手等等。

而在翻譯領(lǐng)域,去年 10 月,百度研發(fā)的具備預(yù)測能力和可控延遲的即時(shí)機(jī)器翻譯系統(tǒng),實(shí)現(xiàn)了兩種語言之間的高質(zhì)量、低延遲翻譯。這其中,通過上下文無關(guān)音素組合的中英文混合建模單元,讓語音識(shí)別的方法具有泛化性能好、對(duì)噪聲魯棒、中英文混合識(shí)別等特點(diǎn)。

與此同時(shí),正如百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰在百度大腦論壇上所言,「百度大腦既帶動(dòng)了百度業(yè)務(wù)的升級(jí),也在推動(dòng)社會(huì)智能化升級(jí)」。與行業(yè)其他 AI 巨頭們目前的策略一致,語音技術(shù)不僅是百度多個(gè)產(chǎn)品線創(chuàng)新的動(dòng)力,也已經(jīng)并正在通過百度大腦向行業(yè)賦能。

以遠(yuǎn)場識(shí)別算法為例,通過麥克風(fēng)陣列前端處理算法,可以識(shí)別目標(biāo)說話人 3-5米距離的說話。目前,基于語音遠(yuǎn)場方案技術(shù)的「小度機(jī)器人人機(jī)語音交互點(diǎn)餐」已在上海肯德基旗艦店投入應(yīng)用。

2018 年的百度世界大會(huì)上,百度大腦也帶來多個(gè)語音技術(shù)升級(jí)。比如「一次喚醒連續(xù)交互」的技術(shù)突破,用戶只需喚醒一次就可以連續(xù)多輪對(duì)話,機(jī)器能夠準(zhǔn)確識(shí)別用戶說話時(shí)的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的用戶等,用戶的體驗(yàn)更自然、流暢,為語音交互提供了更多想象空間。

3. 寫在最后

作為當(dāng)下 AI 的一個(gè)單項(xiàng)技能,語音技術(shù)依然有巨大的突破空間。一方面,語音識(shí)別在安靜環(huán)境、普通話識(shí)別的識(shí)別率的確已經(jīng)比較高了,但在復(fù)雜環(huán)境以及口音、方言等環(huán)境里的識(shí)別率還不盡如人意。

另一方面,語音技術(shù)不僅是聲音與文字之間的轉(zhuǎn)換問題,也不是單純的軟件或硬件問題,面向未來的語音技術(shù)是硬軟一體、語音語言一體、識(shí)別和交互一體。

百度這次推出的流式多級(jí)的截?cái)嘧⒁饬δP蚐MLTA,無疑是中文在線語音識(shí)別歷史上的又一次突破。

而未來,百度語音的重要著力點(diǎn)是向下朝低端芯片發(fā)展,向上超語音語義一體化和交互發(fā)展。最終,百度語音將建立從硬件底層芯片、到上層的智能硬件系統(tǒng),再到系統(tǒng)軟件,語音客戶端,語音服務(wù)器及后端交互一體化的全鏈路語音交互技術(shù)。

基于百度龐大的用戶和豐富的產(chǎn)品,這些技術(shù)將讓用戶享受 AI 的福利,而透過百度大腦,還將持續(xù)賦能各行各業(yè)。(本文首發(fā)鈦媒體)

本文系作者 趙賽坡 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

12:46

宇樹科技具身智能體驗(yàn)館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬人參加“不要國王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長29.3%

11:48

中國首臺(tái)商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會(huì)模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機(jī)構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報(bào)告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年?duì)I收增長25%,虧損收窄

10:14

廣東省市場監(jiān)管局聯(lián)合廣州市市場監(jiān)管局召開平臺(tái)企業(yè)座談會(huì)

10:10

貝殼啟動(dòng)戰(zhàn)略變革:管理者站上一線,經(jīng)紀(jì)人KPI減負(fù)

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計(jì)全球每年逾25萬人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

10:01

調(diào)查顯示日本市場逾2500種食品4月份將漲價(jià)

10:01

西南首個(gè)商業(yè)衛(wèi)星遙感測運(yùn)控站啟用

09:25

美國全國范圍爆發(fā)反對(duì)特朗普政府集會(huì),預(yù)計(jì)超900萬人參與,或?yàn)椤懊绹鴼v史上規(guī)模最大”抗議活動(dòng)

09:23

馬斯克旗下AI公司初創(chuàng)“11羅漢”全部離職

掃描下載App