久久草草久久草草,国产高清亚洲香蕉AV电影,日韩中美美女三级片毛片

語音作為人機(jī)交互的全新入口，已經(jīng)在過去幾年席卷全世界。語音技術(shù)的進(jìn)步，不僅體現(xiàn)在各式各樣的智能設(shè)備里，還在不斷賦能移動(dòng)設(shè)備輸入法的變革，依托語音便捷的交互方式，輸入法里語音輸入也在悄然改變著用戶與設(shè)備交互的模式。

在技術(shù)領(lǐng)域，某些影響深遠(yuǎn)的技術(shù)研發(fā)往往被稱為「登月計(jì)劃」。本周，百度在語音領(lǐng)域的「一小步」，也實(shí)現(xiàn)了人類語音「登月」的一大步。

在百度輸入法發(fā)布會(huì)上，百度公布了語音領(lǐng)域的四項(xiàng)重大技術(shù)突破。這其中，在線語音領(lǐng)域全球首創(chuàng)的流式多級(jí)的截?cái)嘧⒁饬δＰ停⊿MLTA，全稱為「Streaming trancated multi-layer attention」）成為焦點(diǎn)，這也意味著，學(xué)術(shù)界談?wù)摱嗄甑淖⒁饬δＰ徒K于實(shí)現(xiàn)了大規(guī)模在線商用。

此舉意義重大。一方面，這是業(yè)界第一個(gè)基于注意力模型的在線語音產(chǎn)品，凸顯出百度在語音技術(shù)研發(fā)的領(lǐng)先；另一方面，作為 AI 的基礎(chǔ)功能，語音技術(shù)在百度 AI 技術(shù)賦能產(chǎn)品創(chuàng)新的作用越來越大，這也是當(dāng)下百度 AI 戰(zhàn)略落地的重要觀察窗口。

接下來，本文將從此次公布的流式多級(jí)的截?cái)嘧⒁饬δＰ腿胧?，揭秘這項(xiàng)技術(shù)背后的意義，同時(shí)結(jié)合語音技術(shù)賦能百度其他產(chǎn)品線的案例，進(jìn)一步探討這家公司的 AI 戰(zhàn)略方向。

1. 技術(shù)突破：學(xué)術(shù)界一大難題的落地

過去幾年，AI 被詬病的一大原因就是技術(shù)落地困難，一項(xiàng)實(shí)驗(yàn)室的技術(shù)即便再怎么先進(jìn)，倘若無法再商業(yè)化的場景里得以應(yīng)用，多少都有些當(dāng)代「屠龍術(shù)」的意味。

注意力模型是一種基于對(duì)一句話里每個(gè)音節(jié)或漢字音頻特征的機(jī)器學(xué)習(xí)模型。通過機(jī)器學(xué)習(xí)的方法，將音頻特征自動(dòng)挖掘出來。也就是說，這種方法下的語音識(shí)別過程，變成了一個(gè)字一個(gè)字的滾動(dòng)生成過程。

由于擺脫了傳統(tǒng)語音識(shí)別的狀態(tài)建模和按語音幀進(jìn)行解碼，該模型可以直接實(shí)現(xiàn)語音和文本一體化的端到端建模，擁有學(xué)術(shù)界公認(rèn)的建模精度。

但這個(gè)技術(shù)長期以來無法得以大規(guī)模應(yīng)用。一方面，無法解決流式解碼的問題，傳統(tǒng)的注意力模型大都是基于整句的建模，比如 Google 的 LAS 模型就是其中的代表。整個(gè)建模過程需要通過云端/服務(wù)器的解碼能力。這也意味著，當(dāng)用戶通過語音交互時(shí)，語音需要上傳到云端，這對(duì)于移動(dòng)設(shè)備的用戶體驗(yàn)影響非常大。

另一方面，如上文所言，在傳統(tǒng)的注意力模型里，一般是通過機(jī)器學(xué)習(xí)提取整句音頻信息，也就是說語音輸入的句子越長，進(jìn)行特征選擇的難度越大。出錯(cuò)的概率越高，而一旦某個(gè)環(huán)節(jié)出現(xiàn)錯(cuò)誤，錯(cuò)誤的傳導(dǎo)還會(huì)進(jìn)一步提過錯(cuò)誤率，最終反映在用戶體驗(yàn)上的感受則是，用戶語音說完一段話后，機(jī)器完全理解不了。

這也是此次百度流式多級(jí)的截?cái)嘧⒁饬δＰ?SMLTA 所要解決的難題。主要包括兩個(gè)重要的技術(shù)突破，其一，利用 CTC 語音識(shí)別算法，對(duì)連續(xù)語音進(jìn)行自動(dòng)截?cái)?，然后在這一系列語音小段的基礎(chǔ)上搭建注意力模型。其二，引入一種特殊的多級(jí)Attention機(jī)制，實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。

根據(jù)百度官方的說法，由于所有計(jì)算通過 CPU 實(shí)現(xiàn)，不需要額外增加GPU，整個(gè)云端的計(jì)算資源消耗與此前的語音模型持平。而在輸入法精度上，大量數(shù)據(jù)測試結(jié)果顯示，相對(duì)于早先的模型，相對(duì)準(zhǔn)確率提升了 15%。

更重要的是，這不僅是業(yè)界第一次提出了流式多級(jí)的截?cái)嘧⒁饬δＰ?SMLTA，也在全球范圍內(nèi)，實(shí)現(xiàn)了基于注意力模型的在線語音識(shí)別服務(wù)的首次規(guī)?；瘧?yīng)用。百度已成功將這種注意力模型部署上線到語音輸入法全線產(chǎn)品，服務(wù)中國數(shù)億用戶，也因此，此次技術(shù)突破不再僅僅是一個(gè)實(shí)驗(yàn)室技術(shù)的展現(xiàn)，而是成為一個(gè)個(gè)普通用戶都可以享受的技術(shù)紅利。

2. 賦能：從內(nèi)到外

一年前的百度輸入法升級(jí)里，基于 Deep Peak 2模型的語音模型，大幅提升了不同場景下語音識(shí)別的準(zhǔn)確率。而一年后，輸入法升級(jí)還帶來了離線語音、中英混合輸入、普通話方言混合輸入的升級(jí)。

這其中，離線語音識(shí)別的場景最特殊。由于語音識(shí)別需要網(wǎng)絡(luò)的支持，當(dāng)沒有網(wǎng)絡(luò)或者網(wǎng)絡(luò)穩(wěn)定的時(shí)候，常常出現(xiàn)語音識(shí)別成功率低、識(shí)別速度慢等情況。

雖然通過離線語音已解決一部體驗(yàn)問題，但過去離線語音與在線語音相比，準(zhǔn)確率相差懸殊，體驗(yàn)得不到根本解決。

針對(duì)這一場景，百度語音技術(shù)團(tuán)隊(duì)優(yōu)化了輸入法上嵌入式識(shí)別的 deep peak2 系統(tǒng)，大幅提升了離線語音識(shí)別準(zhǔn)確率。根據(jù)百度透露的數(shù)字，目前百度輸入法離線語音輸入準(zhǔn)確率已高于行業(yè)平均水平35%，這也讓用戶可以在沒有網(wǎng)絡(luò)的場景里流暢快速使用。

上述注意力模型等一系列技術(shù)創(chuàng)新也是百度語音技術(shù)推動(dòng)產(chǎn)品發(fā)展的一個(gè)縮影。

比如地圖。去年 12 月的新版地圖里，語音就作為一個(gè)重要的交互方式，涵蓋了導(dǎo)航路線、地點(diǎn)查找以及小度助手等等。

而在翻譯領(lǐng)域，去年 10 月，百度研發(fā)的具備預(yù)測能力和可控延遲的即時(shí)機(jī)器翻譯系統(tǒng)，實(shí)現(xiàn)了兩種語言之間的高質(zhì)量、低延遲翻譯。這其中，通過上下文無關(guān)音素組合的中英文混合建模單元，讓語音識(shí)別的方法具有泛化性能好、對(duì)噪聲魯棒、中英文混合識(shí)別等特點(diǎn)。

與此同時(shí)，正如百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰在百度大腦論壇上所言，「百度大腦既帶動(dòng)了百度業(yè)務(wù)的升級(jí)，也在推動(dòng)社會(huì)智能化升級(jí)」。與行業(yè)其他 AI 巨頭們目前的策略一致，語音技術(shù)不僅是百度多個(gè)產(chǎn)品線創(chuàng)新的動(dòng)力，也已經(jīng)并正在通過百度大腦向行業(yè)賦能。

以遠(yuǎn)場識(shí)別算法為例，通過麥克風(fēng)陣列前端處理算法，可以識(shí)別目標(biāo)說話人 3-5米距離的說話。目前，基于語音遠(yuǎn)場方案技術(shù)的「小度機(jī)器人人機(jī)語音交互點(diǎn)餐」已在上海肯德基旗艦店投入應(yīng)用。

2018 年的百度世界大會(huì)上，百度大腦也帶來多個(gè)語音技術(shù)升級(jí)。比如「一次喚醒連續(xù)交互」的技術(shù)突破，用戶只需喚醒一次就可以連續(xù)多輪對(duì)話，機(jī)器能夠準(zhǔn)確識(shí)別用戶說話時(shí)的猶豫停頓、能夠區(qū)分并跟隨首次喚醒的用戶等，用戶的體驗(yàn)更自然、流暢，為語音交互提供了更多想象空間。

3. 寫在最后

作為當(dāng)下 AI 的一個(gè)單項(xiàng)技能，語音技術(shù)依然有巨大的突破空間。一方面，語音識(shí)別在安靜環(huán)境、普通話識(shí)別的識(shí)別率的確已經(jīng)比較高了，但在復(fù)雜環(huán)境以及口音、方言等環(huán)境里的識(shí)別率還不盡如人意。

另一方面，語音技術(shù)不僅是聲音與文字之間的轉(zhuǎn)換問題，也不是單純的軟件或硬件問題，面向未來的語音技術(shù)是硬軟一體、語音語言一體、識(shí)別和交互一體。

百度這次推出的流式多級(jí)的截?cái)嘧⒁饬δＰ蚐MLTA，無疑是中文在線語音識(shí)別歷史上的又一次突破。

而未來，百度語音的重要著力點(diǎn)是向下朝低端芯片發(fā)展，向上超語音語義一體化和交互發(fā)展。最終，百度語音將建立從硬件底層芯片、到上層的智能硬件系統(tǒng)，再到系統(tǒng)軟件，語音客戶端，語音服務(wù)器及后端交互一體化的全鏈路語音交互技術(shù)。

基于百度龐大的用戶和豐富的產(chǎn)品，這些技術(shù)將讓用戶享受 AI 的福利，而透過百度大腦，還將持續(xù)賦能各行各業(yè)。（本文首發(fā)鈦媒體）

本文系作者趙賽坡授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)