過去三個月,在語音識別領(lǐng)域有幾個大新聞:一個是今年10月,美國微軟雷德蒙研究院在電話語音識別的標(biāo)準(zhǔn)庫Switchboard上報道達(dá)到5.9%的錯誤率,我們要知道,在這個庫上人類也只能達(dá)到大概5.9%,而機(jī)器的性能已經(jīng)和人類基本達(dá)到了持平;第二個新聞是在今年9月,也就是國際語音通信聯(lián)合會的最后一天報道的CHIME4國際多通道語音分離和識別大賽,你可以簡單認(rèn)為這是一個在限定詞表和場景下的帶噪的語音識別挑戰(zhàn)賽,最好的系統(tǒng)性能報道達(dá)到了將近2%的錯誤率;第三個新聞可能大家更關(guān)心,是關(guān)于中文的,在剛剛過去的兩周,百度、搜狗、訊飛進(jìn)行了連續(xù)三場的發(fā)布會,他們各家都展示了語音交互相關(guān)的一些系統(tǒng),并且有趣的是,他們均表示通用領(lǐng)域下的識別性能達(dá)到97%。
看到這里,很多聽眾可能會問,語音識別的性能已經(jīng)如此之高,對它進(jìn)行研究還有價值嗎?包括我自己的學(xué)生也會問我,錢老師,語音識別性能已經(jīng)做得如此好了,我們還需要進(jìn)一步研究嗎?我們做這個課題還能畢業(yè)嗎?
那我想問大家的是,在垂直應(yīng)用方向,語音識別的的難題真的解決了嗎?這里我將以上三個big news背后的語音識別系統(tǒng)應(yīng)用到的主要的技術(shù)羅列如下:
將以上三個系統(tǒng)背后的技術(shù)應(yīng)用到我們真實(shí)的產(chǎn)品中,比如這里所列的apple的siri、google的google now、微軟的cortana助手、亞馬遜的echo,性能優(yōu)會怎么樣?我可以告訴大家,這里所列的很多技術(shù)都不能很好地工作。這是因?yàn)?strong>以上三個系統(tǒng)的相關(guān)技術(shù)都是針對特定的任務(wù)以及在特定的環(huán)境下進(jìn)行過度調(diào)優(yōu)的。
我們來看一個視頻,看看現(xiàn)實(shí)生活中的語音識別到底是怎么樣的?
我們可以看到,即使是一個研究比較成熟的英文的命令詞識別系統(tǒng),給它只要添加一點(diǎn)點(diǎn)的麻煩,比如用蘇格蘭口音的英語,它的性能就會急速的下降。所以,在這些非配合式的語音交互方面,語音識別的性能遠(yuǎn)遠(yuǎn)沒有滿足我們的要求。所謂的配合式,比如說要求你說普通話,要求你拿手持麥克風(fēng)等等,我們要是沒有這些條件,讓你一個用戶隨便的進(jìn)行一個自然語言的交流,它的系統(tǒng)能照樣保持魯棒性嗎?所以,語音識別的路還很長。
語音識別是對語音內(nèi)容進(jìn)行提取的一把金鑰匙,它的研究可以追溯到半個世紀(jì)以前。在本世紀(jì)初,基于語音識別的一些產(chǎn)品已經(jīng)開始問世,最有代表性的是在2000年左右,美軍用于伊拉克戰(zhàn)場的語音翻譯機(jī)。2011年apple在iphone4s上推出的siri語音助手,之后包括微軟、谷歌、亞馬遜,以及國內(nèi)的百度、訊飛、思必馳等等也推出了各自基于語音交互的產(chǎn)品。國內(nèi)外的研究機(jī)構(gòu)很多,包括國外的微軟、谷歌、IBM、亞馬遜,以及國內(nèi)的百度、訊飛、思必馳等等。學(xué)術(shù)界就更多了,包括老牌的劍橋、MIT、JHU,以及國內(nèi)的清華大學(xué)、中國科大、上海交大等等。
語音識別歷來是人工智能和機(jī)器學(xué)習(xí)中的十大經(jīng)典難題之一,它的難點(diǎn)可以歸結(jié)為三個不確定性——說話人、環(huán)境、設(shè)備。說話人方面,我們不同的人有不同的口音,來自不同的方言區(qū),說話的時候又有不同的方式,同時我們在說話的時候運(yùn)用不同的情感;我們真實(shí)的環(huán)境是非常復(fù)雜的,包括各種各樣的噪聲,包括汽車?yán)嚷?、飛機(jī)的噪聲、馬路上人的聲音,還有一些會場的回聲等等;設(shè)備方面,我們可以用手持麥克風(fēng)、領(lǐng)夾麥克風(fēng)、耳戴麥克風(fēng)、近場遠(yuǎn)場的麥克風(fēng)等等。此外在真實(shí)的實(shí)際應(yīng)用場景下,往往是這三個因素疊加在一起的,使得整個的影響變得更加的復(fù)雜,所以如何設(shè)計一套魯棒的性能好的語音識別系統(tǒng),來很好的處理這些不確定性,也是非常具有挑戰(zhàn)性的。
統(tǒng)計語音識別,如果從數(shù)學(xué)上來定義,可以歸結(jié)為如下圖的概率公式。這里的P(W|O)給定你觀測到的語音,來得到最大的詞序列。通過公式展開,這個概率可以歸為兩個概率,也就是P(O|W)和P(W),對應(yīng)到我們語音識別中的聲學(xué)模型和語言模型。當(dāng)然這個概率可以進(jìn)一步的分解,分解成如下的四個概率,這四個概率在語音識別系統(tǒng)的設(shè)計上也對應(yīng)到如下框圖中的四個模塊,其中P(A|O)是前端語音信號處理模塊,P(O|L)是聲學(xué)模型模塊,P(L|W)的字典模塊,P(W)是語言模型。在這四個模塊下,通過一個解碼的過程得到最終的語音識別結(jié)果。
下面我們來說說四個概率模型:
第一個概率模型是特征提取P(A|O)。特征提取是所有的模式識別問題的第一步,如何從一個原始的信號中提取具有更具有鑒別性、區(qū)分性的特征是非常關(guān)鍵的,原始的語音模型信號冗余度比較大,所以我們必須對它進(jìn)行特征的抽取。一旦特征提取的模式確定下來之后,其實(shí)這個概率模型我們也可以簡單的將它理解成一個確定化的模型。
第二個概率模型是聲學(xué)模型P(O|L),它可以描述不同聲音之間的各種不同特性,是語音識別四個模塊中最關(guān)鍵的技術(shù)之一。據(jù)我所知,大部分公司中的語音組以及研究機(jī)構(gòu)的語音組聲學(xué)模型的小組肯定是所有的team中最大的。這也可以看到它的重要性,概率模型P(O|L)用于刻劃不同語音單元之間的特性,比如說音素、音節(jié)、詞字等等,在語音識別發(fā)展的過去二三十年,HMM模型被廣泛的采用,并占據(jù)統(tǒng)治地位。
第三個概率模型是字典模型P(L|W)。字典模型為聲學(xué)模型以及后面要介紹的語言模型之間構(gòu)建了一個橋梁,它在詞和聲學(xué)單元之間定義了一個映射,它可以是一個確定化的模型,也可以是一個概率模型,舉一個簡單的例子,tomato我們可以有兩種發(fā)音,一種是英式,一種是美式,如果假設(shè)我們現(xiàn)在是在美國,那我們可以很有理由的相信,現(xiàn)在使用tomato的概率比tomato高,所以我們將tomato賦予概率5.55,tomato概率賦予5.45。
第四個概率模型是語言模型P(W)。語言模型是在給定歷史的情況下預(yù)測下一個詞的概率,它可以很好的引導(dǎo)搜索算法,消除聲學(xué)單元之間的混淆性,特別是那些聲學(xué)層相似的單元。舉的一個例子,great wine 和grey twine如果沒有語言模型,在純聲學(xué)音素層面,把這兩個字串寫成兩個音素串是完全一模一樣的,所以在這種情況下,我們僅靠聲學(xué)去區(qū)分是不可行的,在這種情況下語言模型就變得很重要,你想第一個組合Great wine是一種正常的搭配,grey twine第二種組合是不會存在的。
語言模型的具體的應(yīng)用有很多種,包括之前的那種上下文自由語法,你可以簡單認(rèn)為他是一種特殊的比較簡單的語言模型,到后來過去的二三十年中一直占據(jù)統(tǒng)治地位的N-gram語言模型,以及在近幾年比較火的基于深度學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)的語言模型,但是由于一些應(yīng)用上的局限性,據(jù)我所知目前在大部分公司或者是研究組性能最好的商用的語音識別系統(tǒng)采用的語言模型還是N-gram的語言模型。
在這四個概率模型建模的基礎(chǔ)上,我們可以在一個龐大的搜索網(wǎng)絡(luò)上進(jìn)行搜索和解碼,下圖是一個簡單搜索網(wǎng)絡(luò)的示意。當(dāng)然我們在實(shí)際的應(yīng)用中,搜索網(wǎng)絡(luò)要比這個復(fù)雜成千上萬倍,在這四個概率的引導(dǎo)下,我們通過我們的最優(yōu)化的方法將最后的識別結(jié)果給找出來,根據(jù)相關(guān)算法的不同可以分為如下的種類,包括動態(tài)的、靜態(tài)的解碼器,以及深度優(yōu)先或者廣度優(yōu)先,以及單便利和多便利解碼器等等,目前大部分商用系統(tǒng)采用的是靜態(tài)的、廣度優(yōu)先的、多便利解碼算法。
到這里我已經(jīng)把傳統(tǒng)語音識別的幾個重要模塊給介紹完了,當(dāng)然每個模塊其實(shí)就是一個很大的課題,可以做很多的研究。
傳統(tǒng)的語音識別需要經(jīng)過前端的信號處理、特征特區(qū)、聲學(xué)模型、語言模型等等各個模塊的優(yōu)化,來實(shí)現(xiàn)整個系統(tǒng)的識別。深度學(xué)習(xí)出來以后主要做了哪些工作呢?
下圖是基于深度學(xué)習(xí)的第一代的語音識別系統(tǒng),我們可以看到,它是將傳統(tǒng)的特征特區(qū)模塊和聲學(xué)建模模塊完成了我們這里的DNN這部分,它將傳統(tǒng)的聲學(xué)模型中基于淺層的高斯混合模型替換成了我們現(xiàn)在的深度神經(jīng)網(wǎng)絡(luò)模型,通過深度神經(jīng)網(wǎng)絡(luò)模型的多層的非線性建模能力直接預(yù)測狀態(tài)之間的分布函數(shù),同時他不需要像傳統(tǒng)方法一樣進(jìn)行基于人工的細(xì)致調(diào)節(jié)的特征的特區(qū),他通過自身的深度模型的特征引擎能力,就可以從比較原始的語音信號中提取中比較具有鑒別能力的特征。
語音識別是深度學(xué)習(xí)方法第一個成功的任務(wù),下圖我們列出了在2011年以后,深度學(xué)習(xí)方法提出來以后,包括微軟、谷歌,IBM,在各個語音識別任務(wù)上的性能對比,包括電話信道、廣播信道,谷歌的移動信道包括像Yoube這種復(fù)雜的語音數(shù)據(jù)上,中間的那列紅色的就是基于深度學(xué)習(xí)方法之后的詞的錯誤率,最右邊那列是傳統(tǒng)方法的錯誤率,我們可以看到基于深度學(xué)習(xí)方法新的語音識別策略都得到大幅的性能提升。
從2011年到現(xiàn)在,五年過去了,深度學(xué)習(xí)方法又得到了進(jìn)一步的發(fā)展。
更強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于語音識別,包括這里所列的卷積神經(jīng)網(wǎng)絡(luò),它可以對平移不變性和局部刻劃進(jìn)行很好的建模,此外對長時信息建模能力比較強(qiáng)的遞歸神經(jīng)網(wǎng)絡(luò),以及在這個基礎(chǔ)上派生出來的長短時記憶模型等等,此外在這些模型的基礎(chǔ)上各種組合模型也被提出,包括谷歌提出CLD模型,也就是所謂的卷積神經(jīng)網(wǎng)絡(luò)加上遞歸神經(jīng)網(wǎng)絡(luò)加上全連接網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)組合模式,它可以利用各個神經(jīng)網(wǎng)絡(luò)的優(yōu)勢可以進(jìn)一步的提升性能。
下圖是在電話語音識別庫上,從2011年到2016年,隨著深度學(xué)習(xí)的發(fā)展,語音識別的進(jìn)展。第一列是IBM在2011年的時候基于傳統(tǒng)方法的最好的系統(tǒng)性能,那時候大概錯誤率14.5,隨著這幾年的發(fā)展我們慢慢的從14.5做到了將近10到去年8%的錯誤率,在今年剛剛過去的9月國際語音通訊聯(lián)盟大會上IBM報道6.6的錯誤率,但是在過去不到一個月,微軟雷德蒙研究院就報道了一個5.9%的錯誤率??梢哉f這幾年的發(fā)展是飛速的,這個識別結(jié)果在2015年前或者說是不可想象的。
大家知道,電話語音數(shù)據(jù)庫在上世紀(jì)90年代中剛推出來的時候,它的識別性能識別錯誤率幾乎是100%,也就是說,你說一句話100%都是錯誤的,一個字都沒對,我們可以看到經(jīng)過20年的進(jìn)展,特別是這五年的進(jìn)展,識別性能已經(jīng)達(dá)到了一個幾乎跟人類持平的水平。
這是我是根據(jù)各個公開發(fā)表的文獻(xiàn)可查的總結(jié)了幾家所有的語音識別技術(shù)方案,包括百度、科大訊飛、思必馳,這三家基本上代表了業(yè)界語音識別研究的最高水平,因?yàn)榘俣扔邪俣壬疃妊芯吭海嶏w和中國科學(xué)技術(shù)大學(xué)也有聯(lián)合實(shí)驗(yàn)室,思必馳和我們上海交大也有聯(lián)合實(shí)驗(yàn)室。
百度使用的是一個所謂CLD的模型,就是剛才我前面所說的準(zhǔn)基神經(jīng)網(wǎng)絡(luò)加遞歸神經(jīng)網(wǎng)絡(luò)加全連接神經(jīng)網(wǎng)絡(luò)組合的模型;科大訊飛采用的是一個所謂FSMNN的一個模型,你可以簡單的理解成它介于遞歸和前饋經(jīng)網(wǎng)絡(luò)的之間的模型,它可以既像遞歸神經(jīng)網(wǎng)絡(luò)一樣,對長時信息進(jìn)行很好的建模,同時又用前饋神經(jīng)網(wǎng)絡(luò)快速計算的一個優(yōu)勢;而我們思必馳和上海交大采用的是一個叫極深卷積神經(jīng)網(wǎng)絡(luò)的模型,它通過很小的卷積層和遲化層,將傳統(tǒng)應(yīng)用于語音識別的淺層卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展到十層以上,這樣他就可以對局部的信息進(jìn)行更加精細(xì)的建模得到很好的系統(tǒng)性能。
在過去的五年中,基于深度學(xué)習(xí)方法,語音識別確實(shí)得到了一個飛速的發(fā)展,但是語音識別目前還面臨著很多的困境,包括噪聲魯棒性、多類復(fù)雜性、低數(shù)據(jù)資源、多語言特性、低計算資源等等,我將簡單的介紹幾個困境。
做聲環(huán)境下的魯棒語音識別一直是語音識別大規(guī)模應(yīng)用的主要絆腳石,我們?nèi)绾卧谝恍┰肼晥鼍氨容^大的情況下,比如說我們的馬路、咖啡廳,公共汽車,飛機(jī)場,以及會議室,大巴上等等,使得得到很高的識別精度,這是非常具有挑戰(zhàn)性的。
針對這個困境,我們上海交大和思必馳推出了一些解決策略,包括環(huán)境感知的深度模型以及神經(jīng)網(wǎng)絡(luò)的快速自適應(yīng)方法,它使得我們一般的深度模型可以對環(huán)境進(jìn)行一個實(shí)時的感知和自適應(yīng)調(diào)整,來提高實(shí)現(xiàn)系統(tǒng)性能,就像人耳一樣。另外我們也將極深卷積神經(jīng)網(wǎng)絡(luò)用于抗噪的語音識別得到巨大的系統(tǒng)性能的提升,在這個方面,我們在今年在語音處理的權(quán)威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing上發(fā)表了三篇期刊論文,大家有興趣的話也可以下載翻閱。這里值得一提的是其中兩個成果,一個成果是登上了IEEE/ACM Transactions on ASLP第11、12期的封面,另一個成果也上了這個期刊在近幾個月統(tǒng)計的最流行雜志的榜首。
下面我給大家看一下在語音識別的著名的數(shù)據(jù)庫,噪聲數(shù)據(jù)庫Aurora4世界最高水平的幾個研究機(jī)構(gòu)的系統(tǒng)性能的對比,最左邊是劍橋大學(xué)在2012年深度學(xué)習(xí)方法出來以前最好的系統(tǒng)是13.4%的一個錯誤率,然后經(jīng)過這幾年的優(yōu)化,包括微軟2013年發(fā)表的12.4%的錯誤率,到2014年IBM大概達(dá)到10%的錯誤率,科大訊飛去年也是在2015年發(fā)表了一個是10.3%,也是在10%左右,我們?nèi)ツ昴甑滓驳玫?.7%的錯誤率,我們可以看到在今年以前,大部分的研究機(jī)構(gòu)最好的識別性能錯別率也在10%左右。
今年上半年,英國愛丁堡大學(xué)得到一個比較好的結(jié)果是8.7%的錯誤率,但是在兩三個月以后,在今年的六七月份,我們達(dá)到了7.1%的錯誤率。我們在抗噪語音識別上得到飛速的進(jìn)展。
過去的大部分語音識別系統(tǒng)的設(shè)計主要是針對一些單一環(huán)境、單一場景下進(jìn)行設(shè)計的,如何做多類別復(fù)雜場景下的通用的語音識別是非常困難的,比如說在Youtube或者BBC上的一些數(shù)據(jù),可以來自各種各樣的語境和場景,有新聞廣播、新聞采訪、音樂會、訪談、電影等等,如何在多預(yù)警下做成一個通用的魯棒的語音識別性能呢,是比較有挑戰(zhàn)性的。
在這個方面我們?nèi)ツ陞⒓恿擞捎鳥BC公司和EPSRC主辦的MGB挑戰(zhàn)賽,其中我們在四個單向上均列世界第一,且每個單向的成績均大幅領(lǐng)先第二名,包括語音識別、說話人分割聚類、標(biāo)注對齊和時序漸進(jìn)語音識別等。
目前大部分語音識別的研究和應(yīng)用,主要是基于一些大語種,比如說英語、漢語、阿拉伯語和法語等等,我們知道世界上一共有6900多種語言,如何快速的實(shí)現(xiàn)一套基于任何語言的語言識別系統(tǒng)是非常困難的,它也具有重大的戰(zhàn)略意義。包括美國IARPA這幾年的Babel計劃,以及之前DARPA的GALE計劃,考慮到中國的國情我們有56個民族,所以構(gòu)建一套多語言低數(shù)據(jù)資源下的語音識別系統(tǒng)是非常關(guān)鍵和具有實(shí)際價值的。
在這個方面我們也在公開相同的數(shù)據(jù)環(huán)境下,搭建了相關(guān)系統(tǒng),下圖是我們和美國約翰霍普金斯大學(xué)的性能對比,我們在相同數(shù)據(jù)集合上取得了一個更優(yōu)的一個策略。
目前大部分的語音識別的應(yīng)用,包括我們手機(jī)上看到的一些app的應(yīng)用,這些語音識別背后都是基于云端的在線的一些語音識別的服務(wù)。如何在離線的環(huán)境下,基于一些有限的硬件資源做一些低功耗的離線的實(shí)時的大智慧的連續(xù)性識別是非常困難的,但是如果這個困境能解決,也是可以將語音識別真正走向千家萬戶,有巨大的推動作用的。
在這個方面我們也提出了解決策略,我們通過用連接時續(xù)模型去取代隱含馬爾科夫模型,將系統(tǒng)性能在速度上提升了7倍多,同時我們將傳統(tǒng)的基于幀同步的解碼方案替換成音素同步解碼方案,將系統(tǒng)的實(shí)時率進(jìn)一步提升到20倍,相關(guān)的方法我們也今年發(fā)表在IEEE/ACM Transactions on ASLP的期刊上。下面有相關(guān)的論文的介紹,大家也可以下載。
它是由約翰霍普金斯Dan Povey領(lǐng)導(dǎo)的,由九家著名語音機(jī)構(gòu)13人核心工作組歷時兩年開發(fā)完成的語音識別開源軟件,我也是這13人核心工作組中唯一來自亞洲的成員,當(dāng)時我在清華大學(xué),現(xiàn)在是在上海交通大學(xué)工作。然后這套工具包自2011年發(fā)布以來,下載量已經(jīng)超過了兩萬多次,合著的論文目前也已經(jīng)被引用一千多次。
Kaldi的影響是巨大的,他是第一個完全用C++編寫的,基于加權(quán)有限狀態(tài)及理論的語音識別開源軟件,它的模塊化與高度可擴(kuò)展性設(shè)計,詳細(xì)的說明文檔,完備公開的實(shí)力教程,也使得它受廣大開發(fā)者喜好的一個主要的原因。他目前被業(yè)界廣泛采用作為標(biāo)準(zhǔn)工具,包括學(xué)術(shù)界的MIT、CMU、GHU、劍橋,國內(nèi)的清華、上海交大等等,工業(yè)界包括微軟、谷歌、IBM,F(xiàn)acebook等等,它的推出也極大推進(jìn)整個語音識別領(lǐng)域的發(fā)展。
它是語音識別歷史上第一個開源的工具包,由劍橋大學(xué)的兩位教授,一個是劍橋大學(xué)的前副校長Steve Young,還有一個是劍橋大學(xué)智能語音實(shí)驗(yàn)室的主任Phil Woodland教授領(lǐng)導(dǎo)開發(fā)的一個開源軟件工具包,這兩位也是英國皇家工程院的院士。Phil Woodland教授也是我當(dāng)時在劍橋做博士后研究時候的合作導(dǎo)師。
HTK目前有十多萬的注冊用戶,引用次數(shù)也超過了五千多次,它所構(gòu)建的系統(tǒng)連續(xù)蟬聯(lián)了美國INST和DARPA評測的冠軍,可以說在深度學(xué)習(xí)出來以前,基于HTK的一些系統(tǒng)統(tǒng)治了語音識別將近20年。這里值得一提比較有趣的事情是前面開源工具包Kaldi的作者是Dan Povey,其中Dan Povey又是這個HTK工具包Phil Woodland教授的學(xué)生,所以我們可以說,老師開發(fā)了第一代語音識別開源軟件,學(xué)生開發(fā)了第二代語音識別開源軟件。
在去年,HTK針對深度學(xué)習(xí)方法,也發(fā)布了它的3.5版本,它可以對通用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行支持,此外還包括基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù),基于神經(jīng)網(wǎng)絡(luò)的鑒別性訓(xùn)練方法等等,其他包括準(zhǔn)基神經(jīng)網(wǎng)絡(luò),GRU,LSTM等等也在發(fā)布的計劃中,使用HTK3.5所構(gòu)建的系統(tǒng)在這兩年也獲得多個世界性評測的冠軍,其中我在前面兩年也參與了如下的一些工作:包括2014年DARPA-BOLT的冠軍,2014年IARPA-Babel的冠軍,2015年IARPA-Babel的冠軍,以及2015年EPSRC-MGB的冠軍,還有今年的IARPA-Babel的亞軍等等。我也參與了其中幾個比賽系統(tǒng)的構(gòu)建。
這是一套語言模型的開源工具軟件,也是由劍橋大學(xué)開發(fā)去年發(fā)布的,我也是合著者之一。它是對遞歸神經(jīng)網(wǎng)絡(luò)的語言模型進(jìn)行了一個很好的支持,相比之前捷克布爾諾理工發(fā)布的RNNLM版本,它可以很好的用GPU進(jìn)行加速訓(xùn)練,同時它又可以支持快速的訓(xùn)練和評估的算法和自適應(yīng)技術(shù)。此外這套工具包又對HTK和Kaldi兩套開源軟件進(jìn)行了很好的適配,可以對兩個系統(tǒng)的Lattice進(jìn)行重打分和重新解碼計算,這套開源工具包也被劍橋應(yīng)用于近期的各個比賽的系統(tǒng),得到了很好的一個成績。
目前比較流行的使用范圍比較廣的,包括微軟的CNTK,谷歌的Tensorflow,以及由DMLC維護(hù)的mxnet等等,還有之前包括來自蒙特利爾大學(xué)的Theano,來自伯克利的Caffe以及來自NYU的Torch等等。每套工具都有各自的優(yōu)勢,不能說孰優(yōu)孰劣,這完全根據(jù)大家的各自的興趣以及開發(fā)的語言的喜歡去選擇。
這里我想重點(diǎn)介紹的是微軟的CNTK,也是目前我們上海交大和思必馳所使用的一套深度學(xué)習(xí)的開源軟件。它是由微軟的雷德蒙研究院黃學(xué)東博士領(lǐng)導(dǎo)開發(fā)的一套計算網(wǎng)絡(luò)工具包,它可以很好的支持對各種神經(jīng)網(wǎng)絡(luò),對各種新奇算法訓(xùn)練的支持,此外在CNTK對Theano、Tensorflow、torch和Caffe等等的計算速度的對比方面,CNTK無論在單GPU,或是單機(jī)多卡的情況下,還是多機(jī)多卡的情況下,在速度上都有一個明顯的性能的優(yōu)勢。
這是由美國微軟雷德蒙研究院首席科學(xué)家俞棟老師和鄧力老師撰寫的一本關(guān)于深度學(xué)習(xí)和語音識別相結(jié)合的書籍,同時這本書中又對深度學(xué)習(xí)和語音識別在一些產(chǎn)品級應(yīng)用上的一些細(xì)節(jié)做了一些案例的介紹,它的英文版已經(jīng)與去年由斯普林格出版社正式出版。此外我和俞凱教授兩個人對這本英文版進(jìn)行了翻譯,中文譯本于今年由電子工業(yè)出版社出版,大家也可以在京東或者亞馬遜上進(jìn)行購買。
思必馳是國內(nèi)為數(shù)不多的擁有完整知識產(chǎn)權(quán)的語音公司,從縱向上看,它是國內(nèi)僅有的兩家擁有全面的語音技術(shù)的公司之一,我們從2007年劍橋創(chuàng)立至今已經(jīng)走過了近十年,從基本的大數(shù)據(jù)開始做積累,從識別引擎開始做,慢慢做到語音合成,再到語音識別++,再到現(xiàn)在整體的語音交互系統(tǒng),我們在語音這條路上不斷的深入下去,在2015年的年初,思必馳也首個提出了認(rèn)知智能概念層次。
從橫向上看,思必馳是目前國內(nèi)唯一一家只針對智能硬件領(lǐng)域提供語音支持的公司,我們只針對智能車載、家居、機(jī)器人三個領(lǐng)域提供解決方案,保證技術(shù)的垂直性和適用性,我們自己不做2C的產(chǎn)品,但是向企業(yè)提供純軟的解決方案和軟硬一體化的解決方案。我們是一個技術(shù)型的AI公司,盡量根據(jù)客戶的不同需求去提供各種實(shí)用且合適的語音方案。純軟的解決方案,即我們的AIOS,思必馳人工智能操作系統(tǒng),去年10月也率先推出了AIOS for Car,在后端市場上占有率達(dá)到60%,其中智能后視鏡在70%左右,HUD車載占據(jù)了大概80%,同時和小鵬汽車、智車優(yōu)行等互聯(lián)網(wǎng)汽車也簽署了合作。此外我們還有軟硬一體化的解決方案,包括國內(nèi)首款量產(chǎn)的環(huán)形6+1遠(yuǎn)場麥克風(fēng)陣列,四麥線性方案,以及和君正、慶科合作推出帶語音功能的芯片模組。
思必馳目前已經(jīng)快速成長為這個領(lǐng)域的No.1,目前思必馳的業(yè)務(wù)合作領(lǐng)域主要專注在智能硬件領(lǐng)域,包括車載、家居、機(jī)器人。目前在智能車載中,思必馳還主要是在后裝市場,是阿里YunOS的唯一戰(zhàn)略合作伙伴,所有用YunOS的車載產(chǎn)品都用的是思必馳語音,思必馳目前后裝市場占有率是第一,60%左右,智能后視鏡領(lǐng)域約為70%,HUD約為80%。在智能家居領(lǐng)域,包括音箱、電視、空調(diào)、油煙機(jī)等等,以及前兩天小米剛發(fā)布的小米音箱也是我們最新的合作案例,今年年底或明年年初,我們還有幾款重要的合作客戶產(chǎn)品要上市,敬請大家期待。在家居領(lǐng)域,思必馳還有上升空間,目前在第二。而智能機(jī)器人領(lǐng)域,由于生態(tài)尚早,現(xiàn)在機(jī)器人產(chǎn)品龍蛇混雜,但未來潛力大,我們主要是在與服務(wù)型機(jī)器人合作,塑造典型的精品案例,包括大華小樂機(jī)器人、360小巴迪、東方網(wǎng)力、金剛蟻的小憶機(jī)器人、小蘿卜機(jī)器人等,都是我們的合作案例。
我們除了在不斷深入語音技術(shù)研發(fā)以外,還在做的一件事情就是打通整個后端服務(wù),從導(dǎo)航到音樂,到資訊搜索,到個人管家甚至O2O,通過語音交互,讓用戶和第三方內(nèi)容無縫鏈接起來,提供一站式的產(chǎn)業(yè)化服務(wù),配合合作客戶一起打造更實(shí)用,更有趣的人機(jī)交互體驗(yàn),在未來很長一段時間內(nèi),這都將是我們堅持不變的理念和方向。(本文獨(dú)家首發(fā)鈦媒體,根據(jù)思必馳上海交大聯(lián)合實(shí)驗(yàn)室副主任、上海交通大學(xué)計算機(jī)科學(xué)與工程系助理教授錢彥旻在鈦坦白上的分享整理)
………………………………………………
鈦坦白第27期,也是“AI已來”系列第一期,六位鈦客的精彩分享已經(jīng)結(jié)束,干貨會陸續(xù)發(fā)布:http://m.chcmb.cn/tag/1508094
時間:12月26日、27日19點(diǎn)-22點(diǎn)
地點(diǎn):鈦坦白|人工智能(微信群)
報名入群:在微信公號“鈦媒體”(taimeiti),發(fā)送“鈦坦白”
推薦鈦客、贊助、合作:請與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com
快報
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論
最近不是有篇文章說,TX小馬哥嫌語音搜索私密性差不想做,這又怎么解決呢?
厲害??