-->
第五課:聲紋識別技術(shù)的研究進(jìn)展
小欣:這節(jié)課,溫老師會為我們講解聲紋識別的研究原理。
溫正棋:說話人識別也就是聲紋識別,簡單介紹一下現(xiàn)有的I-vector系統(tǒng)以及如何將DNN應(yīng)用到對應(yīng)的I-vector系統(tǒng),同時我們也跟蹤了最近end to end的一種方法。
基于Ivector系統(tǒng)通過UBM模型來訓(xùn)練數(shù)據(jù),然后訓(xùn)練得到混合高斯模型,通過統(tǒng)計量的提取比如零階、一階、二階我們來訓(xùn)練它的差異空間T從而提取出它的Ivector。
最后考慮到不同的補(bǔ)償方式進(jìn)行信道補(bǔ)償使性能更加完善,同時我們在合成端、最后識別端也可以考慮不同系統(tǒng)的融合提高最終的準(zhǔn)確率。
將DNN用到說話人識別主要是針對Ivector的系統(tǒng)。UBM訓(xùn)練是一個無監(jiān)督的訓(xùn)練方式不考慮音速相關(guān)的信息,因此就不考慮每個人說話音速在聲學(xué)空間上的不同。
我們可以將這部分信息運用到說話人識別中,將前面提到的Ivector需要的臨界統(tǒng)計量通過DNN模型的輸出進(jìn)行替換。在訓(xùn)練Ivector的過程中考慮每個人音速、發(fā)音音速相關(guān)的不同特征,這樣會更好的對說話人進(jìn)行識別。
DNN還有一種應(yīng)用形式采用bottleneck特征替換掉原來的MFCC、PLP相關(guān)的特征,這也是從音速區(qū)分性、每個人發(fā)音音速不一樣來考慮的。
小欣:下節(jié)課,溫老師會為我們講解未來人機(jī)交互的研究方向。
【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

賬號合并
經(jīng)檢測,你是“鈦媒體”和“商業(yè)價值”的注冊用戶。現(xiàn)在,我們對兩個產(chǎn)品因進(jìn)行整合,需要您選擇一個賬號用來登錄。無論您選擇哪個賬號,兩個賬號的原有信息都會合并在一起。對于給您造成的不便,我們深感歉意。
Oh! no
您是否確認(rèn)要刪除該條評論嗎?