專家親授：基於DSP原理的漢子語音識別係統的實現-測試測量-電子元件技術網

你的位置：首頁 > 測試測量 > 正文

專家親授：基於DSP原理的漢子語音識別係統的實現

發布時間：2014-11-04 責任編輯：echolady

【導讀】語(yu)音(yin)識(shi)別(bie)是(shi)機(ji)器(qi)通(tong)過(guo)識(shi)別(bie)理(li)解(jie)之(zhi)後(hou)將(jiang)語(yu)音(yin)信(xin)號(hao)轉(zhuan)化(hua)成(cheng)文(wen)本(ben)文(wen)件(jian)的(de)高(gao)科(ke)技(ji)。這(zhe)一(yi)領(ling)域(yu)現(xian)如(ru)今(jin)已(yi)成(cheng)為(wei)研(yan)究(jiu)的(de)焦(jiao)點(dian)，並(bing)且(qie)在(zai)某(mou)些(xie)領(ling)域(yu)已(yi)取(qu)得(de)了(le)突(tu)破(po)成(cheng)就(jiu)。本(ben)文(wen)由(you)專(zhuan)家(jia)從(cong)原(yuan)理(li)入(ru)手(shou)，深(shen)入(ru)解(jie)析(xi)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)的(de)實(shi)現(xian)過(guo)程(cheng)。

作為專門的研究領域，語音識別又是一門交叉學科，它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。本漢語語音識別係統是一個非特定人的、孤立音語音識別係統。其中孤立音至少包括漢語的400多個調音節（不考慮聲調）以及一些常用的詞組。識別係統主要用於手持設備，如手機、掌上電腦。這些設備的CPU一般是DSP，yingjianziyuanshifenyouxian，erqiedaduobuzhichifudianyunsuan。name，duixitonggegebufendeshejishouyaokaolvdeshixitongduiyingjianziyuandekaixiaobixujinliangdexiao，bunengchaoguozhexieshebeidexianzhi。yingjianziyuandekaixiaobaokuocunchumoxingcanshudekaixiao，yijishibieguochengzhongduineicun、DSP的運行時間的開銷。

語音識別係統的實現流程

專家親授：基於DSP原理的漢子語音識別係統的實現

圖1：語音識別係統處理框圖

在語音識別係統中，模擬的語音信號在完成A/D轉zhuan換huan後hou成cheng為wei數shu字zi信xin號hao，但dan時shi域yu上shang的de語yu音yin信xin號hao很hen難nan直zhi接jie用yong於yu識shi別bie，因yin此ci需xu要yao從cong語yu音yin信xin號hao中zhong提ti取qu語yu音yin的de特te征zheng，一yi方fang麵mian可ke以yi獲huo得de語yu音yin的de本ben質zhi特te征zheng，另ling一yi方fang麵mian也ye起qi到dao數shu據ju壓ya縮suo的de作zuo用yong。輸shu入ru的de模mo擬ni語yu音yin信xin號hao首shou先xian要yao進jin行xing預yu處chu理li，包bao括kuo預yu濾lv波bo、采樣和量化、加窗、端點檢測、yujiazhongdeng。yuyinshibiexitongdemoxingtongchangyoushengxuemoxingheyuyanmoxingliangbufenzucheng，fenbieduiyingyuyuyindaobanyinjiegailvdejisuanhebanyinjiedaozigailvdejisuan。

語音識別係統的特征提取

muqiantongyongdetezhengtiqufangfashijiyuyuyinzhende，jijiangyuyinxinhaofenweiyouzhongdiederuoganzhen，duimeiyizhentiquyuyintezheng。youyubenjishufangancaiyongdeyuyinkucaiyanglvwei8 kHz，因此采用幀長為256個采樣點（即32 ms），幀步長或幀移（即每一幀語音與上一幀語音不重疊的長度）為80個采樣點（即10 ms）。

現有語音識別係統采用的最主要的兩種語音特征包括：

線性預測倒譜參數（Linear Prediction Cepstrum Coefficient，LPCC），該特征是基於語音信號為自回歸信號的假設，利用線性預測分析獲得倒譜參數。LPCC參數的優點是計算量小，對元音有較好的描述能力，其缺點在於對輔音的描述能力較差，抗噪聲性能較差。

Mel 頻標倒譜參數（Mel Frequency Cepstrum Coefficient，MFCC），該特征考慮了人耳的聽覺特性，將頻譜轉化為基於Mel頻標的非線性頻譜，然後轉換到倒譜域上。由於充分模擬了人的聽覺特性，而且沒有任何前提假設，MFCC參數具有識別性能和抗噪能力，實驗證明在漢語數碼語音識別中MFCC 參數的性能明顯優於LPCC參數，因此本技術方案采用MFCC參數為語音特征參數。

求MFCC參數的大致過程為：

對輸入語音幀加Hamming窗後做快速傅裏葉變換（Fast Fourier Transformation，FFT），將時域信號轉化為頻域信號。

將線性頻標轉化為Mel頻標。轉化方法是將頻域信號通過24個三角濾波器，其中中心頻率在1 000 Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布，1 000 Hz以上為等比數列分布。三角濾波器的輸出為：

專家親授：基於DSP原理的漢子語音識別係統的實現

式中：Xk為頻譜上第k個頻譜點的能量；Yi為第i個濾波器的輸出；Fi為第i個濾波器的中心頻率。
用離散餘弦變換（Discrete Cosine Transformation，DCT）將濾波器輸出變換到倒譜域：

式中：p為MFCC參數的階數，這裏取p = 12。{Ck}k = 1,2,…,12即為所求的MFCC參數。
為體現語音的動態特性，在語音特征中加入了一階差分倒譜，其計算方法如下式所示：

式中下標l與l - k表示第l與l - k幀；m表示第m維。
[page]
MFCC參數計算的要點是將線性功率譜S(n)轉換成為Mel頻率下的功率譜，這需要在計算之前先在語音的頻譜範圍內設置若幹個帶通濾波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M為濾波器個數，N為一幀語音信號的點數。每個濾波器具有三角形特性，其中心頻率為fm，它們在Mel頻率軸上是均勻分布的。在線性頻率上，當m 較小時相鄰的fm間隔很小，隨著m的增加相鄰的fm間隔逐漸拉開。Mel頻率和線性頻率的轉換關係如下：

這些帶通濾波器的參數是事先計算好的。圖2給出了濾波器組的分布圖，其中M 選擇為26，FFT點數N為256，語音信號的采樣頻率為8000 Hz。

專家親授：基於DSP原理的漢子語音識別係統的實現

圖2：利用人耳仿生學特性設計的Mel尺度濾波器組

係統測度估計

測度估計技術可以采用動態時間彎折DTW、隱馬爾可夫模型HMM或人工神經網ANN等算法，本項目采用國際上最先進的HMM，這樣能夠比較容易的實現非特定人，而且係統結構也比較靈活、一致。

根據描述的語音單位的大小，HMM可分為：基於整詞模型的HMM（Word based HMM）。其優點為可以很好地描述詞內音素協同發音的特點，建模過程也較為簡單。因此很多小詞彙量語音識別係統均采用整詞模型HMM。但在大詞彙量語音識別中由於所需建立的模型太多而無法使用。

基於子詞模型的HMM（Sub Word based HMM）。該類HMM描miao述shu的de語yu音yin單dan位wei比bi詞ci小xiao，如ru英ying語yu語yu音yin識shi別bie中zhong的de基ji本ben音yin素su，漢han語yu語yu音yin識shi別bie中zhong的de半ban音yin節jie等deng。其qi優you點dian為wei模mo型xing總zong數shu少shao，所suo以yi在zai大da詞ci彙hui量liang語yu音yin識shi別bie中zhong得de到dao了le廣guang泛fan的de應ying用yong。其qi缺que點dian在zai於yu其qi描miao述shu詞ci內nei協xie同tong發fa音yin的de能neng力li劣lie於yu整zheng詞ci模mo型xing，但dan由you於yu子zi詞ci模mo型xing已yi經jing得de到dao了le非fei常chang充chong分fen的de研yan究jiu，所suo以yi近jin年nian來lai在zai很hen多duo小xiao詞ci表biao應ying用yong識shi別bie係xi統tong中zhong也ye用yong了le子zi詞ci模mo型xing。本ben技ji術shu方fang案an采cai用yong基ji於yu半ban音yin節jie（即聲、韻母）的語音建模方法，其識別模型拓撲結構如圖3 所示，其中靜音HMM采用1個狀態，每一聲母模型采用2個狀態，每一韻母模型采用4個狀態。

專家親授：基於DSP原理的漢子語音識別係統的實現

圖3：語音模型拓撲結構

根據輸出概率分布的不同，HMM（隱含馬爾科夫模型）可分為：

離散HMM（Discrete HMM，DHMM）。其(qi)輸(shu)出(chu)概(gai)率(lv)是(shi)基(ji)於(yu)一(yi)套(tao)碼(ma)本(ben)的(de)離(li)散(san)概(gai)率(lv)分(fen)布(bu)，其(qi)優(you)點(dian)在(zai)於(yu)由(you)於(yu)實(shi)現(xian)了(le)存(cun)儲(chu)量(liang)和(he)計(ji)算(suan)量(liang)都(dou)較(jiao)小(xiao)，所(suo)需(xu)的(de)訓(xun)練(lian)語(yu)音(yin)也(ye)較(jiao)少(shao)，但(dan)其(qi)矢(shi)量(liang)量(liang)化(hua)的(de)過(guo)程(cheng)會(hui)造(zao)成(cheng)性(xing)能(neng)的(de)損(sun)失(shi)。

連續HMM（Continuous Density HMM，CDHMM）。其輸出概率是連續概率密度函數（一般是高斯混合密度函數）。其所需的訓練語音較多，模型參數存儲量和計算量都較大，在訓練語音足夠時，其性能優於DHMM。

半連續HMM（Semi Continuous HMM，SCHMM）。SCHMM是DHMM和CDHMM的折衷，與DHMM相似，其輸出為一套碼本，但每個碼字均為一個連續概率密度分布函數，這一點與CDHMM相近。其性能和所需的訓練語音等均介於DHMM和CDHMM之間。

考慮到漢語數碼語音所需的模型較少，很容易獲得足夠多的訓練語音，因此本技術方案采用了CDHMM為語音模型。
狀態輸出概率分布為混合高斯密度函數。其各分量計算如下：

專家親授：基於DSP原理的漢子語音識別係統的實現

總的概率輸出即為各分量的加權和：

式中：s表示當前狀態；M為混合分量數；u，Σ ，c分別為各混合分量的均值矢量、協方差矩陣和混合分量係數。

該算法利用Viterbi譯碼的過程進行幀同步的搜索，易於實時實現，也容易納入語法信息。考慮到係統的實時實現性，本技術方案采用Viterbi譯碼作為係統的搜索算法。

係統試驗結果

在漢語全音節與詞組混合的語音識別任務中，得到的初步實驗結果為：PC微機浮點算法條件下正確覆蓋率不低於98%，定點算法的正確覆蓋率不低於97%。DSP嵌入係統定點條件下正確覆蓋率不低於96%。係統的響應時間滿足實時識別的要求。通過測試組嚴格的檢查及抽樣測試，證明上述結果真實可靠，該輸入法基本達到實用化要求。

總結

漢han字zi語yu音yin識shi別bie是shi科ke技ji領ling域yu的de重zhong要yao課ke題ti，本ben文wen介jie紹shao的de方fang案an設she計ji采cai用yong孤gu立li語yu音yin的de全quan音yin階jie和he詞ci組zu的de混hun合he識shi別bie模mo式shi，使shi用yong連lian續xu概gai率lv分fen布bu非fei特te定ding人ren的de聲sheng學xue模mo型xing，並bing輔fu以yi多duo候hou選xuan的de人ren機ji交jiao互hu方fang式shi，漢han子zi語yu音yin的de輸shu入ru。相xiang信xin未wei來lai在zai語yu音yin識shi別bie的de方fang向xiang上shang還hai會hui取qu得de更geng大da的de突tu破po。

相關閱讀：

技術達人：ARM的非特定人語音識別係統的設計
 智能手機的超性能語音識別技術
 技術分享：基於DSP和OZ890的電池管理係統電路設計

要采購濾波器麼，點這裏了解一下價格!

上一篇：選型必備：LED驅動器架構的選擇

下一篇：直擊痛處：如何巧妙防止電路設計的靜電放電

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

友情鏈接(QQ：317243736)

我愛方案網 ICGOO元器件商城創芯在線檢測芯片查詢天天IC網電子產品世界無線通信模塊控製工程網電子開發網電子技術應用與非網世紀電源網 21ic電子技術資料下載電源網電子發燒友網中電網中國工業電器網連接器礦山設備網工博士智慧農業工業路由器天工網乾坤芯電子元器件采購網亞馬遜KOL 聚合物鋰電池工業自動化設備企業查詢工業路由器元器件商城連接器 USB中文網今日招標網塑料機械網農業機械中國IT產經新聞網高低溫試驗箱

關閉

關閉