專家親授:基於DSP原理的漢子語音識別係統的實現
發布時間:2014-11-04 責任編輯:echolady
【導讀】語(yu)音(yin)識(shi)別(bie)是(shi)機(ji)器(qi)通(tong)過(guo)識(shi)別(bie)理(li)解(jie)之(zhi)後(hou)將(jiang)語(yu)音(yin)信(xin)號(hao)轉(zhuan)化(hua)成(cheng)文(wen)本(ben)文(wen)件(jian)的(de)高(gao)科(ke)技(ji)。這(zhe)一(yi)領(ling)域(yu)現(xian)如(ru)今(jin)已(yi)成(cheng)為(wei)研(yan)究(jiu)的(de)焦(jiao)點(dian),並(bing)且(qie)在(zai)某(mou)些(xie)領(ling)域(yu)已(yi)取(qu)得(de)了(le)突(tu)破(po)成(cheng)就(jiu)。本(ben)文(wen)由(you)專(zhuan)家(jia)從(cong)原(yuan)理(li)入(ru)手(shou),深(shen)入(ru)解(jie)析(xi)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)的(de)實(shi)現(xian)過(guo)程(cheng)。
作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。本漢語語音識別係統是一個非特定人的、孤立音語音識別係統。其中孤立音至少包括漢語的400多個調音節(不考慮聲調)以及一些常用的詞組。識別係統主要用於手持設備,如手機、掌上電腦。這些設備的CPU一般是DSP,yingjianziyuanshifenyouxian,erqiedaduobuzhichifudianyunsuan。name,duixitonggegebufendeshejishouyaokaolvdeshixitongduiyingjianziyuandekaixiaobixujinliangdexiao,bunengchaoguozhexieshebeidexianzhi。yingjianziyuandekaixiaobaokuocunchumoxingcanshudekaixiao,yijishibieguochengzhongduineicun、DSP的運行時間的開銷。
語音識別係統的實現流程

圖1:語音識別係統處理框圖
在語音識別係統中,模擬的語音信號在完成A/D轉zhuan換huan後hou成cheng為wei數shu字zi信xin號hao,但dan時shi域yu上shang的de語yu音yin信xin號hao很hen難nan直zhi接jie用yong於yu識shi別bie,因yin此ci需xu要yao從cong語yu音yin信xin號hao中zhong提ti取qu語yu音yin的de特te征zheng,一yi方fang麵mian可ke以yi獲huo得de語yu音yin的de本ben質zhi特te征zheng,另ling一yi方fang麵mian也ye起qi到dao數shu據ju壓ya縮suo的de作zuo用yong。輸shu入ru的de模mo擬ni語yu音yin信xin號hao首shou先xian要yao進jin行xing預yu處chu理li,包bao括kuo預yu濾lv波bo、采樣和量化、加窗、端點檢測、yujiazhongdeng。yuyinshibiexitongdemoxingtongchangyoushengxuemoxingheyuyanmoxingliangbufenzucheng,fenbieduiyingyuyuyindaobanyinjiegailvdejisuanhebanyinjiedaozigailvdejisuan。
語音識別係統的特征提取
muqiantongyongdetezhengtiqufangfashijiyuyuyinzhende,jijiangyuyinxinhaofenweiyouzhongdiederuoganzhen,duimeiyizhentiquyuyintezheng。youyubenjishufangancaiyongdeyuyinkucaiyanglvwei8 kHz,因此采用幀長為256個采樣點(即32 ms),幀步長或幀移(即每一幀語音與上一幀語音不重疊的長度)為80個采樣點(即10 ms)。
現有語音識別係統采用的最主要的兩種語音特征包括:
線性預測倒譜參數(Linear Prediction Cepstrum Coefficient,LPCC),該特征是基於語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜參數。LPCC參數的優點是計算量小,對元音有較好的描述能力,其缺點在於對輔音的描述能力較差,抗噪聲性能較差。
Mel 頻標倒譜參數(Mel Frequency Cepstrum Coefficient,MFCC),該特征考慮了人耳的聽覺特性,將頻譜轉化為基於Mel頻標的非線性頻譜,然後轉換到倒譜域上。由於充分模擬了人的聽覺特性,而且沒有任何前提假設,MFCC參數具有識別性能和抗噪能力,實驗證明在漢語數碼語音識別中MFCC 參數的性能明顯優於LPCC參數,因此本技術方案采用MFCC參數為語音特征參數。
求MFCC參數的大致過程為:
對輸入語音幀加Hamming窗後做快速傅裏葉變換(Fast Fourier Transformation,FFT),將時域信號轉化為頻域信號。
將線性頻標轉化為Mel頻標。轉化方法是將頻域信號通過24個三角濾波器,其中中心頻率在1 000 Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1 000 Hz以上為等比數列分布。三角濾波器的輸出為:

用離散餘弦變換(Discrete Cosine Transformation,DCT)將濾波器輸出變換到倒譜域:

為體現語音的動態特性,在語音特征中加入了一階差分倒譜,其計算方法如下式所示:

[page]
MFCC參數計算的要點是將線性功率譜S(n)轉換成為Mel頻率下的功率譜,這需要在計算之前先在語音的頻譜範圍內設置若幹個帶通濾波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M為濾波器個數,N為一幀語音信號的點數。每個濾波器具有三角形特性,其中心頻率為fm,它們在Mel頻率軸上是均勻分布的。在線性頻率上,當m 較小時相鄰的fm間隔很小,隨著m的增加相鄰的fm間隔逐漸拉開。Mel頻率和線性頻率的轉換關係如下:

圖2:利用人耳仿生學特性設計的Mel尺度濾波器組
測度估計技術可以采用動態時間彎折DTW、隱馬爾可夫模型HMM或人工神經網ANN等算法,本項目采用國際上最先進的HMM,這樣能夠比較容易的實現非特定人,而且係統結構也比較靈活、一致。
根據描述的語音單位的大小,HMM可分為:基於整詞模型的HMM(Word based HMM)。其優點為可以很好地描述詞內音素協同發音的特點,建模過程也較為簡單。因此很多小詞彙量語音識別係統均采用整詞模型HMM。但在大詞彙量語音識別中由於所需建立的模型太多而無法使用。
基於子詞模型的HMM(Sub Word based HMM)。該類HMM描miao述shu的de語yu音yin單dan位wei比bi詞ci小xiao,如ru英ying語yu語yu音yin識shi別bie中zhong的de基ji本ben音yin素su,漢han語yu語yu音yin識shi別bie中zhong的de半ban音yin節jie等deng。其qi優you點dian為wei模mo型xing總zong數shu少shao,所suo以yi在zai大da詞ci彙hui量liang語yu音yin識shi別bie中zhong得de到dao了le廣guang泛fan的de應ying用yong。其qi缺que點dian在zai於yu其qi描miao述shu詞ci內nei協xie同tong發fa音yin的de能neng力li劣lie於yu整zheng詞ci模mo型xing,但dan由you於yu子zi詞ci模mo型xing已yi經jing得de到dao了le非fei常chang充chong分fen的de研yan究jiu,所suo以yi近jin年nian來lai在zai很hen多duo小xiao詞ci表biao應ying用yong識shi別bie係xi統tong中zhong也ye用yong了le子zi詞ci模mo型xing。本ben技ji術shu方fang案an采cai用yong基ji於yu半ban音yin節jie(即聲、韻母)的語音建模方法,其識別模型拓撲結構如圖3 所示,其中靜音HMM采用1個狀態,每一聲母模型采用2個狀態,每一韻母模型采用4個狀態。

圖3:語音模型拓撲結構
離散HMM(Discrete HMM,DHMM)。其(qi)輸(shu)出(chu)概(gai)率(lv)是(shi)基(ji)於(yu)一(yi)套(tao)碼(ma)本(ben)的(de)離(li)散(san)概(gai)率(lv)分(fen)布(bu),其(qi)優(you)點(dian)在(zai)於(yu)由(you)於(yu)實(shi)現(xian)了(le)存(cun)儲(chu)量(liang)和(he)計(ji)算(suan)量(liang)都(dou)較(jiao)小(xiao),所(suo)需(xu)的(de)訓(xun)練(lian)語(yu)音(yin)也(ye)較(jiao)少(shao),但(dan)其(qi)矢(shi)量(liang)量(liang)化(hua)的(de)過(guo)程(cheng)會(hui)造(zao)成(cheng)性(xing)能(neng)的(de)損(sun)失(shi)。
連續HMM(Continuous Density HMM,CDHMM)。其輸出概率是連續概率密度函數(一般是高斯混合密度函數)。其所需的訓練語音較多,模型參數存儲量和計算量都較大,在訓練語音足夠時,其性能優於DHMM。
半連續HMM(Semi Continuous HMM,SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個碼字均為一個連續概率密度分布函數,這一點與CDHMM相近。其性能和所需的訓練語音等均介於DHMM和CDHMM之間。
考慮到漢語數碼語音所需的模型較少,很容易獲得足夠多的訓練語音,因此本技術方案采用了CDHMM為語音模型。
狀態輸出概率分布為混合高斯密度函數。其各分量計算如下:


該算法利用Viterbi譯碼的過程進行幀同步的搜索,易於實時實現,也容易納入語法信息。考慮到係統的實時實現性,本技術方案采用Viterbi譯碼作為係統的搜索算法。
係統試驗結果
在漢語全音節與詞組混合的語音識別任務中,得到的初步實驗結果為:PC微機浮點算法條件下正確覆蓋率不低於98%,定點算法的正確覆蓋率不低於97%。DSP嵌入係統定點條件下正確覆蓋率不低於96%。係統的響應時間滿足實時識別的要求。通過測試組嚴格的檢查及抽樣測試,證明上述結果真實可靠,該輸入法基本達到實用化要求。
總結
漢han字zi語yu音yin識shi別bie是shi科ke技ji領ling域yu的de重zhong要yao課ke題ti,本ben文wen介jie紹shao的de方fang案an設she計ji采cai用yong孤gu立li語yu音yin的de全quan音yin階jie和he詞ci組zu的de混hun合he識shi別bie模mo式shi,使shi用yong連lian續xu概gai率lv分fen布bu非fei特te定ding人ren的de聲sheng學xue模mo型xing,並bing輔fu以yi多duo候hou選xuan的de人ren機ji交jiao互hu方fang式shi,漢han子zi語yu音yin的de輸shu入ru。相xiang信xin未wei來lai在zai語yu音yin識shi別bie的de方fang向xiang上shang還hai會hui取qu得de更geng大da的de突tu破po。
相關閱讀:
技術達人:ARM的非特定人語音識別係統的設計
智能手機的超性能語音識別技術
技術分享:基於DSP和OZ890的電池管理係統電路設計
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 從“可演示”到“可部署”:人形機器人全鏈路測試驗證體係構建
- e絡盟與Same Sky簽署全球分銷協議,拓展高性能元器件版圖
- 告別“偏色”煩惱:光譜傳感器如何重塑手機攝影的真實色彩
- 從“掃描”到“洞察”:Hyperlux ID iToF技術如何攻克30米測距極限
- 解鎖算力芯片的“速度密碼”:SmartDV全棧IP方案深度解析
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索





