非特定人車載音響語音控製係統的設計
發布時間:2012-03-06
中心議題:
- 語音控製器硬件設計
- 語音控製係統軟件設計
- 實驗結果及結論分析
解決方案:
- 采用Infineon公司的SDA80D51芯片
- 非特定人語音識別模塊和邏輯控製模塊設計方案
suizhexiandaidianzijishuzaiqichexitongzhongdebuduanyingyong,yuelaiyueduodechezaidianqijiarudaocheshendianzixingliezhong,shideqichedegezhongxingnengdoudedaolejidadegaishan,danqichejiashishide開關也越來越多, 這就為駕駛員行車中對車載電器的操作提出了更高的要求,同時也給行車過程帶來了不安全的隱患。隨著語音識別算法的改進和新一代Soczhuanyongyuyinchulixinpiandewenshi,shiyongyuyinminglingkongzhiqichedianqidecaozuonenggoubufenyongkoudaitishoudegongneng,congerjianqingjiashiyuancaozuofudan,tigaoxingcheanquanxishu。
目(mu)前(qian)我(wo)國(guo)的(de)車(che)身(shen)電(dian)子(zi)語(yu)音(yin)控(kong)製(zhi)主(zhu)要(yao)集(ji)中(zhong)在(zai)汽(qi)車(che)導(dao)航(hang)係(xi)統(tong)的(de)應(ying)用(yong)上(shang),沒(mei)有(you)充(chong)分(fen)發(fa)揮(hui)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)在(zai)車(che)身(shen)電(dian)子(zi)中(zhong)的(de)應(ying)用(yong)價(jia)值(zhi)。本(ben)文(wen)提(ti)出(chu)了(le)一(yi)種(zhong)的(de)以(yi)專(zhuan)用(yong)語(yu)音(yin)處(chu)理(li)芯(xin)片(pian)UniSpeech-SDA80D51為核心控製車載音響操作的設計方案,並在SL1102C1型車載音響上實現了對非特定人的語音識別與控製。
語音控製器硬件
車載語音控製器係統由定向拾音器、語音識別模塊、控製模塊和音響模塊組成。係統的功能是:由(you)拾(shi)音(yin)器(qi)采(cai)集(ji)駕(jia)駛(shi)員(yuan)發(fa)出(chu)的(de)語(yu)音(yin)命(ming)令(ling),利(li)用(yong)語(yu)音(yin)識(shi)別(bie)模(mo)塊(kuai)將(jiang)拾(shi)音(yin)器(qi)輸(shu)出(chu)的(de)語(yu)音(yin)物(wu)理(li)聲(sheng)音(yin)信(xin)號(hao)轉(zhuan)變(bian)成(cheng)語(yu)音(yin)數(shu)字(zi)信(xin)號(hao),並(bing)識(shi)別(bie)出(chu)語(yu)音(yin)命(ming)令(ling)對(dui)應(ying)的(de)漢(han)字(zi)或(huo)詞(ci)語(yu),之(zhi)後(hou)由(you)控(kong)製(zhi)模(mo)塊(kuai)產(chan)生(sheng)與(yu)之(zhi)對(dui)應(ying)的(de)詞(ci)條(tiao)編(bian)碼(ma)指(zhi)令(ling),通(tong)過(guo)係(xi)統(tong)I/O口線將控製命令傳達給音響,車載音響接收到控製指令產生動作,響應駕駛員的語音命令,比如快進、快退或音量調節等。係統結構及原理框圖如圖1 所示:

語音識別模塊主要由UniSpeech-SDA80D51芯片及外圍電路組成。本模塊主要實現對輸入的非特定人語音信號的識別和處理功能,輸出與語音命令對應的詞條編碼。
SDA80D51是Infineon公司專為語音識別和語音處理應用領域新推出的專用芯片,采用高集成度的Soc係統結構以0.18μm半導體工藝製造,擁有8位高速增強型M8051核心(25MIPS)和16位定點DSP核心OAK(100MIPS)的雙核架構,片內集成了直接雙訪問快速SRAM、2路ADC和2路DAC(有效精度為12Bit)、多種通信接口和通用GPIO等設備,外部隻需擴展Flash存儲器等少量外圍電路即可構成完整應用係統。
控製模塊由MCU和模擬開關電路構成,本模塊主要完成對語音識別模塊輸出的識別結果--詞條編碼信號進行邏輯分析和處理,通過模擬開關電路產生對應功能的控製信號輸出到音響,控製音響的操作。其中MCU選用美國ATMEL公司產品AT89S51,由於車載音響SL1102C1上的按鍵控製麵板為電阻式分流鍵盤電路,采用電壓采樣識別模式,對不同鍵值進行識別,綜合SDA80D51芯片輸出的I/O電壓特性,確定使用繼電器模擬SL1102C1控製麵板按鍵的閉合和斷開動作。
本設計是基於安徽森力公司的SL1102C1汽車音響。SL1102C1是專門為中檔轎車設計的汽車音響,具有MP3播放、收音機和顯示時間等功能,目前大量使用在江淮同悅轎車上。SL1102C1前板共有15個按鍵和一個用來調節音量的編碼開關。分別為開關機/靜音、音效設置、6個台位、播放/暫停、隨機播放、重複播放、瀏覽播放、選擇下曲(快進)、選擇上曲(快退)、向下搜台/上一曲、向上鎖台/下一曲、模式轉換、電台瀏覽/自動存儲台、波段切換、顯示時間/時間設置和複位等功能。
音響前板上的按鍵為電壓采樣識別方式,按鍵包含短按(延時小於0.2s)和長按(延時大於1s)兩種動作,控製模塊MCU(AT89S51)的輸出電壓為TTL電平,直接采用MCU信號驅動音響按鍵動作容易引起誤識別,造成係統誤操作,因此本文采用模擬開關電路,很好地解決了上述問題。當AT89S51接(jie)收(shou)到(dao)語(yu)音(yin)模(mo)塊(kuai)輸(shu)出(chu)的(de)一(yi)個(ge)語(yu)音(yin)命(ming)令(ling)識(shi)別(bie)結(jie)果(guo)編(bian)碼(ma)信(xin)號(hao)後(hou),立(li)即(ji)進(jin)行(xing)邏(luo)輯(ji)分(fen)析(xi)並(bing)輸(shu)出(chu)對(dui)應(ying)的(de)控(kong)製(zhi)信(xin)號(hao)驅(qu)動(dong)相(xiang)應(ying)繼(ji)電(dian)器(qi)吸(xi)合(he)模(mo)擬(ni)按(an)鍵(jian)動(dong)作(zuo),按(an)鍵(jian)的(de)短(duan)按(an)和(he)長(chang)按(an)功(gong)能(neng)是(shi)通(tong)過(guo)軟(ruan)件(jian)實(shi)現(xian)的(de)。
[page]
係統軟件設計
係統的軟件包括:非特定人語音識別模塊和邏輯控製模塊。
非特定人語音識別模塊基於HMM moxingsuanfa。gaisuanfatongguoduidaliangyuyinshujujinxingshujutongji,jianlishibiecitiaodetongjimoxingyuyinku,ranhoucongdaishibieyuyinzhongtiqutezheng,yumoxingkujinxingpipei,youbijiaopipeifenshudedaoshibiejieguo,bingtongguoSDA80D51的GPIO口輸出識別結果對應的詞條編碼信號。語音識別模塊主要由信號預處理、特征參數提取、模型匹配和Viterbi算法部分組成。
信號預處理部分主要完成輸入語音信號的采樣、 模/數轉換功能。A/D變換由SDA80D51內嵌12位A/D變換器實現,采樣頻率固定為8 kHz.
特征參數提取基於語音幀,采用分幀提取特片。先對語音信號進行重疊分幀,前一幀和後一幀重疊一半(幀信號重疊是體現相鄰兩幀數據之間的相關性),幀長為25ms,對每幀提取一次語音特片。
MFCC參數屬於感知頻域倒譜參數,反映了語音信號短時幅度譜的特征。p維MFCC參數的提取過程如圖1所示。
其中:m是幀號,N是單位幀內的采樣點數。
HMM是描述語音信號的一種概率統計模型,使用 MarKov鏈來模擬語音信號統計特性的變化,HMM模型是在Markov鏈的基礎上發展起來的。
Viterbi算法是一種幀同步動態規整算法,在給定觀察值序列和模型時,Viterbi算法給出了一個概率密度P(Q,O | λ)最大的狀態序列。
控製模塊的主要功能是:zaidanpianjizhaxundaoyuyinmokuaishuchudeyuyincitiaoxinhaohou,zhabiaohuodecitiaobianma,genjubianmapanduanduiyinganjianshichanganhuoduanan,fenbiejinruxiangyingdezichengxuchuli,changanzichengxuyanshi1s,短按子程序延時0.2s.在子程序中,輸出語音命令所對應的I/O控製信號驅動繼電器吸合模擬按鍵或編碼開關動作,並及時複位I/O口。為了避免語音控製和手動控製之間衝突,語音控製模塊可以完全兼容於手動控製,在語音控製操作時,同時可以進行手動控製。
實驗結果及結論
本係統的樣機實驗主要是測試非特定人的語音識別率和模擬開關動作的準確率。由於汽車音響的語音詞條為2~4個字,語音識別率實驗內容為車載音響常用2字詞條指令18條、3字詞條指令12條、4字詞條指令10條,實驗對象為6人4男、2女(普通話和方言),實驗環境為噪聲幹擾環境和相對安靜環境,樣機測試結果如表1所示。

由表1可知,係統的識別率與語音指令詞條字數、麥克接收距離、說話人方言及環境有關。4字詞識別率高於2字詞,相對安靜環境下識別率可以達到90%以上,男聲和女聲的識別率接近。有噪聲幹擾環境中識別率下降。為了提高係統的識別率,係統樣機采用奧林巴斯 ME52定向麥克(在表中沒有反映),提高了麥克接收範圍,使係統總體的識別率上升到95%.
在係統樣機控製電路實驗中,模擬開關動作達到了較高的準確率,測試結果為98%以上,隻要控製程序運行正常,各路繼電器就能按照程序安排執行閉合和斷開模擬手動開關操作。
實現汽車電器的語音控製是未來車載電器的發展趨勢,越來越多的解決方案在不斷的被提出和驗證。本文提出的設計是在SL1102C1型車載音響上使用SDA80D51xinpian,shixianlechezaiyinxiangfeitedingrendeyuyinshibieyukongzhi。youyugaixinpianjichengdugao,xuyaowaiweimokuaishao,shejideyingjiandianlujiandan,bianyutiaoshijiance。gaishejidedaodeyangji,youjiaogaodeshibielv、工作穩定、可擴展性強,達到預期的設計目標,整個設計方案和實現方法是可行的。由於語音識別率隨著環境,說話人不同而變化,雖然HMM在(zai)噪(zao)聲(sheng)很(hen)少(shao)的(de)環(huan)境(jing)下(xia)可(ke)以(yi)獲(huo)得(de)很(hen)高(gao)的(de)識(shi)別(bie)率(lv),但(dan)當(dang)測(ce)試(shi)語(yu)音(yin)或(huo)者(zhe)環(huan)境(jing)中(zhong)含(han)有(you)不(bu)同(tong)程(cheng)度(du)的(de)噪(zao)聲(sheng)汙(wu)染(ran)時(shi),語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)的(de)性(xing)能(neng)會(hui)很(hen)快(kuai)地(di)下(xia)降(jiang)。提(ti)高(gao)係(xi)統(tong)的(de)抗(kang)噪(zao)性(xing)和(he)魯(lu)棒(bang)性(xing)是(shi)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)走(zou)向(xiang)實(shi)用(yong)化(hua)的(de)關(guan)鍵(jian)之(zhi)一(yi)。
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 直擊藍牙亞洲大會 2026:Nordic 九大核心場景演繹“萬物互聯”新體驗
- MCU市場份額飆升至36%,英飛淩鞏固全球車用芯片領導地位
- 應對軟件定義汽車挑戰,恩智浦推出FRDM Automotive開發平台
- 單機櫃900kW!曙光數創C8000 V3.0如何實現散熱效率3-5倍躍升?
- 從傳統保險絲到eFuse:汽車電路保護的智能化變革
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall




