技術達人：ARM的非特定人語音識別係統的設計-互連技術-電子元件技術網

你的位置：首頁 > 互連技術 > 正文

技術達人：ARM的非特定人語音識別係統的設計

發布時間：2014-01-24 責任編輯：mikeliu

【導讀】yuyinjiaohushirenleijiaoliuhejiaohuanxinxizhongzuibianjiedeshouduanhezuizhongyaodemeiti，changjiuyilai，renmendouxiwangzhaoxunyizhongxindetujingjiejuerenleiyujiqidejiaohufangshi，xiwangjiqishebeinenggou“聽”懂人類的語音信息進行交互，識別其含義並響應、從而做出相應動作，這樣的交互方式更能被使用者接受，取代原有的鍵盤、按鈕、開關等傳統交互方式，基於非特定人的語音識別技術已然成為人機交互新方式的一個重要發展方向和研究熱點。

語音信號的識別涉及眾多學科知識體係，與計算機、語言學、通信、數理統計、信號處理和人工智能等學科都有著密切的關係，由於語音信號具有信息量大、不確定性、動態性和連續性的特點，在語音信號的預處理、特征提取等階段處理數據量非常大，對軟件的處理算法和硬件的處理能力都有較高的要求，傳統使用PC機或者工控機等高處理性能的平台實現語音信號識別，但硬軟件開發造價無疑是阻礙普及的重要因素，本係統采用ARM Cortex M3 內核ST 公司的32 位高性能單片機STM32F103C8T6結合LD3320語音識別芯片，通過構建SD卡(ka)文(wen)件(jian)係(xi)統(tong)實(shi)現(xian)非(fei)特(te)定(ding)人(ren)語(yu)音(yin)識(shi)別(bie)關(guan)鍵(jian)詞(ci)動(dong)態(tai)編(bian)輯(ji)功(gong)能(neng)，適(shi)用(yong)於(yu)嵌(qian)入(ru)式(shi)語(yu)音(yin)識(shi)別(bie)場(chang)合(he)。係(xi)統(tong)電(dian)路(lu)簡(jian)單(dan)，性(xing)價(jia)比(bi)高(gao)，識(shi)別(bie)距(ju)離(li)和(he)識(shi)別(bie)精(jing)度(du)都(dou)可(ke)以(yi)滿(man)足(zu)嵌(qian)入(ru)式(shi)應(ying)用(yong)。

1 非特定人語音識別技術原理

非特定人語音識別技術研究的最終目的是讓計算機等設備能夠“聽懂”人類語音，提取出語音中所包含的特定信息，成為人機通信和交互最便捷的手段。由於語音信號本身具有不確定性、dongtaixinghelianxuxing，zhejiuweizhunquelianghuahechuligaixinhaodailaifeichangdadekunnan，meigerendeyuyinyaojianlibutongdeyuyinyangbenyeweishibiedepujidailaipingjingyueshu。muqiandeyuyinshibieshixianjianlitezhengkuranhoujiangdaishibiedexinhaojingchuliyutezhengkubiduidedaoxiangsijieguopandingshuchu。congbenzhishangshuyujiyutongjimoshidejibenlilun，fenyuyanmoxingxunlian、識別分析兩個大階段構成和實現，如圖1所示。

技術達人：ARM的非特定人語音識別係統的設計

聲學訓練階段通常是離線完成的，由語言學家對預先收集好的海量語音樣本、語言數據庫、噪聲數據進行信號處理和知識挖掘，通過語音信號處理理論及相應數學算法模型建立語音識別係統所需要的“聲學模型”和“語言模型”.

識別分析階段通常是在線完成的，對用戶實時的語音進行自動識別。識別過程通常又可以分為“前端”和“後端”兩大模塊：“前端”模塊主要的作用是進行端點檢測、降噪、特征提取等;“後端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統計模式識別，得到其包含的文字信息，此外，後端模塊還存在一個“自適應”的反饋模塊，可以對用戶的語音進行自學習，從而對“聲學模型”和“語音模型”進行必要的“校正”,進一步提高識別的準確率。

2 係統設計的整體結構

本係統以STM32F103C8T6 微控製器為控製核心，搭配微控製器最小核心電路、LD3320語音識別電路、SD卡電路、電源電路、用戶按鍵輸入電路、串口數據輸出電路、狀態指示電路等綜合組成。該係統體積小巧，可以作為嵌入式組件單元融入用戶電路或者板卡中，上電後STM32F108C8T6內部程序進行程序初始化、SD 卡文件係統初始化、LD3320初始化、隨後等待識別音頻接收，識別完成後輸出響應信息或者解碼音頻，係統整體結構如圖2所示，最終實現積木式功能組件的全部功能。

技術達人：ARM的非特定人語音識別係統的設計

[page]

3 係統硬件電路設計

3.1 微控製核心方案選型及電路

係統采用ARM Cortex M3內核ST公司的32位高性能單片機STM32F103C8T6 為控製核心，該芯片可以達到72 MHz的工作頻率，內置高速存儲器(64 KB的閃存和20 KB的SRAM)，擁有豐富的I/O口資源和鏈接到兩條APB 總線的外設。包括了12 b 的ADC、通用16 b 的定時器、還包括I2C、SPI、USART、USB、CAN等總線或串行通信接口，片內資源和擴展接口都十分豐富，該微控製核心是專門設計於滿足高穩定性、低功耗、實時性、高性價比的嵌入式產品應用。該內核芯片可以滿足非特定人語音識別的功能要求，利用相關電路構成STM32F103C8T6 的最小係統，在硬件PCB 中還集成了功能引針輸出接口、SD卡接口、USB下載調試電路，用戶按鍵、電源電路等，核心係統電路圖如圖3所示，配合其他外圍擴展達到功能要求。

技術達人：ARM的非特定人語音識別係統的設計

3.2 非特定人語音識別方案選型及電路

本係統中選用IC Route公司生產的LD3320非特定人語音識別芯片，該芯片是非特定人語音識別的專用芯片，內部已經集成了語音識別處理器和一些信號調製電路，擁有高性能的A/D轉換器、D/A轉換器、麥克風音頻信號輸入接口、音頻解碼輸出接口等，用戶隻需要用軟件編輯好待識別的關鍵詞列表，LD3320最大可以支持50 條關鍵詞句，把這些列別以字符的形式傳送到芯片中，就可以對待識別的語音信號進行近似度分析，識別後輸出結果。

技術達人：ARM的非特定人語音識別係統的設計

LD3320 整體工作電路如圖4 所示，總體上可以把電路圖分為8個部分，分別是LD3320基礎外圍電路、電源電路、外部晶體振蕩器電路、麥克風信號處理電路、去耦合濾波電路、解碼音頻去直流成分電路、功能引針輸出電路、狀態信號指示電路。語音識別單元對於電源供電電路的要求較高，電路中注重對供電純淨度的要求，由係統中的LDO芯片LM1117-3.3 V為語音識別係統供電，加上電感、電容為供電進行濾波，RSTB為LD3320複位引腳，連接到主控製器進行複位控製。LD3320支持並行數據通信和串行數據通信，在本係統設計中考慮對主控I/O 資源的占用問題，故而選用串行通信方式對LD3320 進行數據傳送和控製，LD3320 的MD 引腳通過上拉電阻鉗位為高電平。SPI總線的SDI、SDO、SDCK和SCS引腳連接到主控芯片對應引腳。INTB為中斷信號引腳，遇到識別結果輸出或者是內部音頻文件解碼完成等狀態，該引腳會對應輸出電平狀態通知主控。MBS引腳作為麥克風偏置電壓輸入，連接了RC電路，保證產生一個浮動電壓供給麥克風信號。

4 係統軟件功能設計

4.1 語音識別軟件設計

係統主控上電後首先進行各項初始化，包括LD3320 需要的8M 時鍾信號，由STM32 初始化後輸出8M 頻率供給LD3320使用，初始化STM32內部時鍾、SD卡文件係統、SPI相關寄存器、SDIO數據初始化、中斷設置等等。經過初始化後SD 卡文件係統會在SD 卡中尋找system.ini配置文件，將裏麵的字段進行拆分後提取，送給LD3320相關寄存器，隨後把關鍵字句列表和長度信息傳送給LD3320並啟動識別過程，當識別成功後串口會發出響應的返回值參數，並且按照用戶需求可以指定需要解碼的音頻文件，經過LD3320進行MP3文件解碼輸出，程序流程圖如圖5所示。

技術達人：ARM的非特定人語音識別係統的設計

[page]

主控程序初始化代碼如下：

技術達人：ARM的非特定人語音識別係統的設計

4.2 SD卡文件係統軟件設計

在實際應用中，修改主控製單片機程序較為複雜，本係統將識別關鍵語句寫在一個命名為system.ini文件中，將此文件拷貝到SD卡中，SD卡需要實現格式化，隻能出現一個。ini 文件，其他的文件均為XXX.mp3 文件，SD 的片選信號CS、數據輸入信號DI、數據輸出信號DO、時鍾信號SCLK 在硬件上已經與STM32的SPI接口相連接，係統上電後會初始化SD卡文件係統，發送至少74個時鍾以上確保SD卡片選正常後將SD卡複位等待8個時鍾周期進入SPI讀寫模式，通過STM32內部編寫好的文件係統程序找尋“配置文件”即system.ini文件，讀取關鍵詞識別列表內容，在係統軟件編程中，采用3個字段進行功能約定，字段功能約定配置如下：

技術達人：ARM的非特定人語音識別係統的設計

[page]

5 性能測試與分析

為保證係統對非特定人的語音識別效果、環境底噪影響、語音識別過程響應時間、非特定人聲音樣本識別成功率等參數達標，本文針對各項參數指定了測試方案，實驗環境分為安靜環境(如家居環境)和相對嘈雜的環境(如課堂環境)進行了實測，指定3名發音人作為3個不同的聲音識別樣本，選定了短句識別語句、中長句識別語句，長句識別語句各2條進行樣本測試(約定3字以下為短句，3~5字為中長句，5字以上為長句)，每種測試語句結合不同發音人重複20次結果進行統計，在安靜環境下測試短句識別準確率為93.37%、中長句識別準確率為91.67%、長句識別準確率為90.23%.在嘈雜環境下測試短句識別準確率為87.25%、中長句識別準確率為84.36%、長句識別準確率為81.12%.從實驗數據上分析，製約識別準確率的原因是多方麵的，與發音人本身聲音質量、環境底噪、識別語句近似度、識別語句長度均有關係，單從數據上不難得到總體識別率應該是在81%以上，可以滿足應用需求，係統實物圖如圖6所示，硬件結構小巧，功耗低、性價比高，因此具備市場應用前景和市場需求。

技術達人：ARM的非特定人語音識別係統的設計

6 結語

普及語音識別技術是當前研究和發展的新趨勢，特別是對於非特定人的語音識別是語音信號領域處理的熱點和難點，本方案利用了STM32F103C8T6與LD3320jiehe，peihegezhongwaiweidianluwanchenglefeitedingrenyuyinshibiedeqianrushipingtai，zaipingtaizhongtongguoyingruanjiangoujian，zaibugenggaizhukongzhixinpianchengxudeqiantixia，yonghukeyitongguogenggaiSD 卡內配置文件的方法隨意設定識別關鍵語句，經過不同發音人和環境的實測，該係統在嘈雜環境中的識別準確率可達81%,在安靜環境中的識別準確率可達90%以上，本係統可以方便的嵌入用戶係統或者板卡中，積木式搭建靈活實用，因而具有廣泛的市場需求和應用前景。

相關閱讀：
非特定人車載音響語音控製係統的設計
語音識別技術係統結構
語音合成&語音識別技術-打造能聽會說的智能家電

要采購麥克風麼，點這裏了解一下價格!

上一篇：資深網友總結選取LED驅動電源七大技巧

下一篇：技術妙文：反激式電源中常見噪聲來源及相關解決

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

整流濾波直流電機智能抄表智能電表智能電網智能家居智能交通智能手機中電華星中電器材中功率管中間繼電器周立功單片機轉換開關自耦變壓器自耦調壓器阻尼三極管組合開關

友情鏈接(QQ：317243736)

我愛方案網 ICGOO元器件商城創芯在線檢測芯片查詢天天IC網電子產品世界無線通信模塊控製工程網電子開發網電子技術應用與非網世紀電源網 21ic電子技術資料下載電源網電子發燒友網中電網中國工業電器網連接器礦山設備網工博士智慧農業工業路由器天工網乾坤芯電子元器件采購網亞馬遜KOL 聚合物鋰電池工業自動化設備企業查詢工業路由器元器件商城連接器 USB中文網今日招標網塑料機械網農業機械中國IT產經新聞網高低溫試驗箱

關閉

關閉