科技圈熱點之語音識別原理及係統分類
發布時間:2015-01-06 責任編輯:echolady
【導讀】語yu音yin識shi別bie技ji術shu可ke以yi說shuo是shi當dang之zhi無wu愧kui的de科ke技ji熱re點dian。很hen多duo的de電dian子zi科ke技ji產chan品pin都dou與yu語yu音yin識shi別bie搭da邊bian,簡jian而er言yan之zhi,語yu音yin識shi別bie技ji術shu就jiu是shi將jiang語yu音yin信xin號hao轉zhuan換huan成cheng文wen本ben信xin息xi或huo命ming令ling。語yu音yin識shi別bie技ji術shu覆fu蓋gai麵mian極ji其qi廣guang泛fan,本ben文wen就jiu這zhe一yi科ke技ji熱re點dian話hua題ti為wei大da家jia解jie析xi。
語音識別的基本原理
語音識別係統本質上是一種模式識別係統,包括特征提取、模式匹配、參考模式庫等三個基本單元。
未(wei)知(zhi)語(yu)音(yin)經(jing)過(guo)話(hua)筒(tong)變(bian)換(huan)成(cheng)電(dian)信(xin)號(hao)後(hou)加(jia)在(zai)識(shi)別(bie)係(xi)統(tong)的(de)輸(shu)入(ru)端(duan),首(shou)先(xian)經(jing)過(guo)預(yu)處(chu)理(li),再(zai)根(gen)據(ju)人(ren)的(de)語(yu)音(yin)特(te)點(dian)建(jian)立(li)語(yu)音(yin)模(mo)型(xing),對(dui)輸(shu)入(ru)的(de)語(yu)音(yin)信(xin)號(hao)進(jin)行(xing)分(fen)析(xi),並(bing)抽(chou)取(qu)所(suo)需(xu)的(de)特(te)征(zheng),在(zai)此(ci)基(ji)礎(chu)上(shang)建(jian)立(li)語(yu)音(yin)識(shi)別(bie)所(suo)需(xu)的(de)模(mo)板(ban)。而(er)計(ji)算(suan)機(ji)在(zai)識(shi)別(bie)過(guo)程(cheng)中(zhong)要(yao)根(gen)據(ju)語(yu)音(yin)識(shi)別(bie)的(de)模(mo)型(xing),將(jiang)計(ji)算(suan)機(ji)中(zhong)存(cun)放(fang)的(de)語(yu)音(yin)模(mo)板(ban)與(yu)輸(shu)入(ru)的(de)語(yu)音(yin)信(xin)號(hao)的(de)特(te)征(zheng)進(jin)行(xing)比(bi)較(jiao),根(gen)據(ju)一(yi)定(ding) 的(de)搜(sou)索(suo)和(he)匹(pi)配(pei)策(ce)略(lve),找(zhao)出(chu)一(yi)係(xi)列(lie)最(zui)優(you)的(de)與(yu)輸(shu)入(ru)語(yu)音(yin)匹(pi)配(pei)的(de)模(mo)板(ban)。然(ran)後(hou)根(gen)據(ju)此(ci)模(mo)板(ban)的(de)定(ding)義(yi),通(tong)過(guo)查(zha)表(biao)就(jiu)可(ke)以(yi)給(gei)出(chu)計(ji)算(suan)機(ji)的(de)識(shi)別(bie)結(jie)果(guo)。顯(xian)然(ran),這(zhe)種(zhong)最(zui)優(you)的(de)結(jie)果(guo)與(yu)特(te)征(zheng)的(de)選(xuan)擇(ze)、語音模型的好壞、模板是否準確都有直接的關係。
語音識別的方法
目前具有代表性的語音識別方法主要有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經網絡(ANN)、支持向量機(SVM)等方法。
動態時間規整算法(Dynamic Time Warping,DTW)是(shi)在(zai)非(fei)特(te)定(ding)人(ren)語(yu)音(yin)識(shi)別(bie)中(zhong)一(yi)種(zhong)簡(jian)單(dan)有(you)效(xiao)的(de)方(fang)法(fa),該(gai)算(suan)法(fa)基(ji)於(yu)動(dong)態(tai)規(gui)劃(hua)的(de)思(si)想(xiang),解(jie)決(jue)了(le)發(fa)音(yin)長(chang)短(duan)不(bu)一(yi)的(de)模(mo)板(ban)匹(pi)配(pei)問(wen)題(ti),是(shi)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)中(zhong)出(chu)現(xian)較(jiao)早(zao)、較常用的一種算法。在應用DTWsuanfajinxingyuyinshibieshi,jiushijiangyijingyuchulihefenzhenguodeyuyinceshixinhaohecankaoyuyinmobanjinxingbijiaoyihuoqutamenzhijiandexiangsidu,anzhaomouzhongjulicedudechuliangmobanjiandexiangsichengdubingxuanzezuijialujing。
隱馬爾可夫模型(HMM)是語音信號處理中的一種統計模型,是由Markov鏈 演(yan)變(bian)來(lai)的(de),所(suo)以(yi)它(ta)是(shi)基(ji)於(yu)參(can)數(shu)模(mo)型(xing)的(de)統(tong)計(ji)識(shi)別(bie)方(fang)法(fa)。由(you)於(yu)其(qi)模(mo)式(shi)庫(ku)是(shi)通(tong)過(guo)反(fan)複(fu)訓(xun)練(lian)形(xing)成(cheng)的(de)與(yu)訓(xun)練(lian)輸(shu)出(chu)信(xin)號(hao)吻(wen)合(he)概(gai)率(lv)最(zui)大(da)的(de)最(zui)佳(jia)模(mo)型(xing)參(can)數(shu)而(er)不(bu)是(shi)預(yu)先(xian)儲(chu)存(cun)好(hao)的(de)模(mo)式(shi)樣(yang)本(ben),且(qie)其(qi)識(shi)別(bie)過(guo)程(cheng)中(zhong)運(yun)用(yong)待(dai)識(shi)別(bie)語(yu)音(yin)序(xu)列(lie)與(yu)HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。
矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤(gu)立(li)詞(ci)的(de)語(yu)音(yin)識(shi)別(bie)中(zhong)。其(qi)過(guo)程(cheng)是(shi)將(jiang)若(ruo)幹(gan)個(ge)語(yu)音(yin)信(xin)號(hao)波(bo)形(xing)或(huo)特(te)征(zheng)參(can)數(shu)的(de)標(biao)量(liang)數(shu)據(ju)組(zu)成(cheng)一(yi)個(ge)矢(shi)量(liang)在(zai)多(duo)維(wei)空(kong)間(jian)進(jin)行(xing)整(zheng)體(ti)量(liang)化(hua)。把(ba)矢(shi)量(liang)空(kong)間(jian)分(fen)成(cheng)若(ruo)幹(gan)個(ge)小(xiao)區(qu)域(yu),每(mei)個(ge)小(xiao)區(qu)域(yu)尋(xun)找(zhao)一(yi)個(ge)代(dai)表(biao)矢(shi)量(liang),量(liang)化(hua)時(shi)落(luo)入(ru)小(xiao)區(qu)域(yu)的(de)矢(shi)量(liang)就(jiu)用(yong)這(zhe)個(ge)代(dai)表(biao) 矢(shi)量(liang)代(dai)替(ti)。矢(shi)量(liang)量(liang)化(hua)器(qi)的(de)設(she)計(ji)就(jiu)是(shi)從(cong)大(da)量(liang)信(xin)號(hao)樣(yang)本(ben)中(zhong)訓(xun)練(lian)出(chu)好(hao)的(de)碼(ma)書(shu),從(cong)實(shi)際(ji)效(xiao)果(guo)出(chu)發(fa)尋(xun)找(zhao)到(dao)好(hao)的(de)失(shi)真(zhen)測(ce)度(du)定(ding)義(yi)公(gong)式(shi),設(she)計(ji)出(chu)最(zui)佳(jia)的(de)矢(shi)量(liang)量(liang)化(hua)係(xi)統(tong),用(yong)最(zui)少(shao)的(de)搜(sou)索(suo)和(he)計(ji)算(suan)失(shi)真(zhen)的(de)運(yun)算(suan)量(liang)實(shi)現(xian)最(zui)大(da)可(ke)能(neng)的(de)平(ping)均(jun)信(xin)噪(zao)比(bi)。
在實際的應用過程中,人們還研究了多種降低複雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。
人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學係統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機製的工程模型,它與 HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認,但它對動態時間信號的描述能力尚不盡如人意,通常MLP分類器隻能解決靜態模式分 類問題,並不涉及時間序列的處理。
盡管學者們提出了許多含反饋的結構,但它們仍不足以刻畫諸如語音信號這種時間序列的動態特性。由於ANN不能很好地描述 語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。近年來結合神經網絡和隱含 馬ma爾er可ke夫fu模mo型xing的de識shi別bie算suan法fa研yan究jiu取qu得de了le顯xian著zhu進jin展zhan,其qi識shi別bie率lv已yi經jing接jie近jin隱yin含han馬ma爾er可ke夫fu模mo型xing的de識shi別bie係xi統tong,進jin一yi步bu提ti高gao了le語yu音yin識shi別bie的de魯lu棒bang性xing和he準zhun確que率lv。
支持向量機(Support vector machine)是應用統計學理論的一種新的學習機模型,采用結構風險最小化原理(Structural Risk Minimization,SRM),有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方麵有許多優越的性能,已經被廣泛地應用到模式識別領域。
語音識別係統的分類
語音識別 係統可以根據對輸入語音的限製加以分類。如果從說話者與識別係統的相關性考慮,可以將識別係統分為三類:特定人語音識別係統。僅考慮對於專人的話音 進行識別;非特定人語音係統。識別的語音與人無關,通常要用大量不同人的語音數據庫對識別係統進行學習;多人的識別係統。通常能識別一組人的 語音,或者成為特定組語音識別係統,該係統僅要求對要識別的那組人的語音進行訓練。
如果從說話的方式考慮,也可以將識別係統分為三類: 孤立詞語音識別係統。孤立詞識別係統要求輸入每個詞後要停頓;連接詞語音識別係統。連接詞輸入係統要求對每個詞都清楚發音,一些連音現象開始出現;連續語音識別係統。連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。
如果從識別係統的詞彙量大小考慮,也可以將識別係統分為三類:小詞彙量語音識別係統。通常包括幾十個詞的語音識別係統;中等詞彙量的語音識別係統。通常包括幾百個詞到上千個詞的識別係統;dacihuiliangyuyinshibiexitong。tongchangbaokuojiqiandaojiwangecideyuyinshibiexitong。suizhejisuanjiyushuzixinhaochuliqiyunsuannengliyijishibiexitongjingdudetigao,shibiexitonggenjucihuiliangdaxiaojinxingfenleiyebuduanjinxingbianhua。muqianshizhongdengcihuiliangdeshibiexitong,jianglaikenengjiushixiaocihuiliangdeyuyinshibiexitong。zhexiebutongdexianzhiyequedingleyuyinshibiexitongdekunnandu。
現如今,語音識別係統在便攜設備上的應用最為廣泛。從手機到智能手環、智zhi能neng手shou表biao,都dou有you語yu音yin識shi別bie係xi統tong的de身shen影ying。但dan是shi,需xu要yao指zhi出chu的de是shi,尋xun找zhao到dao語yu音yin識shi別bie的de正zheng確que突tu破po口kou很hen重zhong要yao,將jiang力li量liang集ji中zhong到dao最zui有you可ke能neng取qu得de成cheng功gong的de市shi場chang當dang中zhong,不bu要yao盲mang目mu的de投tou資zi,這zhe樣yang才cai能neng使shi得de這zhe項xiang技ji術shu真zhen正zheng的de得de到dao長chang足zu的de發fa展zhan。
相關閱讀:
家庭監護機器人有突破!語音識別係統“箭在弦上”
專家親授:基於DSP原理的漢子語音識別係統的實現
技術達人:ARM的非特定人語音識別係統的設計
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 2026藍牙亞洲大會暨展覽在深啟幕
- 新市場與新場景推動嵌入式係統研發走向統一開發平台
- 維智捷發布中國願景
- 2秒啟動係統 • 資源受限下HMI最優解,米爾RK3506開發板× LVGL Demo演示
- H橋降壓-升壓電路中的交替控製與帶寬優化
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
接口IC
介質電容
介質諧振器
金屬膜電阻
晶體濾波器
晶體諧振器
晶體振蕩器
晶閘管
精密電阻
精密工具
景佑能源
聚合物電容
君耀電子
開發工具
開關
開關電源
開關電源電路
開關二極管
開關三極管
科通
可變電容
可調電感
可控矽
空心線圈
控製變壓器
控製模塊
藍牙
藍牙4.0
藍牙模塊
浪湧保護器


