六種方法解決LSTM循環神經網絡中的超長序列問題
發布時間:2017-06-27 來源:Jason Brownlee 責任編輯:wenwei
【導讀】長短期記憶(LSTM)循環神經網絡可以學習和記憶長段序列的輸入。如果你的問題對於每個輸入都有一個輸出(如時間序列預測和文本翻譯任務),那麼 LSTM 可以運行得很好。但 LSTM 在麵臨超長輸入序列——單個或少量輸出的情形時就會遇到困難了。這種問題通常被稱為序列標記,或序列分類。
其中的一些例子包括:
包含數千個單詞的文本內容情緒分類(自然語言處理)。
分類數千個時間步長的腦電圖數據(醫療領域)。
分類數千個 DNA 堿基對的編碼/非編碼基因序列(基因信息學)。
當使用循環神經網絡(如 LSTM)時,這些所謂的序列分類任務需要特殊處理。在這篇文章中,你將發現 6 種處理長序列的方法。
1. 原封不動
原封不動地訓練/輸shu入ru,這zhe或huo許xu會hui導dao致zhi訓xun練lian時shi間jian大da大da增zeng長chang。另ling外wai,嚐chang試shi在zai很hen長chang的de序xu列lie裏li進jin行xing反fan向xiang傳chuan播bo可ke能neng會hui導dao致zhi梯ti度du消xiao失shi,反fan過guo來lai會hui削xue弱ruo模mo型xing的de可ke靠kao性xing。在zai大da型xing LSTM 模型中,步長通常會被限製在 250-500 之間。
2. 截斷序列
chulifeichangchangdexulieshi,zuizhiguandefangshijiushijieduantamen。zhekeyitongguozaikaishihuojieshushuruxulieshixuanzexingdishanchuyixieshijianbulaiwancheng。zhezhongfangshitongguoshiqubufenshujudedaijialairangxuliesuoduandaokeyikongzhidechangdu,erfengxianyexianeryijian:部分對於準確預測有利的數據可能會在這個過程中丟失。
3. 總結序列
在zai某mou些xie領ling域yu中zhong,我wo們men可ke以yi嚐chang試shi總zong結jie輸shu入ru序xu列lie的de內nei容rong。例li如ru,在zai輸shu入ru序xu列lie為wei文wen字zi的de時shi候hou,我wo們men可ke以yi刪shan除chu所suo有you低di於yu指zhi定ding字zi頻pin的de文wen字zi。我wo們men也ye可ke以yi僅jin保bao留liu整zheng個ge訓xun練lian數shu據ju集ji中zhong超chao過guo某mou個ge指zhi定ding值zhi的de文wen字zi。總zong結jie可ke以yi使shi得de係xi統tong專zhuan注zhu於yu相xiang關guan性xing最zui高gao的de問wen題ti,同tong時shi縮suo短duan了le輸shu入ru序xu列lie的de長chang度du。
4. 隨機取樣
相xiang對dui更geng不bu係xi統tong的de總zong結jie序xu列lie方fang式shi就jiu是shi隨sui機ji取qu樣yang了le。我wo們men可ke以yi在zai序xu列lie中zhong隨sui機ji選xuan擇ze時shi間jian步bu長chang並bing刪shan除chu它ta們men,從cong而er將jiang序xu列lie縮suo短duan至zhi指zhi定ding長chang度du。我wo們men也ye可ke以yi指zhi定ding總zong長chang的de選xuan擇ze隨sui機ji連lian續xu子zi序xu列lie,從cong而er兼jian顧gu重zhong疊die或huo非fei重zhong疊die內nei容rong。
在zai缺que乏fa係xi統tong縮suo短duan序xu列lie長chang度du的de方fang式shi時shi,這zhe種zhong方fang法fa可ke以yi奏zou效xiao。這zhe種zhong方fang法fa也ye可ke以yi用yong於yu數shu據ju擴kuo充chong,創chuang造zao很hen多duo可ke能neng不bu同tong的de輸shu入ru序xu列lie。當dang可ke用yong的de數shu據ju有you限xian時shi,這zhe種zhong方fang法fa可ke以yi提ti升sheng模mo型xing的de魯lu棒bang性xing。
5. 時間截斷的反向傳播
除基於整個序列更新模型的方法之外,我們還可以在最後的數個時間步中估計梯度。這種方法被稱為「時間截斷的反向傳播(TBPTT)」。它可以顯著加速循環神經網絡(如 LSTM)長序列學習的過程。
這將允許所有輸入並執行的序列向前傳遞,但僅有最後數十或數百時間步會被估計梯度,並用於權重更新。一些最新的 LSTM 應用允許我們指定用於更新的時間步數,分離出一部分輸入序列以供使用。例如:
Theano 中的「truncate_gradient」參數:deeplearning
6. 使用編碼器-解碼器架構

你ni可ke以yi使shi用yong自zi編bian碼ma器qi來lai讓rang長chang序xu列lie表biao示shi為wei新xin長chang度du,然ran後hou解jie碼ma網wang絡luo將jiang編bian碼ma表biao示shi解jie釋shi為wei所suo需xu輸shu出chu。這zhe可ke以yi是shi讓rang無wu監jian督du自zi編bian碼ma器qi成cheng為wei序xu列lie上shang的de預yu處chu理li傳chuan遞di者zhe,或huo近jin期qi用yong於yu神shen經jing語yu言yan翻fan譯yi的de編bian碼ma器qi-解碼器 LSTM 網絡。
當(dang)然(ran),目(mu)前(qian)機(ji)器(qi)學(xue)習(xi)係(xi)統(tong)從(cong)超(chao)長(chang)序(xu)列(lie)中(zhong)學(xue)習(xi)或(huo)許(xu)仍(reng)然(ran)非(fei)常(chang)困(kun)難(nan),但(dan)通(tong)過(guo)複(fu)雜(za)的(de)架(jia)構(gou)和(he)以(yi)上(shang)一(yi)種(zhong)或(huo)幾(ji)種(zhong)方(fang)法(fa)的(de)結(jie)合(he),我(wo)們(men)是(shi)可(ke)以(yi)找(zhao)到(dao)辦(ban)法(fa)解(jie)決(jue)這(zhe)些(xie)問(wen)題(ti)的(de)。
其他瘋狂的想法
這裏還有一些未被充分驗證過的想法可供參考。
將輸入序列拆分為多個固定長度的子序列,並構建一種模型,將每個子序列作為單獨的特征(例如並行輸入序列)進行訓練。
雙向 LSTM,其中每個 LSTM 單元對的一部分處理輸入序列的一半,在輸出至層外時組合。這種方法可以將序列分為兩塊或多塊處理。
我們還可以探索序列感知編碼方法、投影法甚至哈希算法來將時間步的數量減少到指定長度。
推薦閱讀:
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 三星上演罕見對峙:工會集會討薪,股東隔街抗議
- 摩爾線程實現DeepSeek-V4“Day-0”支持,國產GPU適配再提速
- 築牢安全防線:智能駕駛邁向規模化應用的關鍵挑戰與破局之道
- GPT-Image 2:99%文字準確率,AI生圖告別“鬼畫符”
- 機器人馬拉鬆的勝負手:藏在主板角落裏的“時鍾戰爭”
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
NFC
NFC芯片
NOR
ntc熱敏電阻
OGS
OLED
OLED麵板
OmniVision
Omron
OnSemi
PI
PLC
Premier Farnell
Recom
RF
RF/微波IC
RFID
rfid
RF連接器
RF模塊
RS
Rubycon
SATA連接器
SD連接器
SII
SIM卡連接器
SMT設備
SMU
SOC
SPANSION

