從業20年工程師講述軟錯誤是怎麼損壞存儲器中信息的?
發布時間:2015-06-16 責任編輯:echolady
【導讀】本文由從業20年(nian)工(gong)程(cheng)師(shi)傾(qing)情(qing)講(jiang)述(shu)軟(ruan)錯(cuo)誤(wu)是(shi)如(ru)何(he)發(fa)生(sheng),如(ru)何(he)破(po)壞(huai)半(ban)導(dao)體(ti)存(cun)儲(chu)器(qi)中(zhong)的(de)重(zhong)要(yao)信(xin)息(xi)。有(you)此(ci)問(wen)題(ti)引(yin)出(chu)軟(ruan)錯(cuo)誤(wu)的(de)來(lai)源(yuan)及(ji)其(qi)發(fa)生(sheng)概(gai)率(lv)問(wen)題(ti)。軟(ruan)錯(cuo)誤(wu)影(ying)響(xiang)著(zhe)存(cun)儲(chu)單(dan)元(yuan)中(zhong)的(de)每(mei)個(ge)存(cun)儲(chu)位(wei),改(gai)變(bian)它(ta)們(men)的(de)狀(zhuang)態(tai)。但(dan)是(shi)存(cun)儲(chu)器(qi)中(zhong)的(de)片(pian)上(shang)糾(jiu)錯(cuo)碼(ma)卻(que)可(ke)以(yi)消(xiao)減(jian)軟(ruan)錯(cuo)誤(wu)的(de)影(ying)響(xiang)。
近年來,半導體技術取得了巨大進步,但這種進步也帶來了新的問題。當今的CMOS工gong藝yi已yi縮suo至zhi很hen小xiao的de尺chi寸cun,以yi至zhi於yu地di外wai輻fu射she和he芯xin片pian封feng裝zhuang正zheng導dao致zhi越yue來lai越yue多duo的de故gu障zhang。由you於yu這zhe些xie故gu障zhang是shi可ke逆ni的de,它ta們men被bei稱cheng為wei軟ruan錯cuo誤wu。軟ruan錯cuo誤wu首shou次ci出chu現xian於yu1978年,由於受鈾汙染的封裝模塊,英特爾公司無法向AT&T交付其生產的芯片。20世紀70年代,軟錯誤主要與動態RAM(DRAM)有關,這是因為它們的芯片封裝材料含有微量的放射性汙染物。
軟錯誤是指高能粒子與矽元素之間的相互作用而在半導體中造成的隨機、臨時的狀態改變或瞬變。但與硬錯誤不同的是,一個簡單的複位/重寫操作可以恢複受影響器件的正常運行。數字和模擬電路、傳(chuan)輸(shu)線(xian)路(lu)和(he)磁(ci)存(cun)儲(chu)器(qi)中(zhong)都(dou)可(ke)能(neng)發(fa)生(sheng)軟(ruan)錯(cuo)誤(wu),但(dan)半(ban)導(dao)體(ti)存(cun)儲(chu)器(qi)最(zui)易(yi)出(chu)現(xian)軟(ruan)錯(cuo)誤(wu),其(qi)原(yuan)因(yin)是(shi)它(ta)們(men)的(de)單(dan)元(yuan)尺(chi)寸(cun)較(jiao)大(da),而(er)且(qie)每(mei)個(ge)位(wei)保(bao)持(chi)某(mou)種(zhong)狀(zhuang)態(tai)的(de)時(shi)間(jian)較(jiao)長(chang)(因此增加了風險)。 ruancuowuyoukenengfanzhuanyigehuoduogewei,zhequjueyuyoufalizidaodaqijianshidenengliang。yigegaonengliziyubandaotichendizhijiandexianghuzuoyongjiangchanshengduogedianzikongxuedui。tamenzaihaojinquzhongchanshengdedianchangjiangdaozhiyicidianhepiaoyi,congerdaozhidianliuraodong。ruguozhegedianliuyidongdedianhekuayuelecunchudanyuan(每個單元存儲一個位)的臨界電荷,所存儲的數據就有可能翻轉,從而導致下一次被讀取時出現錯誤。
軟錯誤分為兩級-芯片級和係統級。當芯片中的放射性原子衰變並釋放出阿爾法粒子時,芯片級軟錯誤將發生。它們通常是由高能粒子的輻射導致的(在下文中解釋)。zhexieeerfaliziyumougecunchudanyuanpengzhuang,congerdaozhiqigaibianzhuangtai。dangsuochuanshudeshujuyudaozaoshengshi,xitongjiruanxingcuowujiangfasheng。zhezhongcuowutongchangzaishujuweiyuzongxianerfeicunchuqizhongshifasheng。kongzhiqijiangzaoshengjieduweishuju。zhegecuowushujuzuizhongbeishiweizhengqueshuju,congerdaozhixunzhihuochulicuowu。
用於衡量軟錯誤發生率的軟錯誤率(SER)juedingleqijianyingaonenglizifashengguzhangdegailv。youyuruancuowushisuijide,ruancuowudefashengbingbujuedingcunchuqidekekaoxing,ershijuedingqiguzhanglv。zainaxiecaiyongleruancuowuyingduijizhidexitongzhong(主要是高安全性和高可靠性係統),如果一個軟錯誤(被稱為“所檢測到的不可恢複的錯誤”-DUE)被檢測到,係統將重啟,以避免損壞重要數據。如果未重啟,它最終將成為一次無記載數據損壞(SDC)。SDC要比DUE危險得多,因為SDC會導致數據丟失,而DUE隻會導致係統在短時間內不可用。在大量的消費電子設備中,軟錯誤的風險並不很大,它們更可能因軟件錯誤或部件損耗發生故障。
軟錯誤的發生概率取決於眾多因素,如入射粒子、撞擊區域和電路設計等。電容和電壓更高的電路更不容易出現軟錯誤, 但dan這zhe會hui招zhao致zhi更geng慢man的de邏luo輯ji門men和he更geng高gao的de功gong耗hao。因yin此ci,隨sui著zhe芯xin片pian工gong藝yi的de不bu斷duan進jin步bu,軟ruan錯cuo誤wu的de發fa生sheng概gai率lv也ye越yue來lai越yue大da。電dian容rong和he電dian壓ya的de組zu合he被bei稱cheng為wei臨lin界jie電dian荷he(Qcrit)。它被定義為一次粒子撞擊導致電路發生故障所必需擁有的電荷。由於邏輯電路中的每個節點都有其獨特的電容和輸出距離,因此,Qcrit通常以節點為單位測量。此外還必須注意,Qcrit 會隨溫度緩慢變化。
電路軟錯誤 = k X 通量 X 麵積 X e-Qcrit/Qcoil
其中,k = 取決於具體工藝的常數
通量 =中子通量
麵積 = 對軟錯誤敏感的電路麵積
Qcoll = 所采集電荷與所生成電荷的比率
該模型被稱為中子誘發型電路軟錯誤的Hazucha & Svensson模型。
導致軟錯誤的原因
阿爾法粒子
阿爾法粒子由兩個質子和兩個中子組成,類似於一個氦核。它們由放射性原子核在阿爾法衰變過程中釋放。 阿爾法粒子擁有數個MeV的(de)動(dong)能(neng),低(di)於(yu)中(zhong)子(zi)。阿(e)爾(er)法(fa)粒(li)子(zi)擁(yong)有(you)一(yi)個(ge)致(zhi)密(mi)的(de)電(dian)荷(he)層(ceng),在(zai)穿(chuan)過(guo)半(ban)導(dao)體(ti)襯(chen)底(di)時(shi)將(jiang)產(chan)生(sheng)多(duo)個(ge)電(dian)子(zi)空(kong)穴(xue)對(dui)。如(ru)果(guo)這(zhe)種(zhong)擾(rao)動(dong)足(zu)夠(gou)強(qiang),它(ta)就(jiu)有(you)可(ke)能(neng)翻(fan)轉(zhuan)某(mou)個(ge)位(wei)。由(you)於(yu)這(zhe)種(zhong)情(qing)況(kuang)通(tong)常(chang)隻(zhi)會(hui)持(chi)續(xu)幾(ji)分(fen)之(zhi)一(yi)納(na)秒(miao),因(yin)此(ci)很(hen)難(nan)被(bei)檢(jian)測(ce)出(chu)。
芯片被封裝在含有微量放射性汙染物的材料,如錫球或加工材料中。塑封材料、封裝和其它裝配材料中的微量鈾- 238、鈾- 232的放射性衰變會產生低能阿爾法粒子。然而,我們幾乎不可能維持實現大多數電路的可靠性能所需的理想材料純度(小於0.001次/小時/平方厘米)。微量的環氧樹脂可為芯片屏蔽阿爾法輻射,從而降低軟錯誤的發生概率。
[page]
宇宙射線
製(zhi)造(zao)商(shang)已(yi)設(she)法(fa)控(kong)製(zhi)了(le)釋(shi)放(fang)阿(e)爾(er)法(fa)粒(li)子(zi)的(de)汙(wu)染(ran)物(wu),但(dan)他(ta)們(men)卻(que)無(wu)法(fa)抗(kang)擊(ji)宇(yu)宙(zhou)輻(fu)射(she)。事(shi)實(shi)上(shang),在(zai)現(xian)代(dai)半(ban)導(dao)體(ti)器(qi)件(jian)中(zhong),宇(yu)宙(zhou)射(she)線(xian)是(shi)最(zui)可(ke)能(neng)導(dao)致(zhi)軟(ruan)錯(cuo)誤(wu)的(de)原(yuan)因(yin)。宇(yu)宙(zhou)射(she)線(xian)中(zhong)的(de)主(zhu)要(yao)粒(li)子(zi)通(tong)常(chang)不(bu)能(neng)抵(di)達(da)地(di)球(qiu)表(biao)麵(mian),但(dan)它(ta)們(men)會(hui)產(chan)生(sheng)一(yi)串(chuan)高(gao)能(neng)次(ci)級(ji)粒(li)子(zi),其(qi)中(zhong)大(da)多(duo)數(shu)是(shi)高(gao)能(neng)中(zhong)子(zi)。中(zhong)子(zi)不(bu)帶(dai)電(dian)荷(he),因(yin)此(ci)不(bu)會(hui)導(dao)致(zhi)軟(ruan)錯(cuo)誤(wu),但(dan)卻(que)能(neng)被(bei)芯(xin)片(pian)中(zhong)的(de)原(yuan)子(zi)核(he)俘(fu)獲(huo),從(cong)而(er)生(sheng)成(cheng)阿(e)爾(er)法(fa)粒(li)子(zi),繼(ji)而(er)導(dao)致(zhi)軟(ruan)錯(cuo)誤(wu)。中(zhong)子(zi)所(suo)經(jing)曆(li)的(de)衰(shuai)減(jian)很(hen)小(xiao),可(ke)穿(chuan)透(tou)厚(hou)達(da)5英寸的混凝土。
由於大氣屏蔽效應隨著海拔的升高而減弱,宇宙輻射將隨之增加。因此,飛機和衛星中的存儲器模塊極(ji)易(yi)出(chu)現(xian)軟(ruan)錯(cuo)誤(wu),軟(ruan)錯(cuo)誤(wu)率(lv)是(shi)地(di)麵(mian)模(mo)塊(kuai)的(de)數(shu)百(bai)倍(bei)甚(shen)至(zhi)數(shu)千(qian)倍(bei)。此(ci)外(wai),由(you)於(yu)上(shang)述(shu)大(da)氣(qi)屏(ping)蔽(bi)效(xiao)應(ying)的(de)減(jian)弱(ruo),位(wei)於(yu)極(ji)地(di)的(de)存(cun)儲(chu)模(mo)塊(kuai)也(ye)極(ji)易(yi)出(chu)現(xian)軟(ruan)錯(cuo)誤(wu)。為(wei)減(jian)少(shao)軟(ruan)錯(cuo)誤(wu),高(gao)風(feng)險(xian)應(ying)用(yong)中(zhong)所(suo)使(shi)用(yong)的(de)模(mo)塊(kuai)需(xu)要(yao)經(jing)過(guo)一(yi)個(ge)名(ming)為(wei)輻(fu)射(she)硬(ying)化(hua)的(de)工(gong)藝(yi)。盡(jin)管(guan)如(ru)此(ci),由(you)於(yu)生(sheng)產(chan)輻(fu)射(she)硬(ying)化(hua)芯(xin)片(pian)需(xu)要(yao)大(da)量(liang)測(ce)試(shi)(和時間),它們一般都屬於舊的工藝節點。
熱中子
由於存在中子俘獲反應,欠缺動能的中子是軟錯誤的一個重要來源。(硼磷矽玻璃介電層中大量存在的)硼同位素(10B)原子核俘獲一個熱中子後將釋放一個阿爾法粒子、鋰li原yuan子zi核he和he伽jia馬ma射she線xian。阿e爾er法fa粒li子zi和he鋰li原yuan子zi核he都dou能neng導dao致zhi軟ruan錯cuo誤wu。硼peng在zai生sheng產chan中zhong被bei用yong於yu降jiang低di玻bo璃li的de融rong化hua溫wen度du,因yin此ci具ju備bei更geng好hao的de回hui流liu和he整zheng平ping特te性xing。
在重要設計中,貧硼(隻含11B)可用於降低軟錯誤率,通過使用磷矽玻璃(PSG)氧化層替代硼磷矽玻璃(BPSG)來lai實shi現xian。貧pin硼peng對dui於yu腫zhong瘤liu放fang射she治zhi療liao中zhong使shi用yong的de醫yi療liao電dian子zi設she備bei尤you其qi重zhong要yao。中zhong子zi和he治zhi療liao中zhong使shi用yong的de光guang子zi束shu相xiang結jie合he將jiang形xing成cheng一yi個ge熱re中zhong子zi通tong量liang,從cong而er導dao致zhi極ji高gao的de軟ruan錯cuo誤wu率lv。盡jin管guan如ru此ci,熱re中zhong子zi並bing非fei目mu前qian導dao致zhi軟ruan錯cuo誤wu的de主zhu要yao原yuan因yin,製zhi造zao商shang已yi通tong過guo150nm工藝節點消除了含硼酸介電層。
消減軟錯誤的影響
改進工藝和存儲單元布局
womenkeyitongguozengjiacunchudanyuanzhongsuocunchudelinjiedianhetishengcunchuqidekekaoxing。ciwai,womenhaikeyishiyongyizhongkexiaojiankuosancenghoududegongyitigaocunchuqidiyuruancuowudenengli。gaigongyikesuoduandaidianlizizaicunchudanyuanzhongcunzaideshijian。sanjingjiagouyekeyongyujiangdianhequliyouyuanqu。gaigongyixingchengyigeyuNMOS耗盡區相反的電場,迫使電荷進入襯底。它僅適用於NMOS區發生軟錯誤的情況。
係統層麵的消減技術
在係統層麵上,設計人員可以使用外部糾錯碼(ECC)邏(luo)輯(ji)消(xiao)減(jian)軟(ruan)錯(cuo)誤(wu)的(de)影(ying)響(xiang)。在(zai)該(gai)技(ji)術(shu)中(zhong),用(yong)戶(hu)使(shi)用(yong)額(e)外(wai)的(de)帶(dai)奇(qi)偶(ou)校(xiao)驗(yan)位(wei)的(de)存(cun)儲(chu)芯(xin)片(pian)檢(jian)測(ce)和(he)糾(jiu)正(zheng)錯(cuo)誤(wu)。正(zheng)如(ru)人(ren)們(men)所(suo)料(liao),係(xi)統(tong)層(ceng)麵(mian)的(de)消(xiao)減(jian)技(ji)術(shu)較(jiao)為(wei)昂(ang)貴(gui),而(er)且(qie)增(zeng)加(jia)了(le)FPGA軟件的複雜性。
改變芯片設計和架構
這是抗擊軟錯誤的最佳方法。芯片設計人員可以通過將ECC算法植入到芯片中消減軟錯誤的影響。在寫操作時,ECC編碼器算法為存儲器中存儲的每一個可尋址的數據字寫入奇偶校驗位。在讀操作時,ECC檢測算法使用奇偶校驗位確定數據位是否已經改變。如果出現單位錯誤,ECC糾錯算法將確定相關位的位置,然後通過將該數據位翻轉至其互補值協助糾錯。
盡管如此,ECC不bu能neng獨du立li應ying對dui多duo位wei翻fan轉zhuan錯cuo誤wu。因yin此ci,設she計ji人ren員yuan必bi須xu采cai用yong位wei交jiao織zhi技ji術shu。該gai技ji術shu組zu織zhi位wei線xian的de方fang法fa是shi將jiang物wu理li上shang相xiang鄰lin的de位wei映ying射she到dao不bu同tong的de字zi寄ji存cun器qi上shang。位wei交jiao織zhi距ju離li將jiang映ying射she到dao同tong一yi個ge字zi寄ji存cun器qi上shang的de兩liang個ge連lian續xu位wei分fen開kai。如ru果guo位wei交jiao織zhi距ju離li大da於yu一yi次ci多duo單dan元yuan撞zhuang擊ji的de擴kuo散san範fan圍wei,它ta將jiang在zai多duo個ge字zi中zhong導dao致zhi單dan位wei翻fan轉zhuan,而er不bu是shi在zai一yi個ge字zi中zhong導dao致zhi一yi次ci多duo位wei翻fan轉zhuan。

隨著半導體芯片變得越來越小,發生軟錯誤的風險也在不斷升高。存儲單元的Qcrit會(hui)隨(sui)著(zhe)其(qi)尺(chi)寸(cun)的(de)縮(suo)小(xiao)而(er)減(jian)少(shao),這(zhe)使(shi)得(de)其(qi)更(geng)易(yi)翻(fan)轉(zhuan)。因(yin)此(ci),很(hen)多(duo)專(zhuan)家(jia)預(yu)測(ce),軟(ruan)錯(cuo)誤(wu)將(jiang)成(cheng)為(wei)這(zhe)種(zhong)趨(qu)勢(shi)的(de)製(zhi)約(yue)因(yin)素(su),而(er)且(qie)最(zui)終(zhong)將(jiang)達(da)到(dao)飽(bao)和(he)點(dian),除(chu)非(fei)我(wo)們(men)開(kai)發(fa)出(chu)能(neng)夠(gou)克(ke)服(fu)軟(ruan)錯(cuo)誤(wu)的(de)新(xin)技(ji)術(shu)。此(ci)外(wai),隨(sui)著(zhe)技(ji)術(shu)進(jin)入(ru)人(ren)類(lei)生(sheng)活(huo)的(de)更(geng)多(duo)領(ling)域(yu),人(ren)們(men)對(dui)於(yu)可(ke)靠(kao)性(xing)的(de)要(yao)求(qiu)隻(zhi)會(hui)越(yue)來(lai)越(yue)高(gao)。這(zhe)種(zhong)趨(qu)勢(shi)催(cui)生(sheng)了(le)對(dui)存(cun)儲(chu)器(qi)模(mo)塊(kuai)的(de)片(pian)上(shang)ECC的需求。所有存儲器廠商都已開始推出具備片上ECC功能的芯片,以滿足市場對高可靠性存儲器的需求。SRAM領域的全球領導者賽普拉斯公司擁有一個基於ECC的異步SRAM係列,該係列是當今市場上可靠性最高的異步SRAM。具備ECC功能的16Mbit異步SRAM已開始投產,4Mbi版本也已開始提供樣品。
相關閱讀:
霍尼韋爾半導體封裝新材料,顯著減少軟錯誤故障頻率
三星爆存儲器存隱患,都是穀歌的錯嗎?
專家發言:快閃存儲器儲存陣列強勁成長
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 2026藍牙亞洲大會暨展覽在深啟幕
- 新市場與新場景推動嵌入式係統研發走向統一開發平台
- 維智捷發布中國願景
- 2秒啟動係統 • 資源受限下HMI最優解,米爾RK3506開發板× LVGL Demo演示
- H橋降壓-升壓電路中的交替控製與帶寬優化
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
Tektronix
Thunderbolt
TI
TOREX
TTI
TVS
UPS電源
USB3.0
USB 3.0主控芯片
USB傳輸速度
usb存儲器
USB連接器
VGA連接器
Vishay
WCDMA功放
WCDMA基帶
Wi-Fi
Wi-Fi芯片
window8
WPG
XILINX
Zigbee
ZigBee Pro
安規電容
按鈕開關
白色家電
保護器件
保險絲管
北鬥定位
北高智

