PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能-互連技術-電子元件技術網

你的位置：首頁 > 互連技術 > 正文

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能

發布時間：2023-01-06 來源：Microchip，作者：Wilson Kwong，Sandeep Dattaprasad 責任編輯：lina

【導讀】隨著更快的圖形處理單元（GPU）能夠提供明顯更高的計算能力，存儲設備和GPU存儲器之間的數據路徑瓶頸已經無法實現最佳應用性能。NVIDIA的Magnum IO GPUDirect存儲解決方案通過在存儲設備和GPU存儲器之間實現直接路徑，可以極大地幫助解決該問題。

隨著更快的圖形處理單元（GPU）能夠提供明顯更高的計算能力，存儲設備和GPU存儲器之間的數據路徑瓶頸已經無法實現最佳應用性能。NVIDIA的Magnum IO GPUDirect存儲解決方案通過在存儲設備和GPU存cun儲chu器qi之zhi間jian實shi現xian直zhi接jie路lu徑jing，可ke以yi極ji大da地di幫bang助zhu解jie決jue該gai問wen題ti。然ran而er，同tong等deng重zhong要yao的de是shi要yao使shi用yong容rong錯cuo係xi統tong來lai優you化hua其qi已yi經jing非fei常chang出chu色se的de能neng力li，從cong而er確que保bao在zai發fa生sheng災zai難nan性xing故gu障zhang時shi備bei份fen關guan鍵jian數shu據ju。該gai解jie決jue方fang案an通tong過guoPCIe®結構連接邏輯RAID卷，在PCIe 4.0規範下，這可以將數據速率提高到26 GB/s。為了解如何實現這些優勢，首先需要檢查該解決方案的關鍵組件及其如何協同工作來提供結果。

Magnum IO GPUDirect存儲

Magnum IO GPUDirect存儲解決方案的關鍵優勢是其能夠消除主要性能瓶頸之一，方法是不使用CPU中的係統存儲器將數據從存儲設備加載到GPU中進行處理。通常將數據移動到主機存儲器並傳送到GPU，這依賴於CPU係統存儲器中的回彈緩衝區，在數據傳送到GPU之前，會在其中創建數據的多個副本。但是，通過這種路徑移動大量數據會產生延遲時間，降低GPU性能，並在主機中占用許多CPU周期。借助Magnum IO GPUDirect存儲解決方案，無需訪問CPU並避免了回彈緩衝區效率低下（圖1 ）。

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能圖1.Magnum IO GPUDirect存儲解決方案無需訪問CPU，避免了從數據路徑回彈緩衝

性能直接隨著傳送數據量的增加而提高，傳送數據量則隨著人工智能（AI）、機器學習（ML）、深度學習（DL）和其他數據密集型應用所需的大型分布式數據集呈指數級增長。當數據在本地存儲或遠程存儲時，可以實現這些優勢，從而允許以比CPU存儲器中的頁麵緩存更快的速度訪問數拍字節的遠程存儲。

優化RAID性能

該解決方案中的下一個元素是包括RAID功能，用於保持數據冗餘和容錯能力。雖然軟件RAID可以提供數據冗餘，但底層軟件RAID引擎仍然使用精簡指令集計算機（RISC）架構進行操作，例如奇偶校驗計算。當比較高級RAID級別（例如RAID 5和RAID 6）的寫I/O延遲時間時，硬件RAID仍然比軟件RAID快得多，因為提供了專用處理器來執行這些操作和回寫高速緩存。在流傳輸應用中，軟件RIAD的長期RIAD響應時間會導致數據堆積在高速緩存中。硬件RAID解決方案不存在緩存數據堆積問題，並且具有專門的備用電池，可以防止出現災難性係統掉電時數據丟失的情況。

標準硬件RAID雖然減輕了主機的奇偶校驗管理負擔，但大量數據仍需經過RAID控製器才能發送到NVMe®驅動器，導致數據路徑更加複雜。針對此問題的解決方案是NVMe優化的硬件RAID，該解決方案提供了簡化的數據路徑，無需經過固件或RAID片上控製器即可傳送數據。它還允許維護基於硬件的保護和加密服務。

混合PCIe結構

PCIe Gen 4現在是存儲子係統內的基本係統互連接口，但標準PCIe交換網具有與前幾代相同的基於樹的基本層級。這意味著，主機間通信需要非透明橋接（NTB）來實現跨分區通信，這使其變得複雜，特別是在多主機多交換網配置中。Microchip的PAX PCIe高級結構交換網等解決方案能夠克服這些限製，因為它們支持冗餘路徑和循環，而這是使用傳統PCIe無法實現的。

結構交換網具有兩個獨立的域，主機虛擬域（專用於每個物理主機）和結構域（包含所有端點和結構鏈路）。來自主機域的事務會在結構域中轉換為ID和地址，反之，結構域中通信的非分層路由也是如此。這樣，係統中的所有主機便可共享連接到交換網和端點的結構鏈路。

在嵌入式CPU上運行的結構固件通過可配置的下行端口數虛擬化符合PCIe標準的交換網。因此，交換網將始終顯示為具有直連端點的標準單層PCIe設備，而與這些端點在結構中的位置無關。由於結構交換網會攔截來自主機的所有配置平麵通信（包括PCIe枚舉過程）並選擇最佳路徑，因此它可以實現這一點。這樣，GPU等端點便可綁定到域中的任何主機（圖2）。

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能

圖2.交換網固件虛擬化的主機域顯示為每個主機符合PCIe標準的單層交換網

在以下示例（圖3 ）中，我們給出了雙主機PCIe結構引擎設置。此處，我們可以看到，結構虛擬化允許每個主機看到一個透明PCIe拓撲，其中包含一個上行端口、三個下行端口和三個連接到它們的端點，並且主機可以正確枚舉它們。圖3中的有趣之處是具有一個包含兩個虛擬功能的SR-IOV SSD，通過Microchip的PCIe高級結構交換網，同一驅動器的虛擬功能可以共享給不同的主機。

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能

圖3.雙主機PCIe®結構引擎

這種PAX結構交換網解決方案還支持在各結構之間直接跨域點對點傳輸，因此可減少根端口阻塞並進一步緩解CPU性能瓶頸，如圖4所示。

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能

圖4.通過結構路由通信，可減少根端口阻塞

性能優化

在探索了NVMe驅動器和GPU之(zhi)間(jian)數(shu)據(ju)傳(chuan)輸(shu)的(de)性(xing)能(neng)優(you)化(hua)過(guo)程(cheng)中(zhong)涉(she)及(ji)的(de)所(suo)有(you)組(zu)件(jian)之(zhi)後(hou)，現(xian)在(zai)可(ke)以(yi)結(jie)合(he)使(shi)用(yong)這(zhe)些(xie)組(zu)件(jian)來(lai)實(shi)現(xian)預(yu)期(qi)的(de)結(jie)果(guo)。說(shuo)明(ming)這(zhe)一(yi)點(dian)的(de)最(zui)佳(jia)方(fang)式(shi)是(shi)利(li)用(yong)圖(tu)示(shi)演(yan)示(shi)各(ge)個(ge)步(bu)驟(zhou)，圖(tu)5顯示了主機CPU及其根端口以及可實現最佳結果的各種配置。

如 REF _Ref90992504 \h VALUE 圖5 左側所示，盡管使用的是高性能NVMe控製器，但由於根端口的開銷，PCI Gen 4 x 4（4.5 GB/s）的最大數據速率也限製為3.5 GB/s。不過，通過RAID（邏輯卷）同時聚合多個驅動器（如右側所示），SmartRAID控製器可為四個NVMe驅動器各創建兩個RAID卷，並通過根端口創建傳統PCIe點對點路由。這會將數據速率提高到9.5 GB/s。

但是，利用跨域點對點傳輸（底部的圖），可以通過結構鏈路而不是根端口來路由通信，從而實現26 GB/s的速率，這是使用SmartROC 3200 RAID控製器可達到的最高速率。在最後一個場景中，交換網提供不受固件影響的直接數據路徑，並且仍然保持基於硬件的RAID保護和加密服務，同時充分利用GPUDirect存儲的全部潛能。

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能

PCIe結構和RAID如何在GPUDirect存儲中釋放全部潛能

圖5.實現26 GB/s的路徑

總結

高性能PCIe結構交換網（例如Microchip的PAX）允許多主機共享支持單根I/O虛擬化（SR-IOV）的驅動器，以及動態劃分可在多個主機之間共享的GPU和NVMe SSD池。Microchip的PAX結構交換網可以將端點資源動態重新分配給需要這些資源的任何主機。

這種解決方案還使用了SmartROC 3200 RAID控製器係列支持的SmartPQI驅動程序，因此無需自定義驅動程序。Microchip的SmartROC 3200 RAID控製器是目前惟一能夠提供最高傳輸速率（即26 GB/s）的設備。它具有極低的延遲時間，可向主機提供最多16個PCIe Gen 4通道，並向後兼容PCIe Gen 2。與Microchip基於Flashtec®係列的NVMe SSD結合使用時，可在多主機係統中發揮PCIe和Magnum IO GPUDirect存儲的全部潛能。總體而言，上述所有特性使其能夠構建一種強大的係統，該係統可以滿足AI、ML、DL以及其他高性能計算應用的實時需求。

作者：Microchip技術工程師Wilson Kwong；Microchip產品營銷經理Sandeep Dattaprasad

免責聲明：本文為轉載文章，轉載此文目的在於傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請聯係小編進行處理。

推薦閱讀：

霍爾效應傳感器如何製造更好的操縱杆

數字孿生如何增強敏捷性，提高運營效率

如何快速、經濟地將工業以太網添加到工業 4．0 設備中

數字控製回路的模擬組件（模擬控製器轉向易於編程的數字控製環路）

一文帶你了解傳輸線理論

上一篇：霍爾效應傳感器如何製造更好的操縱杆

下一篇：基於MPY634的有效值電路設計

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

友情鏈接(QQ：317243736)

我愛方案網 ICGOO元器件商城創芯在線檢測芯片查詢天天IC網電子產品世界無線通信模塊控製工程網電子開發網電子技術應用與非網世紀電源網 21ic電子技術資料下載電源網電子發燒友網中電網中國工業電器網連接器礦山設備網工博士智慧農業工業路由器天工網乾坤芯電子元器件采購網亞馬遜KOL 聚合物鋰電池工業自動化設備企業查詢工業路由器元器件商城連接器 USB中文網今日招標網塑料機械網農業機械中國IT產經新聞網高低溫試驗箱

關閉

關閉