AI加速器生態係統-測試測量-電子元件技術網

你的位置：首頁 > 測試測量 > 正文

AI加速器生態係統

發布時間：2020-05-26 責任編輯：lina

【導讀】今天的設計團隊如果采用傳統的RTL設計流程，將花費很多時間才能將運算密集型網絡帶入到硬件中，該領域亟需一個有別於以往RTL流程，同時又能有效提高生產力的方法。

今天的設計團隊如果采用傳統的RTL設計流程，將花費很多時間才能將運算密集型網絡帶入到硬件中，該領域亟需一個有別於以往RTL流程，同時又能有效提高生產力的方法。

CATAPULT HLS平台的時代來臨

15年前，Mentor認識到設計和驗證團隊需要從RTL升級到HLS層級，並開發Catapult®HLS平台。該平台提供了從C + +到最佳化RTL的完整流程（圖1）。

圖1:Catapult HLS平台

Catapult HLS平台為算法設計師提供硬件設計解決方案，可以從C++／SystemC描述，生成高品質的RTL，並且以ASIC、FPGA或eFPGA為目標。此平台能在合成之前檢查設計中的錯誤、為功能驗證和覆蓋率分析提供無縫且可重複使用的測試環境，同時支持在生成的RTL與原始HLS來源之間執行形式等效性檢查。

該解決方案的優勢包括：

支持後期階段變更。可隨時變更C++算法，重新生成RTL代碼或使用新製程。

支持硬件評價。可迅速地探索功耗、性能和麵積選項，而無需變更原始代碼。

加快時程。將設計和驗證所花時間從一年縮短至幾個月，可在數日內增添新功能，使用的C/C++代碼行數比RTL減少5倍。

AI加速器生態係統

同時，Mentor在Catapult HLS平台中部署了AI加速器生態係統（圖2），為AI設計師提供能快速展開項目的環境。

圖2:Catapult AI加速器生態係統

AC MATH數據庫

Algorithmic C Math（AC Math）中的所有函數都以C ++模mo板ban參can數shu寫xie成cheng，讓rang設she計ji師shi可ke依yi據ju目mu標biao應ying用yong來lai指zhi定ding數shu值zhi的de精jing準zhun度du。許xu多duo函han數shu都dou使shi用yong不bu同tong的de近jin似si策ce略lve，例li如ru，自zi然ran對dui數shu提ti供gong兩liang種zhong形xing式shi，即ji分fen段duan線xian性xing近jin似si和hecordic形式。在可接受準確度稍有誤差的情況下，前者較小且較快；後者雖然較慢，但準確許多。所有情況下都能自定義來源以達成設計目標。每個功能／內存塊都附有詳細的設計文件和C ++驗證程序。由於Catapult HLS平台會利用C ++驗證程序，因此很容易根據來源設計來驗證RTL準確度。

該數據庫中的數學函數類別包括：

分段線性函數-絕對值、正規化、倒數、對數和指數（自然和底數2）、平方根、反平方根和正弦／餘弦／正切（正和反）

激勵函數，如雙曲正切、S函數和Leaky ReLU函數

線性代數函數，如矩陣乘法和Cholesky分解

DSP數據庫

Algorithmic C DSP（AC DSP）數據庫定義了DSP設計師通常所需要的可合成C ++函數，例如濾波器和FFT。這些函數采用以C ++類別為主的設計，讓設計師能輕鬆示例物件的眾多變體，以打造複雜的DSP子係統。與AC Math數shu據ju庫ku一yi樣yang，輸shu入ru和he輸shu出chu參can數shu都dou會hui參can數shu化hua，以yi便bian能neng在zai所suo需xu的de定ding點dian精jing確que度du下xia執zhi行xing算suan術shu，從cong而er在zai為wei合he成cheng的de硬ying件jian執zhi行xing麵mian積ji和he性xing能neng折zhe衷zhong時shi，提ti供gong高gao度du的de彈dan性xing。

DSP數據庫包含：

濾波器函數，如FIR、1-D移動均值，以及多相位抽取

快速傅立葉變換（FFT）函數，如radix-22單一延遲回授、radix-2x動態就位和radix-2就位圖像處理數據庫Algorithmic C圖像處理數據庫（AC IPL）首先會定義一些常見的像素格式類型定義。

AI加速器生態係統還可提供豐富的工具組，由真實且經過測試的加速器參考設計示例，團隊可以研究、修改和複製這些示例，迅速展開項目。這些隨Catapult提供的套件，包含了可設定的C++/SystemC IP原始代碼、文件紀錄、驗證程序和指令碼，讓設計能進行HLS合成和驗證流程。這些工具組展示了各種能用來對性能（延遲）、幀率、麵積或功率的折衷進行實驗的方法和編寫程序技術。

PIXEL-PIPE視訊處理工具組

該視訊處理工具組展示了一個使用pixel-pipe加速器的即時圖像處理應用程序（圖3）。加速器內存塊使用C++類階層構架來實作。該內存塊將圖像縮小，並將圖像從彩色轉換為單色，以執行邊緣偵測，然後放大圖像。Xilinx®PetaLinux下的CPU上，執行了一個使用者空間應用程序，此程序能讓軟件控製開啟或關閉邊緣偵測內存塊。工具組文件紀錄會顯示如何使用Xilinx IP將該內存塊整合到Xilinx電路板中，以便團隊展示該係統。

圖3:Pixel-pipe視訊處理工具組

2-D折積工具組

該工具組展示了如何以C++對Eyeriss1處理元件（PE）數組進行編碼，實作2-D折積以執行圖像的強化（銳化、模糊和邊緣偵測）。處理元件（圖4）可以執行3x1乘積累加（折積）。

圖4:Eyeriss處理元件

TINYYOLO物件辨識工具組

物件辨識工具組（圖5）展示了使用折積加速器引擎的物件辨識應用程序，該引擎使用2-D Eyeriss工具組中的PE數組實現。該工具組展示了如何透過AXI4互連（從係統內存來讀取核心權重數據）取得高速數據路由，並展示如何定義高效能內存構架。該工具組提供TensorFlow整合能力，可以C++語言的網絡層能進行推理測試。

圖5:TINYYOLO工具組示例-係統視圖

係統整合

加速器內存塊並非獨立存在，Catapult HLS提供“界麵合成”能力，以將時間性協定加入至非時間性C++函數界麵變數。設計師隻需要在Catapult GUI中，為協定設定構架約束條件。此工具可支持典型的協定，例如AXI4視訊串流、請求／認可交握，以及內存界麵。這讓設計師不必變更C++原始碼，就能探索界麵協定。

AXI示例

AXI示例（圖6）顯示了如何使用Catapult HLS產生的AXI界麵IP，在AXI SoC子係統中示例一個或多個加速器元件。提供主控端、受控端和串流示例。

圖6:AXI示例

基礎處理器示例

基礎處理器示例（圖7）顯示了如何將機器學習加速器連接到完整的處理器型係統中，並采用了AXI示例。此示例中的機器學習加速器采用了簡單的乘積／累加構架，搭配2-D折積和區域取最大值。支持數個第三方處理器IP模型，並包含一個用於裸金屬編程的軟件流程（含有相關數據）。

圖7：基礎處理器平台示例

免責聲明：本文為轉載文章，轉載此文目的在於傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請聯係小編進行處理。

上一篇：官宣！2020中國（成都）電子信息博覽會，延期至8月舉辦

下一篇：2020中國（廣州）國際物流裝備與技術展覽會

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

AI加速器生態係統

友情鏈接(QQ：317243736)