Arm攜手AWS助力實現AI定義汽車
發布時間:2025-04-17 來源:投稿 責任編輯:admin
隨著人工智能 (AI),尤其是生成式 AI 的引入,汽車行業正迎來變革性轉變。麥肯錫最近對汽車和製造業高管開展的一項調查表明,超過 40% 的受訪者對生成式 AI 研發的投資額高達 500 萬歐元,超過 10% 受訪者的投資額超過 2,000 萬歐元。
隨著行業向軟件定義汽車 (SDV) 不斷發展,到 2030 年,汽車中的代碼行數預計將從每輛車 1 億行增加至約 3 億行。麵向汽車的生成式 AI 與 SDV 相結合,可共同實現性能和舒適性方麵的車載用例,以幫助提升駕乘體驗。
本文將介紹一項由 Arm 與亞馬遜雲科技 (AWS) 合作開發的車載生成式 AI 用例及其實現詳情。
用例介紹
隨(sui)著(zhe)汽(qi)車(che)愈(yu)發(fa)精(jing)密(mi),車(che)主(zhu)已(yi)經(jing)能(neng)在(zai)交(jiao)車(che)後(hou)持(chi)續(xu)接(jie)收(shou)諸(zhu)如(ru)停(ting)車(che)輔(fu)助(zhu)或(huo)車(che)道(dao)保(bao)持(chi)等(deng)功(gong)能(neng)更(geng)新(xin),伴(ban)隨(sui)而(er)來(lai)的(de)挑(tiao)戰(zhan)是(shi),如(ru)何(he)讓(rang)車(che)主(zhu)及(ji)時(shi)了(le)解(jie)新(xin)增(zeng)的(de)更(geng)新(xin)和(he)新(xin)功(gong)能(neng)?過(guo)往(wang)通(tong)過(guo)紙(zhi)質(zhi)或(huo)在(zai)線(xian)手(shou)冊(ce)等(deng)傳(chuan)統(tong)方(fang)法(fa)的(de)更(geng)新(xin)方(fang)式(shi)已(yi)證(zheng)明(ming)存(cun)在(zai)不(bu)足(zu),導(dao)致(zhi)車(che)主(zhu)無(wu)法(fa)充(chong)分(fen)了(le)解(jie)汽(qi)車(che)的(de)潛(qian)能(neng)。
為了應對這一挑戰,AWS 將生成式 AI、邊緣計算和物聯網 (IoT) 的強大功能相結合,開發了一項車載生成式 AI 的演示。這項演示所展現的解決方案是由小語言模型 (SLM) 所(suo)支(zhi)持(chi)的(de)車(che)載(zai)應(ying)用(yong),旨(zhi)在(zai)使(shi)駕(jia)駛(shi)員(yuan)能(neng)夠(gou)通(tong)過(guo)自(zi)然(ran)語(yu)音(yin)交(jiao)互(hu)獲(huo)取(qu)最(zui)新(xin)的(de)車(che)輛(liang)信(xin)息(xi)。該(gai)演(yan)示(shi)應(ying)用(yong)能(neng)夠(gou)在(zai)部(bu)署(shu)後(hou)離(li)線(xian)運(yun)行(xing),確(que)保(bao)駕(jia)駛(shi)員(yuan)在(zai)沒(mei)有(you)互(hu)聯(lian)網(wang)連(lian)接(jie)的(de)情(qing)況(kuang)下(xia),也(ye)能(neng)訪(fang)問(wen)有(you)關(guan)車(che)輛(liang)的(de)重(zhong)要(yao)信(xin)息(xi)。
該解決方案集成了多項先進技術,為用戶打造出更無縫、更高效的產品體驗。這項演示的應用部署在車內本地的小語言模型,該模型利用經 Arm KleidiAI 優化的例程對性能進行提升。未經 KleidiAI 優化的係統的響應時間為 8 至 19 秒左右,相比之下,經 KleidiAI 優化的小語言模型的推理響應時間為 1 至 3 秒。通過使用 KleidiAI,應用開發時間縮短了 6 周,而且開發者在開發期間無需關注底層軟件的優化。
Arm 虛擬硬件 (Arm Virtual Hardware) 支持訪問許多 AWS 上的熱門物聯網開發套件。當物理設備不可用,或者全球各地的團隊無法訪問物理設備時,在 Arm 虛擬硬件上進行開發和測試可節省嵌入式應用的開發時間。AWS 在汽車虛擬平台上成功測試了該演示應用,在演示中,Arm 虛擬硬件提供了樹莓派設備的虛擬實例。同樣的 KleidiAI 優化也可用於 Arm 虛擬硬件。
這個在邊緣側設備上運行的生成式 AI 應用所具備的關鍵特性之一是,它能夠接收 OTA 無線更新,其中部分更新使用 AWS IoT Greengrass Lite 接收,從而確保始終向駕駛員提供最新信息。AWS IoT Greengrass Lite 在邊緣側設備上僅占用 5 MB 的 RAM,yincijuyouhengaodeneicunxiaolv。ciwai,gaijiejuefanganbaohanzidongzhiliangjiankonghefankuixunhuan,yongyuchixupingguxiaoyuyanmoxingxiangyingdexiangguanxinghezhunquexing。qizhongcaiyongleyigebijiaoxitong,duichaochuyuqizhiliangyuzhidexiangyingjinxingbiaoji,yijinxingshenhe。ranhou,tongguo AWS 上shang的de儀yi表biao板ban,以yi近jin乎hu實shi時shi的de速su度du對dui收shou集ji到dao的de反fan饋kui數shu據ju進jin行xing可ke視shi化hua,使shi整zheng車che廠chang的de質zhi保bao團tuan隊dui能neng夠gou審shen核he和he確que定ding需xu要yao改gai進jin的de方fang麵mian,並bing根gen據ju需xu要yao發fa起qi更geng新xin。
這個由生成式 AI 提供支持的解決方案,所具備的優勢不僅僅在於為駕駛員提供準確的信息。它還體現了 SDV 生sheng命ming周zhou期qi管guan理li的de範fan式shi轉zhuan變bian,實shi現xian了le更geng持chi續xu的de改gai進jin周zhou期qi,整zheng車che廠chang可ke以yi根gen據ju用yong戶hu交jiao互hu來lai添tian加jia新xin內nei容rong,而er小xiao語yu言yan模mo型xing可ke以yi使shi用yong通tong過guo無wu線xian網wang絡luo無wu縫feng部bu署shu的de更geng新xin信xin息xi進jin行xing微wei調tiao。這zhe樣yang一yi來lai,通tong過guo保bao證zheng最zui新xin的de車che輛liang信xin息xi,用yong戶hu體ti驗yan得de以yi提ti升sheng,此ci外wai整zheng車che廠chang也ye有you機ji會hui向xiang用yong戶hu介jie紹shao和he指zhi導dao新xin特te性xing或huo可ke購gou買mai的de附fu加jia功gong能neng。通tong過guo利li用yong生sheng成cheng式shi AI、物聯網和邊緣計算的強大功能,這個生成式 AI 應用可以起到汽車用戶向導的作用,其中展示的方法有助於在 SDV 時代實現更具連接性、信息化和適應性的駕駛體驗。
端到端的上層實現方案
下圖所示的解決方案架構用於對模型進行微調、在 Arm 虛擬硬件上測試模型,以及將小語言模型部署到邊緣側設備,並且其中包含反饋收集機製。

圖:基於生成式 AI 的汽車用戶向導的解決方案架構圖
上圖中的編號對應以下內容:
1. 模型微調:AWS 演示應用開發團隊選擇 TinyLlama-1.1B-Chat-v1.0 作為其基礎模型,該模型已針對會話任務進行了預訓練。為了優化駕駛員的汽車用戶向導聊天界麵,團隊設計了言簡意賅、重點突出的回複,以便適應駕駛員在行車時僅可騰出有限注意力的情況。團隊創建了一個包含 1,000 組問答的自定義數據集,並使用 Amazon SageMaker Studio 進行了微調。
2. 存儲:經過調優的小語言模型存儲在 Amazon Simple Storage Service (Amazon S3) 中。
3. 初始部署:小語言模型最初部署到基於 Ubuntu 的 Amazon EC2 實例。
4. 開發和優化:團隊在 EC2 實例上開發並測試了生成式 AI 應用,使用 llama.cpp 進行小語言模型量化,並應用了 Q4_0 方案。KleidiAI 優化預先集成了 llama.cpp。與此同時,模型還實現了大幅壓縮,將文件大小從 3.8 GB 減少至 607 MB。
5. 虛擬測試:將應用和小語言模型傳輸到 Arm 虛擬硬件的虛擬樹莓派環境進行初始測試。
6. 虛擬驗證:在虛擬樹莓派設備中進行全麵測試,以確保功能正常。
7. 邊緣側部署:通過使用 AWS IoT Greengrass Lite,將生成式 AI 應用和小語言模型部署到物理樹莓派設備,並利用 AWS IoT Core 作業進行部署管理。
8. 部署編排:AWS IoT Core 負責管理部署到邊緣側樹莓派設備的任務。
9. 安裝過程:AWS IoT Greengrass Lite 處理從 Amazon S3 下載的軟件包,並自動完成安裝。
10. 用戶界麵:已部署的應用在邊緣側樹莓派設備上為最終用戶提供基於語音的交互功能。
11. 質量監控:生成式 AI 應用實現對用戶交互的質量監控。數據通過 AWS IoT Core 收集,並通過 Amazon Kinesis Data Streams 和 Amazon Data Firehose 處理,然後存儲到 Amazon S3。整車廠可通過 Amazon QuickSight 儀表板來監控和分析數據,及時發現並解決任何小語言模型質量問題。
接下來將深入探討 KleidiAI 及該演示采用的量化方案。
Arm KleidiAI
Arm KleidiAI 是專為 AI 框架開發者設計的開源庫。它為 Arm CPU 提供經過優化的性能關鍵例程。該開源庫最初於 2024 年 5 月推出,現在可為各種數據類型的矩陣乘法提供優化,包括 32 位浮點、Bfloat16 和 4 位定點等超低精度格式。這些優化支持多項 Arm CPU 技術,比如用於 8 位計算的 SDOT 和 i8mm,以及用於 32 位浮點運算的 MLA。
憑借四個 Arm Cortex-A76 核心,樹莓派 5 演示使用了 KleidiAI 的 SDOT 優化,SDOT 是最早為基於 Arm CPU 的 AI 工作負載設計的指令之一,它在 2016 年發布的 Armv8.2-A 中推出。
SDOT 指令也顯示了 Arm 持續致力於提高 CPU 上的 AI 性能。繼 SDOT 之後,Arm 針對 CPU 上運行 AI 逐步推出了新指令,比如用於更高效 8 位矩陣乘法的 i8mm 和 Bfloat16 支持,以期提高 32 位浮點性能,同時減半內存使用。
對於使用樹莓派 5 進行的演示,通過按塊量化方案,利用整數 4 位量化(也稱為 llama.cpp 中的 Q4_0)來加速矩陣乘法,KleidiAI 扮演關鍵作用。
llama.cpp 中的 Q4_0 量化格式
llama.cpp 中的 Q4_0 矩陣乘法包含以下組成部分:
· 左側 (LHS) 矩陣,以 32 位浮點值的形式存儲激活內容。
· 右側 (RHS) 矩陣,包含 4 位定點格式的權重。在該格式中,量化尺度應用於由 32 個連續整數 4 位值構成的數據塊,並使用 16 位浮點值進行編碼。
因此,當提到 4 位整數矩陣乘法時,它特指用於權重的格式,如下圖所示:

在這個階段,LHS 和 RHS 矩陣均不是 8 位格式,KleidiAI 如何利用專為 8 位整數點積設計的 SDOT 指令?這兩個輸入矩陣都必須轉換為 8 位整數值。
對於 LHS 矩陣,在矩陣乘法例程之前,還需要一個額外的步驟:動態量化為 8 位定點格式。該過程使用按塊量化方案將 LHS 矩陣動態量化為 8 位,其中,量化尺度應用於由 32 個連續 8 位整數值構成的數據塊,並以 16 位浮點值的形式存儲,這與 4 位量化方法類似。
dongtailianghuakezuidaxiandujiangdizhunquexingxiajiangdefengxian,yinweilianghuachiduyinzishizaituilishigenjumeigeshujukuaizhongdezuixiaozhihezuidazhijisuandechude。yugaifangfaxingchengduibideshi,jingtailianghuadechiduyinzishiyuxianquedingde,baochibubian。
對於 RHS 矩陣,在矩陣乘法例程之前,無需額外步驟。事實上,4 位量化充當壓縮格式,而實際計算是以 8 位進行的。因此,在將 4 位值傳遞給點積指令之前,首先將其轉換為 8 位。從 4 位轉換為 8 位的計算成本並不高,因為隻需進行簡單的移位/掩碼運算即可。
既然轉換效率如此高,為什麼不直接使用 8 位,省去轉換的麻煩?
使用 4 位量化有兩個關鍵優勢:
· 縮小模型尺寸:由於 4 位值所需的內存隻有 8 位值的一半,因此這對可用 RAM 有限的平台尤其有益。
· 提升文本生成性能:wenbenshengchengguochengyilaiyuyixiliejuzhenxiangliangyunsuan,zhexieyunsuantongchangshouneicunxianzhi。yejiushishuo,xingnengshouxianyuneicunhechuliqizhijiandeshujuchuanshusudu,erbushichuliqidejisuannengli。youyuneicundaikuanshiyigexianzhiyinsu,suoxiaoshujudaxiaokezuidaxiandujianshaoneicunliuliang,congerxianzhutigaoxingneng。
如何結合使用 KleidiAI 與 llama.cpp?
非常簡單,KleidiAI 已集成到 llama.cpp 中。因此,開發者不需要額外的依賴項就能充分發揮 Armv8.2 及更新架構版本的 Arm CPU 性能。
兩者的集成意味著,在移動設備、嵌入式計算平台和基於 Arm 架構處理器的服務器上運行 llama.cpp 的開發者,現在可以體驗到更好的性能。
除了 llama.cpp,還有其他選擇嗎?
對於在 Arm CPU 上運行大語言模型,雖然 llama.cpp 是一個很好的選擇,但開發者也可以使用其他采用了 KleidiAI 優化的高性能生成式 AI 框架。例如(按首字母順序排列):ExecuTorch、MediaPipe、MNN 和 PyTorch。隻需選擇最新版本的框架即可。
因此,如果開發者正考慮在 Arm CPU 上部署生成式 AI 模型,探索以上框架有助於實現性能和效率的優化。
總結
SDV 和生成式 AI 的融合,正在共同開創一個新的汽車創新時代,使得未來的汽車變得更加智能化,更加以用戶為中心。文中介紹的車載生成式 AI 應用演示由 Arm KleidiAI 進行優化並由 AWS 所提供的服務進行支持,展示了新興技術如何幫助解決汽車行業的實際挑戰。該解決方案可實現 1 至 3 秒的響應時間並將開發時間縮短數周,證明更高效且離線可用的生成式 AI 應用不僅能夠實現,而且非常適合車載部署。
汽車技術的未來在於打造無縫融合邊緣計算、物聯網功能和 AI 的解決方案。隨著汽車不斷演變且軟件越來越複雜,潛在解決方案(比如本文介紹的解決方案)將成為彌合先進汽車功能與用戶理解間差距的關鍵。
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 1200餘家企業齊聚深圳,CITE2026打造電子信息產業創新盛宴
- 掌握 Gemini 3.1 Pro 參數調優的藝術
- 築牢安全防線:電池擠壓試驗機如何為新能源產業護航?
- Grok 4.1 API 實戰:構建 X 平台實時輿情監控 Agent
- 電源芯片國產化新選擇:MUN3CAD03-SF助力物聯網終端“芯”升級
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall



