DeepSeek發布DualPath：雙路徑加載機製徹底打破大模型KV緩存I/O瓶頸-互連技術-電子元件技術網

你的位置：首頁 > 互連技術 > 正文

DeepSeek發布DualPath：雙路徑加載機製徹底打破大模型KV緩存I/O瓶頸

發布時間：2026-02-28 來源：轉載責任編輯：lily

【導讀】在大模型智能體（Agent）應用日益普及的今天，多輪交互導致的超長上下文累積使得KV緩存的加載效率取代計算能力，成為製約推理性能的新瓶頸。傳統架構中“存儲至預填充引擎”的單一路徑設計，導致了存儲網卡帶寬在預填充端飽和而在解碼端閑置的嚴重資源失衡。針對這一痛點，DeepSeek於2月27日重磅推出了名為DualPath的全新推理係統方案。該方案突破性地在存儲與解碼引擎之間開辟了直通新通道，利用RDMA技術實現KV緩存的雙路徑動態加載與負載均衡。作為由北大實習生吳永彤主導的最新成果，DualPath不僅在理論上消除了KV緩存的I/Okaixiao，gengzaiqiankajiqundeshicezhongjianglixianyuzaixiantuntuliangtishenglejinliangbei，weidamoxingzaizhinengtichangjingxiadegaoxiaoluoditigonglejijujiazhidejiagougexinsilu。

DeepSeek又找到突破大模型推理瓶頸的新方法了！智東西2月27日報道，昨天，DeepSeek發布了一項名為DualPath的全新推理係統方案，直指當前大語言模型在智能體應用場景下遭遇的短板——KV緩存存儲I/O瓶頸。該方案通過引入雙路徑加載機製，顯著提升係統吞吐量，基本消除了KV緩存的I/O開銷。

DualPath的核心創新在於開辟了一條從存儲直通解碼引擎的新通道。KV緩存不再僅由預填充引擎加載，而是可以加載至解碼引擎，再通過計算網絡中的RDMA高效傳輸至預填充端。這一設計不僅緩解了存儲端的壓力，還避免了網絡擁塞，確保延遲敏感型任務不受幹擾。與全局調度器協同後，DualPath實現了動態平衡兩端負載，進一步提升資源利用率。在真實智能體工作負載測試中，DualPath將離線推理吞吐量提升最高達1.87倍，在線服務吞吐量平均提升1.96倍。

在大規模可擴展性方麵，DualPath係統在最多1152張GPU上進行了驗證。離線推理從2P4D（2K智能體）擴展到48P96D（48K智能體）實現近線性擴展，任務完成時間基本保持一致。

值得一提的是，與之前DeepSeek發表的許多研究論文類似，這篇論文的第一作者吳永彤同樣是DeepSeek的實習生。吳永彤目前在北京大學攻讀博士學位，師從金鑫教授，主要研究大模型基礎設施相關課題，自2025年8月以來便在DeepSeek係統組工作，曾參與DeepSeek-V3.2的研究。

01.智能體I/O瓶頸凸顯傳統設計成本高昂

suizhezhinengtiyingyongpuji，duoluntuiliyichengchangtai。zhinengtitongguogongjuyuwaibuhuanjingjinxingshushishenzhishubailunjiaohu，shangxiawenkualunleijidaojichangchangdu。youyuduolun、短追加的特性，KV緩存命中率高達95%以上，加載效率取代計算成為性能主導因素。現有係統采用分層預填充、預填充-解碼分離（PD分離）和外部KV緩存存儲架構。但問題在於：預填充引擎存儲網卡帶寬持續飽和，而解碼引擎存儲網卡帶寬大量閑置。這種不平衡暴露了根本性低效——存儲網絡帶寬利用不均，而單純增加預填充端帶寬成本高昂。

DualPath的提出正是為了解決上述問題，其核心洞察在於打破“KV緩存加載必須以預填充為中心”的傳統設計。現有係統僅通過存儲到預填充引擎的單一路徑加載，導致預填充端帶寬飽和而解碼端帶寬閑置。DualPath則增加了存儲到解碼路徑，將KV緩存先加載至空閑的解碼引擎，再通過RDMA高效傳輸給預填充引擎。這一模式聚合了所有存儲網卡帶寬，重新分配網絡負載，從根本上緩解預填充端的I/O瓶頸。

不過，該設計仍然麵臨兩大挑戰：shouxian，yinruewaidejiazailujinghuichanshengfuzadeliuliangmoshi，bingkenengyumoxingzhixingzhongdejititongxinyuanyuchanshengqianzaiganrao，ruoguanlibudanghuijiangdizhengtixingneng。qici，xitongbixuzaidongtaiheyigoudegongzuofuzaixiazaixianjuedingshiyongnatiaojiazailujing，bingtongshiquebaoGPU和網卡之間的負載均衡。

02.三大核心組件打造DualPath新組件並未引入瓶頸

那麼，DeepSeek究竟是如何解決這些挑戰的呢？DualPath使用了兩項廣泛使用的技術：（1）PD分離，將提示詞和解碼處理分開以提高效率。（1）分層預填充，避免了預填充引擎上的HBM瓶頸，並提高了GPU利用率。而DualPath主要由三大核心組件構成。

推理引擎是基礎執行單元，每個引擎管理一個GPU，並明確區分為專司預填充計算的預填充引擎和負責解碼生成的解碼引擎。

流量管理器內嵌於每個引擎，統籌所有數據移動：包括主機與設備間的內存拷貝、預填充與解碼引擎之間的KV緩存傳輸，以及通過存儲網卡進行的KV緩存持久化讀寫。其采用以計算網卡為中心的流量管理策略，確保KV緩存流量不會幹擾延遲敏感的模型集體通信。

qingqiutiaoduqizuoweizhongyangjuecedanyuan，jieshoukehuduanqingqiubingzhinengfenfageigeyinqing，tongshidongtaijuecemeitiaoqingqiucaiyongchuantongcunchudaoyutianchonglujinghaishixinxingcunchudaojiemalujing，shixianshuanglujingjiandeliuliangjunhengyuquanjufuzaiyouhua。

在具體實現上，DualPath在每個預填充引擎和解碼引擎上預留少量DRAM作為緩衝區。對於預填充端讀路徑，命中token的KV緩存首先從存儲讀入預填充引擎緩衝區，然後按層流式傳入預填充引擎的HBM，與未命中token的KV計算過程重疊執行。

隨後，完整的提示詞KV會被傳輸至解碼引擎緩衝區，供解碼階段使用。對於解碼端讀路徑，命中KV首先加載到解碼引擎緩衝區，在預填充引擎執行預填充時逐層通過RDMA讀取，同時與計算重疊。未命中KV計算完成後回傳至解碼引擎，與命中KV合並形成完整提示詞緩存。無論哪條路徑，數據傳輸都采用分層流式方式，以緩解HBM容量壓力並實現計算與通信的重疊。

解碼階段開始前，解碼引擎將完整KV從緩衝區傳入HBM，完成主機到設備拷貝後釋放CPU內存；在生成過程中，每當累積滿一個固定大小的token塊，就立即持久化到存儲。為了驗證該架構不會引入新的瓶頸，論文對計算網卡帶寬和DRAM帶寬進行了係統性分析。

通過建立每對預填充引擎—解碼引擎之間的流量模型，並假設負載均衡與網絡無擁塞，作者推導出在一定的P/D（預填充節點與解碼節點數量之比）範圍內，計算網卡、PCIe以及DRAM均不會成為瓶頸。在典型配置（例如每節點8個GPU、存儲帶寬遠小於計算帶寬）下，可行的P/D區間覆蓋大多數實際部署比例，說明係統能夠在充分利用所有存儲網卡帶寬的同時，保持計算與內存資源的穩定運行。

03.係統落地仍麵臨三大挑戰采用計算網卡為中心的流量管理

然而，在真實係統中落地雙路徑架構仍麵臨三項核心挑戰。首先是細粒度數據傳輸。分層執行緩解了HBM容量壓力，但也將KV拆分為大量小塊，需要在存儲、主機DRAM和GPUHBM之間高效搬運，同時控製軟件與硬件開銷。

其次是流量隔離。新增的KV傳輸可能幹擾模型執行中的延遲敏感型集體通信（如AllToAll、ReduceScatter/AllGather），若缺乏隔離機製，將直接推高端到端推理延遲。

最後是動態負載均衡。由於係統存在兩條讀取路徑，調度器必須結合磁盤隊列長度、GPU負載和請求特征動態決策，否則容易再次形成局部瓶頸。

為避免KV傳輸幹擾模型通信，係統采用以計算網卡為中心的流量管理機製。所有進出GPU的流量，包括H2D/D2H拷貝，統一經由與GPU配對的計算網卡，並通過GPUDirectRDMA完成傳輸，使全部數據流彙聚到計算網絡，從而利用硬件QoS能力進行優先級隔離。

在基於InfiniBand的部署中，模型推理通信被映射到高優先級虛擬通道，KV傳輸映射到低優先級通道，並通過加權輪詢保障前者帶寬。這樣既保護了延遲敏感通信，又允許KV流量利用空閑帶寬。實驗還表明，在大量小塊場景下，其更適合細粒度傳輸。

在調度層麵，係統采用兩級自適應機製。引擎間調度為請求選擇預填充引擎—解碼引擎對並確定讀取路徑，通過token數量與磁盤隊列長度實現負載均衡；解碼引擎調度分為跨組與組內兩階段，在平衡總token數的同時考慮HBM容量約束，避免資源過載。

引擎內調度主要作用於預填充引擎，通過估計注意力層計算量設定“計算配額”，以FIFO方式組批，必要時對請求分塊，使各GPU計算時間趨於一致，減少同步等待。

總(zong)體(ti)而(er)言(yan)，雙(shuang)路(lu)徑(jing)加(jia)載(zai)聚(ju)合(he)存(cun)儲(chu)帶(dai)寬(kuan)，理(li)論(lun)分(fen)析(xi)保(bao)證(zheng)係(xi)統(tong)無(wu)新(xin)增(zeng)瓶(ping)頸(jing)，計(ji)算(suan)網(wang)卡(ka)中(zhong)心(xin)化(hua)設(she)計(ji)實(shi)現(xian)嚴(yan)格(ge)流(liu)量(liang)隔(ge)離(li)，自(zi)適(shi)應(ying)調(tiao)度(du)則(ze)維(wei)持(chi)負(fu)載(zai)均(jun)衡(heng)與(yu)低(di)延(yan)遲(chi)，共(gong)同(tong)構(gou)成(cheng)一(yi)個(ge)高(gao)吞(tun)吐(tu)、可擴展的推理架構。

04.實驗證明KV緩存I/O開銷已基本消除在千卡集群上實現線性擴展

為驗證DualPath帶來的性能提升，DeepSeek在一個由InfiniBand互連的GPU服務器集群上進行實驗，評估了三個模型的表現：DeepSeek V3.2 660B（記為DS 660B）、DS 660B的27B縮小版本（記為DS 27B）以及作為稠密模型代表的Qwen2.5-32B（記為Qwen 32B）。

實驗結果顯示，DualPath在更大的批次規模和更長的最大有效上下文長度下獲益更加顯著。在DS 660B上，DualPath相較於DeepSeek內部的基線推理框架最高實現1.87倍加速，且性能接近假設零I/O開銷的理論性能上限，說明KV緩存I/O開銷已基本被消除。

在DS 27B上，DualPath相較於DeepSeek內部的基線推理框架最高提升1.78倍。在改變追加長度和生成長度時，DualPath在短token場景下優勢更明顯。隨著追加長度增加，GPU計算壓力增大，而生成長度增加則因預填充間隔變長，降低了KV緩存加載壓力。圖9顯示，隨著追加長度增長，未采用DualPath的推理引擎表現和DualPath的性能越發接近，表明係統瓶頸逐漸轉向GPU計算。在不同追加規模下，DualPath相較於基線實現1.82至1.99倍加速，生成長度擴展趨勢類似。在不同預填充-解碼比例下，DualPath均顯著優於基線，平均實現1.64倍加速，最高達2.46倍。基線推理引擎隻能使用預填充節點的存儲帶寬，而DualPath能夠利用所有節點的帶寬，驗證了在智能體場景下存儲帶寬是主要瓶頸。在在線服務評估中，DualPath在智能體請求到達速率上顯著優於基線，在DS27B和DS660B上分別達到1.67倍和2.25倍提升。

在負載均衡方麵，DualPath顯著改善了存儲網卡和注意力層執行時間的均衡性。相較於輪詢調度，調度算法將存儲網卡負載均衡指標從1.53優化至1.18。同時，在任務前5%執行階段，將注意力層最大/平均執行時間比控製在1.06以內，減少了GPU空閑氣泡。在大規模可擴展性方麵，DualPath係統在最多1152張GPU上進行了驗證。離線推理從2P4D（2K智能體）擴展到48P96D（48K智能體）實現近線性擴展，任務完成時間基本保持一致。

在線服務中，44P88D配置在保持相似延遲的同時，將吞吐量提升22倍。所有實驗中調度器CPU占用低於10核，表明其不是性能瓶頸。大規模部署不僅減少資源碎片化，還為並行度和P/D比例調優提供更大靈活性，同時在突發在線請求場景下提供更多調度空間以緩解排隊延遲。

總結

DeepSeek DualPath係統的成功驗證表明，打破“以預填充為中心”的傳統數據加載範式，是解決智能體場景下KV緩存I/O瓶頸的關鍵所在。通過構建存儲到解碼的第二路徑，並結合以計算網卡為中心的流量管理與自適應調度機製，DualPath不僅實現了存儲帶寬的全局聚合與高效利用，更在1152張GPU的大規模集群中展現了近線性的擴展能力，將離線推理吞吐量最高提升1.87倍，在線服務吞吐量平均提升1.96倍，基本抹平了I/O開銷對係統性能的限製。盡管未來在應對高度動態的工作負載時，仍需探索更靈活的並行度與P/D比例自適應調整機製，但DualPath無疑為業界提供了一套高吞吐、低延遲且可擴展的推理新標準，標誌著大模型基礎設施正式邁入“雙路徑”協同優化的新階段。

3-958x200_20251021044704_586_20260213110352_663_20260218181015_530.png

上一篇：Altera 攜手博通等巨頭亮相 MWC 2026：以可編程創新重塑下一代射頻生態

下一篇：年薪最高470萬！OpenAI天價搶人揭秘：矽穀AI人才戰進入“鈔能力”時代

特別推薦

技術文章更多>>

技術白皮書下載更多>>

熱門搜索

友情鏈接(QQ：317243736)

我愛方案網 ICGOO元器件商城創芯在線檢測芯片查詢天天IC網電子產品世界無線通信模塊控製工程網電子開發網電子技術應用與非網世紀電源網 21ic電子技術資料下載電源網電子發燒友網中電網中國工業電器網連接器礦山設備網工博士智慧農業工業路由器天工網乾坤芯電子元器件采購網亞馬遜KOL 聚合物鋰電池工業自動化設備企業查詢工業路由器元器件商城連接器 USB中文網今日招標網塑料機械網農業機械中國IT產經新聞網高低溫試驗箱

關閉

關閉