

智东西
编译 | 陈骏达
剪辑 | 云鹏
DeepSeek 又找到突破大模子推理瓶颈的新要领了!
智东西 2 月 27 日报说念,昨天,DeepSeek 发布了一项名为 DualPath 的全新推理系统有缱绻,直指现时大说话模子在智能体应用场景下遭逢的短板—— KV 缓存存储 I/O 瓶颈。该有缱绻通过引入双旅途加载机制,显耀进步系统模糊量,基本排斥了 KV 缓存的 I/O 支出。
DualPath 的中枢立异在于开辟了一条从存储纵贯解码引擎的新通说念。KV 缓存不再仅由预填充引擎加载,而是不错加载至解码引擎,再通过计较网罗中的 RDMA 高效传输至预填充端。这一假想不仅缓解了存储端的压力,还幸免了网罗拥塞,确保蔓延敏锐型任务不受打扰。
与全局迁徙器协同后,DualPath 终局了动态平衡两头负载,进一步进步资源欺诈率。在委果智能体使命负载测试中,DualPath 将离线推理模糊量进步最高达 1.87 倍,在线劳动模糊量平均进步 1.96 倍。
在大界限可推广性方面,DualPath 系统在最多 1152 张 GPU 上进行了考证。离线推理从 2P4D(2K 智能体)推广到 48P96D(48K 智能体)终局近线性推广,任务完成时刻基本保执一致。
值得一提的是,与之前 DeepSeek 发表的很多盘考论文类似,这篇论文的第一作家吴永彤相似是 DeepSeek 的实习生。吴永彤现在在北京大学攻读博士学位,师从金鑫教化,主要盘考大模子基础要领关系课题,自 2025 年 8 月以来便在 DeepSeek 系统组使命,曾参与 DeepSeek-V3.2 的盘考。
论文畅通:
https://arxiv.org/pdf/2602.21548
{jz:field.toptypename/}一、智能体 I/O 瓶颈突显,传统假想本钱高尚
跟着智能体应用普及,多轮推理已成常态。智能体通过器用与外部环境进行数十以至数百轮交互,坎坷文跨轮蓄积到极长长度。由于多轮、短追加的特点,KV 缓存射中率高达 95% 以上,加载后果取代计较成为性能主导身分。
现存系统给与分层预填充、预填充 - 解码分离(PD 分离)和外部 KV 缓存存储架构。但问题在于:预填充引擎存储网卡带宽执续满盈,而解码引擎存储网卡带宽无数闲置。这种不屈衡披露了根人道低效——存储网罗带宽欺诈不均,而单纯增多预填充端带宽本钱高尚。

现存瓶颈(左)与 DualPath(右)
DualPath 的建议恰是为了延续上述问题,其中枢知悉在于突破" KV 缓存加载必须以预填充为中心"的传统假想。
现存系统仅通过存储到预填充引擎的单一说念径加载,导致预填充端带宽满盈而解码端带宽闲置。DualPath 则增多了存储到解码旅途,将 KV 缓存先加载至悠闲的解码引擎,再通过 RDMA 高效传输给预填充引擎。
这一模式团聚了悉数存储网卡带宽,再行分派网罗负载,从根底上缓解预填充端的 I/O 瓶颈。
不外,该假想仍然濒临两大挑战:最初,引入很是的加载旅途会产生复杂的流量模式,并可能与模子引申中的集体通讯原语产生潜在打扰,若延续失当会裁减举座性能。
其次,系统必须在动态和异构的使命负载下在线决定使用哪条加载旅途,并同期确保 GPU 和网卡之间的负载平衡。
二、三大中枢组件打造 DualPath,新组件并未引入瓶颈
那么,DeepSeek 究竟是怎样延续这些挑战的呢?DualPath 使用了两项平时使用的技巧:
(1)PD 分离,将辅导词妥协码处理分开以提高后果。
(1)分层预填充,幸免了预填充引擎上的 HBM 瓶颈,并提高了 GPU 欺诈率。
而 DualPath 主要由三大中枢组件组成。推理引擎是基础引申单位,每个引擎延续一个 GPU,并明确分手为专司预填充计较的预填充引擎和认真解码生成的解码引擎。
流量延续器内嵌于每个引擎,统筹所荒芜据出动:包括主机与开导间的内存拷贝、预填充与解码引擎之间的 KV 缓存传输,以及通过存储网卡进行的 KV 缓存执久化读写。其给与以计较网卡为中心的流量延续政策,确保 KV 缓存流量不会打扰蔓延敏锐的模子集体通讯。
申请迁徙器动作中央决策单位,吸收客户端申请并智能分发给各引擎,开云体育官方网站同期动态决策每条申请给与传统存储到预填充旅途仍是新式存储到解码旅途,终局双旅途间的流量平衡与全局负载优化。

在具体终局上,DualPath 在每个预填充引擎妥协码引擎上预留少许 DRAM 动作缓冲区。关于预填充端读旅途,射中 token 的 KV 缓存最初从存储读入预填充引擎缓冲区,然后按层流式传入预填充引擎的 HBM,与未射中 token 的 KV 计较经由肖似引申。随后,齐备的辅导词 KV 会被传输至解码引擎缓冲区,供解码阶段使用。
关于解码端读旅途,射中 KV 最初加载到解码引擎缓冲区,在预填充引擎引申预填充时逐层通过 RDMA 读取,同期与计较肖似。未射中 KV 计较完成后回传至解码引擎,与射中 KV 吞并酿成齐备辅导词缓存。
岂论哪条旅途,数据传输皆给与分层流式容貌,以缓解 HBM 容量压力并终局计较与通讯的肖似。解码阶段开动前,解码引擎将齐备 KV 从缓冲区传入 HBM,完成主机到开导拷贝后开释 CPU 内存;在生成经由中,每当蓄积满一个固定大小的 token 块,就立即执久化到存储。
为了考证该架构不会引入新的瓶颈,论文对计较网卡带宽和 DRAM 带宽进行了系统性分析。通过建树每对预填充引擎—解码引擎之间的流量模子,并假定负载平衡与网罗无拥塞,作家推导出在一定的 P/D(预填充节点与解码节点数目之比)界限内,计较网卡、PCIe 以及 DRAM 均不会成为瓶颈。
在典型配置(举例每节点 8 个 GPU、存储带宽远小于计较带宽)下,可行的 P/D 区间遮掩大多数骨子部署比例,确认系统能够在充分欺诈悉数存储网卡带宽的同期,保执计较与内存资源的清静运行。
三、系统落地仍濒临三大挑战,给与计较网卡为中心的流量延续
然而,乐鱼体育官网在委果系统中落地双旅途架构仍濒临三项中枢挑战。最初是细粒度数据传输。分层引申缓解了 HBM 容量压力,但也将 KV 拆分为无数小块,需要在存储、主机 DRAM 和 GPUHBM 之间高效搬运,同期放弃软件与硬件支出。
其次是流量防止。新增的 KV 传输可颖悟扰模子引申中的蔓延敏锐型集体通讯(如 AllToAll、ReduceScatter/AllGather),若短缺防止机制,将径直推高端到端推理蔓延。
临了是动态负载平衡。由于系统存在两条读取旅途,迁徙器必须聚积磁盘部队长度、GPU 负载和申请特征动态决策,不然容易再次酿成局部瓶颈。
为幸免 KV 传输打扰模子通讯,系统给与以计较网卡为中心的流量延续机制。悉数出入 GPU 的流量,包括 H2D/D2H 拷贝,谐和经由与 GPU 配对的计较网卡,并通过 GPUDirectRDMA 完成传输,使全部数据流集聚到计较网罗,从而欺诈硬件 QoS 才智进行优先级防止。
在基于 InfiniBand 的部署中,模子推理通讯被映射到高优先级捏造通说念,KV 传输映射到低优先级通说念,并通过加权轮询保险前者带宽。这么既保护了蔓延敏锐通讯,又允许 KV 流量欺诈悠闲带宽。执行还标明,在无数小块场景下,其更合适细粒度传输。
在迁徙层面,系统给与两级自安妥机制。引擎间迁徙为申请聘用预填充引擎—解码引擎对并细目读取旅途,通过 token 数目与磁盘部队长度终局负载平衡;解码引擎迁徙分为跨组与组内两阶段,在平衡总 token 数的同期推敲 HBM 容量敛迹,幸免资源过载。
引擎内迁徙主要作用于预填充引擎,通过揣摸提神力层计较量设定"计较配额",以 FIFO 容貌组批,必要时对申请分块,使各 GPU 计较时刻趋于一致,减少同步恭候。
总体而言,双旅途加载团聚存储带宽,表面分析保证系统无新增瓶颈,计较网卡中心化假想终局严格流量防止,自安妥迁徙则保管负载平衡与低蔓延,共同组成一个高模糊、可推广的推理架构。
四、实考表露 KV 缓存 I/O 支出已基本排斥,在千卡集群上终局线性推广
为考证 DualPath 带来的性能进步,DeepSeek 在一个由 InfiniBand 互连的 GPU 劳动器集群上进行执行,评估了三个模子的阐扬:DeepSeek V3.2 660B(记为 DS 660B)、DS 660B 的 27B 减轻版块(记为 DS 27B)以及动作浩荡模子代表的 Qwen2.5-32B(记为 Qwen 32B)。
执行落幕骄横,DualPath 在更大的批次界限和更长的最大有用坎坷文长度下获益愈加显耀。在 DS 660B 上,DualPath 相较于 DeepSeek 里面的基线推理框架最高终局 1.87 倍加快,且性能接近假定零 I/O 支出的表面性能上限,确认 KV 缓存 I/O 支出已基本被排斥。

在 DS 27B 上,DualPath 相较于 DeepSeek 里面的基线推理框架最高进步 1.78 倍。
在编削追加长度和生成长度时,DualPath 在短 token 场景下上风更较着。跟着追加长度增多,GPU 计较压力增大,而生成长度增多则因预填充终止变长,裁减了 KV 缓存加载压力。
图 9 骄横,跟着追加长度增长,未给与 DualPath 的推理引擎阐扬和 DualPath 的性能越发接近,标明系统瓶颈慢慢转向 GPU 计较。在不同追加界限下,DualPath 相较于基线终局 1.82 至 1.99 倍加快,生成长度推广趋势类似。
在不同预填充 - 解码比例下,DualPath 均显耀优于基线,平均终局 1.64 倍加快,最高达 2.46 倍。基线推理引擎只可使用预填充节点的存储带宽,而 DualPath 能够欺诈悉数节点的带宽,考证了在智能体场景下存储带宽是主要瓶颈。
在在线劳动评估中,DualPath 在智能体申请到达速度上显耀优于基线,在 DS27B 和 DS660B 上分别达到 1.67 倍和 2.25 倍进步。

在负载平衡方面,DualPath 显耀改善了存储网卡和提神力层引申时刻的平衡性。相较于轮询迁徙,迁徙算法将存储网卡负载平衡连系从 1.53 优化至 1.18。同期,在职务前 5% 引申阶段,将提神力层最大 / 平均引申时刻比放弃在 1.06 以内,减少了 GPU 悠闲气泡。
在大界限可推广性方面,DualPath 系统在最多 1152 张 GPU 上进行了考证。离线推理从 2P4D(2K 智能体)推广到 48P96D(48K 智能体)终局近线性推广,任务完成时刻基本保执一致。

在线劳动中,44P88D 配置在保执相似蔓延的同期,将模糊量进步 22 倍。悉数执行中迁徙器 CPU 占用低于 10 核,标明其不是性能瓶颈。
大界限部署不仅减少资源碎屑化,还为并行度和 P/D 比例调优提供更大无邪性,同期在突发在线申请场景下提供更多迁徙空间以缓解列队蔓延。
结语:智能体推理迎来提效利器,以前或引入自安妥机制
跟着 DualPath 论文的发布,它有望为业界在处理大界限智能体推理任务时提供一个新的想路。关于正苦于 KV 缓存 I/O 压力的开发者与盘考者而言,这大略是一个值得提神的场所。
不外,DeepSeek 的盘考团队也坦言,离线推理的使命负载高度动态,下一步需要盘考更自安妥和更无邪的并行度和 P/D 比例配置要领,举例模拟器或在线调理机制

备案号: