立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 198|回复: 0

[讨论] 【AI基础】推理PD分离文档汇总

[复制链接]
发表于 2025-1-3 13:41 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
PD分离介绍

Prefill & Decode分离部署(简称:PD分离部署)是将Prefill(预填充)和Decode(解码)这两个推理阶段分开处理的技术
图1PD分离工作原理


语言模型推理的阶段可以分为Prefill与Decode阶段:

  • Prefill阶段:在生成式语言模型中,Prefill阶段涉及到模型对初始提示(Prompt)的处理,生成初始的隐藏状态(Hidden States)。这个阶段通常涉及对整个模型的一次前向传播,因此计算密集度较高。对于每个新的输入序列,都需要进行一次Prefill。
  • Decode阶段:在Prefill阶段之后,模型基于初始隐藏状态逐步生成后续的文本。这一阶段的特点是计算相对较少,但需要反复进行计算,直到生成足够的文本或达到某个终止条件。在生成过程中,只计算最新的token激活值,并进行attention计算,计算最终的预测token。
PD分离优势
PD分离主要包括以下优势:

  • 资源利用优化:由于Prefill阶段计算密集,而Decode阶段计算较为稀疏,将这两个阶段分离可以更好的利用NPU的计算资源。
  • 提高吞吐量:分离后的Prefill和Decode可以同时处理不同的请求,这意味着在Prefill阶段处理新请求的同时,Decod阶段可以继续处理之前请求的解码任务,从而提高了整体的处理能力。
  • 降低延迟:由于Prefill和Decode分别在不同的阶段进行,可以减少等待时间,特别是当有多个请求并发到达时。
PD分离架构说明

图1 PD分离架构基本流程




PD分离是集群化架构,集群中,存在三种必要的元素,如下所示:

  • 调度器
  • Prefill实例(P)
  • Decode实例(D)
其中,调度器负责对外发布推理接口,P、D负责各自推理阶段的计算。调度器(Coordinator)是由MindIE MS实现;P和D实例是由MindIE Server实现。
基于该架构,MindIE Server不再对终端用户直接开放接口,本章节主要描述MindIE Server对MindIE MS开放的接口。

【论文学习】Splitwise:微软大模型推理PD分离技术

LoongServe论文解读:prefill/decode分离、弹性并行、零KV Cache迁移


打造高性能大模型推理平台之Prefill、Decode分离系列(一):微软新作SplitWise,通过将PD分离提高GPU的利用率哆啦不是梦-CSDN博客

图解大模型计算加速系列:分离式推理架构1,从DistServe谈起 - 极术社区 - 连接开发者与智能计算生态


原文地址:https://zhuanlan.zhihu.com/p/7686256722
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表