只需一步,快速开始
微信扫一扫,快速登录
手机号快速注册登录
您需要 登录 才可以下载或查看,没有账号?立即注册
一个改进的连续批处理变体(Sarathi-Serve)尝试通过将长预填充分割成块并将解码任务附加到这些块上来平衡TTFT和TPOT,但本质上,这只是以TTFT换取TPOT,无法消除两者间的干扰。同时长文本的Prefill分割后的成本会逐渐趋近于类似Decode阶段的访存密集型成本。
使用道具 举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
查看 »
微信扫一扫关注本站公众号