金桔
金币
威望
贡献
回帖0
精华
在线时间 小时
|
这个主要是decoding显存局限和prefill的qps决定的, decoding因为要处理多个prefill实例过来的请求的kvcache(单次decode请求100M-1G左右,看max tokens),只要decoding显存不爆,然后ep320,搞那么大就是要尽可能多的把decoding batchsize做大,但配比需要实际压测出来……其实decoding适合大显存低算力的卡, 这样成本低啊。
补充:还有很多人从计算角度考虑这个配比问题,其实不对, 单个请求prefill大概是几百ms(不考虑超长prompt),decode持续几十s(看max tokens /eos, 单次iter 20ms),prefill算完直接释放kvcache显存(没有显存压力),decode在计算过程中不断累加增量kvcache, prefill处理并发远高于decode(可以认为prefill是短链接, decode是长链接), 所以decode集群自然要更多卡, 否则prefill跑的过快, decode不就炸了, 当然肯定有限流的,所以decode本质上要靠很多卡来解决显存问题, 把batch size做大,llm推理从来不是计算问题(prefill),是kvcache问题(decode),这就是mla的价值啊
总之一句话, 谁能把decode batchsize做大, 谁才是王者......尽可能把decode 集群tensor core跑满数据, 吞吐就会越大, 成本就越低, 毕竟tensor core才是最贵的, 搁着空转划不来. |
|