Inference Basic

导言

RL 涉及到 推理,推理的流程细节不是很明晰。

  1. warmup,计算kvcache
  2. chunked prefill,降低prefill的显存

评论