Vllm Basic

导言

HW24年狠抓了训练，但是推理性能稍微落下，dsv3的出现，强化学习的爆火，反过来对推理性能提出了很高的要求。为此高性能的vllm推理框架变成了hw首先适配的目标。

vllm¶

vLLM 是一个 LLM (Large Lanuage Model) 推理和部署服务库

iterative-level schedule¹
1. (常被称为 continuous batching，该调度算法在 Orca² 中首次被提出)
2. （iterative-level schedule）以单轮迭代的方式对用户的请求进行处理，即 LLM 生成一个 token 后会重新调度下一轮要处理的请求。
PagedAttention 注意力算法以提高服务的吞吐量。
1. （PagedAttention）受操作系统虚拟内存和分页思想启发，将原本连续的 KV cache 存储在不连续的空间，以避免 KV cache 带来的显存浪费。

vLLM 作为大模型推理框架，主要通过动态调度机制管理 batch_size，虽然不提供直接设置静态 batch_size 的参数，但提供了多种间接控制 batch 行为的选项和优化策略。以下是具体实现方式及相关控制方法：

在启动 API 服务时，通过 --gpu-memory-utilization 指定 GPU 显存利用率（默认 0.9），间接控制最大并发 batch_size。显存利用率越高，系统可动态调度的 batch_size 上限越大。

通过量化模型（如加载 AWQ 量化模型）减少显存占用，从而提升单次可处理的 batch_size。例如：

model = LLM(model="Llama-2-7b-chat-AWQ", quantization="awq")  # 显存占用降低，batch_size 自动增大

vLLM 的核心特性之一，自动合并请求并动态调整 batch_size。例如：

通过分页显存管理技术，支持更长的序列和更大的 batch_size。用户可通过限制 max_tokens 参数控制单条序列的最大长度，间接影响 batch_size 上限。

请求并发限制（max_num_seqs）
在 API 服务中通过 --max-num-seqs 限制同时处理的请求数，避免单次 batch_size 过大导致显存溢出。
生成长度控制（max_tokens）
限制生成文本的最大 token 数（如 max_tokens=100），减少单条请求的显存占用，从而允许更大的 batch_size。
实验调优公式

根据显存容量估算最大可行 batch_size：

最大预填充 batch_size ≈ (可用显存 - 模型参数占用) / (单 token KV 缓存 × 最大序列长度)

建议预留 20-30% 显存作为缓冲区。

高吞吐场景：优先选择 7B 级别模型（如 Mistral-7B），并设置 gpu_memory_utilization=0.95 以最大化 batch_size。
长序列场景：启用 AWQ 量化，结合 max_tokens 限制生成长度。
稳定性优先：通过 nvidia-smi 监控显存占用，动态调整并发请求量。

通过上述方法，用户可以在 vLLM 中间接控制 batch_size 的调度边界，实现效率与资源的平衡。如需深入细节，可参考 vLLM 官方文档或源码调度逻辑解析。

通过VizTrace可以很简单的看出其实现。