简要说明:本仓库对原项目进行了有限范围的重构与文档完善工作,你可以通过本仓库了解 vllm 框架的推理加速技术:
- PageAttention
- CUDA Graph
- Tensor Parallel
- KV Cache复用
- FCFS+抢占式调度策略
但 Continuous Batching 技术没有实现
-
变更范围
- 本次修改仅针对
nanovllm/engine目录下的实现进行了重构和优化;仓库中其余模块未做功能性改动。
- 本次修改仅针对
-
主要改动
- 重构
nanovllm/engine中的代码结构,简化并规范了若干内部接口与模块划分。 - 修复了若干小的 bug(例如并行/切分逻辑、部分算子调用顺序与数值边界处理等),提高了稳定性。
- 优化了一些关键路径的代码逻辑,提升可读性与可维护性。
- 重构
-
注释与文档 仓库中添加/补充了大量中文注释,尤其是
nanovllm/engine相关模块的实现处。