Skip to content

htdxd/nano-vllm

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

my_nano_vllm

简要说明:本仓库对原项目进行了有限范围的重构与文档完善工作,你可以通过本仓库了解 vllm 框架的推理加速技术:

  • PageAttention
  • CUDA Graph
  • Tensor Parallel
  • KV Cache复用
  • FCFS+抢占式调度策略

Continuous Batching 技术没有实现

  • 变更范围

    • 本次修改仅针对 nanovllm/engine 目录下的实现进行了重构和优化;仓库中其余模块未做功能性改动。
  • 主要改动

    • 重构 nanovllm/engine 中的代码结构,简化并规范了若干内部接口与模块划分。
    • 修复了若干小的 bug(例如并行/切分逻辑、部分算子调用顺序与数值边界处理等),提高了稳定性。
    • 优化了一些关键路径的代码逻辑,提升可读性与可维护性。
  • 注释与文档 仓库中添加/补充了大量中文注释,尤其是 nanovllm/engine 相关模块的实现处。

About

Nano vLLM

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Python 100.0%