电话:1326553xxxx | 邮箱:59596xxxx@qq.com | 我的Github页面
- 高性能计算:熟悉算子优化,编写NN、CV、BLAS等数十个高性能算子,最大性能提升50倍
- 内存管理:熟悉缓存、内存池设计、基于图的内存优化等技术,从硬件层到应用层对内存管理有系统性理解
- 推理框架架构师:具备生产级推理框架完整开发经验,设计并实现中间表示、模型解释、计算图、运行时、图优化、基于图的内存规划、量化等核心模块
- AI部署框架架构师:开源AI部署框架nndeploy作者,一款基于可视化工作流和多端推理的AI部署框架,GitHub Star 1.6k+,被多家公司采用或参考
- AI落地:在生产环境中成功部署数十个AI算法,涵盖计算机视觉、LLM等多个领域,具备丰富的工程化落地经验
- 推理框架开发及配套课程 - 华为昇腾赞助 | 独立开发者 | 2025.02 ~ 2025.08
- 北京大学长沙计算与数字经济研究院(长沙) | 智能计算组组长 | 2023.03 ~ 2025.01
- 万兴科技(长沙) | 算法工程化工程师 | 2021.06 ~ 2023.03
- 汇顶科技(深圳) | 算法应用工程师 | 2019.07 ~ 2021.05
- 湖南师范大学 | 硕士 | 电子通信工程 | 2016.09 ~ 2019.06
- 湖南师范大学 | 学士 | 电子信息工程 | 2012.09 ~ 2016.06
- 是什么:基于华为昇腾NPU,在nndeploy中开发推理框架,制作配套教学视频,推广华为昇腾生态
- 为什么:从模型部署角度出发,端侧推理框架需支持更多功能以满足实际应用需求
- 成果:华为昇腾主页推荐课程,按工业界端侧推理框架(MNN、NCNN、RKNN、TensorRT)标准开发,实现完整推理框架功能模块
- 职责:项目负责人
- 中间表示模块 设计与实现
- 模型解释模块 设计与实现
- 计算图模块 设计与实现
- 运行时模块 设计与实现
- 图优化模块 设计与实现
- 内存优化模块 设计与实现
- 计算图并行模块 设计与实现
- 昇腾算子模块 设计与实现
- 华为昇腾官网课程链接, Github链接
- 是什么:基于可视化工作流和多端推理,开发者可快速从算法仓库开发出指定平台和硬件所需的SDK,大幅节省开发时间
- 为什么:算法落地过程中不同角色面临的不同的痛点:
- 算法工程师:擅长Python和算法设计,但难以完成端侧C++部署;交付繁琐;算法展示效果不足
- 推理部署工程师:推理框架碎片化;模型部署不止推理,还需C++开发前后处理;多模型组合场景复杂;性能优化难度大
- 非AI程序员:有AI产品创意但受限于技术门槛,创意难以落地
- 成果:github star 1.6k,项目被多家公司参考或使用
- 职责:开源项目发起人
- 有向无环图模块 设计与实现
- 图并行模块 设计与实现
- 节点库 设计与实现
- 多端推理模块 设计与实现
- 数据容器模块 设计与实现
- 设备管理模块 设计与实现
- 算子模块 设计与实现
- 基础组件 设计与实现
- 前后端 设计与实现
- Github链接:https://github.com/nndeploy/nndeploy
- 是什么:简化onnx模型工具
- 为什么:减少算子缺失概率,降低模型大小,提高模型运行效率
- 成果:github star 4.2k,被MXNet、MMDetection、YOLOv5等知名开源项目使用
- 职责:贡献者,增加两个功能
- 移除不必要的输出
- 打印模型优化前后信息
- Github链接:https://github.com/daquexian/onnx-simplifier
- 是什么:来自甲方科技公司的AI+HPC非标品类项目
- 为什么:北大长沙院由北京大学和长沙市政府共同办理,服务企业需求
- 成果:所有项目均已交付并回款
- 项目一:服务某硬件产品公司,面向某垂直领域,基于检测、追踪一体化边缘端产品
- 项目二:服务某芯片公司,为其下一代GPU芯片建立ONNXRuntime推理评价机制
- 项目三:服务某芯片公司,为其已有GPU芯片调研MNN库,并规划下一步开发方向
- 项目四:服务某芯片公司,为其已有GPU芯片适配clBlast库,负责三个算子的开发,在甲方芯片上达到计算性能和内存带宽极限,其中最大加速50倍
- 职责:AI+HPC项目负责人(统筹全流程)、HPC方向开发工程师
- 前期技术需求洽谈,参与合同撰写,解决方案的架构设计,开发任务分配,难点问题解决,向甲方交付
- 是什么:算法中台的算法工程化框架,承担算法中台所有CV/Audio/传统算法的落地
- 为什么:算法需要上线各类产品线(Win/Mac/Android/iOS/Linux),需要一个算法工程化框架来解决算法落地时间长、性能差、稳定性低等问题
- 成果:
- 让AI算法首次上线到Android/iOS端
- 从落地产品线10+算法,到落地100+算法,并且都有不同程度的性能提升,2025年中旬询问前同事,框架仍是重点项目,目前各类产品线落地300+算法
- 单个AI算法在多个平台的落地,从数月缩短为一周,人力从多人降低为一人
- 职责:架构师
- 基于推理框架开发经验,从零到一设计了算法工程化框架
- 完成数十个算法的落地与性能优化 - 人像分割、人脸检测、人脸关键点、人脸聚类、老照片修复、调色等算法的落地与性能优化,其中老照片修复为六个模型的组合算法
- 统一的对外接口设计 - 算法接口、参数配置、推理数据Blob、图像数据Mat
- 多端推理模块 - 适配TNN/TensorRT/MNN/ONNXRuntime/TVM/(OpenVino/TF-lite/Core-ML)
- 异构设备模块 - 支持CPU/ARM/X86/CUDA/OpenCL/OpenGL
- CV算子 - 支持ARM/x86/CUDA/OpenGL
- 公共模块 - 文件操作、字符串操作、浮点精度转换等帮助函数、基础类型
- CI/CD - benchmark、单元测试、自动化文档等
- 工具集 - ONNX修改工具、ONNX统计信息、时间测量工具
- 是什么:服务指纹算法SDK和大健康算法SDK的AI算法落地,从零搭建一款纯C的推理框架
- 为什么:指纹算法SDK运行在Android TEE环境下,大健康算法SDK运行在嵌入式环境下,上述SDK都是纯C环境,并没有满足需求的开源推理框架
- 成果:替换过往算法上线的算子模式
- 相比过往的算子模块,算法落地时间从一个月缩短到半周,且SDK稳定性大大提高
- 相比过往的算子模式,通过基于图的内存优化,运行时内存占用降低
- 相比过往的算子模式,通过图优化、计算图等手段,性能提升
- 相比过往的算子模式,量化模型精度提升
- 职责:核心开发
- 推理框架的架构设计 - 参考当时推出的推理框架TNN、MNN、NNLib,设计架构
- 模型转化器 - 设计模型文件格式、ONNX模型文件转换
- 模型解释器 - 设计模型中间表示,Parse过程
- 计算图执行器 - 负责图优化、基于有向无环图的内存池、算子绑定
- 高性能算子 - 编写了数十个NEON算子,独立负责OpenCL的算子开发
- 是什么:一款高性能、高内存利用率、易于调试、使用简单的内存池
- 为什么:服务指纹算法SDK和大健康算法SDK。解决指纹算法SDK多线程下使用麻烦、分配效率低,大健康算法SDK内存利用率低、内存Bug难以调试等问题
- 成果:替换旧的内存池
- 上线指纹算法SDK,对SDK整体加速6.7%,多线程下使用简单
- 上线大健康算法SDK,节省内存空间10%~25%,解决数十个动态内存相关bug
- 职责:独立开发
- 分析当前内存池的问题,总结出:内存分配效率低、内存利用率低、多线程使用麻烦、无内存调试等问题
- 设计分箱内存管理、跳表等算法,优化分配效率
- 优化内存块管理头部大小,内存块管理头部内存从64字节降低到8字节
- 通过线程局部存储,优化多线程下内存池的使用方式
- 增加内存踩踏检测、内存泄漏检测、内存使用统计等功能

