Skip to content
View Alwaysssssss's full-sized avatar

Block or report Alwaysssssss

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Alwaysssssss/README.md

Always(找工作中)

电话:1326553xxxx | 邮箱:59596xxxx@qq.com | 我的Github页面

亮点

  • 高性能计算:熟悉算子优化,编写NN、CV、BLAS等数十个高性能算子,最大性能提升50倍
  • 内存管理:熟悉缓存、内存池设计、基于图的内存优化等技术,从硬件层到应用层对内存管理有系统性理解
  • 推理框架架构师:具备生产级推理框架完整开发经验,设计并实现中间表示模型解释计算图运行时图优化基于图的内存规划量化等核心模块
  • AI部署框架架构师:开源AI部署框架nndeploy作者,一款基于可视化工作流多端推理的AI部署框架,GitHub Star 1.6k+,被多家公司采用或参考
  • AI落地:在生产环境中成功部署数十个AI算法,涵盖计算机视觉、LLM等多个领域,具备丰富的工程化落地经验

工作经历

  • 推理框架开发及配套课程 - 华为昇腾赞助 | 独立开发者 | 2025.02 ~ 2025.08
  • 北京大学长沙计算与数字经济研究院(长沙) | 智能计算组组长 | 2023.03 ~ 2025.01
  • 万兴科技(长沙) | 算法工程化工程师 | 2021.06 ~ 2023.03
  • 汇顶科技(深圳) | 算法应用工程师 | 2019.07 ~ 2021.05

教育背景

  • 湖南师范大学 | 硕士 | 电子通信工程 | 2016.09 ~ 2019.06
  • 湖南师范大学 | 学士 | 电子信息工程 | 2012.09 ~ 2016.06

开源经历

推理框架开发与课程:华为昇腾赞助 | 开源 | 2025.02 ~ 2025.08

  • 是什么:基于华为昇腾NPU,在nndeploy中开发推理框架,制作配套教学视频,推广华为昇腾生态
  • 为什么:从模型部署角度出发,端侧推理框架需支持更多功能以满足实际应用需求
  • 成果:华为昇腾主页推荐课程,按工业界端侧推理框架(MNN、NCNN、RKNN、TensorRT)标准开发,实现完整推理框架功能模块
  • 职责:项目负责人
    • 中间表示模块 设计与实现
    • 模型解释模块 设计与实现
    • 计算图模块 设计与实现
    • 运行时模块 设计与实现
    • 图优化模块 设计与实现
    • 内存优化模块 设计与实现
    • 计算图并行模块 设计与实现
    • 昇腾算子模块 设计与实现
  • 华为昇腾官网课程链接, Github链接

nndeploy:开源AI部署框架 | 开源 | 2022.11 ~ 至今

  • 是什么:基于可视化工作流和多端推理,开发者可快速从算法仓库开发出指定平台和硬件所需的SDK,大幅节省开发时间
  • 为什么:算法落地过程中不同角色面临的不同的痛点:
    • 算法工程师:擅长Python和算法设计,但难以完成端侧C++部署;交付繁琐;算法展示效果不足
    • 推理部署工程师:推理框架碎片化;模型部署不止推理,还需C++开发前后处理;多模型组合场景复杂;性能优化难度大
    • 非AI程序员:有AI产品创意但受限于技术门槛,创意难以落地
  • 成果:github star 1.6k,项目被多家公司参考或使用
  • 职责:开源项目发起人
    • 有向无环图模块 设计与实现
    • 图并行模块 设计与实现
    • 节点库 设计与实现
    • 多端推理模块 设计与实现
    • 数据容器模块 设计与实现
    • 设备管理模块 设计与实现
    • 算子模块 设计与实现
    • 基础组件 设计与实现
    • 前后端 设计与实现
  • Github链接:https://github.com/nndeploy/nndeploy

onnx-simplifer | 开源 | 2022.04 ~ 2022.05

  • 是什么:简化onnx模型工具
  • 为什么:减少算子缺失概率,降低模型大小,提高模型运行效率
  • 成果:github star 4.2k,被MXNet、MMDetection、YOLOv5等知名开源项目使用
  • 职责:贡献者,增加两个功能
    • 移除不必要的输出
    • 打印模型优化前后信息
  • Github链接:https://github.com/daquexian/onnx-simplifier

项目经历

AI+HPC非标品类项目 | 北京大学长沙院 | 2023.3 ~ 2025.1

  • 是什么:来自甲方科技公司的AI+HPC非标品类项目
  • 为什么:北大长沙院由北京大学和长沙市政府共同办理,服务企业需求
  • 成果:所有项目均已交付并回款
    • 项目一:服务某硬件产品公司,面向某垂直领域,基于检测、追踪一体化边缘端产品
    • 项目二:服务某芯片公司,为其下一代GPU芯片建立ONNXRuntime推理评价机制
    • 项目三:服务某芯片公司,为其已有GPU芯片调研MNN库,并规划下一步开发方向
    • 项目四:服务某芯片公司,为其已有GPU芯片适配clBlast库,负责三个算子的开发,在甲方芯片上达到计算性能和内存带宽极限,其中最大加速50倍
  • 职责:AI+HPC项目负责人(统筹全流程)、HPC方向开发工程师
    • 前期技术需求洽谈,参与合同撰写,解决方案的架构设计,开发任务分配,难点问题解决,向甲方交付

算法工程化框架 | 万兴科技 | 2021.07 ~ 2023.03

  • 是什么:算法中台的算法工程化框架,承担算法中台所有CV/Audio/传统算法的落地
  • 为什么:算法需要上线各类产品线(Win/Mac/Android/iOS/Linux),需要一个算法工程化框架来解决算法落地时间长、性能差、稳定性低等问题
  • 成果:
    • 让AI算法首次上线到Android/iOS端
    • 从落地产品线10+算法,到落地100+算法,并且都有不同程度的性能提升,2025年中旬询问前同事,框架仍是重点项目,目前各类产品线落地300+算法
    • 单个AI算法在多个平台的落地,从数月缩短为一周,人力从多人降低为一人
  • 职责:架构师
    • 基于推理框架开发经验,从零到一设计了算法工程化框架
    • 完成数十个算法的落地与性能优化 - 人像分割、人脸检测、人脸关键点、人脸聚类、老照片修复、调色等算法的落地与性能优化,其中老照片修复为六个模型的组合算法
    • 统一的对外接口设计 - 算法接口、参数配置、推理数据Blob、图像数据Mat
    • 多端推理模块 - 适配TNN/TensorRT/MNN/ONNXRuntime/TVM/(OpenVino/TF-lite/Core-ML)
    • 异构设备模块 - 支持CPU/ARM/X86/CUDA/OpenCL/OpenGL
    • CV算子 - 支持ARM/x86/CUDA/OpenGL
    • 公共模块 - 文件操作、字符串操作、浮点精度转换等帮助函数、基础类型
    • CI/CD - benchmark、单元测试、自动化文档等
    • 工具集 - ONNX修改工具、ONNX统计信息、时间测量工具

自研推理框架 | 汇顶科技 | 2020.01 ~ 2021.05

  • 是什么:服务指纹算法SDK和大健康算法SDK的AI算法落地,从零搭建一款纯C的推理框架
  • 为什么:指纹算法SDK运行在Android TEE环境下,大健康算法SDK运行在嵌入式环境下,上述SDK都是纯C环境,并没有满足需求的开源推理框架
  • 成果:替换过往算法上线的算子模式
    • 相比过往的算子模块,算法落地时间从一个月缩短到半周,且SDK稳定性大大提高
    • 相比过往的算子模式,通过基于图的内存优化,运行时内存占用降低
    • 相比过往的算子模式,通过图优化、计算图等手段,性能提升
    • 相比过往的算子模式,量化模型精度提升
  • 职责:核心开发
    • 推理框架的架构设计 - 参考当时推出的推理框架TNN、MNN、NNLib,设计架构
    • 模型转化器 - 设计模型文件格式、ONNX模型文件转换
    • 模型解释器 - 设计模型中间表示,Parse过程
    • 计算图执行器 - 负责图优化、基于有向无环图的内存池、算子绑定
    • 高性能算子 - 编写了数十个NEON算子,独立负责OpenCL的算子开发

内存池 | 汇顶科技 | 2019.08 ~ 2019.12

  • 是什么:一款高性能、高内存利用率、易于调试、使用简单的内存池
  • 为什么:服务指纹算法SDK和大健康算法SDK。解决指纹算法SDK多线程下使用麻烦、分配效率低,大健康算法SDK内存利用率低、内存Bug难以调试等问题
  • 成果:替换旧的内存池
    • 上线指纹算法SDK,对SDK整体加速6.7%,多线程下使用简单
    • 上线大健康算法SDK,节省内存空间10%~25%,解决数十个动态内存相关bug
  • 职责:独立开发
    • 分析当前内存池的问题,总结出:内存分配效率低、内存利用率低、多线程使用麻烦、无内存调试等问题
    • 设计分箱内存管理、跳表等算法,优化分配效率
    • 优化内存块管理头部大小,内存块管理头部内存从64字节降低到8字节
    • 通过线程局部存储,优化多线程下内存池的使用方式
    • 增加内存踩踏检测、内存泄漏检测、内存使用统计等功能

Pinned Loading

  1. nndeploy/nndeploy nndeploy/nndeploy Public

    一款简单易用和高性能的AI部署框架 | An Easy-to-Use and High-Performance AI Deployment Framework

    C++ 1.7k 207