工作职责:
探索基于大语言模型(LLM)的Coding Agent开发范式,推动**AI驱动的算子开发流程(Human + Agent协同)**落地
使用AI工具(如 Claude Code / Cursor / 自研Agent)参与高性能算子开发,包括:
GPU方向:CUDA / C++算子开发与性能优化(访存、并行度、kernel fusion等)
BPU方向:地平线BPU算子开发与优化(编译约束、算子映射、数据流优化等)
参与构建AI辅助算子开发体系,包括:
Prompt设计与Agent workflow搭建
自动代码生成、自动调优、自动benchmark与回归验证
结合profiling工具进行性能分析与优化闭环
参与大模型推理系统中的关键算子优化(Attention / KV Cache / MoE等)
参与跨硬件平台的算子适配与优化(GPU ↔ BPU)
沉淀技术文档与最佳实践(CLAUDE.md、Skill等)
任职要求:
计算机 / 电子工程 / 自动化等相关专业,本科及以上学历
熟练掌握 C/C++ 或 Python(至少一门扎实)
对系统性能优化有兴趣,具备以下至少一项基础:
CUDA / GPU编程基础
NPU / DSP / 专用加速器相关经验
并行计算 / 体系结构 / 编译器基础
具备较丰富的Agent Coding工具使用经验,能够利用AI提升开发效率,包括但不限于:
熟练使用 Cursor / Claude Code / Copilot 等工具进行代码生成与重构
有基于LLM进行复杂任务拆解、调试、重构、性能优化的实际经验
理解Prompt设计、上下文管理、工具调用等基本机制
对大模型(LLM)有基本理解,有如下经验之一优先:
使用过 OpenAI API / Claude / 本地模型进行开发
有Prompt Engineering或Agent开发经验
具备良好的工程能力,能够阅读和理解复杂系统代码(推理框架 / 编译器 / runtime)
具备探索精神,愿意尝试用AI提升底层系统开发效率(而不是仅做应用层AI)
加分项:
有CUDA / Triton / TVM / TensorRT等GPU算子开发经验
有BPU / NPU / DSP等异构计算平台开发经验(尤其是地平线平台)
熟悉 PyTorch / ONNX / TensorRT-LLM 等推理框架
有大模型推理优化经验(KV Cache、Attention优化、量化等)
有性能分析经验(Nsight / profiler / trace工具)
有开源项目或技术博客输出