【职位描述】
1、对视觉生成模型(如Stable Diffusion、DiT系列模型)做加速、部署;
2、开发加速基础设施 onediff,主要是开发高性能算子、分布式、编译工具;
【职位要求】
- 算子优化方向,了解 PyTorch 的算子开发流程,使用 NVIDIA Nsight/torch profiler 等分析性能,使用 CUDA、OpenAI Triton、CUTLASS 实现高性能算子,如实现融合算子、FlashAttention算子;
- 分布式方向,了解如何利用分布式通信支持模型的多机多卡并行执行,比如用数据并行、模型并行、流水并行以及大模型领域中的分布式技术加速模型;
- 熟悉Python、C++编程语言特性,熟悉 PyTorch,熟悉Linux/Git程序开发流程及环境;
- 积极主动,能与团队融洽沟通、合作;
- 本科及以上学历,计算机相关专业;