【职位描述】
1、对主流的视觉生成模型(如Stable Diffusion系列模型、DiT系列模型)和模型库(如ComfyUI、HF diffusers)做适配、加速、部署;
2、开发编译加速的基础设施,主要是开发高性能算子、编译工具、运行时、分布式;
【职位要求】
基础要求:
熟悉Python、C++编程语言特性,熟悉 PyTorch/OneFlow 其中一种深度学习框架的使用,具有良好的编程习惯,熟悉Linux/Git程序开发流程及环境;
正式需要了解下面最少一个方向。
实习需要了解其中某个方向的某一两个点,至少实习3个月、每周4天:
1.算子优化方向,了解 PyTorch/OneFlow 等深度学习框架的算子开发流程,使用 NVIDIA Nsight/torch profiler 等定位性能瓶颈,使用 CUDA、OpenAI Triton、CUTLASS 实现高性能算子;
2.AI编译方向,使用AI编译器技术,利用代码改写、代码生成,在NV的主流GPU(或者国产GPU如昇腾),生成高效的计算密集/访存密集的算子kernel,结合硬件新特性完成高效的kernel运行时参数的设定(自动调优);
Runtime方向,支撑好AI编译器产生代码的高效执行。比如,如何结合深度学习框架高效调度算子,如何解决显存异常相关问题,如何处理好编译结果的序列化/反序列化,如何做好编译缓存,如何做到对不同硬件平台的兼容等;
3.分布式方向,实现分布式通信支持模型的多机多卡并行执行,比如用数据并行、模型并行、流水并行以及最新的分布式技术加速模型;
4.视觉生成模型方向,利用视觉模型的结构特点做推理部署和优化。比如,UNet、VAE、DiT、Transformer、SD模型、SVD模型等相关模块,结合其实现和开销做质量评估、算法优化、性能优化;
【 加分项】
模型推理加速经历;
知名开源项目的参与经历;
知名比赛经历;
OneDiff 的使用经历;