1、推理引擎开发与优化: 参与 Diffusion 模型推理引擎的核心模块开发,学习并实践 CUDA 编程、算子优化与内存管理。协助将最新的学术优化手段(如 Flash Attention、Fused Kernels)落地到生产环境,提升模型推理速度;
2、模型压缩与加速:调研并实践模型压缩技术,包括量化、蒸馏和剪枝。参与将 FP16/BF16 模型转换为 INT8/FP8 格式,并在保证生成质量的前提下优化推理延迟;
3、网关与服务化系统建设:参与 AIGC 网关系统的后端开发,设计高并发、低延迟的请求调度逻辑。协助构建模型服务化接口,解决大规模推理请求下的队列管理与资源调度问题。