1、配合算法同学,推动深度学习相关算法的落地,打造高吞吐、低延时的推理系统;
2、优化大模型推理服务性能,提升吞吐并控制成本;
3、优化大模型推理服务化框架,提升框架易用性和可调试性。1、熟练掌握 C++、Python语言,具备良好的Coding和调试能力;
2、具备微服务部署经验,熟悉gRPC、Redis、Kafka等服务化组件;
3、具备良好的团队合作精神和沟通能力,积极乐观、具备抗压能力。
加分项:
1、熟悉开源大模型推理框架Sglang、Vllm;
2、有大规模分布式推理实战经验,熟悉 NCCL、RDMA等高性能通信与网络调优者优先。