招募广告
我们在寻找对极致性能有执念的工程师,一起打造下一代大模型推理基础设施。
你将参与什么
生产级推理引擎:优化vLLM、SGLang及其他推理框架,支撑千卡、万卡集群在线推理
算子级性能攻坚:极致优化GPU计算库和通信库算子,榨干每一颗GPU算力
全栈性能优化:从模型量化、算子优化到分布式调度,极致优化推理延迟和吞吐
前沿技术落地:跟踪AI推理领域最新优化技术,将业界SOTA研究成果快速产品化
我们希望你具备
基础能力
扎实的计算机基础:操作系统、体系结构、算法与数据结构
熟练的C/C++和Python编程能力,能写出可维护的高性能代码
对GPU架构有好奇心,理解CUDA执行模型(thread/block/warp)
加分项
深入阅读过vLLM、SGLang、TensorRT-LLM或其他推理框架源码,有过PR贡献
熟悉FlashInfer、FlashAttention、Cutlass、cuBLASS、NCCL等底层库的设计哲学
折腾过模型量化(AWQ/GPTQ/FP8),对精度-效率权衡有体感
有个人技术博客/GitHub,能展示对系统问题的深度思考
你将获得
技术成长:参与核心项目研发,定期内部分享会如LLM架构、前瞻技术研究报告等
算力资源:充足的GPU算力资源,快速验证和实验想法
转正机会:表现优异者有机会获得全职offer,参与下一代GPU研发和优化