NVIDIA中国计算架构组(Deep Learning Compute Arch)的主要业务聚焦于设计和优化支撑人工智能的软件栈与计算架构。团队负责从底层硬件性能模型到上层应用优化的全链路技术研发。通过软件与硬件的协同设计与优化,不断提升计算效率,以支撑前沿AI模型和应用,并直接参与下一代计算架构的演进探索。
此岗位含多个招聘方向,可在投递时注明感兴趣的方向:
1.TensorRT:设计和开发可扩展到多个平台的强大推理软件,以实现功能和性能。进行性能分析、优化和调优。要求:
-计算机工程、计算机科学、应用数学或相关计算领域的硕士或更高学位(或具备同等经验)。
-优秀的C/C++编程和软件设计技能,包括调试、性能分析和测试设计。
-对人工智能有强烈好奇心,了解深度学习的最新发展,如大型语言模型(LLMs)、生成模型和推荐模型。
-具有使用深度学习框架(如TensorFlow和PyTorch)的经验。
2.TensoRT LLM:基于软硬协同以及模型联合优化的设计理念,推进大语言模型推理性能的技术边界。要求:
-扎实的计算机系统知识背景,以及数理逻辑能力。
-对大模型场景的推理优化工作有直接的相关经验,包括但不限于TensorRT LLM, vLLM, SGLang, MLC LLM, LLama.cpp等。
-有模型系统联合优化的技术经验,包括但不限于低比特量化,speculative decoding, sparse attention,模型压缩等。
3.DL Complier:作为基础编译系统支撑公司内外重点核心AI场景的算子开发任务。
推进从上层编程模型到底层编译系统的全链路优化设计,深度参与未来软硬系统架构的演进探索。要求:
-扎实的计算机体系结构知识背景,以及数理逻辑能力。
-对深度学习编译器工作有直接的相关经验,包括但不限于MLIR/XLA/OAI Triton/TVM等。
-对AI工作负载有较完整的认识和理解。
4.LLM post-Train:大语言模型后训练框架。要求:
-了解主要的LLM 推理框架与优化技巧与原理。
-了解 FSDP 或 Megatron LM。
-有强化学习算法背景。
-有分布式计算经验。
-精通 C++。
-精通 CUDA。
5.DL Compute - Performance Modelling, Analysis, Projection Optimization:构建并开发推理算子原型;建立算子,硬件架构性能模型,预测NVIDIA下一代产品的性能;分析,优化算子在现有产品和最终大模型上应用的性能;探索下一代架构特性。要求:
-深入理解软硬件性能分析方法,并有优化性能经验
-熟悉并行编程模型,CUDA
-了解常用AI编译技术 (比如 OpenAI Triton, MLIR, TVM 等)
-熟悉主流大语言模型LLM框架(vLLM, SGLang, TRT-LLM)