深度学习计算架构实习生实习招聘-NVIDIA实习生招聘-实习僧

深度学习计算架构实习生

2026-02-25 16:11:31 刷新

400-800/天上海不限 5天／周实习3个月

实习津贴免费班车餐补可转正实习一对一导师节日福利

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

NVIDIA中国计算架构组（Deep Learning Compute Arch）的主要业务聚焦于设计和优化支撑人工智能的软件栈与计算架构。团队负责从底层硬件性能模型到上层应用优化的全链路技术研发。通过软件与硬件的协同设计与优化，不断提升计算效率，以支撑前沿AI模型和应用，并直接参与下一代计算架构的演进探索。

此岗位含多个招聘方向，可在投递时注明感兴趣的方向：
1.TensorRT：设计和开发可扩展到多个平台的强大推理软件，以实现功能和性能。进行性能分析、优化和调优。要求：
-计算机工程、计算机科学、应用数学或相关计算领域的硕士或更高学位（或具备同等经验）。
-优秀的C/C++编程和软件设计技能，包括调试、性能分析和测试设计。
-对人工智能有强烈好奇心，了解深度学习的最新发展，如大型语言模型（LLMs）、生成模型和推荐模型。
-具有使用深度学习框架（如TensorFlow和PyTorch）的经验。

2.TensoRT LLM：基于软硬协同以及模型联合优化的设计理念，推进大语言模型推理性能的技术边界。要求：
-扎实的计算机系统知识背景，以及数理逻辑能力。
-对大模型场景的推理优化工作有直接的相关经验，包括但不限于TensorRT LLM, vLLM, SGLang, MLC LLM, LLama.cpp等。
-有模型系统联合优化的技术经验，包括但不限于低比特量化，speculative decoding, sparse attention，模型压缩等。 

3.DL Complier：作为基础编译系统支撑公司内外重点核心AI场景的算子开发任务。
推进从上层编程模型到底层编译系统的全链路优化设计，深度参与未来软硬系统架构的演进探索。要求：
-扎实的计算机体系结构知识背景，以及数理逻辑能力。
-对深度学习编译器工作有直接的相关经验，包括但不限于MLIR/XLA/OAI Triton/TVM等。
-对AI工作负载有较完整的认识和理解。

4.LLM post-Train：大语言模型后训练框架。要求：
-了解主要的LLM 推理框架与优化技巧与原理。
-了解 FSDP 或 Megatron LM。
-有强化学习算法背景。
-有分布式计算经验。
-精通 C++。
-精通 CUDA。

5.DL Compute - Performance Modelling, Analysis, Projection Optimization：构建并开发推理算子原型；建立算子，硬件架构性能模型，预测NVIDIA下一代产品的性能；分析，优化算子在现有产品和最终大模型上应用的性能；探索下一代架构特性。要求：
-深入理解软硬件性能分析方法，并有优化性能经验
-熟悉并行编程模型，CUDA
-了解常用AI编译技术 (比如 OpenAI Triton, MLIR,  TVM 等）
-熟悉主流大语言模型LLM框架(vLLM, SGLang, TRT-LLM) 

投递要求：

简历要求：中文

截止日期：2026-03-27

工作地点：

上海市/上海市/浦东新区秋月路

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介

NVIDIA

产品服务找实习找校招看空宣

旗下产品实习僧实习僧TV 实习僧题库职场说

关于我们了解我们加入我们免责声明

联系我们实习僧公众号客户服务商务合作