深度学习计算架构实习生
2026-02-25 16:11:31 刷新
400-800/天 上海 不限 5天/周 实习3个月
实习津贴免费班车餐补可转正实习一对一导师节日福利
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
NVIDIA中国计算架构组(Deep Learning Compute Arch)的主要业务聚焦于设计和优化支撑人工智能的软件栈与计算架构。团队负责从底层硬件性能模型到上层应用优化的全链路技术研发。通过软件与硬件的协同设计与优化,不断提升计算效率,以支撑前沿AI模型和应用,并直接参与下一代计算架构的演进探索。 此岗位含多个招聘方向,可在投递时注明感兴趣的方向: 1.TensorRT:设计和开发可扩展到多个平台的强大推理软件,以实现功能和性能。进行性能分析、优化和调优。要求: -计算机工程、计算机科学、应用数学或相关计算领域的硕士或更高学位(或具备同等经验)。 -优秀的C/C++编程和软件设计技能,包括调试、性能分析和测试设计。 -对人工智能有强烈好奇心,了解深度学习的最新发展,如大型语言模型(LLMs)、生成模型和推荐模型。 -具有使用深度学习框架(如TensorFlow和PyTorch)的经验。 2.TensoRT LLM:基于软硬协同以及模型联合优化的设计理念,推进大语言模型推理性能的技术边界。要求: -扎实的计算机系统知识背景,以及数理逻辑能力。 -对大模型场景的推理优化工作有直接的相关经验,包括但不限于TensorRT LLM, vLLM, SGLang, MLC LLM, LLama.cpp等。 -有模型系统联合优化的技术经验,包括但不限于低比特量化,speculative decoding, sparse attention,模型压缩等。 3.DL Complier:作为基础编译系统支撑公司内外重点核心AI场景的算子开发任务。 推进从上层编程模型到底层编译系统的全链路优化设计,深度参与未来软硬系统架构的演进探索。要求: -扎实的计算机体系结构知识背景,以及数理逻辑能力。 -对深度学习编译器工作有直接的相关经验,包括但不限于MLIR/XLA/OAI Triton/TVM等。 -对AI工作负载有较完整的认识和理解。 4.LLM post-Train:大语言模型后训练框架。要求: -了解主要的LLM 推理框架与优化技巧与原理。 -了解 FSDP 或 Megatron LM。 -有强化学习算法背景。 -有分布式计算经验。 -精通 C++。 -精通 CUDA。 5.DL Compute - Performance Modelling, Analysis, Projection Optimization:构建并开发推理算子原型;建立算子,硬件架构性能模型,预测NVIDIA下一代产品的性能;分析,优化算子在现有产品和最终大模型上应用的性能;探索下一代架构特性。要求: -深入理解软硬件性能分析方法,并有优化性能经验 -熟悉并行编程模型,CUDA -了解常用AI编译技术 (比如 OpenAI Triton, MLIR, TVM 等) -熟悉主流大语言模型LLM框架(vLLM, SGLang, TRT-LLM)
投递要求:
简历要求: 中文
截止日期:2026-03-27
工作地点:
上海市/上海市/浦东新区 秋月路
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介