【留用实习】大模型训练平台开发工程师
2026-03-24 18:04:10 刷新
薪资面议 北京 本科 4天/周 实习1个月 提供转正机会
节日福利双休转正餐补健身房
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
1、核心平台建设:设计和研发支撑大规模分布式训练的基础设施平台,负责GPU集群的资源调度、生命周期管理及作业编排,提升资源利用率和训练效率; 2、稳定性与容错:构建自动故障感知、故障自愈与断点续训(Checkpoint 保存与恢复)机制,保障大规模训练的长稳运行,提升训练有效时间占比(MTBF/MTTR优化); 3、可观测性:建设面向大模型训练的全方位可观测体系,采集和分析硬件(GPU、RoCE/IB网络)、存储及训练框架的性能指标,快速定位慢节点或故障点,实现训练状态透明化; 4、性能优化:结合训练框架(如 Megatron-LM、DeepSpeed)进行内核级优化,优化网络通信拓扑(如 NCCL)及存储I/O流水线,降低训练成本,提升模型训练吞吐; 5、资源效率:设计高效的集群混部和碎片资源利用方案,平衡多租户隔离与资源利用率,支持潮汐调度和弹性训练。
投递要求:
简历要求: 中文
截止日期:2026-06-17
工作地点:
北京/北京/海淀区上地元中心
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

后端开发工程师

百科详情

负责计算机产品的服务器端研发,通过代码、API 和数据库集成构建服务端架构,提高网站、应用程序或软件的运行效率,为前端提供支持的专业技术人员。