【留用实习】大模型训练平台开发工程师实习招聘-快手实习生招聘-实习僧

【留用实习】大模型训练平台开发工程师

2026-03-24 18:04:10 刷新

薪资面议北京本科 4天／周实习1个月提供转正机会

节日福利双休转正餐补健身房

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

1、核心平台建设：设计和研发支撑大规模分布式训练的基础设施平台，负责GPU集群的资源调度、生命周期管理及作业编排，提升资源利用率和训练效率；
2、稳定性与容错：构建自动故障感知、故障自愈与断点续训（Checkpoint 保存与恢复）机制，保障大规模训练的长稳运行，提升训练有效时间占比（MTBF/MTTR优化）；
3、可观测性：建设面向大模型训练的全方位可观测体系，采集和分析硬件（GPU、RoCE/IB网络）、存储及训练框架的性能指标，快速定位慢节点或故障点，实现训练状态透明化；
4、性能优化：结合训练框架（如 Megatron-LM、DeepSpeed）进行内核级优化，优化网络通信拓扑（如 NCCL）及存储I/O流水线，降低训练成本，提升模型训练吞吐；
5、资源效率：设计高效的集群混部和碎片资源利用方案，平衡多租户隔离与资源利用率，支持潮汐调度和弹性训练。

投递要求：

简历要求：中文

截止日期：2026-06-17

工作地点：

北京/北京/海淀区上地元中心

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介