大模型RL Infra实习生（文心一言）实习招聘-百度实习生招聘-实习僧

大模型RL Infra实习生（文心一言）

2026-06-12 09:04:29 刷新

400-800/天北京不限 5天／周实习4个月

实习津贴餐补不打卡

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

关于团队：
我们是 强化学习基建组（RL Infra），负责研发大模型强化学习框架与自动化实验平台。
我们的工作贯穿训练、推理、环境、奖励 四类核心负载，每一环都有值得深挖的系统难题。我们在框架侧追求极致性能与稳定性，在平台侧持续提升训练有效率与资源利用率，并与算法团队从架构阶段就开始 算法 + 工程联合优化——用 RL Scaling 持续推高 Coding Agent 与 Agentic 模型的能力上限。工作地点：北京、深圳

招聘方向：
团队当前有三个招聘方向，但方向不是限制——加入后会结合你的兴趣、特长与团队当下的关键问题来匹配。
【方向一｜RL 训练框架】
把训练、推理、环境、奖励四类完全不同的负载，拆开、调度，再组装成一套高效运转的训练系统。
你将做什么：
* 设计高可扩展的 分离式 RL 训练框架：将训练、推理、环境、奖励解耦为可独立伸缩的子系统；
* 深度优化全异步 RL 训练范式：流式轨迹生产、Trajectory Store、训推版本管理与稳定性保障；
* 攻坚 RL 场景特有的 推理调度与性能优化难题：大规模 Rollout 实例的统一调度与动态扩缩、权重热更新、动态批调度、长尾请求治理、多轮交互下的 KV Cache 复用与亲和性调度，与 vLLM / SGLang 等主流推理栈深度对接，把集群推理吞吐压到极限。

我们期待你：
* 工程功底扎实，熟练掌握 Python / Go / C++ / CUDA 中至少一种；
* 了解 veRL / Slime 等开源 RL 框架，理解其核心架构与设计取舍，有分布式训练或并行策略调优经验者优先；
* 了解 vLLM / SGLang 等主流推理引擎，在推理性能优化、瓶颈定位方向有实践经验者优先。

【方向二｜Agentic RL】
在算法侧"看得懂"，在系统侧"写得动"——把效果与吞吐同时拉到新的水平。
你将做什么：
* 做深 算法 + 工程联合优化：攻坚异步与 Off-policy 场景下的训练稳定性、训推一致性、长序列与稀疏奖励等核心问题，并探索 On-Policy Distillation 等新训练范式的高效实现；
* 面向 Coding / Search / GUI 等长程多轮 Agentic RL 任务，驱动高性能环境建设，端到端构建高效训练系统；
* 与一线算法团队同桌作战，从实验设计到框架演进，定义下一代 Agentic RL 的训练范式。

我们期待你：
* 深入理解 RL 算法原理，能独立分析训练不稳定、奖励漂移等问题的根因；
* 有 Reasoning RL / Agentic RL 训练的实战经验（veRL / Slime / OpenRLHF / 自研框架皆可）；
* 工程能力过硬，或算法品味出色——二者有其一即可，我们相信工程能让算法效果上一个台阶，也相信好的算法品味能让工程少走弯路；
* 在 Tool-use / Coding Agent / SWE-Bench 或多模态理解等任务上有过实际经验者优先。

【方向三｜RL 实验平台】
把"提需求 → 跑实验 → 出结论"的链路压到最短，打造能 自迭代 的实验平台，让研究员从"调度员"还原成"研究员"。
你将做什么：
* 构建 超大规模后训练平台：细粒度容错、断点续训、动态扩缩容、无感故障恢复，让超大规模训练任务稳定跑到底；
* 基于 K8s / Ray 设计大规模异构资源调度体系，结合 Mooncake 等技术构建分布式 KV Cache 池化与高速传输能力，联合驱动计算、存储、网络等基础设施升级，持续提升训练有效率与资源利用率；
* 研发 全流程可观测性：算法指标、系统指标、轨迹质量监控一体化，让训练像"开着仪表盘的车"一样可控；
* 用 AI Agent 升级实验平台，打造 自迭代 的实验基础设施：从实验编排、超参寻优，到效果分析、数据调整、结果归因全面 Agent 化，让平台在使用中自我进化。

我们期待你：
* 有大规模训练平台、调度系统或容错系统的研发经验（K8s / Ray 等）；
* 了解分布式存储、高性能网络或大规模集群运维中至少一个领域，了解 Mooncake 等 KV Cache 存储与传输方案者优先；
* 对全流程可观测性体系的建设感兴趣；
* 对 AI Agent 驱动的自动化实验有热情与想象力。


通用要求
* 自驱、敢啃硬骨头：既能从 0 到 1 设计系统，也愿意把工程细节打磨到极致；
* 对算法前沿保持真实的好奇心——你不需要什么都懂，但应该知道自己不懂什么，并且想去弄懂它；
* 有开源贡献或顶会论文（OSDI / SOSP / NSDI / MLSys / NeurIPS / ICML / ICLR 等）是显著加分项。

投递要求：

简历要求：中文

截止日期：2027-01-01

工作地点：

北京市/北京市/海淀区百度科技园

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介

百度

职位百科

为你揭秘各职业的工作内容｜薪资水平…

人工智能训练师

百科详情

使用智能训练软件，在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。