大模型RL Infra实习生(文心一言)
2026-06-12 09:04:29 刷新
400-800/天 北京 不限 5天/周 实习4个月
实习津贴餐补不打卡
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
关于团队: 我们是 强化学习基建组(RL Infra),负责研发大模型强化学习框架与自动化实验平台。 我们的工作贯穿训练、推理、环境、奖励 四类核心负载,每一环都有值得深挖的系统难题。我们在框架侧追求极致性能与稳定性,在平台侧持续提升训练有效率与资源利用率,并与算法团队从架构阶段就开始 算法 + 工程联合优化——用 RL Scaling 持续推高 Coding Agent 与 Agentic 模型的能力上限。工作地点:北京、深圳 招聘方向: 团队当前有三个招聘方向,但方向不是限制——加入后会结合你的兴趣、特长与团队当下的关键问题来匹配。 【方向一|RL 训练框架】 把训练、推理、环境、奖励四类完全不同的负载,拆开、调度,再组装成一套高效运转的训练系统。 你将做什么: * 设计高可扩展的 分离式 RL 训练框架:将训练、推理、环境、奖励解耦为可独立伸缩的子系统; * 深度优化全异步 RL 训练范式:流式轨迹生产、Trajectory Store、训推版本管理与稳定性保障; * 攻坚 RL 场景特有的 推理调度与性能优化难题:大规模 Rollout 实例的统一调度与动态扩缩、权重热更新、动态批调度、长尾请求治理、多轮交互下的 KV Cache 复用与亲和性调度,与 vLLM / SGLang 等主流推理栈深度对接,把集群推理吞吐压到极限。 我们期待你: * 工程功底扎实,熟练掌握 Python / Go / C++ / CUDA 中至少一种; * 了解 veRL / Slime 等开源 RL 框架,理解其核心架构与设计取舍,有分布式训练或并行策略调优经验者优先; * 了解 vLLM / SGLang 等主流推理引擎,在推理性能优化、瓶颈定位方向有实践经验者优先。 【方向二|Agentic RL】 在算法侧"看得懂",在系统侧"写得动"——把效果与吞吐同时拉到新的水平。 你将做什么: * 做深 算法 + 工程联合优化:攻坚异步与 Off-policy 场景下的训练稳定性、训推一致性、长序列与稀疏奖励等核心问题,并探索 On-Policy Distillation 等新训练范式的高效实现; * 面向 Coding / Search / GUI 等长程多轮 Agentic RL 任务,驱动高性能环境建设,端到端构建高效训练系统; * 与一线算法团队同桌作战,从实验设计到框架演进,定义下一代 Agentic RL 的训练范式。 我们期待你: * 深入理解 RL 算法原理,能独立分析训练不稳定、奖励漂移等问题的根因; * 有 Reasoning RL / Agentic RL 训练的实战经验(veRL / Slime / OpenRLHF / 自研框架皆可); * 工程能力过硬,或算法品味出色——二者有其一即可,我们相信工程能让算法效果上一个台阶,也相信好的算法品味能让工程少走弯路; * 在 Tool-use / Coding Agent / SWE-Bench 或多模态理解等任务上有过实际经验者优先。 【方向三|RL 实验平台】 把"提需求 → 跑实验 → 出结论"的链路压到最短,打造能 自迭代 的实验平台,让研究员从"调度员"还原成"研究员"。 你将做什么: * 构建 超大规模后训练平台:细粒度容错、断点续训、动态扩缩容、无感故障恢复,让超大规模训练任务稳定跑到底; * 基于 K8s / Ray 设计大规模异构资源调度体系,结合 Mooncake 等技术构建分布式 KV Cache 池化与高速传输能力,联合驱动计算、存储、网络等基础设施升级,持续提升训练有效率与资源利用率; * 研发 全流程可观测性:算法指标、系统指标、轨迹质量监控一体化,让训练像"开着仪表盘的车"一样可控; * 用 AI Agent 升级实验平台,打造 自迭代 的实验基础设施:从实验编排、超参寻优,到效果分析、数据调整、结果归因全面 Agent 化,让平台在使用中自我进化。 我们期待你: * 有大规模训练平台、调度系统或容错系统的研发经验(K8s / Ray 等); * 了解分布式存储、高性能网络或大规模集群运维中至少一个领域,了解 Mooncake 等 KV Cache 存储与传输方案者优先; * 对全流程可观测性体系的建设感兴趣; * 对 AI Agent 驱动的自动化实验有热情与想象力。 通用要求 * 自驱、敢啃硬骨头:既能从 0 到 1 设计系统,也愿意把工程细节打磨到极致; * 对算法前沿保持真实的好奇心——你不需要什么都懂,但应该知道自己不懂什么,并且想去弄懂它; * 有开源贡献或顶会论文(OSDI / SOSP / NSDI / MLSys / NeurIPS / ICML / ICLR 等)是显著加分项。
投递要求:
简历要求: 中文
截止日期:2027-01-01
工作地点:
北京市/北京市/海淀区 百度科技园
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

人工智能训练师

百科详情

使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。