具身智能精细操作(真机强化学习方向)
2026-03-23 13:57:52 刷新
300-500/天 北京 硕士 4天/周 实习3个月
地铁周边周末双休
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
你将参与的方向 精细操作 · Real-world RL(真机强化学习)· 闭环训练系统 面向真实环境与真实硬件,用强化学习/模仿学习等方法提升成功率、效率与泛化能力,并打通从数据到训练到部署的链路。 你会做什么? - 真机强化学习与闭环实验 - 参与精细操作任务的 RL 训练、评测与迭代(抓取、放置、插入、对齐、整理等典型任务形态) - 设计 reward / curriculum / 安全约束 / 评测指标,提升收敛速度与稳定性 - 处理真实世界的不确定性:噪声、延迟、标定误差、接触扰动等,推动效果在真机稳定复现 - 模型与训练链路 - 参与策略/表征学习模块的迭代(BC、offline RL、RL、hybrid 方案等) - 维护与优化训练 pipeline:数据读取、回放/采样、评测、实验管理与可复现 - 与部署协作打通:训练 → 导出 → 推理 → 真机运行 的完整链路 - 数据链路与数据质量 - 参与真实数据采集与清洗:传感器同步、日志结构、数据质量诊断与修复 - 构建/优化数据集与基准:任务定义、成功判定、指标体系与对照实验框架 我们希望你具备 - 27届及之后毕业在校生,可实习3个月以上,每周至少投入实习4天,线下优先 - 熟练使用 PyTorch(或同等框架),具备良好的工程习惯(可复现、版本管理、实验记录) - 至少具备以下任一项的扎实基础: - 强化学习 / offline RL / 模仿学习(PPO/SAC/TD3/BC/IQL/CQL 等任意) - 机器人控制 / 操作任务建模 / 运动学基础 - 视觉或多模态表征学习(视觉为主亦可) - 加分项: - 有真机经验(ROS/ROS2、硬件调试、部署、标定) - 做过 sim2real 或 real-world RL 的完整闭环项目(从训练到上线) - 有论文/开源/竞赛成果(请附链接) 【你能获得什么】 - 真机硬件与一线实验条件 - 各类先进的机械臂、末端执行器、遥操机构与多传感器数据采集系统 - 支持高频迭代的真实实验环境与完善的闭环流程 - 充足算力 - 支持并行实验与大规模对照,快速验证假设 - 顶级导师与研究氛围 - 来自华为、机器人大厂、头部主机厂等领域专家指导 - 以及清华大学老师的研究指导与交流机会 - 充分自主性 + 论文支持 - 鼓励做可复现、可发表、能落地的成果 - 有明确目标,也有足够空间探索更好的方法
投递要求:
简历要求: 中文
截止日期:2026-03-26
工作地点:
北京市/北京/海淀区 优盛大厦
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

算法工程师

百科详情

利用算法原理处理事物的人员。