你将参与的方向
精细操作 · Real-world RL(真机强化学习)· 闭环训练系统
面向真实环境与真实硬件,用强化学习/模仿学习等方法提升成功率、效率与泛化能力,并打通从数据到训练到部署的链路。
你会做什么?
- 真机强化学习与闭环实验
- 参与精细操作任务的 RL 训练、评测与迭代(抓取、放置、插入、对齐、整理等典型任务形态)
- 设计 reward / curriculum / 安全约束 / 评测指标,提升收敛速度与稳定性
- 处理真实世界的不确定性:噪声、延迟、标定误差、接触扰动等,推动效果在真机稳定复现
- 模型与训练链路
- 参与策略/表征学习模块的迭代(BC、offline RL、RL、hybrid 方案等)
- 维护与优化训练 pipeline:数据读取、回放/采样、评测、实验管理与可复现
- 与部署协作打通:训练 → 导出 → 推理 → 真机运行 的完整链路
- 数据链路与数据质量
- 参与真实数据采集与清洗:传感器同步、日志结构、数据质量诊断与修复
- 构建/优化数据集与基准:任务定义、成功判定、指标体系与对照实验框架
我们希望你具备
- 27届及之后毕业在校生,可实习3个月以上,每周至少投入实习4天,线下优先
- 熟练使用 PyTorch(或同等框架),具备良好的工程习惯(可复现、版本管理、实验记录)
- 至少具备以下任一项的扎实基础:
- 强化学习 / offline RL / 模仿学习(PPO/SAC/TD3/BC/IQL/CQL 等任意)
- 机器人控制 / 操作任务建模 / 运动学基础
- 视觉或多模态表征学习(视觉为主亦可)
- 加分项:
- 有真机经验(ROS/ROS2、硬件调试、部署、标定)
- 做过 sim2real 或 real-world RL 的完整闭环项目(从训练到上线)
- 有论文/开源/竞赛成果(请附链接)
【你能获得什么】
- 真机硬件与一线实验条件
- 各类先进的机械臂、末端执行器、遥操机构与多传感器数据采集系统
- 支持高频迭代的真实实验环境与完善的闭环流程
- 充足算力
- 支持并行实验与大规模对照,快速验证假设
- 顶级导师与研究氛围
- 来自华为、机器人大厂、头部主机厂等领域专家指导
- 以及清华大学老师的研究指导与交流机会
- 充分自主性 + 论文支持
- 鼓励做可复现、可发表、能落地的成果
- 有明确目标,也有足够空间探索更好的方法