【Ace顶尖实习生】全模态Agent长程任务RL算法+工程Co-Design研究实习招聘-小红书实习生招聘-实习僧

【Ace顶尖实习生】全模态Agent长程任务RL算法+工程Co-Design研究

2026-05-18 14:06:00 刷新

薪资面议北京本科 5天／周实习3个月

环境好宠物日扁平管理团队实力大牛带队

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

工作职责：
本课题聚焦全模态Agent（GUI操作、代码生成、网页导航）在长程交互任务领域的算法研究。旨在解决Agent执行跨越数百至数千步的复杂任务时，传统强化学习仅依赖终态奖励信号，导致信用分配路径过长、梯度信号衰减，策略优化难以收敛的问题。研究方向包括：设计层次化时间抽象信用分配机制，缓解长程任务中flat policy的优化不稳定问题；设计验证跨模态可验证奖励机制，抑制Reward hacking对训练过程的干扰，实现全模态长程Agentic RL 稳定收敛。该研究成果将在WebArena、SWE-bench等主流评测基准上验证方法的有效性，应用于公司内社区生态Agent基座、AI跨模态深度搜索等业务场景，并集成至自研开源的强化学习引擎Relax，增强业界影响力。

任职资格：
1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、熟悉Linux/Unix平台上的C++编程，熟悉网络编程-多线程编程，有良好的编程习惯；
3、熟悉其中一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现者优先；
4、有扎实的专业基础知识，熟悉常用的数据结构和算法，对计算机系统结构-网络-操作系统等专业知识有深刻认知；
5、良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步。

投递要求：

简历要求：中文

截止日期：2026-10-10

工作地点：

亚运村街道安定路五号院7号楼中海国际大厦A座+B座

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介

小红书

产品服务找实习找校招看空宣

旗下产品实习僧实习僧TV 实习僧题库职场说

关于我们了解我们加入我们免责声明

联系我们实习僧公众号客户服务商务合作