【Ace顶尖实习生】全模态Agent长程任务RL算法+工程Co-Design研究
2026-05-18 14:06:00 刷新
薪资面议 北京 本科 5天/周 实习3个月
环境好宠物日扁平管理团队实力大牛带队
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
工作职责: 本课题聚焦全模态Agent(GUI操作、代码生成、网页导航)在长程交互任务领域的算法研究。旨在解决Agent执行跨越数百至数千步的复杂任务时,传统强化学习仅依赖终态奖励信号,导致信用分配路径过长、梯度信号衰减,策略优化难以收敛的问题。研究方向包括:设计层次化时间抽象信用分配机制,缓解长程任务中flat policy的优化不稳定问题;设计验证跨模态可验证奖励机制,抑制Reward hacking对训练过程的干扰,实现全模态长程Agentic RL 稳定收敛。该研究成果将在WebArena、SWE-bench等主流评测基准上验证方法的有效性,应用于公司内社区生态Agent基座、AI跨模态深度搜索等业务场景,并集成至自研开源的强化学习引擎Relax,增强业界影响力。 任职资格: 1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、熟悉Linux/Unix平台上的C++编程,熟悉网络编程-多线程编程,有良好的编程习惯; 3、熟悉其中一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现者优先; 4、有扎实的专业基础知识,熟悉常用的数据结构和算法,对计算机系统结构-网络-操作系统等专业知识有深刻认知; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
投递要求:
简历要求: 中文
截止日期:2026-10-10
工作地点:
亚运村街道安定路五号院7号楼中海国际大厦A座+B座
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介