LLM强化学习研究员实习生(Function Calling方向)
2025-05-06 17:53:59 刷新
300-400/天 北京 博士 4天/周 实习3个月
周末双休不加班地铁周边暑期实习
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
【职位亮点】 前沿研究: 深入探索大型语言模型(LLM)在Function Calling能力上的核心技术。 资源充足: 提供强大的计算资源,支持大规模模型训练与前沿算法实验。 成果转化: 有机会将研究成果发表为顶级会议/期刊论文,或提升模型在权威榜单(如BFCL)的排名。 团队优秀: 与经验丰富的研究员和工程师紧密合作,共同成长。 【职位描述】 你将有机会参与到LLM Function Calling能力提升的核心工作中,具体职责包括: 算法研发与优化: 负责LLM后训练及强化学习(如PPO, DPO, GRPO等)算法在Function Calling任务上的设计、实现、调优与创新。 数据驱动优化: 主导Function Calling相关数据集的设计、构建、处理与分析,挖掘数据价值以驱动模型性能提升。 性能突破与评估: 致力于提升模型在实际应用场景及公开/内部基准(如BFCL榜单)上的表现,进行深入的实验分析。 知识沉淀与分享: 将研究过程中的创新点、实验结果等撰写成高质量的技术报告或学术论文。 【职位要求】 背景要求: 计算机科学、人工智能、数学、软件工程、电子信息等相关专业在读博士生。 研究能力: 对大型语言模型(LLM)和强化学习(RL)有深入理解。在相关领域的顶级会议或期刊(如ACL, NeurIPS, ICLR, EMNLP, AAAI等)发表过论文者,或在知名数据科学竞赛(如Kaggle、天池)中取得优异成绩者优先。 工程能力: 具备扎实的编程基础,精通Python;熟练掌握至少一种主流深度学习框架(如PyTorch)。 算法理解: 对LLM的强化学习(RLHF)有深入研究者优先,熟悉PPO, DPO, GRPO等相关算法原理与实践。 综合素质: 具备出色的分析问题和解决问题能力,良好的沟通协作精神和快速学习能力,能够主动推进项目进展。 【我们期待这样的你】 对LLM和强化学习技术充满热情,渴望在前沿领域做出贡献。 具备独立思考和研究探索的能力。 乐于团队合作,善于沟通交流。
投递要求:
简历要求: 中文
截止日期:2026-03-15
工作地点:
北京市/北京市/朝阳区 北京朝阳区金汉王科技大厦一层
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

算法工程师

百科详情

利用算法原理处理事物的人员。