基础模型算法实习生 - LLM Post-training
2026-02-26 10:55:54 刷新
薪资面议 上海 硕士 5天/周 实习6个月 提供转正机会
大牛带队团队实力免费三餐同事友好团队氛围好前沿方向
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
岗位定位: 本岗位侧重于提升大语言模型的“核心大脑”能力。你将通过先进的 Post-training 技术,让模型在Reasoning、Agentic以及人类意图对齐上达到业界顶尖水平,通过提升AI智能水平的上限,支撑小红书所有业务场景,包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。 你的工作内容 大规模对齐与强化学习: 研发并优化 SFT、RL(如GRPO 等)算法,构建高精度的 Reward Model,解决模型在复杂指令下的对齐问题。 推理模型(Reasoning)优化: 探索长链推理(CoT)、强化学习驱动的自反思与自进化机制,提升模型在的 System 2 思维能力。 Agentic RL 与Agency: 研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案,提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。 合成数据与模型进化: 探索高质量合成数据的生成与过滤技术,实现模型能力的自我循环与持续进化。 我们希望你具备: 背景: 计算机、数学等相关专业硕士/博士在读;深入理解 Transformer 架构及大模型训练全流程。 专业深耕: 在 Search(搜索)、Code(代码生成/工程)、tool-use、alignment 或 RL(强化学习) 领域有深厚积累。 工程能力: 熟练使用 PyTorch,有 DeepSpeed、Megatron-LM 或 Ray 等大规模分布式训练实战经验。 加分项: 在 NeurIPS, ICML, ICLR, ACL 等顶会发表过高质量论文。 在 LLM 大家关注的 Benchmark 榜单有深入研究或优异表现。 有大规模集群调优经验或知名开源 LLM 项目核心贡献者。
投递要求:
简历要求: 中文
截止日期:2026-10-10
工作地点:
马当路388号SOHO复兴广场
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介