基础模型算法实习生 - LLM Post-training 实习招聘-小红书实习生招聘-实习僧

基础模型算法实习生 - LLM Post-training

2026-06-11 09:23:43 刷新

薪资面议上海硕士 5天／周实习6个月提供转正机会

大牛带队团队实力免费三餐同事友好团队氛围好前沿方向

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

工作职责：
岗位定位：
本岗位侧重于提升大语言模型的“核心大脑”能力。你将通过先进的 Post-training 技术，让模型在Reasoning、Agentic以及人类意图对齐上达到业界顶尖水平，通过提升AI智能水平的上限，支撑小红书所有业务场景，包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。

你的工作内容
大规模对齐与强化学习： 研发并优化 SFT、RL（如GRPO 等）算法，构建高精度的 Reward Model，解决模型在复杂指令下的对齐问题。
推理模型（Reasoning）优化： 探索长链推理（CoT）、强化学习驱动的自反思与自进化机制，提升模型在的 System 2 思维能力。
Agentic RL 与Agency： 研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案，提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。
合成数据与模型进化： 探索高质量合成数据的生成与过滤技术，实现模型能力的自我循环与持续进化。

任职资格：
我们希望你具备：
背景： 计算机、数学等相关专业硕士/博士在读；深入理解 Transformer 架构及大模型训练全流程。
专业深耕： 在 Search（搜索）、Code（代码生成/工程）、tool-use、alignment 或 RL（强化学习） 领域有深厚积累。
工程能力： 熟练使用 PyTorch，有 DeepSpeed、Megatron-LM 或 Ray 等大规模分布式训练实战经验。
加分项：
在 NeurIPS, ICML, ICLR, ACL 等顶会发表过高质量论文。
在 LLM 大家关注的 Benchmark 榜单有深入研究或优异表现。
有大规模集群调优经验或知名开源 LLM 项目核心贡献者。

投递要求：

简历要求：中文

截止日期：2026-10-10

工作地点：

马当路388号SOHO复兴广场

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介

小红书

产品服务找实习找校招看空宣

旗下产品实习僧实习僧TV 实习僧题库职场说

关于我们了解我们加入我们免责声明

联系我们实习僧公众号客户服务商务合作