岗位定位:
本岗位侧重于提升大语言模型的“核心大脑”能力。你将通过先进的 Post-training 技术,让模型在Reasoning、Agentic以及人类意图对齐上达到业界顶尖水平,通过提升AI智能水平的上限,支撑小红书所有业务场景,包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。
你的工作内容
大规模对齐与强化学习: 研发并优化 SFT、RL(如GRPO 等)算法,构建高精度的 Reward Model,解决模型在复杂指令下的对齐问题。
推理模型(Reasoning)优化: 探索长链推理(CoT)、强化学习驱动的自反思与自进化机制,提升模型在的 System 2 思维能力。
Agentic RL 与Agency: 研发面向 Search Agent、Code Agent 和 Tool-use Agent 的强化学习方案,提升模型在开放环境中的任务拆解、工具调用及闭环执行能力。
合成数据与模型进化: 探索高质量合成数据的生成与过滤技术,实现模型能力的自我循环与持续进化。
我们希望你具备:
背景: 计算机、数学等相关专业硕士/博士在读;深入理解 Transformer 架构及大模型训练全流程。
专业深耕: 在 Search(搜索)、Code(代码生成/工程)、tool-use、alignment 或 RL(强化学习) 领域有深厚积累。
工程能力: 熟练使用 PyTorch,有 DeepSpeed、Megatron-LM 或 Ray 等大规模分布式训练实战经验。
加分项:
在 NeurIPS, ICML, ICLR, ACL 等顶会发表过高质量论文。
在 LLM 大家关注的 Benchmark 榜单有深入研究或优异表现。
有大规模集群调优经验或知名开源 LLM 项目核心贡献者。