大模型实习生-运筹优化与应用方向(1人)
我们正在寻找对大模型算法研究充满热情的实习生,共同推动AI在数学建模,数学推理的应用和发展。你将有机会深入研究强化学习,LLM、RAG和Agent等前沿技术发表高水平学术论文,并直接参与到提升我们的产品与服务的实际工作中,对技术创新 和业务发展产生实质性影响。
【工作职责】
1、开展日常数据迭代实验,如数据合成,SFT, 持续快速提升模型的基础能力并应用于业务场景;
2、进行Post-training的框架搭建与迭代,如Process reward model 训练策略,如模型蒸馏策略、MOE训练策略等;
3、开展RLHF、Multi-Agent RL、Self-play RL等研究,提升Reward Signal丰富度和质量,并设计、执行和分析实验,从而提升模型能力上限,包括但不限于提升模型的逻辑推理、幻觉抵抗、人类偏好等能力;
4、参与开发 Post-training 所需工程框架开发,如 RLHF 框架、开源相关Post-training框架适配等;
5、参与相关领域模型能力评测及评测数据和评估标准的迭代,持续跟进国内外最新测评和模型使用反馈;
6、开发实验、研究、评测、内部部署相关的工具,帮助团队提升效率。
【岗位要求】
1、计算机、EE,运筹学等方向相关,博士及硕士优先;
2、较强的代码能力,具有较强的模型Post-training(SFT、DPO、PPO等)训练及相关数据处理经验;
3、实战经验Python以及Pytorch等深度学习框架;
4、熟悉Transformer架构以及大语言模型基础知识;
5、善于平衡研究目标及落地实现,且结果导向;
6、良好的沟通和合作能力;
7、关注技术影响力,具有开源开放精神。
加分项:
● 有强化学习如MCTS, PPO, SAC等实战经验。
●有知名开源库的开发、贡献或维护经验。
●在ACM、Kaggle、天池等竞赛中获奖。