职位描述:
1. 深度参与前沿大模型(LLM)的架构设计与迭代,重点攻关Attention机制(如MLA, Linear Attention, VQ)、MoE等SOTA结构的性能与效率瓶颈,推动模型在上下文长度与参数规模上实现突破。
2. 主导模型优化器与训练策略的研究,深入分析优化动力学,探索二阶优化(如Hessian-free)的可行性,并应用Maximal Update Parametrization (muP)等技术指导模型稳定、高效地Scaling。
3. 与Infra团队紧密合作,共同设计和优化训练框架,将前沿算法思想高效映射到大规模GPU集群上,提升训练稳定性与资源利用率。
职位要求:
1. 985/211/海外知名高校硕士及以上学历优先,计算机、人工智能、数学等相关专业。
2. 在大模型领域有丰富的实战经验,熟悉Transformer,并在以下至少一个方向有深入实践:模型结构创新、训练优化器、大规模训练(Scaling)或推理优化。
3. 编程能力卓越,精通PyTorch/JAX等框架,有丰富的深度学习模型训练及调优经验。
4. 加分项(有以下经验者优先):
- 熟悉Triton、CUDA,有高性能计算或算子优化经验。
- 熟悉优化器/LLM Scaling原理。
- 在ICLR、NeurIPS、ICML等ML/NLP顶会上发表过相关论文。
- 有ACM/IOI/NOI等算法竞赛获奖经历。
5. 具备强烈的技术热情和owner意识,善于沟通协作,能独立承担复杂挑战。