语言大模型架构/优化/Scaling实习生
2025-08-19 14:55:40 刷新
400-500/天 北京 硕士 5天/周 实习3个月
实习津贴一对一导师地铁周边
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
职位描述: 1. 深度参与前沿大模型(LLM)的架构设计与迭代,重点攻关Attention机制(如MLA, Linear Attention, VQ)、MoE等SOTA结构的性能与效率瓶颈,推动模型在上下文长度与参数规模上实现突破。 2. 主导模型优化器与训练策略的研究,深入分析优化动力学,探索二阶优化(如Hessian-free)的可行性,并应用Maximal Update Parametrization (muP)等技术指导模型稳定、高效地Scaling。 3. 与Infra团队紧密合作,共同设计和优化训练框架,将前沿算法思想高效映射到大规模GPU集群上,提升训练稳定性与资源利用率。 职位要求: 1. 985/211/海外知名高校硕士及以上学历优先,计算机、人工智能、数学等相关专业。 2. 在大模型领域有丰富的实战经验,熟悉Transformer,并在以下至少一个方向有深入实践:模型结构创新、训练优化器、大规模训练(Scaling)或推理优化。 3. 编程能力卓越,精通PyTorch/JAX等框架,有丰富的深度学习模型训练及调优经验。 4. 加分项(有以下经验者优先): - 熟悉Triton、CUDA,有高性能计算或算子优化经验。 - 熟悉优化器/LLM Scaling原理。 - 在ICLR、NeurIPS、ICML等ML/NLP顶会上发表过相关论文。 - 有ACM/IOI/NOI等算法竞赛获奖经历。 5. 具备强烈的技术热情和owner意识,善于沟通协作,能独立承担复杂挑战。
投递要求:
简历要求: 不限
截止日期:2025-12-12
工作地点:
北京市/北京市/海淀区 京东科技大厦
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

算法工程师

百科详情

利用算法原理处理事物的人员。