职位描述
1. 参与万卡规模 AI Infra 研发,支持大规模 GPU 集群管理能力,从超大模型训练、机器学习系统、异构资源调度等多个层面进行技术探索和攻坚,实现高性能、高资源利用率的高性能机器学习平台和资源管理平台。
2. 参与国产化硬件在实际场景中的适配和优化,探索前沿技术,如:异构硬件池化、硬件虚拟共享、计算通信显存等资源隔离。
3. 探究 AI Infra 多个子方向,如:训练推理优化、异构资源调度、ML for System等。在实际环境中验证并寻求科研突破,促进知识共享和个人成长。
职位要求
1. 本科及以上学历,计算机科学、人工智能、软件工程、自动化控制等相关专业。
2. 熟练掌握 C++、Golang、Python 等至少一门编程语言,有扎实的计算机基础知识,熟练掌握常见的数据结构和算法,熟悉 Linux 系统原理和常用网络协议。
3. 具备积极主动探索的精神,愿意钻研系统,有良好的动手能力、团队合作意识与沟通能力
4. 加分项:了解 GPU/NPU/ARM等最新异构计算系统与架构、RDMA高性能网络, 有相关系统研发经验者优先
5. 加分项:了解主流深度学习框架,了解 Megatron/DeepSpeed 等大模型训练加速框架
6. 加分项:了解 Docker、Kubernetes 等相关技术及其周边组件"