1、参与AI大模型训练框架研发,面向内部提供混合并行、极致性能、易用好的框架;
2、调研最新技术和性能调优工具,持续提升框架的性能和易用性;
3、完成多种 AI 框架的对接工作。1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题;
2、有深度学习基本知识,熟悉Transformer/Bert/GPT等模型结构更佳;
3、掌握Python/C++编程语言,熟练使用Pytorch训练框架;
4、具备分布式训练或HPC基础知识,了解集合通信和CUDA编程更佳;
5、拥有以下经验者优先:
a. 熟悉Deepspeed/Megatron/Colossal-ai/Ray/Horovod等任意一种框架;
b. 有机器学习平台开发和深度学习框架开发等领域开发经验;
c. 有Nsight System、DL Prof、perf等工具使用经验。