1、负责节跳动机器学习系统研发,服务于全公司各个产品;
2、参与设计构建高可用高性能的机器学习系统,参与多个子方向领域的开发,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集存储、ML for System等,提供模型开发、训练与部署一站式服务;
3、参与训练和推理系统的可靠性开发,保证系统的稳定高效运行。
职位要求
1、熟练掌握Linux环境下的C/C++/Go/Python/Java等1至2种以上语言;
2、了解分布式系统原理,对大规模分布式系统的设计、开发有强烈的兴趣;
3、具有独立解决问题的能力,良好的团队合作精神;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力。
加分项:
1、熟悉 GPU,CUDA,Tensorflow,Pytorch等机器学习软硬件相关知识;
2、熟悉至少一种主流的编排调度系统(Kubernetes / YARN / Mesos);
3、熟悉 django、flask 相关技术。
当前职位已下线
为你揭秘各职业的工作内容|薪资水平…
确认和评估系统需求,给出开发规范,搭建系统实现的核心构架,并澄清技术细节、扫清主要难点的技术人员。