职位描述1、负责抖音、火山等海内外亿级产品的大规模集群的优化工作,优化架构、稳定性、资源、全球多机房问题; 2、负责AIOps方向的优化,优化故障检测、根因分析、健康度、容量规划等; 3、负责DevOps方向的云平台建设,优化核心服务的持续集成和交付,高效和自动化的运维优化。
职位要求1、拥有良好的系统设计能力、开发能力,对解决具有挑战性问题充满激情; 2、对大规模分布式系统的设计、分析、故障排查有强烈兴趣; 3、有以下经验者优先:机器学习AI经验、或运维相关经验、或云平台相关经验(阿里云、AWS等)。
当前职位已下线