岗位职责(具体工作内容)
职位描述:主导构建与演进滴滴网约车核心业务的稳定性保障体系,打造业界领先的稳定性平台。
涵盖风险水位度量、风险巡检与治理、监控报警、故障应急、SLA治理等全链路稳定性保障。
定义服务,链路,领域等维度的SLA/SLO/SLI指标体系,指标驱动稳定性的提升。
构建风险巡检引擎,识别系统与链路等维度风险点,推动风险治理与可用性提升,确保服务质量与链路稳定性。
设计并落地全局故障应急响应机制与处置手段,建立高效的On-call文化与故障复盘流程。
研发和完善基础组件/业务中间件等,推动项目落地,持续跟进和完善项目,更好的支持业务稳定性迭代;
任职资格(学历、目标院校、语言、技能、性格等要求)
本科及以上学历,计算机相关专业;
熟练掌握 Go 或者 PHP,有扎实的编程功底,熟悉主流框架、组件、工具等,了解其工作原理;
熟悉 Linux 开发环境、Shell 编程、Web 编程,熟练掌握 TCP/IP、HTTP、HTTPS 协议,对 Thrift、gRPC 有一定了解;
熟悉 MySQL、Redis、消息队列等中间件,掌握 SQL、数据库设计和优化;
具备良好的计算机基础,掌握常用的数据结构、算法、设计模式等;
熟悉分布式系统设计和应用、微服务、Docker 等;
善于发现问题、解决问题、并能落地解决方案,有较强的抽象、逻辑分析能力、善于总结;
积极、乐观、良好的沟通能力、团队合作精神、主动性、责任心、抗压能力、优秀的学习能力。
加分项:
深度监控诊断: 熟悉监控告警、日志分析、链路追踪等关键技术。
故障根因定位:熟悉故障根因定位,并有结合AI成功落地的经验。
故障跟踪管理: 拥有重大故障应急、止损、复盘及预案建设实战能力。
前瞻能力: 对混沌工程、智能监控、AIOps有深入实践者优先。
高可用架构: 具备大规模复杂系统多活、容灾设计实施成功经验。