1、参与超大规模服务器(包括通用服务器和AI算力服务器)的交付、运行维护及资源退役,保障服务器稳定与高效运行;
2、协助定位和修复服务器故障,提升服务器的故障响应速度和问题闭环能力;
3、与研发、网络、数据中心等多方团队紧密协作,支持算力基础设施的稳定可靠运行;
4、参与服务器监控、数据分析及故障预测能力建设,自动化、智能化运维工具建设;
5、关注液冷、AI算力硬件等前沿技术,支持新硬件和技术在大规模环境中的验证、部署和落地;
6、积极参与实际项目,在导师指导下快速成长,积累通用及AI算力服务器运维核心能力。