岗位职责:
1.大规模组网与拓扑优化
a.研究超算集群网络拓扑(如Dragonfly、Fat-Tree)的设计与优化,探索动态路由、资源调度与负载均衡策略,提升系统扩展性和效率。
b.参与数据流调度与网络配置优化,确保大规模训练任务的高效执行。
2.高性能通信与RDMA优化
a.研究RDMA(RoCEv2/InfiniBand)、用户态网络协议栈(如UCX)等高性能通信技术,优化集合通信(AllReduce、AllGather等)算法与实现。
b.探索GPU Direct RDMA、GPUDirect Async等硬件加速技术,降低通信延迟,提升带宽利用率。
3.通信库开发与调优
a.参与通信库的设计与优化,开发低延迟、高吞吐的通信原语,适配AI训练/推理任务的通信需求。
b.分析AI训练中的通信模式(如参数同步、梯度聚合),优化计算-通信重叠策略,提升训练效率。
4.网络协议与性能优化
a.研究RDMA网络协议栈的拥塞控制、流量调度与路径优化,提升大规模多机多卡通信的稳定性与性能。
b.构建Benchmark测试框架,对通信延迟、带宽、容错开销等关键指标进行量化分析与优化。
5.故障检测与容错机制
a.研究分布式训练中的网络级故障检测(如链路/节点失效)与快速恢复策略,设计高可靠的容错训练方案。
b.优化重传等机制,确保长时间训练任务的稳定性。
任职要求:
1. 计算机科学、软件工程、电子通信或相关领域在读硕士或博士,具有强大的计算机网络通信、分布式系统等相关知识储备,有相关研究背景者优先。
2. 熟悉高性能网络技术与设计,如DPDK、RoCE/InfiniBand、XDP等,具有相关实际操作或开发经验者优先。
3. 具备扎实的编程基础,熟练掌握Python、C/C++、CUDA等语言,熟悉网络和并行编程,熟悉Linux操作。
4.了解分布式系统架构设计原理,熟悉分布式通信、分布式计算框架(如MPI、PyTorch、Megatron等),具有分布式系统性能优化经验优先。