大模型计算网络架构实习生
2025-04-18 15:16:49 刷新
300-500/天 上海 硕士 4天/周 实习3个月
周末双休
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
岗位职责: 1.大规模组网与拓扑优化 a.研究超算集群网络拓扑(如Dragonfly、Fat-Tree)的设计与优化,探索动态路由、资源调度与负载均衡策略,提升系统扩展性和效率。 b.参与数据流调度与网络配置优化,确保大规模训练任务的高效执行。 2.高性能通信与RDMA优化 a.研究RDMA(RoCEv2/InfiniBand)、用户态网络协议栈(如UCX)等高性能通信技术,优化集合通信(AllReduce、AllGather等)算法与实现。 b.探索GPU Direct RDMA、GPUDirect Async等硬件加速技术,降低通信延迟,提升带宽利用率。 3.通信库开发与调优 a.参与通信库的设计与优化,开发低延迟、高吞吐的通信原语,适配AI训练/推理任务的通信需求。 b.分析AI训练中的通信模式(如参数同步、梯度聚合),优化计算-通信重叠策略,提升训练效率。 4.网络协议与性能优化 a.研究RDMA网络协议栈的拥塞控制、流量调度与路径优化,提升大规模多机多卡通信的稳定性与性能。 b.构建Benchmark测试框架,对通信延迟、带宽、容错开销等关键指标进行量化分析与优化。 5.故障检测与容错机制 a.研究分布式训练中的网络级故障检测(如链路/节点失效)与快速恢复策略,设计高可靠的容错训练方案。 b.优化重传等机制,确保长时间训练任务的稳定性。 任职要求: 1. 计算机科学、软件工程、电子通信或相关领域在读硕士或博士,具有强大的计算机网络通信、分布式系统等相关知识储备,有相关研究背景者优先。 2. 熟悉高性能网络技术与设计,如DPDK、RoCE/InfiniBand、XDP等,具有相关实际操作或开发经验者优先。 3. 具备扎实的编程基础,熟练掌握Python、C/C++、CUDA等语言,熟悉网络和并行编程,熟悉Linux操作。 4.了解分布式系统架构设计原理,熟悉分布式通信、分布式计算框架(如MPI、PyTorch、Megatron等),具有分布式系统性能优化经验优先。
投递要求:
简历要求: 中文
截止日期:2025-09-11
工作地点:
上海市/上海市/徐汇区 国际传媒港F1栋
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历

职位百科

为你揭秘各职业的工作内容|薪资水平…

算法工程师

百科详情

利用算法原理处理事物的人员。