【留用实习】Model Serving开发工程师
2026-03-24 18:04:15 刷新
薪资面议 北京 本科 4天/周 实习1个月 提供转正机会
节日福利双休转正餐补健身房
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
1、负责大模型推理服务平台的架构设计与核心模块开发,实现 Serverless Model 与 GPU 池化技术,通过模型实例的秒级启停和显存复用,显著降低推理成本; 2、研发弹性高效推理引擎(Scaling-efficient Engine),集成显存池管理、分布式 KV Cache 传输、主机内存预取、模型权重格式转换、CUDA Graph 缓存等关键技术,实现模型权重的快速换入换出和推理实例的秒级启动; 3、负责大模型推理服务平台与批量推理平台的架构设计与核心模块开发,支持离线批量推理、定时任务、高吞吐异步推理等场景,实现任务级与请求级资源的统一调度与管理; 4、设计并实现分布式KV缓存池,用于高效存储与复用推理过程中的 KV Cache,支持跨节点、跨模型的 KV Cache 共享与传输,显著降低重复计算开销,提升 Prefix Cache 命中率与推理吞吐。
投递要求:
简历要求: 中文
截止日期:2026-06-17
工作地点:
北京/北京/海淀区上地元中心
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介

职位百科

为你揭秘各职业的工作内容|薪资水平…

后端开发工程师

百科详情

负责计算机产品的服务器端研发,通过代码、API 和数据库集成构建服务端架构,提高网站、应用程序或软件的运行效率,为前端提供支持的专业技术人员。