大模型推理优化实习生
2026-03-22 00:30:31 刷新
400-500/天 北京 硕士 5天/周 实习4个月 提供转正机会
可转正实习远程实习暑期实习
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
须为在校生 · 远程办公 · ¥8,000–10,000/月购物卡(非现金,请确认可接受再投递)· 正式实习证明 · 支持背调 关于我们 我们是一家中美双实体的全球化 AI 基础设施公司,团队分布在中美两地,全远程协作。团队成员来自哈佛大学、中国科学院、香港科技大学等顶尖高校。 岗位职责 核心(60%):推理平台开发 • 用 Python/FastAPI 构建 API Gateway,包括认证、计费、限流、OpenAI 兼容层 • 实现异步 Batch 任务系统(Redis + BullMQ),包括 Webhook 回调、SSE streaming、自动重试 • 接入双轨支付系统 • 部署和管理云端推理引擎(SGLang / vLLM),实现多模型热备与动态加载 • 编写 API 文档,搭建 CI/CD pipeline 重要(25%):性能与可靠性 • GPU 利用率监控(Prometheus + Grafana),成本追踪与优化 • 配合实现推理优化:量化部署、KV Cache 压缩、负载均衡 • 推理审计系统接口开发 辅助(15%):研究支持 • 为团队论文提供系统层实验数据 • 参与开源发布(GitHub repo、技术博客) • 论文署名机会,按实际贡献获得共同作者署名 岗位要求 • CS/EE/AI 相关专业在读硕士或博士 • 熟悉 Python 后端开发,有 FastAPI 或 Flask 项目经验 • 熟悉 Linux 环境,能独立配置 Docker、SSH、基本运维 • 了解 Redis / PostgreSQL / 消息队列 • 有基本的 GPU 环境使用经验(CUDA 安装、模型推理调用) 加分项 • 有生产环境后端系统开发经验 • 了解推理框架(vLLM / SGLang / TGI)部署流程 • 有支付系统或计费系统开发经验 • 熟悉 Prometheus / Grafana 监控栈 • 了解 Kubernetes / Docker Compose • 有开源项目贡献 实习安排 • 远程办公,每周 ≥35 小时 • 核心期限 6 个月,表现优秀可续 • 论文署名按贡献确定,入职时书面约定
投递要求:
简历要求: 不限
截止日期:2026-04-21
工作地点:
北京市/北京市/海淀区 清华东路
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历