1、负责大模型推理服务平台的架构设计与核心模块开发,实现 Serverless Model 与 GPU 池化技术,通过模型实例的秒级启停和显存复用,显著降低推理成本;
2、研发弹性高效推理引擎(Scaling-efficient Engine),集成显存池管理、分布式 KV Cache 传输、主机内存预取、模型权重格式转换、CUDA Graph 缓存等关键技术,实现模型权重的快速换入换出和推理实例的秒级启动;
3、负责大模型推理服务平台与批量推理平台的架构设计与核心模块开发,支持离线批量推理、定时任务、高吞吐异步推理等场景,实现任务级与请求级资源的统一调度与管理;
4、设计并实现分布式KV缓存池,用于高效存储与复用推理过程中的 KV Cache,支持跨节点、跨模型的 KV Cache 共享与传输,显著降低重复计算开销,提升 Prefix Cache 命中率与推理吞吐。