主要职责:
* 设计、开发并维护基准测试流程,用于评估训练和推理性能(例如:速度、吞吐量、内存使用情况、延迟)。
* 对 vLLM、SGLang 等推理框架进行性能基准测试与对比分析。
* 进行深入的性能剖析与分析,定位系统瓶颈并提出优化方案。
* 使用常见的自动化工具,开发并维护用于功能测试、回归测试和集成测试的自动化测试套件。
* 将基准测试和功能测试集成到持续集成/持续部署流程中。
* 撰写清晰、简洁的测试报告、性能指标和分析结果文档。
职位要求:
* 目前在校,攻读计算机科学、软件工程或相关技术领域的本科或硕士学位。
* 熟练掌握 Python 编程。
* 对深度学习概念有基本了解,有 PyTorch 使用经验。
* 熟悉软件测试概念和版本控制系统。
* 具备出色的分析和解决问题的能力。
* 具备快速学习的能力,并能在团队环境中高效协作。
优先考虑:
* 了解或有意学习 vLLM、SGLang 等推理服务器和框架。
* 有性能剖析工具的使用经验。
* 有 Pytest 等测试框架或 Jenkins 等自动化工具的实践经验。
* 了解 CI/CD 概念及相关工具。
* 对编译器技术、GPU 计算或分布式系统有兴趣或基础了解。