岗位职责
1.OpenCompass 框架二次开发与优化
深入基于 OpenCompass 框架进行二次开发,定制评测流程与接口,提升评测效率与自动化水平。
构建与维护完整的评测管线,从任务配置、模型调用到结果收集及报告输出,实现端到端流程一体化。
2.丰富评测集覆盖与执行。
熟练运行多类型常见评测集,覆盖以下几类(含但不限于):通用任务类、STEM类、代码生成类、智能体类、主观评测类等;
能根据业务需求,扩展或开发新的评测集与任务类型。
3.评测任务适配
编写脚本,将不同评测数据集适配进 OpenCompass 的任务配置,实现自动执行评测任务。
4.评测结果分析与反馈
能够根据评测结果撰写报告,进行模型版本之间在不同任务上的横向对比与可视化展示。
分析模型表现差异,定位瓶颈并提出改进建议,支持模型优化落地。
5.技术协作与文档维护
与模型开发与训练团队紧密协作,确保评测流程与训练流程无缝衔接。
编写并维护技术文档,输出操作指南与评测报告,保障内部评测体系的可持续使用。