工作职责
参与 ERNIE 大模型主观能力(如创意写作、指令遵循、用户偏好等)的评测体系与策略设计,协助搭建和优化主观评估方法论。
基于真实用户行为数据(如 Arena 对战日志、用户反馈、业务侧数据等),分析模型主观体验问题,识别关键能力短板并提出改进策略。
协助进行主观评测数据的构建与分析,包括评测维度拆解、样本筛选、结果汇总与结论输出。
支持与算法、数据等多方协作,将主观策略结论转化为可落地的模型优化或数据建设方向。
参与行业与学术前沿调研(如主观评测 Benchmark、LLM 用户体验评估方法),形成结构化调研与内部分享材料。
任职资格
研究生及以上在读,计算机、人工智能、数据科学、统计学、产品管理等相关专业优先。
对大语言模型(LLM)和生成式 AI 有强烈兴趣,了解或使用过 ChatGPT、ERNIE、Claude 等模型者优先。
具备良好的逻辑分析与结构化思维能力,能够从复杂主观问题中拆解可分析、可评估的维度。
具备基础的数据分析能力(如 Excel / Python / SQL 等),有评测、调研或实验分析经验者加分。
沟通能力强,责任心高,能够在跨团队协作中推进事项落地。