大模型算法
2026-06-12 08:58:53 刷新
400/天 上海 硕士 5天/周 实习3个月 提供转正机会
可转正实习一对一导师实习津贴接受大一大二
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
【岗位职责】 1. 多模态模型应用与评测 ● 调研并接入主流的多模态基座模型(如 GPT-5, Gemini 3 Pro, Qwen-VL 等)。 ● 针对“动作分析”场景,对比不同基座模型在细粒度动作识别(如:挥拍时机是否滞后)上的表现,输出评测报告。 2. 视频 Prompt Engineering (提示词工程) ● 设计专门针对动态视频的 Prompt 策略(如 Chain-of-Thought, Few-shot Prompting)。 ● 探索如何通过文字描述教大模型输出所需的分析结果。 3. 视频数据处理与上下文优化 ● 解决大模型处理视频的Context Window(上下文窗口)限制问题。设计合理的抽帧策略(关键帧提取)或时序压缩方案,在保留动作细节的前提下减少Token消耗。 ● 建设“视频-专家建议”的黄金测试集(Golden Set),用于自动化评估大模型的输出质量。 4. 快速 Demo 搭建 ● 使用 Streamlit / Gradio 搭建交互式原型:上传一段训练视频,模型直接输出“动作评分+错误点解析+改进建议”。 ● 针对模型产生的“幻觉”(如胡乱点评),设计处理或校验机制进行修正。 【岗位要求】 1. 基本要求 ● 计算机、人工智能或相关专业,硕士及以上学历在读。 ● 每周出勤4天以上,实习周期3个月以上。 2. 核心能力(侧重 VLM 理解) ● 熟练玩转大模型:熟悉 HuggingFace 生态,有调用 OpenAI/Google Gemini API 或本地部署开源 VLM(如 Qwen-VL)的实际经验。 ● Prompt Engineering:深刻理解如何通过提示词引导模型关注视频细节,了解 CoT(思维链)在多模态场景下的应用。 ● Python 工程能力:熟练使用 Python 进行 API 封装、数据处理和 Demo 开发(Streamlit/Gradio)。 3. 视频理解基础 ● 理解视频在模型中是如何被表示的(Tokenization, Embeddings)。 ● 了解基础的视频处理工具(FFmpeg, OpenCV),能进行基本的视频剪裁和抽帧操作。 4. 加分项 ● 传统 CV 经验:了解 Pose Estimation(姿态估计)原理,能作为辅助手段验证大模型的准确性。 ● 体育迷:能分辨什么是“标准动作”,对模型输出的建议有直观的判断力。 ● Agent 开发:了解如何利用大模型构建Agent
投递要求:
简历要求: 中文
截止日期:2026-09-12
工作地点:
上海市/上海市/浦东新区 marvall火星谷3号楼
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历
公司简介