我们正在探索利用计算机视觉和多模态模型对大规模视频数据进行自动理解和结构化。
我们希望招聘一位算法实习生,参与视频理解相关算法的研发与落地。
岗位职责:
1. 参与视频理解相关算法的设计与实现;
2. 在真实数据场景中提升模型的准确率、稳定性和效率;
3. 将算法能力落地到实际数据系统和应用中;
4. 持续探索更高效的视频理解与数据结构化方法。
任职要求:
1. 熟悉常见 open-vocabulary detection/segmentation/tracking方法;
2. 有基于大模型的视频理解或video segmentation相关经验;
3. 有多模态理解 / video-language 模型应用经验,熟悉 Qwen、Gemini 等大模型在下游任务中的能力特点,并能够设计和搭建相关应用 pipeline;
4. 熟悉视频处理 pipeline(如 FFmpeg 等);
5. 熟悉 PyTorch等深度学习框架。
加分项:
1. 有大规模视频数据处理经验;
2. 有算法成本优化经验(推理成本 / 计算成本 / pipeline 效率);
3. 有云平台使用经验(如 GCP / AWS / 阿里云等),能够在云环境中进行模型训练或推理部署。