岗位职责:
参与多模态(如图像、文本、语音、视频等)算法的研发与优化,包括但不限于跨模态检索、生成、对齐、表征学习等方向。
探索大模型(如CLIP、BLIP、GPT、DALL-E等)在多模态任务中的应用,优化模型性能或效率。
针对实际业务场景(如内容理解、智能创作、人机交互等)设计并实现算法解决方案。
跟踪学术界与工业界前沿技术,复现论文或开源项目,推动技术落地。
任职要求:
学历背景:计算机科学、人工智能、电子工程、数学等相关专业在读硕士/博士,或优秀本科生。
技术能力:
熟悉深度学习框架(PyTorch/TensorFlow),具备扎实的编程能力(Python为主)。
了解多模态领域常用模型(如ViT、BERT、Transformer等)和数据集(如COCO、Conceptual Captions等)。
有图像处理(CV)、自然语言处理(NLP)或语音(ASR)相关项目经验者优先。
加分项:
发表过多模态相关顶会论文(CVPR/ICML/NeurIPS/ACL等)或开源项目贡献者。
熟悉大模型训练、微调(LoRA/P-tuning)或分布式训练(Deepspeed/FSDP)。
具备工程落地经验,如模型压缩、推理加速、部署优化等。
其他:
对技术有热情,具备良好的学习能力和团队协作精神。
能适应快节奏的研发环境,逻辑清晰,责任心强。