岗位职责:
1. 负责文本视觉生成(图片,视频),文本视觉理解,多模态语言模型的研究工作,提高模型泛化能力;
2. 负责图文多模态模型的下游算法及应用研究,例如:continual learning, multimodal-GPT, fine-grained analysis,个性化生成,可控生成等;
3. 负责图文多模态技术在端侧加速,推荐搜索,广告内容创作,影音娱乐等领域的落地研究工作;
4. 跟进业界前沿技术,持续提升团队在图文多模态算法方面的技术积累。
任职要求:
1. 计算机科学,统计学,数据挖掘,数学,物理等相关专业,在预训练模型,生成算法,计算机视觉,自然语言处理,模型压缩及端侧部署,信息检索,多模态学习等中的一个或多个领域中具备实践经验;
2. 扎实的编程基础,至少熟悉一种常见的深度学习框架(Pytorch, TensorFlow等);
3. 熟悉计算机视觉,自然语言处理,机器学习等方面的基础技术,有预训练相关实践经验者或在人工智能顶会/期刊上发表研究论文者优先(例如:CVPR/ICCV/ECCV/NIPS/AAAI/ICML/ICLR/TPAMI/TIP/IJCV等);
4. 良好的数学基础与英文阅读能力,具备良好的团队协作意识与优秀的自驱力。