1、对接视频/图片/音频等各类多模态模型的数据生产需求,打造业界领先的多模态数据生产引擎,持续提升训练数据的规模、质量和迭代效率,支撑可灵全系多模态生成模型训练;
2、搭建 Data Centric的多模态数据处理pipeline,包括数据处理算子开发、跨模态检索引擎开发、多模态数据的内容理解、质量筛选、组织与合成等关键环节;
3、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的快速部署,持续优化多模态数据的存储以及检索效率。1、本科及以上学历,计算机、软件工程、人工智能等相关专业优先;
2、计算机基础扎实,熟练掌握Java/C++/Python语言中的一种,有服务端系统的开发经验;
3、聪明好学,有较强的自驱力和学习力,良好的沟通协作能力;
4、熟悉分布式计算或大数据处理框架(如Ray、Flink、ES等),或者大模型推理训练框架(如vLLM、SGLang、PyTorch)者优先。