【工作内容】
1.预训练数据处理:
收集、整理和清洗用于预训练的多模态数据,包括文本、图像等。
对数据进行预处理,如分词、去噪、归一化等,以确保数据质量。
根据模型需求,对数据进行特征提取和转换。
2.Alignment数据处理:
收集和整理用于模型对齐(alignment)的数据,包括配对的多模态数据。
对数据进行对齐处理,如图像与文本的对齐、音频与文本的对齐等。
确保对齐数据的准确性和一致性。
3.数据管理:
建立和维护数据管理系统,包括数据存储、索引和检索。
对数据进行版本控制和管理,确保数据的可追溯性和可重复性。
定期备份和恢复数据,以防止数据丢失。
4.数据验证:
设计和执行数据验证流程,以确保数据的准确性和完整性。
对数据进行抽样检查和质量评估,及时发现和纠正数据问题。
与团队成员合作,解决数据相关的问题和挑战。
【职位要求】
教育背景: 计算机相关专业本科或研究生在读。
技术能力: 熟悉Python编程语言,了解数据处理和分析的基本方法和工具。
多模态理解: 对多模态数据(文本、图像、音频等)有基本的理解和处理能力。
学习能力: 具备快速学习和适应新知识、新技能的能力。
团队合作: 良好的沟通能力和团队合作精神,能够与团队成员密切合作。