岗位职责:
1. 结合大模型训练需求,负责设计、开发和维护面向视频/社交平台的互联网数据(视频、文本数据)采集系统。
2. 针对大模型数据预处理要求,优化爬虫数据格式和质量,制定相应的数据抓取、解析与清洗策略。
3. 结合大模型场景,构建半自动/自动化定向抓取能力,推进数据抓取工作平台化建设。
职位要求:
4. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业。
5. 有爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先。
6. 熟悉并能绕过常见的反爬技术(如动态网页加载、验证码、JS加密等)。
7. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、Selenium、Playwright等)。
8. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略。
9. 熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能够对复杂数据进行高效提取和清洗。
加分项:
10. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。
11. 熟悉数据加密与解密技术,能够破解复杂的加密算法。
12. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。