【岗位职责】
1.核心数据采集: 负责公司AIGC业务所需的多模态数据(文本、文档、图像等)的爬虫开发与采集工作;
2.攻克爬虫难题: 应对各类反爬策略(如IP限制、验证码、JS逆向等),设计高效、稳定的分布式爬虫策略;
3.数据清洗与入库: 负责对采集的数据进行清洗、去重、格式转换(如PDF转Markdown),为大模型训练提供高质量的语料支持;
4.自动化流程: 维护和优化数据采集流水线,监控爬虫系统的运行状态,确保数据更新的及时性和完整性;
5.业务协作: 配合算法团队,协助完成部分基于大模型(LLM)的数据标注或简单应用层开发(如AI Agent的数据接口对接)。
【岗位要求】
1.本科及以上学历,计算机、软件工程等相关专业;
2.精通Python编程,熟练掌握多线程/多进程编程,代码风格规范;
3.熟练掌握主流爬虫框架(如Scrapy、Selenium、Playwright、Pyppeteer等),深刻理解HTTP/HTTPS协议;
4.具备反爬对抗经验,了解常见的反爬机制(Cookie池、代理IP池、JS逆向分析等);
5.熟悉MySQL、Redis、MongoDB等主流数据库的使用;
6.加分项: 对AIGC/大模型有浓厚兴趣,了解LangChain或有数据清洗(ETL)经验者优先。