岗位职责:
1. 负责基于Python的网络爬虫开发,完成指定网站/平台的结构化与非结构化数据采集任务(如学术、金融、工业等领域)。
2. 处理反爬机制(如验证码、动态加载页面),优化爬虫的稳定性与效率。
3. 对采集的数据进行清洗、去重、格式化存储,并有一定数据分析能力。
4. 协助搭建分布式爬虫系统,参与采集系统架构的设计与维护。
5. 配合团队完成数据需求文档编写及技术方案调研。
任职要求:
1. 技能要求:
- 熟练掌握Python,熟悉Scrapy、BeautifulSoup、Requests等爬虫框架及库。
- 了解HTTP协议、XPath/CSS选择器、正则表达式等数据解析技术。
- 熟悉MySQL/MongoDB等数据库操作,能设计高效的数据存储方案。
- 有Selenium/Playwright动态爬取经验或分布式爬虫(如Redis队列)实践优先。
2. 其他要求:
- 计算机等相关专业。
- 具备良好的逻辑思维和问题解决能力,能独立调试代码。
- 对数据敏感,有责任心,适应快节奏工作。