岗位职责
1. 负责微信公众号、网站等公开数据源的爬取工作,设计高效稳定的爬虫策略。
2. 对爬取的数据进行清洗、去重、结构化处理,确保数据质量。
3. 协助搭建和维护爬虫数据架构,优化数据存储与调度流程。
4. 监控爬虫系统运行状态,及时排查和解决异常问题。
5. 配合团队完成数据需求分析和技术方案设计。
任职要求
1. 教育背景:计算机、软件工程、数据科学等相关专业优先,大三及以上或研究生在读,2026届应届毕业生优先,提供转正机会。
2. 技术能力:
2.1 熟练掌握Python编程,熟悉常用爬虫框架(如Scrapy、Requests、Selenium等)。
2.2 了解反爬机制(如IP封禁、验证码、动态加载等),具备一定的绕过经验。
2.3 熟悉数据清洗与处理工具(如Pandas、正则表达式、XPath等)。
2.4 了解数据库操作(MySQL/MongoDB/Redis等),有数据存储设计经验者优先。
2.5 了解基本的数据架构和调度工具(如Airflow、Kafka等)者加分。
2.6 项目经验:有实际爬虫项目经验(如校园项目、竞赛、开源项目等),能展示相关代码或成果。
3. 其他能力:
3.1. 具备良好的逻辑思维和问题解决能力,能独立排查技术问题。
3.2. 责任心强,沟通顺畅,具备团队协作意识。
3.3. 对数据敏感,有较强学习能力和主动性。
4. 加分项
4.1. 有公众号爬虫、动态网页抓取经验。
4.2 熟悉分布式爬虫、增量爬取等技术。
4.3 了解简单数据分析或可视化方法。
4.4 有GitHub技术博客或个人项目展示。
福利待遇
1. 实习补贴具竞争力,具体面议。
2. 配备技术导师一对一指导,接触实际企业级项目。
3. 实习期满提供正式录用机会,薪资待遇从优。
4. 弹性工作时间,开放友好的技术氛围。