岗位职责
1. 严格遵循 robots.txt 协议及网络爬虫合规规范,对互联网公开学术资源等公开网页与数据集进行合法采集,保障数据来源合规性;
2. 设计并开发分布式爬虫架构,独立解决调度优化、高并发处理、数据覆盖率提升等核心问题,持续优化爬虫系统的抓取效率、稳定性与扩展性;
3. 负责网页信息抽取技术与算法的研究迭代,优化 XPath/CSS 选择器、正则表达式等抽取逻辑,提升目标数据(学术成果、人才画像等)的抓取精度与处理效率;
4. 搭建数据清洗与去重体系,完成爬取数据的解析、标准化处理及入库操作;负责爬虫系统全链路监控、异常检测与告警机制建设,保障数据采集连续性。
任职要求
1. 2026年及以后毕业的本科及以上学历在校生,计算机科学与技术、软件工程、数据科学等相关专业;能保证6个月以上全职实习(每周5天),稳定性强;
2. 熟悉 Python/Java/Go/C++ 中至少两种编程语言,具备扎实的编码功底与数据结构、算法基础;
3. 熟练掌握至少一种爬虫核心库(Requests/BeautifulSoup/Scrapy 等),具备独立完成中小型爬虫项目的开发经验;
4. 深入理解 HTTP/HTTPS 协议、TCP 网络通信原理,熟悉网页渲染机制(静态/动态),能应对常见反爬策略(如 UA 验证、IP 限制、验证码等)。
加分项
1. 熟悉 Playwright/Puppeteer 等无头浏览器工具,具备动态渲染页面(Vue/React 框架)数据抓取经验;
2. 熟悉 XPath、CSS Selector、正则表达式等信息抽取技术,或具备自定义抽取算法开发能力;
3. 了解 NLP 基础技术,有 Fasttext、N-gram、BERT、GPT 等算法/模型在数据清洗、文本抽取中的实际应用经验;
4. 具备分布式系统设计、消息队列(如 Kafka/RabbitMQ)、数据库优化(MySQL/MongoDB)相关经验;
5. 有高校学术数据信息等垂直领域爬虫项目经验者优先