爬虫工程师
2025-11-28 14:49:40 刷新
100-150/天 成都 本科 5天/周 实习6个月
周末双休一对一导师不加班
微信扫码同步查看
投递方便通知及时
扫码手机查看
投个简历
职位描述:
岗位职责 1. 严格遵循 robots.txt 协议及网络爬虫合规规范,对互联网公开学术资源等公开网页与数据集进行合法采集,保障数据来源合规性; 2. 设计并开发分布式爬虫架构,独立解决调度优化、高并发处理、数据覆盖率提升等核心问题,持续优化爬虫系统的抓取效率、稳定性与扩展性; 3. 负责网页信息抽取技术与算法的研究迭代,优化 XPath/CSS 选择器、正则表达式等抽取逻辑,提升目标数据(学术成果、人才画像等)的抓取精度与处理效率; 4. 搭建数据清洗与去重体系,完成爬取数据的解析、标准化处理及入库操作;负责爬虫系统全链路监控、异常检测与告警机制建设,保障数据采集连续性。 任职要求 1. 2026年及以后毕业的本科及以上学历在校生,计算机科学与技术、软件工程、数据科学等相关专业;能保证6个月以上全职实习(每周5天),稳定性强; 2. 熟悉 Python/Java/Go/C++ 中至少两种编程语言,具备扎实的编码功底与数据结构、算法基础; 3. 熟练掌握至少一种爬虫核心库(Requests/BeautifulSoup/Scrapy 等),具备独立完成中小型爬虫项目的开发经验; 4. 深入理解 HTTP/HTTPS 协议、TCP 网络通信原理,熟悉网页渲染机制(静态/动态),能应对常见反爬策略(如 UA 验证、IP 限制、验证码等)。 加分项 1. 熟悉 Playwright/Puppeteer 等无头浏览器工具,具备动态渲染页面(Vue/React 框架)数据抓取经验; 2. 熟悉 XPath、CSS Selector、正则表达式等信息抽取技术,或具备自定义抽取算法开发能力; 3. 了解 NLP 基础技术,有 Fasttext、N-gram、BERT、GPT 等算法/模型在数据清洗、文本抽取中的实际应用经验; 4. 具备分布式系统设计、消息队列(如 Kafka/RabbitMQ)、数据库优化(MySQL/MongoDB)相关经验; 5. 有高校学术数据信息等垂直领域爬虫项目经验者优先
投递要求:
简历要求: 中文
截止日期:2025-12-31
工作地点:
四川省/成都市/武侯区 天府软件园G区7栋7楼
求职中若出现虚假宣传,收取财物等违法情况。请立即举报
投个简历