爬虫工程师实习招聘-萌想科技（实习僧）实习生招聘-实习僧

爬虫工程师

2025-11-28 14:49:40 刷新

100-150/天成都本科 5天／周实习6个月

周末双休一对一导师不加班

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

岗位职责
严格遵循 robots.txt 协议及网络爬虫合规规范，对互联网公开学术资源等公开网页与数据集进行合法采集，保障数据来源合规性；
设计并开发分布式爬虫架构，独立解决调度优化、高并发处理、数据覆盖率提升等核心问题，持续优化爬虫系统的抓取效率、稳定性与扩展性；
负责网页信息抽取技术与算法的研究迭代，优化 XPath/CSS 选择器、正则表达式等抽取逻辑，提升目标数据（学术成果、人才画像等）的抓取精度与处理效率；
搭建数据清洗与去重体系，完成爬取数据的解析、标准化处理及入库操作；负责爬虫系统全链路监控、异常检测与告警机制建设，保障数据采集连续性。

任职要求
2026年及以后毕业的本科及以上学历在校生，计算机科学与技术、软件工程、数据科学等相关专业；能保证6个月以上全职实习（每周5天），稳定性强；
熟悉 Python/Java/Go/C++ 中至少两种编程语言，具备扎实的编码功底与数据结构、算法基础；
熟练掌握至少一种爬虫核心库（Requests/BeautifulSoup/Scrapy 等），具备独立完成中小型爬虫项目的开发经验；
深入理解 HTTP/HTTPS 协议、TCP 网络通信原理，熟悉网页渲染机制（静态/动态），能应对常见反爬策略（如 UA 验证、IP 限制、验证码等）。

加分项
熟悉 Playwright/Puppeteer 等无头浏览器工具，具备动态渲染页面（Vue/React 框架）数据抓取经验；
熟悉 XPath、CSS Selector、正则表达式等信息抽取技术，或具备自定义抽取算法开发能力；
了解 NLP 基础技术，有 Fasttext、N-gram、BERT、GPT 等算法/模型在数据清洗、文本抽取中的实际应用经验；
具备分布式系统设计、消息队列（如 Kafka/RabbitMQ）、数据库优化（MySQL/MongoDB）相关经验；
有高校学术数据信息等垂直领域爬虫项目经验者优先

投递要求：

简历要求：中文

截止日期：2025-12-31

工作地点：

四川省/成都市/武侯区天府软件园G区7栋7楼

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介

萌想科技（实习僧）

产品服务找实习找校招看空宣

旗下产品实习僧实习僧TV 实习僧题库职场说

关于我们了解我们加入我们免责声明

联系我们实习僧公众号客户服务商务合作