1、负责网页信息抓取、数据清洗、入库等研发和优化工作;
2、负责抓取任务优化及自动化;
3、负责提升抓取效率、数据质量及抓取速度。
任职资格
1、统招本科及以上学历;
2、了解爬虫的设计及实现流程;
3、熟悉使用python(python下的网络编程、数据处理);
4、熟悉网页抓取原理及技术,熟悉基于Cookie的网站登录原理;
5、熟悉基于正则表达式、Xpath、CSS等网页信息抽取技术;
6、熟悉 java script, html, xml, json等多种网页技术和数据协议;
7、熟悉常见的对反爬技术以及应对方法;
8、熟练掌握一门数据库技术及SQL语言,了解基本的数据结构;
9、熟悉使用scrapy或其它爬虫框架。