岗位职责
1、参与爬虫系统的架构设计与开发;
3、负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析; 4、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;6、参与搜索引擎及个性化推荐项目的开发。
岗位要求
1、熟悉linux平台开发,有过Java、python或C/C++开发经验; 2、熟悉信息抓取和整合技术,从结构化的和非结构化的数据中获取信息; 3、熟悉Mysql,redis,mongdb三者至少之一,有过数据库调优和海量数据存储经验优先; 4、具有搜索相关技术研发经验者优先; 5、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先; 6、有nutch,heritrix抓取经验或者分布式抓取经验者优先;
7、一周出勤至少4个工作日,实习期6个月
当前职位已下线
为你揭秘各职业的工作内容|薪资水平…
使用python技术从事产品服务开发设计、爬虫服务、数据分析等业务的人员。