职责描述:
1. 负责网络爬虫采集规则的编写;
2. 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
3. 各类互联网数据的采集抓取;
4. 部分数据分析数据统计相关工作;
任职要求:
1)熟悉Python 或者 Java,熟悉常用爬虫框架中的一种或多种,如Scrapy,pyspider等;
2. 熟悉HTML/JavaScript/CSS/xpath/url/Ajax/xml等web技能知识,熟悉requests、WebDriver、phantomjs、curl等工具;
3. 熟悉Linux系统,熟悉MySQL、Redis、NoSQL等,熟悉Internet基本协议(如TCP/IP、HTTP等);
4. 能够解决封账号、封IP采集等问题,解决网页抓取、信息抽取等问题,构建完善的网络信息收集平台;
5. 熟悉常用的数据结构和算法。
6. 熟悉常用SQL语句的编写。
7. 有数据挖掘,自然语言处理(NLP)经验优先当前职位已下线
为你揭秘各职业的工作内容|薪资水平…
运用机器学习技术处理海量数据,发现富有价值的业务信息的工程技术专业人员。