工作职责:
1.分布式爬虫系统和数据采集的设计、开发以及任务调度
2.爬虫策略和防屏蔽规则,提升网页抓取的效率和质量。
3.互联网数据的采集抓取。
4.数据的抽取清洗与维护
5.参与爬虫算法的策略优化研究
任职资格:
计算机基础知识扎实,包括不限定于操作系统、计算机网络、数据结构和算法
理解常见并发模型和场景、对 IO、多线程、集合基础框架等有扎实理解
熟悉 Python语言
熟悉网页抓取原理及技术,熟悉正则表达式
熟悉SQL, 有Postgresql, CockroachDB经验优先
有 Scrapy / Pyspider 框架的使用经验或自己手写过类似框架
有较强的分析和解决问题能力,学习能力强,善于沟通,有团队合作意识。
有主流视频音乐网站数据抓取经验优先
当前职位已下线
为你揭秘各职业的工作内容|薪资水平…
使用python技术从事产品服务开发设计、爬虫服务、数据分析等业务的人员。