岗位职责:
1.负责分布式网络爬虫系统机构设计与开发(如任务调度/信息抽取/信息存储等),支撑千万级数据抓取及实时同步,提升网络抓取效率与质量;
2.负责数据提取、清洗、机构化、统计分析等需求,促进产品优化;
3.负责外部合作商数据服务对接与开发,保障业务安全、稳定运转。
任职要求:
1.大学本科及以上学历,计算机相关专业;
2.熟练使用Hive SQL、Hadoop相关技术,理解MR原理和过程;
3.掌握Python、Java相关技术,至少掌握一种开源爬虫框架;
4.掌握HTTP、HTML、CSS等基础技能,熟悉mongo、redis、kafka等相关技术者优先;
5.工作认真负责,逻辑清晰,有较好的交流沟通能力和团队合作能力。
当前职位已下线