【需立即到岗】
职位描述:
1、 快速熟悉公司业务和项目,能在较短的时间内进入工作状态,融入团队;
2、 协助团队一起搭建稳定高效的爬虫系统,完成业务目标,包括但不限于链接调度,索引页调度,存储优化等
3、 对爬取到的原始数据进行解析、清洗、分析,包括但不限于html解析、归一化/去重、死链检测、垃圾识别,建设高质量数据,确保数据的全和准
4、协助团队研究反爬虫技术,应对各类反爬机制,找到解决方案
职位要求:
1、本科及以上学历在读,计算机、软件工程等相关专业
2、优秀的代码能力、数据结构和基础算法功底
3、熟悉Linux开发环境、至少熟悉C/C++、Java、Python、Go等一种语言
4、有较强的学习能力和团队合作精神,能够快速响应业务需求
加分项:
熟悉 HTTP/HTTPS 协议工作原理,Cookie,Xpath等,对数据爬取、html解析有浓厚兴趣
熟悉常见的反爬虫机制和应对策略,具备一定的逆向工程能力
熟悉大数据处理、分布式系统