1.参与分布式爬虫和数据采集系统的开发;
2. 解决规模增长带来的技术和业务问题,确保提供高可靠数据服务,保证系统稳定、高效运行;
3. 设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量;
4. 负责大规模文本、图像、视频数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作;
5.利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求。
任职要求:
1. 计算机科学、应用数学、物理学、统计学、等相关专业本科及以上学历;
2. 了解常用数据结构和相关算法,了解缓存、消息机制、并发框架、异步框架等;
3. 有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,对技术饱有热情。
日薪:研究生及以上:80-120/天
研究生以下:50-80/天