2、负责大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作
3、独立、协作完成数据采集模块的设计
4、负责业务数据的清洗、挖掘、整合与分析模型的建立、优化和评估 5、负责产品数据挖掘相关的算法、应用的设计与开发 岗位要求:1. 本科以上学历, 熟练运用Python语言及常用模块,熟悉python中多线程、多进程及网络开发等模块, 有扎实的数据结构和算法功底
2. 熟悉爬虫,信息抽取,文本分类
3. 熟悉mysql数据库,redis, mongodb等缓存技术,熟练掌握orm用法 4. 熟悉并熟练使用内存数据库Redis,非关系型数据库MongoDB,分布式系统等相关技术者优先 5. 有bi系统开发经验 6. 有大数据分布式计算分析平台(SPARK, Hadoop 以及 scikit-learn/nltk或者spark mllib)开发和使用经验者优先 7. 有离线计算/在线计算/LTR经验优先 8. 熟练掌握机器学习/数据挖掘/统计学等相关的基础理论和方法,有实际项目经验优先; 9. 有一定的前端开发基础,了解HTML、 Javascript开发优先 素质要求: 1. 的分析问题和解决问题的能力,对解决具有挑战性问题充满激情 2. 良好的编码规范、文档习惯当前职位已下线
为你揭秘各职业的工作内容|薪资水平…
负责一个大数据平台的底层架构的搭建和开发的人员。