岗位职责
1.负责文本、音频数据的爬取,清洗、解析、入库
2.负责制定爬取策略,以及部署实施
3.参与NLP自然语言处理和语音识别相关开发。
岗位要求
1、计算机相关专业,熟悉Linux基本操作
2.熟悉Python、Java、C++等常用编程语言至少一种,有良好的编码习惯
3.了解http协议,对抓包、模拟请求、模拟登陆等有一定了解
4.能熟练掌使用xpath、正则等对html文本进行处理
5.熟练使用flask/tornado/django、scrapy等web框架
6.了解机器学习,能通过深度学习方面的知识对文本、语音、视频进行处理的更佳