职位描述:
岗位职责:
- 使用爬虫技术从公开网站或API中采集多模态数据(文本、图像、视频等),并进行清洗、整理和降噪;
- 参与数据标注、清洗及降噪工作,优化数据生产流程;
- 使用Markdown或LaTeX编写技术文档、数据报告及项目说明;
- 负责Android应用的逆向分析,包括协议分析和API接口还原;
- 协助团队完成数据生产流程的优化与创新,推动数据质量的提升;
- 参与分布式爬虫和数据采集系统的架构设计与开发,提升抓取效率和稳定性;
- 解决数据采集、清洗和存储中的技术难点,确保数据的高可用性和精准性。
岗位要求:
- 计算机相关专业在读本科生或研究生,扎实的计算机科学专业基础;
- 熟练掌握Python,具备较强的工程能力,熟悉Scrapy、Selenium等爬虫框架;
- 熟悉Http协议、Web应用登录与校验机制,了解JSON格式和正则表达式;
- 熟悉MySQL、PostgreSQL、Redis、Elasticsearch等数据库技术;
- 了解Langchain等LLM应用开发框架,对AI技术(如NLP、CV、LLM应用开发)有一定了解;
- 熟练使用Markdown或LaTeX编写文档,具备良好的文档编写能力;
- 具备快速学习能力和团队合作精神,对AI数据领域(如数据标注、清洗、CoT等)感兴趣;
- 熟悉Git版本控制工具,熟练操作微软办公软件;
- 了解多模态数据处理(文本、图像、视频等)者优先;
- 有Android应用逆向分析经验者优先。
加分项:
- 了解AngularJS、VueJS等前端框架;
- 了解Django、Spring等后端技术;
- 对网络安全感兴趣,具备项目管理经验或兴趣。
投递要求:
简历要求: 中文
截止日期:2025-04-28