岗位职责
1.负责数据获取模块的开发:调用、设计、开发和维护高效稳定的网络爬虫程序,自动化采集法规准则、行业监管、上市公司信息及税务法规等海量公开数据,为知识库提供高质量的数据源。
2.参与AI知识库的后端构建(与算法同学协同):基于LangChain和LlamaIndex等主流框架,参与实现文本的自动化清洗、切片策略、向量化,以及图数据库与向量数据库的混合存储方案。
3.负责后端服务的工程化与API开发:基于云平台进行部署,将知识库的核心能力封装成稳定、可扩展的API服务,确保上层智能应用可以流畅、高效地调用,并撰写清晰的接口文档。
4.系统功能测试:进行系统的基本测试。
任职要求
教育背景:计算机科学、软件工程、数据科学或相关专业,本科及以上在校生。
技术能力(必备):
1.扎实的Python编程功底,代码风格良好,熟悉常用的数据结构与算法。
丰富的网络爬虫开发经验,熟练掌握至少一种主流爬虫技术,具备一定的反爬策略应对经验。
2.具备一定的后端开发能力。
3.了解数据库基础,有SQL或NoSQL(如MongoDB)的使用经验。
技术能力(加分项):
1.了解 LangChain、LlamaIndex 等大模型应用框架者优先。
2.有向量数据库(如Pinecone, Weaviate, Milvus)使用经验者优先。
3.熟悉 Docker 容器化技术与部署流程者优先。
4.对审计、财务领域有了解或兴趣者优先。
个人素质:
具备强烈的求知欲和快速学习能力,能主动探索新技术并应用于实践。
拥有良好的沟通能力和团队协作精神,工作认真负责,能按时交付高质量成果。