岗位职责:
1. 多源数据采集:设计分布式爬虫系统(网页/APP/PDF/音视频),攻克反爬、JS 逆向、APP 抓包等技术难点
2. 数据工程化:构建 ETL 流水线,完成数据清洗、去重、脱敏;将非结构化文档转化为结构化知识
3. RAG 数据架构:设计文本分块(Chunking)与 Embedding 策略,负责向量数据库(Milvus/Pinecone 等)选型与优化
4. 数据集构建:制定数据标注规范,构建 SFT、RLHF 训练集及评测集,利用大模型辅助数据生产
任职要求:
1. 计算机相关专业,精通 Python,代码规范优良(Go/Rust 加分)
2. 爬虫专家:熟练使用 Scrapy、Playwright、Selenium,掌握反爬对抗与逆向技术
3. AI 工程化:熟悉 LLM 原理与 RAG 架构,熟练使用 LangChain/LlamaIndex 及至少一种向量数据库
4. 数据基础:精通 SQL,熟悉 PostgreSQL/MongoDB/Redis,掌握 Pandas/Spark 数据处理
加分项:
1. 知识图谱(Neo4j)构建经验
2. 开源 LLM/Agent 项目贡献者
3. 熟悉 OCR 及复杂 PDF 解析(Unstructured、PDFMiner)