数据工程不只是跑 Pipeline,主要承担三个层次的工作:训练数据供给(让模型学得好)、知识库建设(让 Agent 调得准)、记忆系统工程(让系统记得住)。三者共同构成大模型能力的数据底座,缺一不可。
【训练数据工程】
1、参与大模型训练数据的采集、清洗、去重、质量过滤的全链路建设,覆盖文本、图文、行为序列等多类型数据;
2、设计并实现数据质量评估体系,包括规则过滤、模型打分、人工标注一致性分析;
3、参与数据飞轮闭环建设,从线上反馈信号到数据回流、再到模型迭代的自动化链路;
4、基于 Spark / Flink / Ray 等框架构建高吞吐数据处理 Pipeline,支撑 TB 级数据规模。
【知识库工程】
1、参与知识库的工程建设,包括知识采集、结构化抽取、Schema 设计、增量更新 Pipeline;
2、构建知识条目的质量检测与覆盖率监控体系,保障知识的准确性与新鲜度;
3、与 Agent 团队协作,优化知识在 RAG 链路中的召回率与命中精度,闭环分析 bad case;
4、设计知识库的版本管理与回滚机制,支持多业务场景下的差异化知识配置。
【记忆系统工程】
1、参与AI 记忆系统的工程实现,包括用户记忆、会话记忆、场景记忆的写入、检索、更新、淘汰全链路;
2、设计记忆存储方案,在向量数据库、KV 存储、结构化 DB 之间做合理分层,兼顾检索效率与存储成本;
3、构建记忆质量评估体系,包括记忆准确性、召回相关性、对下游 Agent 任务的增益指标;
4、研究记忆压缩、记忆蒸馏、长期记忆管理等前沿方向,结合业务场景落地。1、本科及以上学历,计算机、统计、信息工程等相关专业;
2、熟练使用 Python,有数据处理实际经验(Pandas / Spark / SQL 均可);
3、对数据质量有洁癖,理解脏数据对模型的影响;
4、能用 AI 工具加速数据脚本开发,有用 Vibe Coding 方式快速搭建数据 Pipeline 的经验或意愿。
加分项
1、有大规模数据 ETL 或数据仓库开发经验;
2、熟悉 Ray Data / Dask / Spark 等分布式数据处理框架;
3、了解大模型数据预处理标准流程(如 RedPajama、Dolma、FineWeb 等开源数据集的构建方法);
4、理解 RAG 原理,有向量检索(Faiss / Milvus / Elasticsearch)实际使用经验;
5、了解大模型 Memory 机制的主流方案(MemGPT、Zep、mem0 等),或有相关工程实现经验;
6、理解主动学习(Active Learning)或数据选择(Data Selection / Curriculum Learning)方法;
7、有用 AI 工具生成、验证、调试数据处理代码的完整经历,能说清楚 AI 在你工作流中扮演的角色。