【留用实习】大模型数据工程师实习招聘-快手实习生招聘-实习僧

【留用实习】大模型数据工程师

2026-03-24 18:02:31 刷新

薪资面议杭州本科 4天／周实习1个月提供转正机会

节日福利双休转正餐补健身房

微信扫码同步查看
投递方便通知及时

扫码手机查看

投个简历

职位描述：

数据工程不只是跑 Pipeline，主要承担三个层次的工作：训练数据供给（让模型学得好）、知识库建设（让 Agent 调得准）、记忆系统工程（让系统记得住）。三者共同构成大模型能力的数据底座，缺一不可。
【训练数据工程】
1、参与大模型训练数据的采集、清洗、去重、质量过滤的全链路建设，覆盖文本、图文、行为序列等多类型数据；
2、设计并实现数据质量评估体系，包括规则过滤、模型打分、人工标注一致性分析；
3、参与数据飞轮闭环建设，从线上反馈信号到数据回流、再到模型迭代的自动化链路；
4、基于 Spark / Flink / Ray 等框架构建高吞吐数据处理 Pipeline，支撑 TB 级数据规模。
【知识库工程】
1、参与知识库的工程建设，包括知识采集、结构化抽取、Schema 设计、增量更新 Pipeline；
2、构建知识条目的质量检测与覆盖率监控体系，保障知识的准确性与新鲜度；
3、与 Agent 团队协作，优化知识在 RAG 链路中的召回率与命中精度，闭环分析 bad case；
4、设计知识库的版本管理与回滚机制，支持多业务场景下的差异化知识配置。
【记忆系统工程】
1、参与AI 记忆系统的工程实现，包括用户记忆、会话记忆、场景记忆的写入、检索、更新、淘汰全链路；
2、设计记忆存储方案，在向量数据库、KV 存储、结构化 DB 之间做合理分层，兼顾检索效率与存储成本；
3、构建记忆质量评估体系，包括记忆准确性、召回相关性、对下游 Agent 任务的增益指标；
4、研究记忆压缩、记忆蒸馏、长期记忆管理等前沿方向，结合业务场景落地。1、本科及以上学历，计算机、统计、信息工程等相关专业；
2、熟练使用 Python，有数据处理实际经验（Pandas / Spark / SQL 均可）；
3、对数据质量有洁癖，理解脏数据对模型的影响；
4、能用 AI 工具加速数据脚本开发，有用 Vibe Coding 方式快速搭建数据 Pipeline 的经验或意愿。

加分项
1、有大规模数据 ETL 或数据仓库开发经验；
2、熟悉 Ray Data / Dask / Spark 等分布式数据处理框架；
3、了解大模型数据预处理标准流程（如 RedPajama、Dolma、FineWeb 等开源数据集的构建方法）；
4、理解 RAG 原理，有向量检索（Faiss / Milvus / Elasticsearch）实际使用经验；
5、了解大模型 Memory 机制的主流方案（MemGPT、Zep、mem0 等），或有相关工程实现经验；
6、理解主动学习（Active Learning）或数据选择（Data Selection / Curriculum Learning）方法；
7、有用 AI 工具生成、验证、调试数据处理代码的完整经历，能说清楚 AI 在你工作流中扮演的角色。

投递要求：

简历要求：中文

截止日期：2026-06-17

工作地点：

浙江/杭州/EFC欧美金融中心

求职中若出现虚假宣传，收取财物等违法情况。请立即举报

投个简历

公司简介

快手

产品服务找实习找校招看空宣

旗下产品实习僧实习僧TV 实习僧题库职场说

关于我们了解我们加入我们免责声明

联系我们实习僧公众号客户服务商务合作