【岗位职责】
1. 参与大模型数据工程中台(涵盖海量数据抓取、清洗处理、存储及模型服务)的架构设计与核心模块开发,持续突破高并发场景下的系统吞吐量与稳定性瓶颈。
2. 负责构建与优化分布式数据采集平台,攻克复杂场景下的反爬策略,保障多模态训练素材的高效、高质量产出。
3. 追踪并实践大模型与前沿工程技术,将新技术应用于实际的数据流转与处理链路中,提升业务整体运转效率。
任职资格
【任职要求】
1. 计算机科学与技术、人工智能、软件工程等相关专业硕士在读(具备同等技术潜力的优秀本科生亦可)。
2. 扎实的编程基础,精通 Go 或 Python,熟悉常用后端框架及底层原理,具备优秀的Linux系统级操作及问题排查能力。
3. 具备丰富的分布式网络爬虫实战经验,熟悉主流反爬机制及应对策略,能够独立完成复杂目标的数据获取。
4. 熟悉大模型底层结构(如Transformer)与应用生态,有NLP、海量数据处理或深度学习相关项目落地经验者优先。
5. 具备极强的技术好奇心与自驱力,逻辑分析能力强,面对无明确边界的技术难题能主动寻找并落实解决方案。