【岗位职责】
1. 数据采集与治理
设计、开发并持续维护公司内部的数据采集与治理系统,保证高可用与可扩展。
2. 数据处理全流程
对目标数据进行采集、清洗、整合及质量监控,为业务与算法团队提供可靠数据资产。
3. 数据建模与存储架构
参与复杂业务系统的数据模型设计与存储架构优化,提升读写性能与易维护性。
4. 算法支持
协助完成数据项目的算法设计与实现,为上层应用提供高质量特征与评估指标。
5. 大语言模型研发协同
在 LLM 方向(如 GPT、Transformer)参与实验、验证与迭代。
【任职要求】
1. 学历背景
计算机科学、数学、物理或相关专业本科 / 研究生在读,能够保证 ≥ 3 个月全职实习周期
2. 编程能力
精通 Python,熟练使用 NumPy / Pandas 等数据分析库及至少一种数据可视化工具(Matplotlib / Plotly 等)
熟悉常用的爬虫框架,如Scrapy、Selenium等,了解常见的反爬机制,具备应对反爬虫的能力,如IP代理、验证码处理、动态网页处理等
3. 系统基础
熟悉 Linux 开发环境、计算机网络及常用数据结构与算法
4. 数据库
了解 MySQL / MongoDB 等数据库原理及基本调优
5. 思维能力
逻辑清晰、具备出色的数据敏感度与问题分析能力
【加分项】
1. 深度学习理论扎实,能基于 TensorFlow / PyTorch 等框架独立开发模型
2. 具有 NLP / LLM 项目经验,熟悉 Transformer 架构及 GPT 系列模型的部署与微调,理解 Prompt Engineering, 熟悉大模型的训练
3. 具有大语言模型相关的能力,深入理解大语言模型的架构、原理和应用,熟悉大模型的调优和部署流程。熟悉提示词工程,精通大语言模型应用开发框架
4. 拥有 ETL、数据仓库或实时流处理等 数据工程项目 实践
5. 具备国际化视野,英文沟通能力优秀,可作为工作语言