初创美股AI量化公司——机器学习量化数据与特征工程师(实习、全职)
工作地点:上海市杨浦区,近复旦大学新江湾校区
薪酬:面议
我们在做什么:
· 我们专注于美股全市场量化择时/选股,实施以AI驱动的战略,目前以机器学习(如LightGBM、XGBoost等)/深度学习为核心训练方式。你将与模型研究员紧密协作,把原始多源金融数据打造成稳定、可回溯、无泄漏的特征与数据资产,直接驱动Alpha与回测/上线表现。
你的主要工作:
· 作为机器学习量化数据与特征工程师,负责构建、优化、处理、清洗和维护大规模金融数据管道,并从原始数据中提炼出具有预测能力的“Alpha特征”,为AI研究员和机器学习提供强大、可靠的数据和特征集。
· 数据基础设施构建: 设计、构建并维护低延迟、高可用的金融数据管道,处理TB级别的多维度数据(包括价量数据、基本面数据、另类数据等)。
· 数据获取和下载:熟练使用API和其他方式从数据服务商(Polygon、FactSet、Nasdaq Data Link等)将大规模原始数据下载到本地进行存储。
· 大规模数据清洗与处理: 对海量金融数据进行清洗、校验、对齐和去噪,确保数据的高质量和一致性,应对金融数据中常见的存活者偏差、缺失值等问题。
· 特征工程: 深入理解市场微观结构和量化策略,运用统计方法和领域知识,从原始金融数据中创造性地提取和构建有预测能力的特征。
· 特征平台与管理: 参与开发和维护公司内部的特征平台,实现特征的标准化、版本化和自动化计算,提升量化研究员的迭代效率。
· 自动化与性能优化: 优化数据处理的性能和成本,使用Polars/PyArrow/DuckDB等工具进行高效处理,实现数据Pipeline的自动化监控和预警。持续优化成本/吞吐。
我们期望你(必备技能):
· 学历与专业: 计算机科学、统计学、数学、金融工程或相关领域的硕士在读及以上学历。拥有量化和机器学习相关经验的优先。
· 编程能力:精通 Python 及相关数据科学生态(Polars、PyArrow、DuckDB、Pandas、NumPy、Scikit-learn等)。掌握基本SQL。具备优秀的编码和调试能力,提交高质量的代码。能熟练阅读并深入理解各种英文文档(如python api文档、各种软件的文档等)。
· 善用AI与自动化提高产出,包括但不限于chatgpt, openai codex, cursor等等(公司提供chatgpt pro账号),具备很高的prompt撰写技巧和专注力,能够使用AI工具调研各种复杂技术问题,快速找到问题所在或最优解决路径,同时能够高效地审查AI生成的代码和算法。
· 数据处理理念:对数据质量有极高的敏感度,做事严谨、细致,具备出色的逻辑分析和问题解决能力。
· 有金融时序数据处理经验,理解PIT、前视/生存者偏差与公司行为(拆分/分红等)处理等。
· 工作质量与输出:要求能够持续高质量、高强度、高输出地进行工作。
· 团队协作: 良好的沟通能力,能够与AI研究员紧密合作,理解他们的数据需求。具备很强的学习能力和抗压能力,具备良好的保密意识。
加分项(优选技能):
· 有金融行业(尤其是量化)实习或项目经验,对股票市场有基本认知。
· 熟悉常见的金融时间序列数据处理和特征工程方法。
· 有Spark/ClickHouse/Arrow Flight等扩展型栈经验,或对Iceberg/Delta/Hudi等表格式有实践。
· 有使用Airflow、DolphinScheduler等工作流调度工具的经验。
· 对机器学习基本概念有实践理解,能与研究员对齐无泄漏特征与回测口径。
· 在GitHub有相关项目,或Kaggle/竞赛/论文/技术博客等产出。
工作方式与成长:
结果导向,鼓励善用AI工具提升效率,但以代码质量与可复现性为第一准则。
与量化研究直连,你的产出将直接影响策略收益;优秀者可参与更高层次的数据架构与平台设计。
申请方式:
请发送简历和简单自我介绍开启沟通(欢迎附上能证明相关能力的作品,如Python代码的Jupyter Notebook或html文件等)
邮件标题:数据与特征工程师-实习-姓名-学校/公司-专业-最早到岗时间