1、负责大数据平台(如Hadoop、Spark、Flink、ClickHouse等)的架构设计、开发和优化。
2、构建高效的数据ETL流程,处理海量数据的清洗、存储、计算和分析。
3、开发和维护实时/离线数据仓库,支持业务数据分析和决策。
4、优化大数据计算任务,提升数据处理性能和资源利用率。
5、参与数据治理,确保数据质量、安全性和一致性。/6、与数据产品、算法、业务团队协作,提供数据技术支持。
岗位要求:
1、熟练掌握 Java/Python 至少一种编程语言。
2、熟悉 SQL,能编写高效查询(如Hive SQL、Spark SQL、ClickHouse SQL)。
3、了解 Hadoop(HDFS/YARN/MapReduce)、Spark(Spark SQL/Spark Streaming)、Flink 等计算引擎。
4、了解 Hive、HBase、Kafka、ClickHouse、Doris 等存储和消息队列技术。
熟悉 数据建模(维度建模、星型/雪花模型)。
熟悉 Linux 环境,能进行大数据集群的部署、监控和调优。