导读:本文主要介绍了自如 MySQL 数据迁移至 Hive 的架构升级演进,原有架构涉及到的组件众多,链路复杂,遇到很多挑战,在使用 StreamPark + Paimon 这套组合方案后有效地解决了数据集成中遇到的困境和挑战,分享了 StreamPark + Paimon 在实际应用中具体的实践方案,以及这套新秀组合方案带来的优势和收益。
StreamPark: https://github.com/apache/streampark
Paimon: https://github.com/apache/paimon
欢迎关注、Star、Fork,参与贡献
供稿单位|北京自如信息科技有限公司
文章作者|刘涛、梁研生、魏林子
文章整理|杨林伟
内容校对|潘月鹏
1.数据集成业务背景
自如租房业务的数据集成场景主要来源于各业务线的 MySQL 表同步到 Hive 表的需求。这一需求包含了每天同步的 MySQL 业务表数量超过 4400 个,以及超过 8000 多个的 Hive ETL 加工任务,每天新产生数据量有 50T,而且这些数字还在不断增长 。根据数据的新鲜度需求分为低新鲜度(T+1 day)和高新鲜度(T+10 minutes)两种,每天同步调度 4000 多个低新鲜度数据表,以及每天同步调度 400 多个高新鲜度数据表,用以确保数据的及时性和准确性。
自如的数据集成方案根据业务使用场景主要可分为两种:
-
低新鲜度:低新鲜度对数据的时效性要求是 T+1day,每日定时凌晨 00:00 采用 Hive jdbc handler 进行 MySQL 数据的全量拉取至 Hive,其基本流程如下图所示:
-
高新鲜度:此场景中要求数据实效性是 T+10minutes,我们复用了低新鲜度场景的快照拉取方法来实现全量数据的获取,并且初始化至 MySQL,同步利用 Canal 解析日志收集到 Kafka,然后使用 Flink 读取 kafka 中的数据并写入到 HDFS,最后用 Airflow 进行调度以合并增量数据至 Hive,其基本逻辑如下所示:
然而,当前架构存在着多方面的挑战和压力。首先是运维成本高昂,其次是计算压力、存储压力和网络压力都非常大。另外,虽然系统运行时间从 0:00 到 1:00 期间资源利用不充分,但其他时间段却面临着资源不足的情况。对此自如决定更新数据集成架构以提高系统的效率和稳定性。
2.遇到的挑战
在上述的两种场景中,我们在数据集成过程中遇到了以下挑战:
-
网络带宽超负荷问题:由于拉取任务达到 4000+,过多的镜像全量数据拉取对数据库网络带宽产生了巨大压力。
-
资源利用率低效:上游数据从 MySQL 同步到 ODS 层表后,下游的加工表才能启动,导致在 0:00 到 1:00 之间,Hadoop 集群的 CPU 和内存资源并未得到充分利用。
-
维护成本高昂:当数据库表结构发生改变时,需要同步修改 Airflow 脚本。否则,会出现不完整的字段,引起线上数据异常问题。
-
问题排查困难:数据链路较长,当出现数据异常时,问题排查成本较高,问题可能出现在 Canal、Kafka、Flink、Airflow 调度中的任何一个环节,导致问题恢复时间长。
-
Flink 作业难以统一管理:Flink 本身没有提供很好的部署和开发能力,在 Flink 任务数量增多后,管理和维护的时间成本也随之上升。
为了解决上述问题,我们经过一系列调研后,决定采用 “StreamPark+Paimon” 的策略,那么选择它们的原因是什么呢?我们可以先看看它们的特性。
Paimon 的核心特性
在经过对 Apache Hudi / Iceberg / Paimon 几个数据湖框架的调研和综合评估之后,我们决定使用 Apache Paimon,Apache Paimon 是一项流式数据湖存储技术,可以为用户提供高吞吐低延时的数据摄入,流式订阅和实时查询能力,支持使用 Flink 和 Spark 构建实时 Lakehouse 架构,支持批/流数据处理操作,创新性地将 Lake 格式与 LSM 结构相结合,将实时流式更新引入 Lake 架构中,具有以下优点:
-
统一的批处理和流处理:Paimon 支持批量写入、批量读取和流式操作,提供了灵活的数据处理方式。
-
数据湖功能:作为数据湖存储系统,Paimon 具有低成本、高可靠性和可扩展的元数据等特性。
-
丰富的合并引擎:Paimon 提供了多种合并引擎,可以根据需求选择保留最新数据、进行局部更新或进行聚合操作。
-
自动生成变更日志:Paimon 支持多种 Changelog 生产者,能够自动生成正确完整的变更日志,简化流式任务分析。
-
丰富的表类型:Paimon 支持主键表和仅追加表,以及多种表类型,如内部表、外部表、分区表和临时表。
-
支持表结构变更同步:当数据源表结构发生变化时,Paimon 能自动识别并同步这些变化。
Paimon 可以结合 Apache Spark™ 来使用,我们场景是 Paimon 结合 Flink 的方式,这样一来 “如何管理 4000+个 Flink 数据同步作业