概览
数据集成方案的选择需结合业务需求特性。离线集成能够完整迁移历史数据全貌,但其周期性作业模式导致数据时效性存在天然滞后;实时集成能精准感知数据流的每一次波动,却受限于日志窗口机制,无法追溯历史数据的完整脉络。
为兼顾全量与增量同步,业界通用策略是构建双通道机制:先通过离线批量任务完成数据基座的构建,再启动实时流式任务持续捕获数据变化。但这一方案仅一张表就需要同时管理两个任务,涉及到整库迁移时管理及运维成本非常高,需要考虑每一个表的离线和实时集成衔接的读取位点。并且若同步过程出现问题,对于整库迁移的运维是灾难性的,这种"全量+增量"的双轨模式虽能实现数据完整性与实时性的平衡,却对运维管理提出了更高要求。
是否有更优雅的方式呢?
Dataphin 5.0推出全新"全量+增量一体化实时同步"功能,为整库或多表数据迁移提供更高效的解决方案。用户只需在创建实时任务时选择"实时增量+全量"同步方案,其余的交给Dataphin处理!对于运维人员,仅需维护一个任务即可实时监控每张表的全量同步状态,并可随时对任意表执行重跑或停止操作。系统将智能协调全量与增量同步任务的执行,实现统一管理与灵活控制。
功能
创建实时集成任务
进入实时集成模块,新建实时集成任务,同步方案选择“实时增量+全量”,选择需要同步的表范围后,点击提交。
提交&发布实时任务
提交完成后,点击“去发布”进入待发布列表,将刚刚提交的任务进行发布,发布完成后即可在运维-实时任务运维查看到任务。实时集成任务发布到生产环境后,不会自动运行,需用户手动运行。
增全量一体实时集成任务运维
在实时任务运维列表,启动发布的任务,可以选择启动范围以及启动方式:
- 启动范围:当配置的为增全量一体任务,启动范围可选择仅增量或全量+增量,区别在于是否要进行历史全量数据迁移,默认为全量+增量
- 启动方式:选择续跑,则已经运行成功的全量同步表不再重新运行;选择初始化,则所有全量任务都会重新运行
启动完成后,可在实时实例运维列表查看同步的对象列表,即该增全量一体任务同步的表列表及同步状态。任务启动时,默认先启动增量同步任务,但不会进行数据消费;等待所有全量同步任务执行完成后,增量同步将正式进行数据消费。对于执行较慢的表,可选择停止,即暂时跳过该任务的全量同步;对于手动停止的全量同步任务不影响增量同步任务运行。