Dataphin中重跑与强制重跑的区别

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 本文主要解析了Dataphin产品中重跑与强制重跑的区别及运行原理,推荐用户根据不同的场景选择适合的操作。

区别一:适用的实例对象范围不同


通常情况下,当实例运行完成后,会变为成功或失败状态。此时如果用户可能因为各种原因需要对实例进行重跑,就可以通过重跑按钮进行实例的重跑。重跑时,系统会按照最新发布的代码版本执行。Dataphin支持针对单个实例进行重跑、或选中一个起点及其下游,按照依赖关系进行批量重跑(如整条链路计算逻辑修改等场景),以实现全链路数据更新。


可能存在某些处于非成功或失败状态的实例,不满足重跑操作所要求条件(实例依赖的所有上游实例运行成功并到达当前实例的定时调度时间)的情况,此时就需要采用强制重跑操作。


如下图所示,重跑主要针对正常运行结束后状态为成功或失败的实例,而强制重跑可以无视实例的状态强制运行。

实例生命周期状态

重跑与强制重跑的区别.png

区别二:运行机制不同


场景一:任务A少读取了一部分数据,任务B因为缺少这部分数据运行失败了,对任务A的代码逻辑进行修复后,需要从A开始向下重跑。

如下图所示,A、B、C 三个任务,存在着依次依赖的关系,需要上一个任务成功运行完成后,才能开始运行下一个任务。此时 B 任务运行失败了,C 任务处于未运行状态。

重跑与强制重跑的区别 (1).png

重跑:当我们选择重跑节点时,仅可选择 A 和 B 任务, C 任务因为不满足重跑运行条件(上游所有任务成功完成),不能选择。我们可选择重跑 B 节点,当 B 点成功完成后,C 任务会因为满足运行条件(上游所有任务成功完成且到达调度时间)自动开始运行,而无需进行额外的设置。

强制重跑:我们也可以无视任务状态,对 B、C 选择强制重跑,此时系统会根据节点依赖关系,依次运行 B 和 C 节点。


通常情况下,我们重跑失败的节点即可,无需对下游节点进行额外操作。


场景二:任务 B 的代码存在问题导致写入分区的数据为空,因此当任务 C 读取表的时候运行失败了。此时用户对 B 节点的代码进行了改写,并重跑。在 B 节点运行过程中,发现了 A 节点的代码也存在问题,对 A 节点任务进行的修改。此时,用户选择重跑或强制重跑,运行结果会有极大不同。

重跑与强制重跑的区别 (2).png


重跑:此时由于 B 节点处于运行中,因此无法进行重跑。我们仅能对 A 和 C 节点进行重跑操作,且因为处于依赖链条中间的 B 节点并不参加此次的重跑,系统会将 A 和 C 节点当成两个独立的节点运行。因此,A 节点更新的数据并不会对 B 和 C 的任务生效。

强制重跑:可以无视任务状态,对 A、B、C 节点选择强制重跑,此时系统会强制终止掉运行中的 B 任务,将所有任务置为未运行状态,然后再根据节点的相互依赖关系依次运行。此时,A 节点更新的数据会对下游所有任务生效。


适用场景

通常情况下,当任务运行失败时,我们只要选择失败的任务进行重跑就可以了。下游处于未运行状态的节点会在上游节点运行成功后自动开始运行。

在某些特殊场景下,我们可以忽略上游实例的运行状态(一般是无数据依赖,仅调度依赖,或者对数据实效性要求不高的情况),使用强制重跑功能来恢复运行。另外,如果运行到链路中间的任务,忽然发现上游任务有数据错误的情况需要及时止损,可以采用强制重跑功能。此时,系统会先将所有选中的任务批量终止,再从最上游实例按照依赖关系依次向下运行,避免新老代码并存产生的数据错乱。

相关文章
|
3月前
|
资源调度 Kubernetes 调度
Dataphin功能Tips系列(46)-实时研发任务在session调试和运行 时资源分配上的区别
实时研发任务在session调试和运行 时资源分配上的区别
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
JSON 缓存 运维
Dataphin数据服务API开启IP白名单调用鉴权
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
364 0
|
1月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
|
5月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
388 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
|
3月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
244 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期

热门文章

最新文章

相关实验场景

更多
OSZAR »