数据同步是什么?

数据同步是离散数据集之间保持一致性的过程。这可以是一个单向的过程,与一个主版本的数据,或者多向,同时所有版本的更新数据。

为什么数据同步有用呢?

数据复制复制数据到另一个位置的过程,导致两个或两个以上的数据的副本。

这些版本不是结构上相互依赖。这意味着,如果一个版本的数据被更新时,它将成为与所有其他版本不一致。

确保所有版本一致性,需要有一个系统更新的所有其他实例数据。这就是所谓的数据同步,在一些情况下使用。

数据协调

同步维护数据源之间的一致性是非常重要的。当一个源更新,更新反映在所有其他来源。

例如,一个客户地址可能存在在许多不同的地方在一个组织的数据库:CRM,计费系统,订单执行系统,电子商务客户的帐户。如果客户登录到电子商务系统和改变他们的地址,需要有一个数据同步过程,在所有其他系统更改地址。

分布式计算

数据同步是云计算和分布式系统的一个重要元素,数据可以在多个地方存在。同步是至关重要的,以确保用户总是访问最新版本的数据,以及保证他们的更新将永远保存。

一个常见的例子是与云驱动器DropBox和OneDrive等。这些服务的用户可以在一个设备创建一个文档,将其保存在云开,打开它在一个不同的设备。每次提交修改文件,这些都是存储在云服务器上。这个服务器然后部队一个更新在所有连接设备,取代任何旧版本的最新副本。

存储和分析

数据复制通常是执行,这样可以安全地存储在一个数据存储库等ManBetX万博客服。这个用例可能不需要实时同步。然而,数据必须是相对近期的要求同步程序,这通常是由ETL管道。

例如,数据可以保存备份。在发生灾难恢复场景中,业务需要一个最新的生产数据的快照。万博max手机网页登录如果他们继续他们的实时数据和定期备份同步,他们不会经历大量的数据丢失。

发布更新

同步可以包括重大变化,如修改关系数据库的结构。根据过程是如何实现的,它可能会添加表、表下降,和重命名列。

这是重要的,因为数据结构可以突然改变。例如,GDPR带来了新的要求,询问用户的cookie的偏好。这些首选项存储,这通常意味着一个新的数据库列,如果不是一个全新的表。这种结构性变化必须通过网络级联的所有实例数据库。

数据同步是如何工作的呢?

数据同步可以在任意数量的方面,从手动更新到数据库变更引发的Python脚本,完全自动化数据管道使用ETL。

在所有情况下,数据同步遵循这些步骤:

触发更新事件

这可以发生在许多方面。国旗可能被设置在表内,例如,或脚本可能会定期检查一个文件的最后修改日期。在所有情况下,数据同步过程中检测到有变化数据的一个实例。

变化的识别和提取

同步并不意味着完全复制。因此,同步过程只需要确定变化。这是通过版本比较,通过检查更新日志,通过寻找标志表明一个新值。

通过更改其他来源

调度的运动数据的方法有两种:

  • 异步:根据一组更改传播计划,如一天一次或一次一个小时。这是资源但意味着之间的差异可能会出现更新。
  • 同步:当发生变化时,它迫使同步过程。这是更多的资源密集型的,但它允许实时更新的数据。

这种数据传输可能由一个web进程或文件传输。当使用一个ETL的平台,在后台自动更新处理而无需人工干预。

解析传入的变化

两个实例的数据可能是不一样的。一个实例可能有不同的表结构或与其他数据集成。例如ManBetX万博客服,数据仓库将结合来自多个不同数据源的数据。输入数据必须通过一个转换层,其中包括清洗协调

申请更改现有数据

传入变更写入到其他数据源。有许多方法来应用这些更改,如:

  • 事务:变化是应用在相同的顺序一个接一个,他们最初发生。这的利益确保每个实例的数据具有相同的地方改变历史。
  • 快照:更改应用于聚合。这将确保所有的数据都是一样的最后,但只有原始版本完全改变历史。
  • 合并:如果双方发生变化,这两个版本都标有明确的,然后合并更改。这意味着两个实例的数据更新,以反映所有的变化。

这个过程的目的是确保数据正确更新的每个实例没有任何损失。

确认成功更新

最后,更新后的系统将确认更新是成功的。这可以通过多种方式进行。例如,如果更新是通过API, API将返回一个消息确认更新。

这个确认告诉更新完成的更新过程。如果没有收到这样的消息,那么这个过程将会再次尝试更新,否则它将返回一条错误消息。

的术语表

一个数据集成技术的术语指南。

Baidu
map