什么是数据传输?

数据传输是将数据从一个位置复制到另一个位置的过程。传输的数据可以在传输过程中进行转换,也可以按原样到达目的地。

当传输过程产生两个数据副本时,这称为数据复制.如果原始数据源将变得过时,这就称为数据迁移。

数据传输是如何进行的?

数据传输至少涉及两个步骤。首先,从原始来源获取数据,这称为提取。之后,数据被写入目标目的地,这个过程称为加载。这些步骤可以手动执行,也可以自动执行。

手动数据传输

对于一次性作业,数据所有者可以选择进行手动数据传输。这样做的过程取决于来源和目的地的性质。一些选项包括:

  • API调用:许多系统都有一组允许数据检索的api。数据通常以文件的形式导出,例如JSON、XML或CSV文件。
  • 手册出口:有些遗留系统可能只允许通过内置的导出函数导出数据。输出通常是半结构化文件,例如CSV。
  • 编码:在某些情况下,可能需要编写一个小应用程序来从数据源中提取数据。这个应用程序通常用Python或R编写。

输出文件被传输到目标数据库可以访问的位置。如果要让导出文件离开组织的安全边界,则必须以符合安全最佳实践的方式完成此传输。

通过使用批处理文件和Cron作业,手动传输可以在一定程度上实现自动化。真正的自动化通常需要ETL (提取,转换,加载)平台。

自动数据传输

一个数据管道是一种自动将数据从源传输到目的的软件过程。ETL平台通常用于实现数据管道

数据管道与数据源集成,通常使用ETL平台的内置的集成库.提取的数据通过转换层传递,确保传输的数据与目标结构兼容。转换还可以从传输中删除无效数据。

最后,数据被加载到目的地。这可以通过两种方式实现。

  • 异步传输:数据换车是有规律的。通常,传输作业设置为在夜间或网络最不繁忙的时候运行。这是最节约资源的方法,但这意味着源和目标之间的数据并不总是同步的。
  • 同步传输:每当更新源时,就传输数据。这两个数据库是实时同步的,这意味着目的地总是保存着及时的数据。这种方法可能更消耗资源。

etl驱动的数据管道可能混合了同步和异步传输,对每个源都有不同的调度。

在数据传输中最重要的考虑因素是什么?

任何数据传输都有一定的风险。存在数据丢失的风险、数据损坏的风险以及可能暴露于第三方的风险。

在计划数据传输时,组织必须考虑以下因素:

安全

当数据在位置之间传输时,尤其是在组织的安全边界之外传输时,数据是最脆弱的。该文件可能被第三方截获,第三方可以从导出文件中提取敏感信息。

在手动传输中,导出文件应该始终存储在安全的位置,例如云存储设施。自动传输,例如由ETL完成的传输,不会在传输过程中的任何时刻暴露数据。

可用性

在需要时,数据必须对所有用户和进程可用。这意味着目的地必须根据适合业务需求的时间表进行更新。源在使用时也必须保持可用。

在计划数据传输时,数据团队必须同时考虑源和目的地的用户需求。异步传输通常对源数据的性能和可用性影响最小。但是,如果目的地的用户需要实时数据,那么可以改用同步传输。

可靠性

任何形式的常规数据传输都必须可靠地遵循时间表。如果数据正在生产中使用,调度中断可能会导致系统故障。万博max手机网页登录如果正在归档数据,则中断可能导致目标存储库中的数据丢失。

由于这个原因,常规事务通常首选自动数据传输。由ETL驱动的数据管道将在后台按计划运行,并在出现问题时发送报告。手动传输更容易出错,导致数据丢失。

效率

每次数据传输都会产生资源成本。万博手机登录平台当使用像AWS这样的云服务时,还有一个f数据传输的财务成本服务之间。数据传输最佳实践是尽可能以最有效的方式传输,从而尽可能地降低成本。

自动化可以帮助提高数据传输的效率,同步和异步作业的正确组合可以帮助进一步最大化资源。万博手机登录平台挑战在于找到最有效的解决方案,同时还要保持安全性、可靠性和可用性。

延迟

延迟可能是数据库体系结构中不可预测的因素,因为数据传输速度可能根据网络条件等因素而变化。延迟的影响可以通过精心设计和注意基础设施问题(如低带宽)来减轻。

在处理大数据时,延迟可能是一个更大的问题。重要的是要使用最小化传输距离和减少所需网络跳数的数据结构,这样数据才能尽可能快地移动。

冗余

数据传输可能会创建数据的两个持久副本。在某些情况下,这可能是一种需求——例如,归档生产数据时,或者在未以其他方式集成的系统之间共享数据时。万博max手机网页登录但是,如果不需要数据的第二份副本,这可能是低效的。

这是一个良好数据治理的问题。项目涉众应该清楚地了解管道两边的数据需求。如果目标不需要源数据的现有副本,则只需要部分传输。如果某个版本的数据过时了,应该立即删除它。

法规遵循需求

传输数据可能涉及遵从性问题,特别是在传输个人信息时。这类数据受诸如CCPA和GDPR这些法规规定了数据的处理和传输方式。您可能无法将个人数据转移到您的网络之外或跨越国际边界。

转移有时可能涉及到具有遵从性影响的中间阶段。例如,如果你通过欧洲以外的ETL平台传输欧盟数据,你可能会违反GDPR。确保你的供应商符合所有相关法律。Xplenty遵循GDPR、CCPA和大多数可能影响美国企业的隐私法进行运营。

术语汇编

数据集成技术的命名法指南。

Baidu
map