什么是数据虚拟化?

数据虚拟化涉及将多个数据源组合到单个逻辑视图中。虚拟化是通过中间件实现的,涉及的数据不会复制到其他地方。但是,虚拟化数据可以作为活动数据源用于许多业务目的,包括分析。

什么时候使用数据虚拟化?

虚拟化通常用于处理高度不稳定的数据,或者需要减少处理时间。虚拟数据包括来自源数据库的最新信息,没有可能引起的延迟数据集成数据复制。

数据虚拟化有几个用例,例如:

  • 分析:虚拟化是一种将数据源整合在一起的简单方法,这使得它非常适合于数据分析.分析人员可以完全控制数据源的组合方式,并且可以在不影响任何数据存储库完整性的情况下调整虚拟化数据的结构。
  • 实时报告:因为虚拟化是快速的,它可以提供比大多数数据管道更快的结果。这在时间紧迫的情况下非常有用,例如当金融公司想要监控市场趋势时。
  • 数据探索:数据探索通常是大规模分析的先驱。它还有助于定义集成项目中的模式,比如仓库。虚拟化可以提供可用数据的快速视图,允许快速探索。
  • 测试:虚拟数据源易于设置,这对测试很有用。数据虚拟化的灵活性在高速测试环境中尤其有用,比如DevOps。

如果需要存储转换后数据的持久副本,则不使用虚拟化。虚拟数据视图依赖于原始数据源——如果数据源丢失或更改,该数据将从虚拟视图中消失。

不要将数据虚拟化与更广泛的IT意义上的虚拟化混淆。数据虚拟化平台不是运行在容器或虚拟机中的正常运行的数据库。相反,它是多个物理数据库的统一逻辑视图。

如何执行数据虚拟化?

通过数据虚拟化工具实现数据虚拟化。这些工具可以是开源的,也可以是商业的,但它们都基于相同的原则。这个过程通常是这样的:

1.从源加载元数据

数据虚拟化工具使用元数据,而不是数据本身。此元数据将包括源数据的详细信息,例如表结构、列名和关于的信息数据沿袭

2.从源代码加载视图

如果存在,数据可视化工具还将从源数据库加载视图。使用视图的好处是,它们可以直接应用到源数据库,而不需要了解源数据库的结构。

3.应用业务规则

通过使用源数据库的元数据和物理视图,可以创建有效的逻辑视图。具体的方法取决于数据虚拟化工具——有些使用SQL这样的查询语言;其他的则使用拖放界面。使用首选工具,数据工程师可以应用连接来创建涵盖多个不同数据源的逻辑视图。

4.使虚拟数据源可用

逻辑视图的输出可以用作数据源。源数据库中的实际数据保持不变,而数据虚拟化平台输出该数据的工作表示。

5.连接业务平台

虚拟数据通常是为了特定的业务目的而存在的,比如分析。在这种情况下,虚拟化平台可以集成到数据可视化工具,例如Chart.io或表。分析人员可以创建数据的图形表示,或者根据任何其他相关业务需求对其进行处理。

数据虚拟化vs.数据仓库

虚拟化和仓库是将数据集成到单个工作源中的两种方法。然而,这两种方法处理问题的方式不同。

整合

使用数据整合方法,如提取,转换,加载(ETL)中,从源中提取数据,根据模式进行转换,并将数据复制到目标(如仓库)。转换后的数据保存在其新位置,并独立于原始数据源而存在。

在虚拟化中,数据保持在原始服务器上。数据视图是纯虚拟的,是位于数据源和业务应用程序之间的中间件层的结果。

近因

转换源数据时,该更改不会自动表示在数据仓库中,除非更改是通过数据管道传输的。ManBetX万博客服如果源数据脱机,则数据仓库保持不变。ManBetX万博客服

虚拟视图中的数据是对原始数据源查询的结果。这意味着所有可用的数据都是最新的版本。如果源不可用,相关数据将不会包含在虚拟视图中。

灵活性

ETL和虚拟化都涉及通过转换层传递数据。在虚拟化中,这种转换是暂时的。数据所有者可以更改模式、刷新视图,并查看一组新的结果。

在ETL中,转换永久地表示在仓库数据中。模式中的任何更改都只反映在新数据中,而旧数据保持不变。

速度

虚拟化提供了按需的数据逻辑视图。在处理快速变化的实时数据时,这往往是最快的方法,因为不需要等待转换过程完成。

然而,转换后的仓库数据提供了一些效率优势。ETL已经将数据转换为适当的模式,这意味着不存在复杂的视图和连接。数据已经准备好,可以立即查询。

许多组织会发现,根据场景的不同,他们需要混合使用虚拟化和仓库。要在两者之间进行选择,决策者必须了解业务用户的需求,以及所涉及的数据源的性质。

术语汇编

数据集成技术的命名指南。

Baidu
map