什么是数据仓库?

数据仓库是一种相对较新的设计方法ManBetX万博客服数据仓库.数据库按原样存储原始数据,而不应用业务规则。数据转换按需进行,结果可用于特定于部门的查看数据集市

传统的数据仓库结构依赖于广泛的数据预处理ManBetX万博客服,而数据仓库模型采用了更灵活的方法。这可以帮助解决困难的用例,尽管实现起来并不总是那么容易。

数据仓库vs.数据仓库ManBetX万博客服

在传统的数据仓库模型中,数据需要在加载ManBetX万博客服之前准备好使用。这通常意味着以下步骤:

提取:从源中提取原始数据的进程(如ETL)。

变换: ETL转换原始数据,将其更改为适合仓库模式。

负载:现在原始数据是标准化格式的,ETL将其加载到数据仓库中。ManBetX万博客服

使用:当一个人或流程需要访问数据时,他们可以直接访问仓库。

这种方法有很多优点。它保证存储在数据仓库中的所有内容都是干净的、有效的和可预测的格式。ManBetX万博客服

然而,这并不适用于所有场景。例如,一个组织可能有十几个不同的数据源,每个数据源都有独特的结构。如果组织想要统一这些源,它将需要简化数据或创建一个极其复杂的仓库模式。

数据仓库通过将转换移动到流程的后面阶段来解决这个问题。现在,这个过程是这样的:

提取: ETL正常从数据源提取原始数据。

变换: ETL执行一些基本的转换,例如消除损坏的值。

负载: ETL将数据加载到数据仓库的特定部分,即原始数据仓库。ManBetX万博客服

规则的适用:仓库将业务规则与数据分开存储。当需要时,仓库可以应用这些规则来创建数据的新转换版本。输出位于仓库的另一部分,称为业务金库。

数据集市:用户通过角色对应的数据集市访问数据。这些是虚拟集市,通过使用业务库中的数据视图创建。

因此,虽然数据仓库只保存数据ManBetX万博客服的一个版本,但数据仓库模型保存多个版本。这种方法有优点也有缺点。

数据仓库方法的优点

从上面的步骤可以清楚地看出,数据仓库方法为数据集成的过程。以下是其他一些优点:

原始数据保留

数据仓库模型的一个问题是它会丢弃原始数据。ManBetX万博客服这并不一定是计划的问题;如果不返回原始数据源,就无法查看原始数据。在数据仓库中,原始数据与转换后的数据共存。

简单的转换

由于采用了“一刀切”的方法,数据仓库设计人员最终可能会创建极其复杂的模式。ManBetX万博客服这可能会影响性能。另外,从长期来看,数据库很难得到支持。该模型的主要优点是对数据转换的响应性更强,有助于简化工作。

规则和数据的解耦

数据库分别存储它们的业务规则,因此更容易更新。当组织希望对数据转换进行更改时,他们只需应用新的业务规则。

特定于部门的数据转换

企业中的每个部门都有不同的数据需求。例如,销售可能需要一种格式的客户数据,而运营可能需要另一种格式的数据。对于传统数据仓库的通用模式来说,这是一个挑战。ManBetX万博客服然而,数据仓库允许每个部门设置自己的业务规则。

数据仓库策略适用于具有不同数据需求的大公司。然而,它也不是没有缺点。

数据仓库的缺点

数据仓库并不总是解决数据仓库问题的正确方法。企业需要考虑一些潜在的障碍。

资源使用率增加

数据库执行大量的事后数据处理,这可能会影响整体性能。大多数数据库通过存储转换的输出来解决这个问题,以便用户可以在以后的日期引用它们。

扩展数据存储

数据仓库本质上比传统仓库拥有更多的数据,因为它拥有所有东西的多个版本。随着时间的推移,这可能会导致规模上的巨大差异,这可能会提高仓储成本。

解决方案的复杂性

实现数据仓库通常是一个简单的过ManBetX万博客服程,只需要很少的数据库专业知识。由于无代码ETL,非技术用户可以创建具有复杂转换的数据管道。数据仓库通常需要更多的专业知识。建立数据仓库的公司可能需要一名技术高超的工程师来帮助他们起步。

较慢的数据集市结果

数据仓库模型的批评者认为,它只是将复杂性进一步推低,因为这些仓库的输出是通过数据集市进行的。Marts有时需要从多个业务表中提取数据,这可能会导致越来越复杂SQL加入语句。

数据仓库术语

数据仓库建模使用了一些传统仓库中没有的项目。这些都是:

  • 集线器:随着时间的推移相对稳定的数据实体,例如客户和产品万博max手机网页登录
  • 链接:中心之间的连接,例如客户何时购买产品的记录万博max手机网页登录
  • 卫星:一个中心或链接的附加属性,可能随着时间的推移而改变

使用这种结构使数据仓库设计人员在设计表时更加灵活。

术语汇编

数据集成技术的命名指南。

Baidu
map