什么是数据仓库?

什么是数据仓库?ManBetX万博客服

数据ManBetX万博客服仓库是包含来自多个来源的标准化数据的存储库。数据在摄取到仓库之前进行转换,这意味着仓库数据被清理,并为相关的业务目的做好准备。

为什么要使用数据ManBetX万博客服仓库?

数据仓库有几个应用程序,例如:ManBetX万博客服

  • 分析与商业智能数据仓库ManBetX万博客服提供了所有相关业务数据的统一的、标准化的视图。与在不同数据源上运行的单个分析报告相比,这可以更准确地洞察业务状态。
  • 整合:当有一个单一的、统一的数据源时,一些业务功能可以更好地工作。例如,财务报告和资源规划系统可能需要从多个来源获得数据。
  • 存储:数据仓库将生产数据的副本存储在安全的位置。万博max手机网页登录这对于法规遵循、报告和业务连续性规划可能非常重要。
  • 系统集成:数ManBetX万博客服据仓库可以是双向的,将数据输出到授权的系统。这可以在系统集成中发挥作用,其中数据从一个系统转移到一个仓库,然后在需要时由不同的系统检索。

数据仓库如何运作?ManBetX万博客服

典型的数据仓库结构包括两ManBetX万博客服个元素:数据仓库环境和数据管道。

数据仓库环境

ManBetX万博客服严格来说,数据仓库并不是大数据结构。但是,它们可以保存大量的结构化数据,这需要合适的环境。

这可以通过内置系统来实现。一些最受欢迎的本地托管选项有:

对于大多数企业来说,这种存储在使用内部服务器时是不经济可行的。大多数数据ManBetX万博客服仓库都托管在云服务上,这提供了一种低成本和可扩展的替代方案。最流行的云存储选项包括:

在每种情况下,重要的是要有合适的环境来托管大量的数据。该环境托管一个大型关系数据库,可以在没有性能问题的情况下进行扩展。环境还必须与数据管道兼容。

数据管道

一个数据管道是一个贯穿三个关键阶段的软件过程:提取,转换,加载

  • 提取:数据来源。该数据将采用各种不同的格式,可能包含无效或重复的条目。
  • 变换:源数据托管在staging数据库中。然后,它经过几个转换,包括协调、标准化和清洗.通过使用数据映射,将数据转换为符合仓库模式的数据。
  • 负载:数据从staging数据库复制到仓库环境中。因为它已经进行了转换,所以它将整齐地放置在仓库模式中,而不管它在源代码中的格式如何。

对于像Xplenty这样的ETL平台,这个过程是自动的端到端。ETL平台与源数据库和数据仓库集成。ManBetX万博客服信息会定期地从一个地方推送到另一个地方,不需要人工干预。管理员可以根据需要配置转换模式。

这个过程被称为数据管道,因为数据从一个位置顺畅地流动到另一个位置。

数据仓库中存储的是什么?ManBetX万博客服

数据ManBetX万博客服仓库是一种关系数据库,通常规模相当大,托管在能够有效处理查询的环境中。

这意味着数据仓库只能用于存储结构化数据。ManBetX万博客服为了阐明不同的数据类型:

  • 结构化数据:存储在关系数据库表中的信息。这包括来自大多数生产系统的数据,例如企业资源规划或客户关系万博max手机网页登录管理系统。
  • 半结构化数据:这些项具有关系数据库表以外的逻辑结构。CSV文件是半结构化数据的一个例子——它是一个文本文件,但是格式化的方式很容易导入到数据库中。如果将半结构化数据正确地预处理为结构化数据,就可以将其仓库化。
  • 非组织性数据:任何其他形式的数据,包括文本文档、图像和音频文件。如果不将这些数据转换为结构化数据,就不能将其储存起来。
  • 元数据:元数据可能包含指向其他数据的信息,包括非结构化数据。因为元数据本身通常是结构化或半结构化的,所以可以很容易地将其存储起来。

因此,例如,照片库通常不存储在数据仓库中。ManBetX万博客服但是可以将包含每张图片的文件名、格式和描述的元数据表存储起来,从而用于分析。

数据仓库、数据集市和数据湖的区别是什么?ManBetX万博客服

ManBetX万博客服数据仓库是一种常用的数据存储库形式。它们有时与其他类型的存储库相混淆,例如数据的湖泊数据集市.但它们之间有一些关键的区别。

一个数据湖是一个大数据仓库。与数据仓库不同,数ManBetX万博客服据湖既可以保存结构化数据,也可以保存非结构化数据。这是因为数据在摄入到湖中之前没有经过转换阶段。这使得提取加载过程更快,资源消耗更少。

相反,数据按原样加载到湖中。为了分析目的而试图导航数据的业务用户必须使用MapReduce等工具来查找他们需要的数据。数据湖不能支持生产系统,对于高度不稳定的数据也不理想万博max手机网页登录。

一个数据集市实质上是一个更小的数据仓库。ManBetX万博客服仓库可能存储组织的所有信息,而数据集市只存储与特定部门、项目或目标相关的信息。

数据集市可以是虚拟的,这是一个专门配置的主数据仓库视图。ManBetX万博客服它们也可以单独存在于自己的服务器上,使用自己的数据管道。有些市场可能是两者的混合体,其中一些数据来自仓库,而另一些特定于部门的数据由ETL流程提供。

术语汇编

数据集成技术的命名法指南。

Baidu
map