数据存储库是什么?

数据仓库是一种结构组成的一个或多个数据库,包含数据为目的的分析。

数据存储库是用于业务提供一个集中的信息来源。这样的存储库可能由业务单位用于运行报告或使用分析团队学习性能。数据存储库在学术界也很受欢迎,他们提供了一个可靠的信息语料库科学家和研究人员。

一个数据存储库也可以称为数据库或数据档案。

数据存储库的结构是什么?

一个数据存储库可以包含任意结构,适用于相关的业务需求。

常见的结构包括:

  • 关系数据库:一个关系数据库可以作为存储库。例如,一个组织可能选择复制数据库来分析数据,因为它出现在生活生产。万博max手机网页登录实时数据库——一个被定期更新不适合作为存储库。
  • ManBetX万博客服数据仓库:仓库是一个存储库,结合来自多个数据源的数据。通常,这些数据将通过一个提取、转换、加载(ETL)层,集成和协调数据。这使得它更容易分析和运行报告的内容存储库。
  • 数据集市:一个数据集市本质上是一个较小的数据仓库。ManBetX万博客服数据集市是由一个特定的业务目标,所以这个存储库中的数据是特定部门相关的信息。例如,一个营销数据集市可能只包含营销数据。
  • 数据湖:湖泊的数据结构大量的集成来自多个数据源的数据。他们通常与大数据有关,可以容纳结构化、半结构化和非结构化数据。分析lake-style库需要不同的工具,比如Hadoop MapReduce。
  • 元数据存储库:这是任何专门保存元数据的存储库,这是指其他数据的数据。元数据可以用来分析广泛趋势或跟踪其他数据集的位置。
  • 数据立方体:数据立方体拥有数据库在多个时间点的快照。这个结构是用来跟踪数据和捕获的事件序列的变化。

数据存储库是如何制作的?

组织可以选择建立一个数据存储库以任何方式适合他们的需求。一般来说,这个过程将会沿着这些步骤。

1。定义数据存储库的需求

每个库的存在是为了满足特定的要求,例如特定的业务目标。如果目标是更详细的性能分析,然后分析团队需要一个存储库的性能数据。如果我们的目标是更好的财务报告,存储库必须持有所有的金融数据。所需的存储库应该保存所有数据终端用户实现他们的目标。

2。寻找合适的现有存储库

在某些情况下,一个合适的存储库可能已经存在在组织内。广泛的分析项目可能使用该公司的数据湖,虽然具体的部门可能有自己的现有的数据集市。如果这些存储库可以实现目标,不需要建立一个新的结构。否则,数据团队将开始构建一个新的存储库。

3所示。确定相关数据来源

结构数据集市和数据仓库将从多个不同的来源。ManBetX万博客服的团队构建存储库将首先确定所有数据源和映射每个源的模式。

4所示。目标创建一个库

团队将考虑数据结构最适合这两个项目的目标和数据源的性质。他们通常会选择一个以上列出的结构。这可能涉及到物理实现,如部署一个新数据库或购买一些额外的云托管。

5。应用一个转换模式

提取转换加载(ETL)是最可靠的方法,将不同数据源导入到存储库中,如数据集市和数据仓库。ManBetX万博客服ETL转换输入数据通过一个单一的模式。结果是清洁、可靠的数据,很容易分析。湖泊等大型结构数据,数据加载不被改变。

6。审核仓库数据

存储库必须提供的数据:

  • 准确的
  • 可靠的
  • 及时的
  • 相关的目标存储库

在部署之前,数据团队将执行质量审核,确保数据符合要求标准。如果考试失败,他们将审查ETL过程,并在必要时进行修改。

7所示。测试安全措施

存储库引入一定程度的风险,因为他们代表一个单点故障。如果未经授权的人访问存储库,那个人可能对组织的所有数据的访问。这就是为什么安全是一个重要的考虑在这个过程的每一步。数据团队将执行通常执行部署前最后安全审计数据存储库。

8。让业务用户可用

一旦启动并运行,存储库是交付给最终业务用户。他们将测试库的性能根据他们的要求,他们会提供反馈如果有什么需要改变。项目完毕通常发生在业务用户证实,他们正在运行。

9。监控和维护

数据存储库不活数据库生产意义。万博max手机网页登录然而,他们不断刷新数据管道和存储库中包含的数据必须及时。团队将继续监测的数据存储库在其一生中,他们会解决任何安全或性能问题,因为他们出现。

的术语表

一个数据集成技术的术语指南。

Baidu
map