什么是数据集市?

一个数据集市是存储与具有共同需求的一组用户(如业务部门)相关的数据的存储库。

数据集市通常是与数据市场相关的ManBetX万博客服.集市可以依赖仓库,也可以从其他来源获得原始数据。

数据集市和数据仓库之间的关系ManBetX万博客服

数据集市和数据仓库有很多共同之ManBetX万博客服处。两者都是关系数据库,都处理已转换的生产数据,都用于分析目的。万博max手机网页登录

然而,两者有一些关键的区别:

  • 大小:数据集市一般在100gb以下,而仓库没有固定的大小限制。
  • 业务范围:数据Marts支持单个部门,而数据仓库支持整个组织。ManBetX万博客服
  • 来源:市场使用有限的资源,例如数据仓库或部门数据库。ManBetX万博客服仓库从跨组织基础结构的多个来源摄取数据。
  • 所有权:仓库由组织的数据管理团队拥有。数据集市通常由相关部门拥有。

这两种结构都依赖于ETL(提取、转换、加载)为它们提供净化的、规范化的数据。转换只需要执行一次——一旦它符合所需的模式,数据就可以直接传递到下一个存储库。

在实践中,这允许组织以几种方式构建他们的数据集市:

  1. 独立数据集市:原始数据由ETL提取转换,然后直接加载到数据集市中。独立的数据集市可以充当数据仓库的源。ManBetX万博客服
  2. 相关数据集市:依赖集市不直接与数据源交互。相反,ETL层与数据仓库连接,数据仓库保存了清理后的数据。ManBetX万博客服依赖数据集市使用这个仓库作为它们的唯一来源。
  3. 混合数据市场混合市场结合了上述两种方法,将仓库数据与通过ETL获得的原始数据相结合。

独立的数据市场最适合于小型或中型组织,在这些组织中,总体数据量是可控的。在较大的组织中,数据通常必须首先通过中央仓库,然后才能提供给数据集市。混合数据集市应用于依赖数据集市需要合并来自未连接到仓库的源的信息的情况。

数据集市用例

数据集市用于解决特定的组织问题,特别是那些只针对一个部门的问题。数据集市的典型用例包括:

重点分析

分析可能是数据集市最常见的应用。这些存储库中的数据与业务部门的需求完全相关,没有多余的信息,从而导致更快、更准确的分析。例如,金融分析师会发现使用金融数据集市比使用整个数据仓库更容易。ManBetX万博客服

快速周转

数据集市的开发速度通常比数据仓库快,因为开发人员使用的资源较少,模式也有限。ManBetX万博客服数据集市是在具有挑战性的时间限制下运行的数据项目的理想选择。

权限管理

数据集市可以是一种无风险的方式,授予有限的数据访问,而不暴露整个数据仓库。ManBetX万博客服例如,依赖数据集市包含一段仓库数据,用户只能查看集市的内容。这可以防止未经授权的访问和意外写入。

更好的资源管理

数据集市有时用于不同部门之间资源使用的差异。例如,物流部门可能执行大量的日常数据库操作,这会导致营销团队的分析工具运行缓慢。通过为每个部门提供自己的数据集市,可以更容易地根据他们的需求分配资源。万博手机登录平台

数据集市的实现

组织在创建数据集市时通常遵循四个步骤。

范围

数据集市最好被理解为针对特定业务问题的解决方案,比如“我们如何让财务团队快速访问分析报告?”在开始之前,数据集市所有者需要通过问以下问题来定义这个项目的范围:

  • 谁将访问这个数据集市?
  • 他们会采取什么行动?
  • 主要数据源是什么?
  • 需要包括哪些数据?
  • 哪些数据必须被省略?

创建

项目的范围将有助于定义需要什么类型的数据集市。数据集市的两种主要类型是:

  • 物理:从外部源导入数据,复制到关系数据库中。数据库可以保存在云中,也可以驻留在本地。
  • 虚拟:当资源有限,万博手机登录平台或者来源是数据湖等大数据结构时,组织可能会使用虚拟数据集市。这种类型的集市使用视图创建虚拟集市,而不创建新的物理数据库。

大多数组织将使用不同类型的数据集市来解决不同类型的问题,这就是为什么在实现之前有一个详细的需求收集过程是必不可少的。

进口

对于物理数据集市,数据必须从原始源传递到集市。如何处理这取决于数据集市的类型和源的性质。

  • ETL层:如果mart正在处理原始数据,例如来自生产数据库的信息,那么该数据在用于分析之前必须经过ETL层。万博max手机网页登录该操作可以手动执行,也可以使用自动ETL平台执行。ETL自动化将确保数据集市有一个稳定的新信息管道。
  • 从可信源直接导入:数据集市也可以直接从可信源(如数据仓库)导入数据。ManBetX万博客服因为仓库数据已经根据主模式进行了清理、规范化和转换,所以在更新数据集市之前不需要经过ETL层。

释放

最后,用户可以使用数据集市。如果数据集市正在解决它所要解决的问题,比如加快金融分析,那么数据集市是有效的。否则,超市老板可能需要审查他们的执行和相应的修改。

术语汇编

数据集成技术的命名法指南。

Baidu
map