什么是数据Lakehouse ?

数据lakehouse是一个新兴数据存储库结构,结合数据仓库和数据所带来的好处。ManBetX万博客服数据lakehouse将允许BI用户和数据科学家工作在同一来源。它也会使组织更容易实现数据治理策略。

数据Lakehouse的特点是什么?

直到最近,数据架构师依赖于两个主要类型的数据存储库:

  • ManBetX万博客服:这个库包含结构化数据的关系数据库。输入通过转换层和净化数据集成在装货前到目的地。仓库中的数据适合在一个定义的模式。
  • 数据湖:这些结构保存任何数据,包括非结构化数据如图片和文档。湖泊是大数据、快速、便宜。数据不需要与任何特定的模式,和湖并不试图应用模式。相反,数据所有者使用schema-on-read方法,它适用于当一个人或处理请求数据转换。

许多组织现在有这两个结构连在一起,一个很大的湖和多个数据仓库的数据,通常两者之间的数据复制。ManBetX万博客服

lakehouse试图创造更大效率的数据创建数据仓库数据湖上的技术。ManBetX万博客服存储是快速和便宜,但lakehouse方法提高数据质量和消除冗余。ETLlakehouse结构中所起的作用,提供一个管道之间的无序湖层和集成仓库层。

宣布这一概念的一篇论文中概述了以下特点:

  • 事务支持:Lakehouses可以处理多个数据管道。这意味着他们支持并发读写事务在不影响数据的完整性。
  • 模式:仓库模式适用于所有数据;湖泊不。lakehouse结构可以推断的应用模式和标准化的数据量更大。
  • BI和分析支持:两队与一个数据存储库。中包含的信息lakehouse经过清洗和一体化进程,加快分析。它也比一个仓库的和最近更新,使BI的质量。
  • 扩展数据类型:仓库只能存储结构化数据。lakehouse结构提供一个更广泛的数据,包括文件、视频、音频、和系统日志。
  • 端到端流:Lakehouses支持流媒体分析,便于实时报告。这对许多企业正日益成为一个必备。
  • 处理/存储解耦湖:数据结构使用集群,低成本的硬件上运行。这种方法提供了非常便宜的分散的存储。为了进一步提高效率,将处理从存储lakehouse模型。这意味着lakehouse可能在一个集群存储数据,但不同的集群上执行查询。它的目标总是可用的资源最大化。万博手机登录平台
  • 开放:砖版本的lakehouse使用开放标准拼花。这个存储格式有一个公共API,开发人员可以很容易地访问通过Python或R。

的另一个主要实现lakehouse原则是微软Azure的突触分析。这项技术仍然是新兴的,所以随着时间的推移可能会出现其他版本。

一个数据Lakehouse解决什么问题?

ManBetX万博客服数据仓库和数据湖泊都极受欢迎。两个并排存在于许多企业没有任何严重的问题。然而,有候选人需要改进的领域,如:

  • 数据重复:如果一个组织一个湖和一些数据仓库,这将创建冗余。ManBetX万博客服在最好的情况下,这是低效的。在最坏的情况下,它可能导致数据不一致。数据lakehouse结合一切,删除数据,创建一个组织的单个版本的真实数据。
  • 存储成本高:仓库和湖泊都有助于降低存储成本。仓库,减少冗余和整合不同来源的。湖泊做利用大数据文件系统(比如Hadoop和廉价的硬件上火花来存储数据。最便宜的方式存储数据,就必须把这些技术,这是lakehouse结构的目标。
  • 筒仓之间BI和分析:业务分析人员使用像一个仓库或集成的数据源数据集市数据科学家与湖泊、使用分析技术在未排序的数据。两队没有引起互动,和他们的工作经常重叠,甚至相互矛盾。数据lakehouse,两队正在从相同的存储库。
  • 数据停滞:在数据湖泊停滞是一个大问题,可以很快成为数据沼泽如果置之不理。通常企业数据转储到一个湖没有正确编目,很难知道如果数据已经过期。lakehouse结构带来更大的组织大数据和有助于识别数据。
  • 未来不相容的风险:数据分析仍然是一个新兴技术,每年新工具和技术。这些湖泊可能只有兼容数据,而另一些则可能只与仓库工作。灵活的lakehouse结构意味着企业可以为未来做准备。

有什么问题数据Lakehouses ?

数据专家指出lakehouse中的一些缺陷的方法。最值得注意的是:

  • 整体结构:lakehouse的一体化方法有一些优点,但它也引入了一些问题。整体结构不灵活,难以维护,有时他们会导致糟糕的服务为所有用户。建筑师和设计师通常更喜欢模块的方法,他们可以配置为不同的用例。
  • 在当前的结构不是一个实质性的改进:还有一些疑问lakehouses是否真的提供多少额外的价值。批评者认为,lake-warehouse结构,结合合适的自动化工具,可以提供类似的效率。
  • 科技还没有形成:终极愿景包括很多机器学习和人工智能。这些技术需要进一步成熟之前lakehouses达到建议的能力。

的术语表

一个数据集成技术的术语指南。

Baidu
map