什么是数据湖?

一个数据湖是一个大数据存储库,包含大量未细化的信息。

数据直接加载到数据湖中,而不经过集成层或转换层。导入的数据可以是结构化的(如关系数据库表)、半结构化的(如CSV和JSON文件)或非结构化的(如pdf和图像)。

数据湖和数据仓库的区别ManBetX万博客服

数据湖和数据仓库是解决存储问题ManBetX万博客服的两种常用方法。两者之间的主要区别之一在于数据在摄入前的处理方式。

ManBetX万博客服数据仓库经常使用ETL(提取,转换,加载)层。在这种方法中,从源中提取数据,根据主模式进行处理,然后上传到目标。仓库中的数据可以立即使用,不需要进一步处理。这种方法也称为模式写。

数据湖通常使用ELT(提取、加载、转换)。在这种方法中,在上传之前不需要对数据进行预处理。无论数据湖中包含的其他数据的格式是否匹配,数据都按原样摄入。转换由专业工具按需执行,如大数据分析平台,这被称为读时模式。

ManBetX万博客服数据仓库注重质量,而数据湖更注重数量。这就是为什么数据湖通常与大数据运营相关联的原因之一。

为什么数据湖有用?

有许多用例可以看到企业转向数据湖,例如:

  • 对于大容量数据源:数据湖是产生大量信息的数据源的合适存储库。这方面的例子包括网站活动日志、物联网数据、社交媒体数据和物流更新。
  • 执行大数据分析:大规模的分析工作需要来自众多来源的大量数据集。通常,对这些数据进行预处理是不可能的。相反,组织可以将所有数据上传到数据湖,并使用像Amazon Athena这样的工具分析并产生见解。
  • 长期储存:基于云的数据湖往往价格具有竞争力,使其成为一个有吸引力的长期存储选择。一些组织可能需要将数据存储一段较长的时间,这是出于法规遵从性需求或将来进行进一步分析的需要。数据湖是一种以合理价格创建持久性的有效方法。
  • 为了统一不同的数据源:数据湖是一种极其灵活的存储解决方案,不兼容的数据类型之间没有冲突。这种方法允许组织在单个位置存储不同的数据,而不需要在数据集成和协调上花费时间。
  • 训练机器学习和人工智能:机器学习和人工智能可以解决数据湖结构产生的许多问题,因为这些工具逐渐学习如何标记和解释结构化和非结构化信息。同样,数据湖是训练和开发机器学习或人工智能工具的理想环境。

这些是数据湖的一些典型用例。最终,当组织希望尽可能快地移动数据并尽可能快地存储数据时,就会使用这种方法。

数据湖的缺点是什么?

数据湖并非在任何情况下都是理想的。如果应用不当,这种结构可能会导致以下问题:

  • 不可靠的数据:因为输入的数据不需要验证,所以数据的质量可能不一致。如果这些数据没有经过进一步验证,可能会误导分析师和其他数据用户。
  • 数据沼泽:数据沼泽是一个停滞不前的数据湖。这种情况发生在湖中质量差或过期的数据过载时。结构开始变得不可用,即使使用最好的分析工具。
  • 缓慢的分析和生产使用:万博max手机网页登录当用户与数据库实时交互时,读时模式不是一种合适的方法。如果用户需要写入或需要提示查询结果,他们将需要一个模式即写数据仓库。ManBetX万博客服
  • 数据治理和透明度:在使用数据湖时,良好的数据治理比以往任何时候都更重要,因为除非知道来源,否则无法保证数据质量。对数据沿袭和数据来源的跟踪不足可能会导致可靠性问题,这可能会破坏湖中所有数据的价值。

这些问题都不是数据湖结构的固有缺陷——相反,它们表明了良好规划和强有力的数据治理的重要性。

数据湖如何实现?

数据湖可以在内部实现,尽管这可能昂贵且难以扩展。大型的本地数据存储库可能会遇到紧密耦合的存储和计算在这种情况下,存储空间和处理能力都需要相互扩大。这对于数据湖来说并不是最优的,因为数据湖通常需要不断增长的存储量,而不需要相应的处理需求增长。

基于云的数据湖是企业中更常见的选择,尤其是那些使用云数据湖进行长期数据存储的企业。云采用者有很多选择,亚马逊AWS、谷歌BigQuery、微软Azure和其他平台都提供了数据湖支持。

数据湖的运作遵循三个核心原则:

  • 开放:湖泊应该在结构上接受尽可能多的数据,同时仍然保持功能。湖泊设计师必须提前考虑未来的需求,以确保所有数据在湖中都有一席之地。
  • 适应性:lake应该准备好支持任何可能的业务使用,从分析到支持应用程序。同样,设计师必须向前看,建立一个可以作为未来发展基础的结构。
  • 协作:将数据集中在单个存储库中的组织应该看到一些组织范围内的投资回报。这将以更好的合作、更准确的见解和对客户的360度理解的形式出现。

这些原则就是数据湖和数据沼泽之间的区别。一个正常运行的数据湖应该为数据湖的所有者创造一些额外的价值。

术语汇编

数据集成技术的命名指南。

Baidu
map