亚马逊的AWS Glue服务是“一个完全托管的提取、转换和加载(ETL)服务,使客户易于准备和加载数据进行分析。”.那么,亚马逊为什么要发布AWS Glue呢?它有望如何帮助企业用户呢?

对于任何有远见的组织来说,大数据都是至关重要的,因为它们希望获得更有价值的商业见解,以更好地服务客户,并超越竞争对手。不幸的是,太多的组织没有利用他们手头上的信息财富。

根据Tech Pro Research,50%的受访者报告缺乏在正确的时间向下游应用提供正确信息的工具。44%的受访者表示没有时间整理

为了简化企业数据分析和报告,许多企业都安装了ManBetX万博客服:从组织内的许多来源收集信息的数据存储系统。当然,这仍然提出了如何将信息从分散的数据库中获取到集中的数据仓库的问题。ManBetX万博客服

ETL过程专门设计用于将信息从源数据库传输到仓库。然而,ETL的挑战和复杂性使得它很难成功地实现您的所有企业数据。

出于这个原因,亚马逊推出了AWS Glue。在这篇AWS Glue概述中,我们将讨论您想知道的关于Glue的一切:它是什么,它是如何工作的,评论以及与Glue替代品的比较。

每个月在你的收件箱里找到深刻的行业见解

每月从思想领袖那里获得独家提示和技巧、行业最佳实践和见解!

每月的时事通讯

女人 女人

目录

  1. 什么是ETL?
  2. AWS胶水概述
  3. AWS Glue回顾:概述、特性和功能
  4. AWS胶水的缺点
  5. AWS胶水:评论和替代方案
  6. AWS胶水替代品:integrated .io
  7. AWS胶水比较:如何集成。io擅长
  8. 结论

什么是ETL?

提取、转换、加载(ETL)是主要的数据集成过程,用于将信息从一个或多个源数据库加载到目标数据库或信息仓库。顾名思义,它包括三个阶段或功能:

  • 精华:从源数据库读取信息并将其提取到暂存区域。
  • 变换:对原始信息进行验证、检查是否存在数据完整性问题,并进行转换,使其与目标数据库模式匹配。
  • 负载:转换后的信息被加载到目标数据库或数据仓库中。ManBetX万博客服

拥有一个设计良好的ETL系统对于数据仓库解锁数据库中包含的见解至关重要。ManBetX万博客服ETL工具必须解决诸如在源和目标之间正确转换信息、处理各种各样的源以及扩展以处理大量信息等挑战。

坏消息是,许多组织还没有能够解决这些挑战,并最大限度地利用他们的ETL实现。根据最近的一项调查,68%的受访者报告称,他们的分析工作受到信息孤岛的阻碍。

看到这个机会,AWS Glue等服务已经介入填补了空白。那么它是什么,它如何帮助组织应对ETL挑战?

AWS胶水概述

如上所述,AWS Glue是一个完全托管的ETL服务,旨在为希望从其信息中获得更多信息的组织解决ETL过程中的困难。Glue于2017年8月首次公开发布。从那以后,亚马逊继续发布带有额外特性和功能的更新。一些最新的更新包括:

  • 在Python shell作业中支持Python 3.6(2019年6月)。
  • 支持通过VPC终端直接连接Glue(2019年5月)。
  • 使用Apache Spark支持作业的实时、连续日志记录(2019年5月)。
  • 支持自定义CSV分类器来推断CSV数据的模式(2019年3月)。

Glue填补了亚马逊云数据处理服务的空白。在此之前,AWS提供数据采集、存储和分析服务,但缺乏数据转换的解决方案。

引擎盖下面是:

  • 数据目录,一个元数据存储库,它包含对源和目标的引用,这将是ETL流程的一部分。
  • 一个自动生成Python和Scala脚本的ETL引擎,可以在整个ETL过程中使用。
  • 一种调度程序,可以运行作业并根据基于时间的条件和其他条件触发事件。

Glue的目的是促进企业级数据仓库的构建。ManBetX万博客服它可以从各种来源(包括事务数据库和Amazon云)将信息转移到仓库中。

根据亚马逊的说法,有很多胶水用例简化ETL任务,包括:

  • 发现关于各种数据库和数据存储的元数据,并将它们归档到目录中。
  • 创建ETL脚本,在从源到目标的过程中转换、反规范化和丰富信息。
  • 自动检测数据库模式中的更改,并调整服务以匹配这些更改。
  • 根据特定的触发器、时间表或事件启动ETL作业。
  • 收集关于ETL操作的日志、指标和kpi,以便进行监视和报告。
  • 处理错误并重试以防止进程中出现停顿。
  • 自动扩展资源以适万博手机登录平台应当前情况的需要。

在下一节中,我们将探索Glue提供的一些特性和功能。

AWS Glue回顾:概述、特性和功能

主要的胶水的特点包括:

  • Serverless计算:它是一个无服务器的产品,所以你不需要手动指定服务器来运行它。当您想使用它的功能时,Amazon会为您启动一个服务器,然后在不再使用时将其关闭。这种自动配置使您不必自己管理或扩展基础设施。
  • Apache火花Glue基于Apache Spark分析引擎进行信息处理。不过,该服务还允许用户用Python和Scala创建脚本。
  • 简单的开发:决定手动编写ETL代码的用户可以访问“开发人员端点”:可以在其中开发和测试脚本的环境。
  • 数据目录:Catalog是一个元数据存储库,它存储有关所有数据存储和源的信息,使您可以更好地查看关键信息,而不考虑位置。
  • 作业调度Glue允许您根据事件或时间表或完全按需启动工作,从而使调度更容易。

AWS胶水的缺点

虽然AWS Glue对于各种用例都很有用,但一些限制可能使其不适合采用。

有限的集成

与AWS Glue的集成选项是有限的。作为AWS工具,它不能很好地与其他技术集成。它的局限性在于它只有到JDBC和S3的本地连接器,这意味着组织将需要利用其他方法来连接非JDBC数据源。

需要特定的技能

作为一项相对较新的技术,AWS Glue具有很高的学习曲线。实现这个框架需要无服务器架构方面的专业知识,这对许多IT部门来说仍然是一个新概念。AWS Glue运行在Apache Spark上。因此,开发人员必须了解Spark以及实现它所需的代码,如Scala或Python。

有限的数据库支持

Glue缺乏对传统关系数据库类型查询的支持。它只支持sql类型的查询。然而,即使是这样,也需要大量的变通方法来完成除此之外的事情。

测试环境不足

Glue不提供测试环境。开发人员被迫在真实数据上测试他们的代码。不幸的是,这可能是一个缓慢而乏味的过程- n更不用说,如果出现问题,实时数据可能会受到负面影响。

不适合实时数据处理

使用Glue,所有数据都被分阶段处理。没有从数据源进行增量同步的功能。

缺乏文件

鉴于AWS Glue的新颖性,它是一项不断发展的技术。文档有限,使用起来很有挑战性。

AWS胶水:评论和替代方案

自2017年8月发布全面可用性以来,AWS Glue似乎已经相当受欢迎。在商业软件评论平台G2 Crowd上,基于30条评论,它的平均评分为4.0/5星。

根据对G2 Crowd的评论,Glue的积极特性包括简化数据集成过程的能力。评论家阿尔凯什说

我已经使用AWS胶水2到3年了。它允许您在业务范围内定位、移动和转换所有数据集。AWS Glue最有趣的一点是它是无服务器的:您可以通过将Glue指向所有ETL作业来运行它们。您不需要配置、供应或启动服务器,也不需要管理它们的生命周期。

然而,一些用户也抱怨AWS Glue有一个陡峭的学习曲线,部分原因是缺乏文档和资源。万博手机登录平台一位评论者毫不犹豫地说:

关于AWS Glue的文档和示例代码非常糟糕。通常情况下,我提出支持票来解决我的问题。

另一位用户说确实如此

它太新了,网上提到的教程或用例也不多,所以在生产中使用它还需要一些时间。万博max手机网页登录

面向未来领导者的ManBetX万博客服新数据仓库堆栈

低代码数据仓库工具ManBetX万博客服和数百个连接器,统一您的数据和报告

女人 女人

AWS胶水替代品:integrated .io

对于那些还没有接受这项服务的人来说,好消息是它远远不是唯一的ETL服务。像integral .io这样的公司提供管理和简化数据集成过程的替代方案。

集成。IO平台为构建提供了一个完整的工具包数据管道从头到尾。从简单的复制任务到高级数据准备和转换,都可以通过integration实现。Io易于使用的指向点击用户界面。

包含在集成中。IO平台集成有超过100种流行的数据存储和SaaS应用程序:MongoDB, MySQL,亚马逊红移, PostgreSQL,谷歌云平台,Facebook, Salesforce, Jira, Magento, HubSpot, Slack, QuickBooks,还有太多其他的东西在这里列出。

Integrate.iodrastically simplifies elastically scaling your数据集成基础设施。增加或减少活动节点的数量就像调整滑块向上或向下一样简单。

在G2 Crowd网站上,集成。根据80条评论,《IO》的平均评分为4.4/5星。感谢强大的用户反馈,集成。io被评为2019年春季G2 Crowd表现最好的节目之一。

许多集成。io用户对使用integration时的易用性和支持给予了积极的评价。io,这是处理复杂ETL过程时的关键。

根据评论家Nick G的说法:

Integrate.io链接到我们需要的大多数源和目的地。当没有本地连接器时,REST API连接器将实现我们想要的结果,支持团队随时准备跳入并在需要时提供帮助。我也喜欢这样一个事实,即支持团队和全面的文档通常专注于帮助你学习实现你想要的结果,而不是为你做工作。这帮助我们将所学知识用于其他用途。

Integrate.iouser Lally B. agrees, writing:

Integrate.io拥有优秀的客户服务。该团队超越了与我们合作,开发我们的数据流,并在他们的实时聊天系统中回答我们对产品的任何问题。万博max手机网页登录

另一位用户说:

之前Integrate.io我几乎没有ETL过程的经验,也没有大部分数据的经验。幸运的是,他们的支持团队非常棒,他们愿意一步一步地引导我了解数据管理的复杂混乱。

AWS胶水比较:如何集成。io擅长

开箱即用,积分。IO提供了多种功能,可以帮助开发人员快速启动和运行。

简单的数据转换

作为一个低代码的解决方案,集成。IO提供了一个用于构建数据转换的拖放界面。开发人员可以快速构建排序、联接、筛选和克隆等转换,而无需编写大量代码。需要进一步定制选项的用户可以使用integration。io的API连接到其他监测和报告系统。

简单工作流创建

工作流根据一组条件自动化任务排序。使用集成。Io,开发人员可以设置包之间的依赖关系。然后,它们可以根据来自另一个包的操作自动触发包。

高度灵活的REST API

Integrate.iomakes it easy to connect to unique or nonstandard data sources through a REST API connector. There is a virtually limitless variety of integration platforms and data sources to connect.

健壮的数据安全性和遵从性

Integrate.ioadheres to the strictest security standards. Regardless of your industry or vertical, Integrate.io meets all requirements.

SOC2合规:SOC 2认证是第三方服务提供商保护客户私人数据的标准。

防火墙访问控制:默认为“集成”。Io的防火墙拒绝访问所有内部系统和外部网络。它只通过您指定的协议和端口授予访问权限。

客户应用程序隔离:客户应用程序通过使用基于主机的防火墙相互隔离。

欧盟和GDPR符合资料私隐:Integrate.iomeets one of the toughest data protection regulations in the European Union.

符合HIPAA和CCPA:Integrate.iomeets all security requirements for protecting sensitive health information.

结论

每个月在你的收件箱里找到深刻的行业见解

每月从思想领袖那里获得独家提示和技巧、行业最佳实践和见解!

每月的时事通讯

女人 女人

对于许多开发人员和IT专业人员来说,AWS Glue自2017年8月发布以来,已经成功地帮助他们降低了ETL过程中涉及的复杂性和手工劳动。

然而,AWS Glue的对比突出了缺点,比如服务的新新性和困难的学习曲线,这意味着它并不是所有情况下的正确选择。那些正在寻找更完善的、用户友好的、全面管理的ETL解决方案并拥有强大客户支持的公司将会很好地检查Integrate.io。

以了解有关是否集成。IO适合您的组织,遵循Integrate.io博客获取最新的新闻和更新,或者保持联系使用集成。IO团队进行咨询。