오늘날모든업계,모든규모의조직에서는계속늘어나는엄청난양의정보에액세스하며,이는사람이이해하기에는지나치게방대한정보입니다。이모든정보는효율적인처리와분석을통해잡신호안에숨겨진데이터중심의가치있는인사이트를추출할수없다면사실상무용지물에불과합니다。

Etl(추출,변환,로드)프로세스는여러소스로부터데이터를수집하여중앙집중식데이터웨어하우스에로드하는가장일반적인방법입니다。Etl프로세스에서정보는데이터베이스,파일,스프레드시트등과같은소스에서추출되어데이터웨어하우스의규정을준수하도록변환된다음,데이터웨어하우스에로드됩니다。

ETL이데이터웨어하우징과분석의기본구성요소이긴하지만,모든ETL소프트웨어툴이동일한방식으로제작되지는않습니다。조직의상황과사용사례에따라가장적합한etl툴의기준이달라집니다。2021년최고의ETL소프트웨어툴7가지와그외추가로고려할만한툴을아래에소개합니다。

  1. Integrate.io
  2. Talend
  3. FlyData
  4. Informatica Power Center
  5. Oracle数据集成器
  6. Fivetran
  7. 기타고려할만한etl툴
  8. 주etl툴사용사례

1) Integrate.io

Integrate.io는여러데이터소스를간편하게통합하는클라우드기반etl및英语教学(추출,로드,변환)데이터통합플랫폼입니다。Integrate.io플랫폼은 다수의 소스와 대상 간에 데이터 파이프라인을 구축하기 위한 간단하고 직관적인 그래픽 인터페이스를 제공합니다.

관련게시물:Etl과elt비교

Integrate.io에는 100개 이상의 일반적인 데이터 저장소와 SaaS 애플리케이션이 패키지로 들어 있습니다. 여기에는MongoDBMySQLPostgreSQL亚马逊红移、谷歌云平台、Facebook、Salesforce, Jira, Slack, QuickBooks를비롯하여수십가지가포함됩니다。

확장성,보성,탁월한고객지원은整合。Io가제공하는또다른여러장점입니다。예를들어集成。Io의최신기능필드수준암호화(字段级加密)를사용하면사용자가고유의암호화키를사용하여데이터필드를암호화및복호화할수있습니다。또한Integrate.io는Hipaa, gdpr, ccpa등각종법률과관련된규제를철저하게준수합니다。

이러한장점들덕분에集成。io는G2웹사이트에서93명의리뷰어들로부터별점5점만점에평균4.4점을받았으며,etl툴분야에서g2의"리더"중하나로선정되었습니다。Integrate.io리뷰어 Kerry D.는 다음과 같이 말했습니다. "이 툴로 할 수 없는 일은 없습니다. 지원 및 개발 기능은 응답성이 매우 높고 효과적입니다."

2) Talend

Talend数据集成은오픈소스etl데이터통합솔루션입니다。Talend플랫폼은온프레미스와클라우드모두에서데이터소스와호환되며,이미빌드된수백개의통합을포함합니다。

일부사용자는오픈소스버전의Talend로도충분하다고생각할수있지만대기업의경우Talend의유료데이터관리플랫폼을선호할것입니다。Talend유료버전에는디자인,생산성,관리,모니터링,데이터거버넌스를위한추가툴과기능이포함되어있습니다。

Talend는G2에서별점5점만점에평균4.0점을받았으며,Gartner의데이터통합툴부문魔力象限보고서에서”리더“로선정되었습니다。리뷰Jan l .은어Talend가”명확하고이해하기쉬운인터페이스“를갖춘”데이터통합을위한훌륭한다목적툴“이라고말합니다。

3) FlyData

FlyData는클라우드기반실시간데이터통합플랫폼입니다。FlyData는수많은소스의데이터를亚马逊红移와雪花로복제하는기능을지원합니다。FlyData는시장에서가장빠른ELT라고알려져있으며,정성과속도면에서Stitch와Fivetran을모두능가합니다。

FlyData는데이터복제를설정하는데걸리는시간과수많은데이터행을복제할수있는속도측면에서분명한제품차별화를가지고있습니다。FlyData는전자상거래와같이데이터통합의속도와정성을중하게여기는기업에적합합니다。

FlyData는G2에서별점5점만점에4.8점을받았으며,수많은사용자가FlyData의고객지원,투자수익률,구현속도를칭찬합니다。리뷰어Priyam J.는”원래10시간30분이걸리던보고서가이제는1분이면됩니다。八이덕분에는매일아침정해진시간에팀전체에서KPI보고서를공유할수있게되었습니다라고말합니다。

4) Informatica PowerCenter

Informatica PowerCenter는ETL워크로드를위한완성도가높고기능이많은엔터프라이즈데이터통합플랫폼입니다。PowerCenter는Informatica의클라우드데이터관리툴제품군중하나의툴입니다。

엔터프라이즈급의데이터베이스중립솔루션인PowerCenter는SQL및비SQL데이터베이스를포함하여다양한데이터소스와의호환성과고성능으로명성이높습니다。Informatica PowerCenter의단점으로는툴의높은가격과기술력이낮은소규모조직을단념시킬수있는까다로운학습곡선을들수있습니다。

이러한단점에도불구하고Informatica PowerCenter에는충성도가높은사용자가있으며,G2에서별점5점만점에평균4.3점을받았으며,데이터통합소프트웨어분야에서g2“리더”선정되기에충분합니다。”리뷰Victor c .는어PowerCenter가지금까지사용해본ETL툴중가장강력한툴“이라고하기도했으나,PowerCenter는느릴수있으며画面나QlikView와같은시각화툴과잘통합되지않는다고불평하기도합니다。

5) Oracle Data Integrator

Oracle数据集成器Oracle의(ODI)는데이터관리에코시스템의일부인종합적인데이터통합솔루션입니다。따라서플랫폼은Hyperion财务管理、Oracle电子商务套件(EBS)등다른甲骨文응용프로그램의현재사용자에게현명한선택이될수있습니다。ODI는온프레미스와클라우드버전으로제공됩니다(클라우드버전은Oracle数据集成平台云라고함)。

이목록에있는대부분의다른소프트웨어툴과달리는Oracle数据集成商英语教学워크로드(ETL아님)를지원하며,이는특정사용자에게장점이되거나걸림돌이될수있습니다。또한특정주변기능이다른甲骨文소프트웨어에포함되어있으므로대부분의다른툴에비해기본기능만갖추고있습니다。

Oracle Data Integrator는G2에서별점5점만점에평균4.0점을받았습니다。G2리뷰어克里斯托弗·t·에따르면ODI는”수많은옵션이있는매우강력한툴“이지만”배우기너무어려워서반드시교육이필요”하다고합니다。

6)针

는오픈소스elt데이터통합플랫폼입니다。Talend와마찬가지로针는고급사용사례와더많은데이터소스를위한유료서비스계층을제공합니다。다음과같은여러가지의미로비교해볼수있습니다。Stitch는2018년11월Talend가수했습니다。

针플랫폼의차별점은셀프서비스英语教学와자동화된데이터파이프라인을제공하여프로세스를단순화하는것입니다。그러나장래의사용자들은针의ELT툴이임의변환을수행하지않는다는점에유의해야합니다。오히려针팀은데이터웨어하우스내부레이어의원시데이터위에변환을추가해야한다고제안합니다。

G2사용자들은Stitch에대해"고성능플랫폼"이라는타이틀을붙였을뿐만아니라대체적으로긍정적평가를남겼습니다。”한리뷰어는针의가격책정단순성,내부작동의오픈소스특성,온보딩용이성"을칭찬합니다。그러나일부针리뷰는사소한기술적문제와인기없는데이터소스에대한지원부족을언급합니다。

7) Fivetran

FivetranBigQuery은红移,Azure및雪花데이터웨어하우스와의데이터통합을지원하는클라우드기반ETL솔루션입니다。Fivetran의가장큰이점중하나는약90개의SaaS소스와사용자지정통합을추가할수있는기능을갖춘풍부한데이터소스입니다。

Fivetran은현재G2에서별점5점만점에4.2점을받고있으며,많은사용자가툴의단순성과사용편의성을칭찬합니다。리뷰Daniel h .는어”Fivetran에대해오랜시간생각할필요가없으며,이는필요한작업을하고있다는좋은신호입니다。새커넥터를연결하면솔리드문서작업을쉽고빠르게수행할수있습니다”라고말합니다。

그런데일부G2리뷰어들은커넥터수에서소비기반계획으로변경되는Fivetran의새로운가격모델에대해불만을표했습니다。또한소수의사용자는기술적문제와고객지원문제를겪기도합니다。Fivetran은블랙박스입니다。문제가생기면진단하는것이정말어렵습니다。지원도변변치않습니다”라고말합니다。

고려할만한주etl툴8가지

7위에열거한가지솔루션은최고의ETL툴에대한개인적인추천사항이지만그밖에도고려할만한많은다른옵션이있습니다。아래에는고려할만한주8가지etl툴에대한간략한개가나와있습니다。

1) Striim

Striim은빅데이터워크로드를위한실시간데이터통합플랫폼을제공합니다。사용자는甲骨文、SQL Server、MySQL、PostgreSQL, MongoDB, Hadoop을포함하여약20가지파일형식으로광범위한데이터소스와대상을통합할수있습니다。Striim은GDPR, HIPAA와같은데이터개인정보보호규정을준수하며사용자는SQL또는Java를이용하여사전로드변환을정의할수있습니다。

그러나Striim플랫폼에는몇가지단점이있는데,SaaS(软件即服务)소스또는대상을포함하지않고사용자가새로운데이터소스를추가할수없습니다。또한Striim사용자층은G2에리뷰가1개밖에보이지않을정도로규모가상당히작습니다。

2) Matillion

MatillionBigQuery은红移,雪花,Azure突触와데이터를통합할수있는클라우드ETL플랫폼입니다。사용자는간단한포인트앤클릭인터페이스를통하거나SQL로정의하여Matillion에서데이터변환을생성할수있습니다。

타깝게도Matillion은Striim과유사한단점이있습니다。앞서논의한다른옵션과비교할때Matillion에서사용가능SaaS한소스의수(약40개)는충분하지않습니다。또한G2(Matillion은별점5점만점에4.2점을받음)의한리뷰어는”간단하게사용하는클라이언트에게는가격모델이어렵습니다。작업량이얼마나많은지나컴퓨팅리소스가사용되는지가아닌가상머신이켜진시점을기준으로요금이부과됩니다”라고언급했습니다。

3) Pentaho

Pentaho(또는水壶)는日立Vantara에서제공하는오픈소스플랫폼으로데이터통합과분석에사용됩니다。사용자는Pentaho의무료커뮤니티버전을선택하거나소프트웨어의엔터프라이즈버전에대한상용라이선스를구입할수있습니다。Integrate.io와 마찬가지로, Pentaho는 ETL 초보자도 강력한 데이터 파이프라인을 구축할 수 있는 사용자 친화적인 인터페이스를 제공합니다.

그러나Pentaho에는한정된템플릿,기술적문제등몇가지단점이있습니다。Pentaho는현재G2에서별점5점만점에평균4.3점을받고있으며,일부사용자는이해할수없는문제가발생한다고불평합니다。사용자는”로깅화면에오류에대한상세한설명이없기때문에때때로오류원인을찾을수없습니다”라고말했습니다。

4) AWS胶水

AWS胶는빅데이터와분석워크로드를위한Amazon Web Services의완전관리형ETL서비스입니다。완전관리형종단간ETL제품인AWS胶는ETL워크로드의문제를없애고나머지AWS에코시스템과잘통합됩니다。

특히,AWS胶水는서버를사용하지않습니다。즉,亚马逊은자동으로사용자에게서버를제공하며워크로드가완료되면서버를종료합니다。AWS胶에는또한작업스케줄링및AWS胶스크립트테스트를위한”개발자엔드포인트”와같은기능도포함되어있어툴의사용편의성을향상시킵니다。

AWS胶水사용자는서비스에전반적으로높은점수를주었습니다。현재비즈니스소프트웨어리뷰플랫폼g2에서별점5점만점에3.9점을받았으며,集成。io와마찬가지로ETL툴분야에서“리더”로선정되었습니다。AWS胶그러나는다른툴에비해유연성이떨어질뿐만아니라AWS생태계에이미속해있는사용자에게적합하기때문에최고의ETL툴7가지에는포함되지않았습니다。

5)全副盔甲

华丽服饰는데이터통합프로세스를단순화하는것을목표로하는자동화된셀프서비스클라우드데이터웨어하우스입니다。표준ODBC / JDBC연결、Postgres연결또는AWS红移연결이있는데이터커넥터는全副盔甲와호환됩니다。또한사용자는缝合,Fivetran과같은다른ETL툴과全副盔甲를연결하여데이터통합워크플로를더욱늘릴수있습니다。

g2에서별점5점만점에평균4.4점을받았습니다。리뷰어斯泰西b는”全副盔甲의가장좋은점은여러소스에서데이터를쉽게가져올수있다는것입니다。프로그램설정과데이터로딩에10분도채걸리지않습니다”라고말합니다。

그렇다면최고의ETL툴7가지중하나로全副盔甲를추천하지않은이유는무엇일까요?调遣가가장큰문제는데이터웨어하우스와ETL솔루션의이중기능을모두제공하려고한다는것입니다。이미다른클라우드데이터웨어하우스를사용중이고변화를모색하고있지않다면全副盔甲는성공할가능성이없습니다。

6) Alooma

Alooma는클라우드내데이터웨어하우스를위한etl데이터마이그레이션툴입니다。Alooma의주요장점은많은데이터파이프라인을자동화하여기술적인세부사항보다는결과에집중하게한다는것입니다。

2019년2월,谷歌은Alooma를수하고谷歌云平台사용자만향후가입할수있도록제한했습니다。즉,红移또는雪花와같은다른데이터웨어하우스를사용하는고객은대체솔루션을찾아야합니다。

그럼에도Alooma는사용자들에게전반적으로긍정적평가를받고있으며,G2에서별점5점만점에4.0점을받았습니다。한사용자는”Alooma가코드엔진기능을통해제공하는유연성은정말마음에듭니다。(그런데]내부툴스택의핵심인입력중일부는완성도가매우떨어집니다”라고말합니다。

7) Hevo Data

Hevo数据,는데이터베이스클라우드스토리지,SaaS소스에대해미리빌드된커넥터100개가가넘게있는ETL데이터통합플랫폼입니다。Python을사용자는사용하여Hevo数据에서사전로드변환을정의할수있습니다。BigQuery Hevo数据는红移,雪花를포함하여가장인기있는데이터웨어하우스대상을지원합니다。

Hevo의가장큰제한사항중하나는자체데이터소스를추가할수없다는점입니다。새로운연결이필요하면Hevo개발자가기능요청을들어주기만을바라는수밖에없습니다。Hevo数据의또다른단점은툴의사용자층의규모가상대적으로작다는것이며(G2에리뷰가6개밖에없음),이로해조언이나지원이필한경우문제가될수있습니다。

8) FlyData

FlyData는한가지큰문제점이있는실시간데이터복제플랫폼입니다。亚马逊红移데이터웨어하우스하고만호환됩니다。红移만사용하고전환할계획이없다면적합한솔루션이될수있습니다。이경우红移와작동하도록사용자지정빌드된툴을사용할수있습니다。

그러나다른데이터웨어하우스솔루션을사용하거나유연성을유지하고공급업체에종속되는위험을피하고싶다면FlyData는적절한툴이아닐수있습니다。FlyData는또한다른주단점이있습니다。소수의데이터소스(Amazon RDS,亚马逊极光,MySQL, Percona PostgreSQL, MariaDB)에서만작동하며SaaS플랫폼에서는작동하지않습니다。

주etl툴사용사례

동일한etl소프트웨어툴은없으며,각각장단점이있습니다。가장적합한ETL툴을찾으려면비즈니스요구사항,목표,우선순위를정직하게평가해야합니다。

위의비교를고려하여아래목록에각ETL툴에관심을가질만한몇개의사용자그룹이제시되어있습니다。

  • Integrate.io:ETL및/또는英语教学워크로드를사용하는기업,비기술직원이사용할수있는직관적인드래그앤드롭인터페이스를선호하는기업,미리빌드된통합이많이필요한기업,데이터보안을중요하게생각하는기업
  • Talend:오픈소스솔루션을선호하는기업,미리빌드된통합이많이필한기업
  • 针:오픈소스솔루션을선호하는기업,단순한英语教学프로세스를선호하는기업,복잡한변환이필요하지않은기업
  • Informatica PowerCenter:예산이많고까다로운성능구사항을가진대기업
  • Oracle Data Integrator:기존Oracle고객및ELT워크로드를사용하는기업
  • Skyvia:코드없는솔루션을원하는기업,많은변환을수행하지않아도되는기업
  • Fivetran:미리빌드된통합이많이필한기업,여러데이터웨어하우스의유연성이필한기업

각툴의단점으로인해주요ETL툴7가지중하나를추천하기란어렵지만,아래솔루션은다음과같은사용사례에적합할수있습니다。

  • Striim:GDPR또는HIPAA를준수해야하는기업,새로운데이터소스(특히SaaS)를추가할필요가없는기업
  • Matillion:간단한포인트앤클릭인터페이스를사용하고자하는기업,제한된수의데이터소스만있는기업
  • Pentaho:오픈소스etl툴을선호하는기업
  • AWS胶:기존aws고객및완전관리형etl솔루션이필한기업
  • 华丽服饰: etl과데이터웨어하우스통합솔루션을원하는기업
  • Alooma:기존谷歌云平台고객
  • Hevo数据:Python을사용해자체데이터변환을추가하고자하는기업,새로운데이터소스를추가할필요가없는기업
  • FlyData:红移데이터웨어하우스로만작업하면되는기업

Integrate.io가 비즈니스에 가장 적합한 ETL 소프트웨어 툴이라고 생각되면지금바로集成。Io에연락주세.Integrate.io가 적합한지 확인할 수 있도록 맞춤형 데모와 7일 무료 체험판 사용을 예약해 드리겠습니다.