ETLツールとは、ETLを実施・実行するためのソフトウェア・サービスです。国内外のさまざまなメーカーが開発しており、それぞれに異なった特徴があります。導入の検討にあたっては、それぞれのツールを調査しておくとよいでしょう。
目次
ETLとは?
ETLとは「Extract (抽出機能)」「Transform (変換機能)」「Load (書き出し・格納機能)」の頭文字をとった略語です。
企業の経営戦略の策定や課題解決には、社内に蓄積されている膨大なデータの分析が欠かせません。ところが、これらのデータは各支社・各部門・各拠点それぞれが独自に適切だと判断したデータベースやシステムで運用・管理されていることが多くあります。そのためデータの形式が統一されておらず、そのままではデータ分析に活用できないことがほとんどです。
そこで必要になるのがETL処理です。まずはデータベースやシステムからデータを抽出し(Extract)、データ分析に使うための希望の形式に加工・変換(Transform)、最後にデータ分析に使うためのデータベースやシステムに書き出して格納します(Load)。このように、データのユーザー(利用者)が使いやすい形式に変換する一連の処理が「ETL」です。
ETLが活用されるシーンとして、「名寄せ処理」をイメージするとわかりやすいでしょう。各部門が独自に管理している名前のデータは、同一の取引先や顧客であっても異なる表記で登録されていることがあります。たとえば同じ取引先でも、「株式会社」と登録されていることもあれば、「(株)」と登録されていることもあるでしょう。こうしたデータを抽出し、同一の形式に統合する際にETLを活用するのです。
ETLツールの仕組み
ETLツールのメリット
ETLツールの活用には3つのメリットがあります。
1.データを柔軟に変換できる
ETLツールのもっとも大きなメリットは、ユーザーが望む形式にデータを変換できることです。
データの変換処理はExcel(エクセル)でもできないわけではありません。しかし、複雑なマクロを組むなどの手間がかかるうえに、基本的にはExcelファイルしか扱えないといった限界があります。一方、ETLツールを使えばあらゆる形式のデータをユーザーの使いやすい形式に変換できるため、Excelと比較すると自由度が圧倒的に高まります。
2.大量のデータを扱える
大量のデータを扱えることもメリットの一つです。
ETLツールでなく、BIツール(ビジネスインテリジェンスツール)でもデータの変換処理はできますが、膨大な量のデータには向きません。また、Excelで大量のデータを扱おうとすると、非常に多くの処理時間がかかってしまいます。
ETLツールであれば、大量のデータを比較的短時間で処理できるのです。
3.複雑な変換処理ができる
複雑な変換処理ができることも重要です。
たとえば、あらかじめプログラムした時刻になったら自動的にデータベースから情報を抽出して変換するといったこともできますし、2段階変換のオートメーション化もできます。Excelでは難しいこうした処理も、ETLツールであれば可能です。
ETLツールのデメリット
ETLツールの導入には、デメリットもあります。
1.高スペックのサーバーが必要
ETLツールのメリットを実現するためには、高スペックのCPUやメモリが必要です。ただし、これはオンプレミス版に限ったことですので、クラウド版を利用することで解決できる可能性があります。
2.変換に時間がかかる
複雑なデータ変換をした場合、処理に時間がかかることがあります。もちろん変換内容やデータ件数によっても必要な時間は異なりますが、一日の終了時に変換処理を実行する場合、データベースへの格納が完了するのが翌朝ということも少なくありません。
しかしながら、手作業あるいは別のツールで同じことをしようとすれば、ETL以上の処理時間がかかることは十分に考えられます。それらと比較検討する場合は、ETL処理にかかる時間は問題にはならないでしょう。
3.リアルタイム性が低い
データ変換のリアルタイム性が低いのもデメリットと言えます。ETLツールはデータベースの情報を丸ごと抽出するか、タイムスタンプのような情報をもとにデータを抽出するものです。そのためデータを即時に抽出するのは難しく、前日や数時間前のデータを扱うにとどまります。
ただ、手作業でのデータ変換とは比較にならないほどスピーディに処理できることを考えれば、大きなデメリットとは言えません。
4.専門的な知識を必要とすることが多い
ETLは複雑な変換処理を定義できるものですが、裏を返せば複雑な変換プログラムを組む必要があるということでもあります。基本的にはIT知識のあるエンジニアが扱うことが望ましいでしょう。
ELT、EAI、データレプリケーションツールとの違い
ETLと比較されるものに「ELT」「EAI」「データレプリケーション」があります。それぞれにメリットとデメリットがあるものですので、目的に応じて活用するのがよいでしょう。
1.ELTとは?
ELTとは、「Extract (抽出)」「Load (書き出し・格納)」「Transform (変換)」の略語です。「Transform (変換)」と「Load (書き出し・格納)」の順序がETLとは異なります。ETLがデータを変換してからユーザーのデータベースに格納するのに対し、ELTはデータを格納してから変換するのです。
ELTのメリットとしては、変換前にデータを格納するため、データを活用するユーザーが変換前の元データを確認できることが挙げられます。取り込んだ情報を確認してから、どのように変換すべきか考えたい場合に便利です。
一方、ユーザー側のデータベースに実装されていない機能を使う変換は基本的にできません。SQLでできる範囲のデータ変換にとどまるので、利便性に欠ける部分があります。
2.EAIとは?
EAIとは「Enterprise Application Integration(社内アプリケーション統合)」の略語です。企業内にある複数のシステムにデータを連携することを指し、データの抽出はできるものの、変換は基本的にできません。
EAIのメリットは、比較的簡単にデータの連携を開始できることです。一方で、大量データの処理に弱く、時間がかかるというデメリットがあります。
3.データレプリケーションとは?
データレプリケーションとは、あるデータベースと別のデータベースを連携させることで、まったく同じデータを複製(レプリケーション)することです。元のデータベースが更新された場合には連携先のデータも更新されるもので、連携先に複製したものをそのままの形で残す「バックアップ」とは異なります。
データレプリケーションの大きなメリットは、連携のリアルタイム性です。数秒から数十秒前のデータを参照できるので、ユーザーは鮮度の高いデータを活用できます。また、ITの専門知識のあるエンジニアでなくても使えることが多いのも魅力です。
一方で、ETLと比較して複雑な変換処理には向かず、連携できるデータの種類が比較的少ないというデメリットもあります。
データレプリケーションについては、「レプリケーションとは?バックアップとの違いやおすすめツールを解説」で詳しくご紹介していますので、ぜひご覧ください。
ETLツール比較12選!代表的なETLツールを一挙にご紹介
ETLツールにはさまざまなものがあり、価格やサービス形式(オンプレミス版・クラウド版)、日本語対応などに違いがあります。採用するツールの検討時に調査しておくとよいでしょう。
従来のバッチ処理型のETLはリアルタイム性に欠けるという点がありますが、その中で大量のデータをリアルタイムに分析する必要がある場合はこちらのページ下部
「まとめ:バッチ処理思考ETLからリアルタイムETLへ」をご覧ください。
1.外資系ETLツール
(※ABC順で並んでおります。)
AWS Glue
メーカー | AWS |
生産国 | アメリカ |
ソフト形態 | クラウド型 |
特徴 | AWS(Amazon Web ServicesAmazon Web Service)のサーバーレスデータ統合サー ビスです。ETLによる分析データの準備を「簡単に」「スピーディに」「ローコストで」 実現することができます。例えば、ドラッグ&ドロップ、コード記述など、さまざまな 方法で利用することも可能です。あらゆるデータソースから必要なデータを抽出・変 換するのはもちろんのこと、データレイクのクローリング、データカタログの登録・更 新といった流れもを自動化できます。実行時間は標準で48時間(2880分)なので、大規 模・長時間の大容量データ処理も実現できるのが魅力です。 |
Azure Data Factory
メーカー | Microsoft |
生産国 | アメリカ |
ソフト形態 | クラウド型 |
特徴 | 抽出→変換→格納(書き出し)が自動的に実行できる、マイクロソフトのクラウド型 データ統合管理サービスです。クラウド・オンプレミスを問わず、さまざまなデータ ソースと連携してETL処理を自動的に実行できます。また、世界25以上の国や地域で 利用できるため、世界中に点在するデータを一元的に活用するのに役立つことも魅力 です。ドラッグ&ドロップで扱えるので、比較的簡単にデータを統合できます。 |
IBM InfoSphere DataStage
メーカー | IBM |
生産国 | アメリカ |
ソフト形態 | クラウド型・オンプレミス型 |
特徴 | AIを搭載したETLツールです。抽出・変換・格納といった一連のETL処理を ドラッグ&ドロップといった直観的なGUI操作で開発できるので、専門スキルが なくてもディスプレイ上で確認しながら作業を進められます。データを分割する パラレルジョブによって、大量データも高速処理できるのが魅力です。 |
Informatica PowerCenter
メーカー | Informatica |
生産国 | アメリカ |
ソフト形態 | クラウド型・オンプレミス型 |
特徴 | クラウドやオンプレミス問わず、データベース・アプリケーション・クラウドなどに 点在するデータを、形式に関わらず統合できるプラットフォームです。 ノンプログラミング・ノーコードで運用できるので、部門を超えた連携の強化に つながります。世界中のあらゆる規模・業種の企業に採用されていることが示す通り スタートアップから大企業まで活用できます。 |
Precisely Connect
メーカー | Precisely |
生産国 | アメリカ |
ソフト形態 | クラウド型 |
特徴 | 大量データを高速かつ高品質で処理できるETLツールです。全世界 15,600社以上に導入されています。「スマートETLオプティマイザ」と呼ばれる 独自の自動チューニング技術によって、対象データやシステムリソースの分析から 最適なアルゴリズムを選択した処理までを自動的に実施できるのが特長。 クラウドサービスとのデータ連携強化など、さらなるアップデートが続いています。 |
Stitch
メーカー | Talend |
生産国 | アメリカ |
ソフト形態 | クラウド型 |
特徴 | 全世界130か国以上のデータソースと連携対応しているETLツールです。 あらゆるデータベース、データウェアハウス、SaaS、アプリケーション間でデータを 連携・統合します。トラブルへの対処が自動的に実行されるのが魅力で、エラーの 検出関係者への報告、解決まで可能な限り人の手を煩わせることなく行われます。 また、少量データに適した無料プランも用意されているので、大量データを扱わない 小中規模の企業にも向いています。 |
Talend
メーカー | Talend |
生産国 | アメリカ |
ソフト形態 | クラウド型・オンプレミス型 |
特徴 | オンプレミス・クラウドのあらゆるデータとの連携を実現でき、基本的なETLツール からハイエンドのデータ統合プラットフォームまで利用できます。直観的なGUI (グラフィカル・ユーザー・インターフェース)でデータ活用のビギナーでも操作 しやすいだけでなく、本格的なビッグデータ活用にも標準対応しています。無料で 使えるオープンソースのETLツール「Talend Open Studio」で、コストを抑えて スモールスタートできるのも特長です。ガードナー社が実施するデータ統合 ソリューションベンダー20社に関する評価で「リーダー」を獲得するなど 高評価を得ています。 |
2.国産ETLツール
ASTERIA Warp
メーカー | アステリア株式会社 |
生産国 | 日本 |
ソフト形態 | クラウド型・オンプレミス型 |
特徴 | 16年連続国内シェアNo.1、9,800社以上の採用実績のあるETLツール。 ディスプレイ上でアイコンとアイコンをつなげる簡単な操作で、誰でもノーコードで データETL処理を開発できるのが特長です。100種類以上のシステムやクラウドサービス と連携しており、連携先のシステムが追加、変更になった場合も柔軟な対応が可能。 データをセキュアに連携するための機能も多数用意されています。 |
DataSpider
メーカー | 株式会社セゾン情報システムズ |
生産国 | 日本 |
ソフト形態 | クラウド型・オンプレミス型 |
特徴 | データの加工・変換をノンプログラミング・ノーコードかつローコストで実現できる ETLツールです。形式の異なるあらゆるシステム・アプリケーションのデータを、 プログラミング不要かつ直観的なマウス操作で簡単に連携できます。IoTとの連携も できるので、データ活用の幅が広がるでしょう。また、作成した処理の自動実行機能を 標準装備しています。 |
Reckoner
メーカー | 株式会社スリーシェイク |
生産国 | 日本 |
ソフト形態 | クラウド型 |
特徴 | データベースからストレージ、SaaSなど100種類以上のソースと連携できる ETLツールです。複雑なデータ連携をGUIによって直観的に完結できるのが魅力。 ソース一覧から読み込みたいサービスを選択し、適切な情報を入力するだけで必要な データを読み込めます。もちろんデータ分析基盤の準備は不要なので、導入後すぐに 活用できます。また、データを集約するだけでなく、連携する20種類以上のサービス へのエクスポートもできます。 |
trocco
メーカー | primeNumber |
生産国 | 日本 |
ソフト形態 | クラウド型 |
特徴 | わずか3ステップでデータ転送設定ができるデータ分析基盤の総合支援ツールです。 エンジニアでなくてもノープログラミング・ノーコードで、「データの抽出」 「データの変換」という2つの作業を自動化できるのが魅力。毎時間、毎日、毎週、毎月 といった単位で細かくデータ処理実行タイミングを設定できます。初期費用0円、 月額10万円から利用可能です。国内メーカーのプロダクトなので、日本語での サポート体制が整っています。 |
Waha! Transformer
メーカー | 株式会社ユニリタ |
生産国 | 日本 |
ソフト形態 | オンプレミス型、クラウド型 |
特徴 | 基幹系システムをはじめとする業務アプリケーション間のデータを 抽出、変換、格納し、自動でETL処理します。シンプルかつ直観的な操作性によって、 プログラミングやSQLの専門知識を持ったエンジニアでなくても、複雑な変換処理を 設定できるのが特長です。日本企業ならではのサポート体制も充実しており、ノウハウ のある技術スタッフに相談しながらツールの設定を進めることができます。 |
(各ETLツールの仕様・データは記事執筆時のものです)
ETLツールの選び方・比較方法
ETLツールを導入する際には、どのような観点で比較・検討すればよいのでしょうか。
1.変換機能で比較する
ETLツールのもっとも大きなメリットは、柔軟な変換ができることです。そのため、比較には「変換」の観点が欠かせません。事前に用意されているデータ変換の関数が多いツールほど、手間をかけずにデータを変換できます。一方、ツールの中に必要な関数が用意されていなければ、自社でプログラミングしなければなりません。
まずは「どのような変換をしたいのか」あるいは「今後、どのような変換をする必要が出てきそうか」を検討しておきましょう。そのうえで自社に必要な変換ができるかどうかは、オフィシャルの情報を確認するとともに、メーカーに問い合わせるなどして確認するようにしてください。
また、自社に必要な変換を元にいくつかの候補に絞ることができたら、ハンズオンに進みます。多くのメーカーがハンズオン用のライセンスを発行していますので、導入可能性がもっとも高いツールから試用するとよいでしょう。
2.価格で比較する
ETLツールにはさまざまなものがあります。価格の高いツールには事前に多くの関数が用意されている傾向がありますが、「価格の高いものを導入しておけば問題ないだろう」という考え方で導入すると、実際には使わない関数のために余分なコストをかけることにもなりかねません。自社が実行する変換とコストを照らし合わせて、適切なツールを導入することが大切です。
3.導入手順の容易さで比較する
ETLツールには、導入手順のわかりやすいものから複雑なものまであります。事前に導入マニュアルに目を通して、わかりやすいユーザーガイドになっているか確認しておくとよいでしょう。
4.導入後の技術支援で比較する
ETLツールの導入後に、当初想定していなかったデータ変換が必要になることがあります。こうした場合に備えて、新たな定義の作成に対応してもらえるかどうかも事前に問い合わせておくことが大切です。また、そのために必要な期間や費用についても確認しておくようにしましょう。
ETLツールの導入価格
ETLツールにはさまざまなものがあり、価格にも差があります。ベーシックなものであれば数十万円から導入可能ですが、ハイエンドのものになると1000万円~3000万円程度になることもあります。もちろん、実際にツールを運用するための人件費についても考慮しておかなければなりません。
また、オンプレミス版は初期投資が高くなるものの、ランニングコストを抑えられる傾向があります。一方のクラウド版ではスモールスタートできるものの、変換のデータ量などによってランニングコストが変動することがあるので注意が必要です。ただし、近年はサブスクリプション契約になっていることが多いので、オンプレミス版とクラウド版に大きな価格差はないともいわれています。
ETLツールでできること「活用シーン例」
ETLツールはどのような業務に活用されているのでしょうか。具体的な2つの例を紹介します。
1.マーケティング業務で使う場合
ECサイトなどのBtoCマーケティングの業務では、顧客の来店回数、購入商品、平均購入金額といったデータが社内あるいはグループ企業で利用している異なるツールに点在してしまうことがよくあります。そうしたデータの形式を変換し統合するために、ETLツールが活用されています。ETLで統合したデータを分析することによって、広告やキャンペーンなどマーケティング戦略を練るのに役立てています。
2.製品開発業務で使う場合
自動車開発の現場などの製品開発業務でも、ETLツールは欠かせません。現在の自動車はさまざまなセンサーにより、位置情報や向き、加速度などの走行データを蓄積しています。しかし、これらのデータは別々の形式で集積されていることがあるため、自動車の開発に役立てるにはデータを変換して統合しなければなりません。ETLツールはこうしたシーンにも活用されています。
まとめ:バッチ処理ETLからリアルタイムETLへ
データの変換処理を柔軟に変更できたり、大量のデータを一括で送ることができるなど、従来のバッチ処理型のETLにはさまざまなメリットがある一方で、リアルタイム性に欠けるというデメリットがあります。
継続的なデータの増加とタイムリーで正確なデータ分析需要の増加により、企業は複数のデータベースソースからストリーミングされるデータを、リアルタイムで統合することに苦戦しています。そうした流れの中、バッチ処理ETLからリアルタイムETLへのシフトを検討する企業が増えてきています。
特に中堅・大手企業では、膨大なデータ量が高速で次々と蓄積され、それらがもたらす会社と市場の変化に対して迅速に対応できるリアルタイムETLソリューション(データレプリケーションツール)が必要になります。
こうしたリアルタイムETLを求める企業にとって、リアルタイムデータ統合を実現する最も簡単かつ費用対効果の高い方法は、ログベースのCDC(変更データ取得)を特長とする高性能なデータレプリケーションソリューションの導入です。
弊社が取り扱っているQlik Replicateは、ログベースのCDC技術とインテリジェントなインメモリトランザクションストリーミングを組み込んだ、強力なリアルタイムイベントキャプチャとデータ統合プラットフォームをご提供します。Qlik Replicateを利用することで、膨大なデータ連携/移行のパフォーマンスを高め、リアルタイムでのデータ分析が可能になります。また、Qlik Replicateは、主要なRDBMS、DWH、メインフレームシステム、HadoopやKafkaなど、さまざまなデータソースとターゲットに対応しています。
Qlik Replicateについて詳しく知りたい方はこちらのページをご覧ください。
データ総合ソリューション – Qlik Replicate
Qlik Replicateに関するお問い合わせ、デモ・トライアルのご希望はこちらからお問合せください。
デモ・トライアルなどQlik Replicateに関するお問い合わせ