今回は、インサイトテクノロジーが開発しているプロダクトの話について書きたいと思います。
このBLOGをお読みの方であればご存じのように、インサイトテクノロジーは自社でプロダクトを開発して、プロフェッショナルサービスとともにお客様に提供しています。数年前までは、Oracleデータベースのチューニングツールである「Performance Insight」とデータベースのアクセスログを取得する「PISO」という2つのプロダクトを販売してきました。
2019年からは、データベースのバージョンアップ、クラウド移行などを支援する「Insight Database Testing」、個人情報などの機微な情報をマスキングする「Insight Data Masking」といったプロダクトをリリースし、提供し始めています。現在は、これらのプロダクトを含め、「Insight Data Governor」という名称でデータガバナンスのSuiteプロダクトとして提供する予定です。
このSuiteプロダクトの中で提供する予定のプロダクトに「Insight Data Catalog」があります。
データカタログとは、何でしょうか?
少し聞き慣れない方もいらっしゃると思います。
データレイクという言葉が2010年頃から登場してから、大量かつ多種のデータが溜められてきています。しかし最近では、データを集めることが目的化し、データレイク(湖)でなく、データスワンプ(沼)という状態に陥っている企業も散見されるようになってしまいました。これは、データはあるもののどのようなデータなのかがわからなくなってしまい、データを活用することが困難になって役に立たない状態になるケースです。
そこで登場してきたのが、「データカタログ」と呼ばれるプロダクトです。
データカタログは、メタデータと呼ばれるデータの属性や意味を表すデータを管理するツールです。カタログというと、商品の載っている冊子を思い浮かべると思いますが、データカタログでは「集まっているデータがどのようなデータであるか」を知り、「欲しいデータがあるかどうか」を検索できる機能を用意しています。
データレイクのような概念が無い時代には、データカタログの必要性が感じられなかったと思います。今はこのようなツールが必要となほど、たくさんのデータが溜まる時代になりました。どのようなデータがあるのか分かれば、データ活用がますます進んで行くようになりますよね。
データカタログは、まずデータ属性のタグ付けを行わないと、ツールを用意するだけでは使うことができません。また、データは常に追加され、更新されますので、データカタログも運用後の更新を常に行うことが重要になります。
現在開発している弊社の「Insight Data Catalog」では、自動的にカタログに登録するデータの抽出を行い、その属性の判定をAI(機械学習)で行うことで、初期構築の手間と運用負荷を低減させる機能を実装しました。個人情報・機微な情報を特定する機能は、既に「Insight Data Masking」でも実装しており、継続的に精度を向上させています。日本産のデータカタログツールはまだ少なく、特に日本語のデータの判定については、海外製品と比較すると優位になると考えております。
現状でのβ版の画面イメージを添付します。(実際の画面イメージと異なる場合がありますので、予めご了承ください。)
GA(General Availability)版のリリースを2022年の秋に予定しています。是非ご期待ください!
[β版の画面イメージ:1]データのタグ付けとデータソース
[β版の画面イメージ:2]データの品質を表したペンタグラフ
[β版の画面イメージ:3]データのメトリック(属性や状態)