データレイクとは?|現場のエンジニアが絶対に欲しがる柔軟な分析基盤!

執筆者

こもせ
  • 業界経験10年
  • 30社以上の企業に対してBIシステムの提案や導入を経験
  • 現在はプロダクトエンジニアとしてノーコードツールの開発に従事

データレイクは現場の導入する人も利用する人もどちらにも利点があり、BIの活用を高速化する非常に魅力的な仕組みです。最初は必要ないかもしれませんが、企業に分析文化を浸透させていくには必ず導入することになるシステムです。

顧客に理解してもらうには難しいシステムですが、私がコンサルタントをやっていた際は、必ずといっていいほど提案していましたし。提案していなくても今後のシステム拡張が楽に進むように簡易的なデータレイクを作成することもありました。

この記事では現場を経験していた人間としてデータレイクにどんなメリットがあるのかまとめますので、是非とも構築を検討してみてください。

この記事の想定読者

  • データレイクを提案された人
  • エンジニアとしてデータレイク何?となっている人
  • 営業やコンサルとしてデータレイクを提案する人

データレイクとは?

データレイクとは、構造化データ、非構造化データをひとまとめに保存しておくデータの管理手法のことです。

特定のデータベースに対し、正規化などを考慮せずにExcelやAccess、テキストデータなどをそのままの形で保存し、エンジニアやデータサイエンティストが好きなタイミングに好きな形でデータを分析します。

元データの形式そのままのため、とんでもない形のデータが存在している場合もありますが、想定している利用者が技術者であることと、新たな切り口の分析を検証するためのテスト環境のような使い方をするため、そこは問題としません。

有効なデータと認められた場合は、別途工数をかけて加工処理を構築し、データウェアハウスやデータマートを構築することになります。

データレイクの特徴

データレイクに保管されるデータの特徴として以下の点が挙げられます。

  • データが整理整頓されていない
  • 利用ユーザーが限られる
  • リアルタイムのデータが保管される

データウェアハウスやデータマートとの違い

似た用途で使われる仕組みとして、データウェアハウスやデータマートがあります。これらとデータレイクと違い加工処理された後のデータになるため、データのリアルタイム性が失われます。その代わり、整理整頓されているため、技術者以外でも利用しやすく、処理も高速です。

データレイクの導入を進めたい理由

ではなぜ、私たちコンサルタントや営業がデータレイクの導入を進めたいのか。それはもちろんお金が欲しいからなのですが、それ以外にも後の生産性や顧客の最大の目的を達成に影響するからなんです。

具体的には、以下のような影響があります。

今後のデータウェアハウスの追加が安く、早くなる

今後のお金が稼げなくなることを提案するのか?と思うかもしれませんが、それ以上に利点があります。

データレイクは、データウェアハウスになる前のデータを貯めておく場所になるのですが、このためる仕組みを作る作業、単純なのに誰がやっても時間がかかるのです。そのため現場のエンジニアはやりたがりませんし、スキル向上に繋がらないですし、人材が必要なため調達に手間がかかるため開発会社にとってあまりメリットがないんです。

そこで、この単純作業を顧客にやっていただくことで、費用を安く抑え、さらに同時開発でデータウェアハウスへの加工処理を行うことで開発時間も早くなります。

企業に分析文化が根付く

データレイクにデータを投入する流れができると、利用者から「あのデータとこのデータを組み合わせたらどうなるだろうか?」という動きが出てきます。

データレイクのデータを使って自由に分析ができると思いもよらなかった新たな企画や新たな生産性向上策が生まれ、BIとしてとっても良い分析の流れが出来上がります。

私が関わったデータ分析の活用が進んでいる企業では必ずと言っていいほどデータレイクが構築されておりました。

データレイクが必要になる場面

1.分析に使いたいデータが多岐にわたる

分析したい元データの所在が基幹システムはもちろん、ユーザーの手元にあるExcelやAccess、自動連携されるIoTの出力ログなど、多岐にわたる場合、データレイクを構築することを検討すべきでしょう。

システムによっては、データウェアハウスに上記の役割が重なって運用されている場合もあり、意識せずともデータレイクを運用しているシステムもあります。

データウェアハウスを利用するユーザーからすると、どれが整形されたデータかがわからないため、データベースやデータベースソフト、サーバー単位で切り分けてデータレイクを運用するべきです。

2.分析を行うデータサイエンティスト人材が豊富

分析システムを利用するユーザーが多くなく、技術者が豊富にいるような環境の場合は、あえて時間をかけてデータウェアハウスを構築せず、データレイクだけで済ませる場合もあります。

ただし、分析するたびに無駄な工数がかかるため、最終的にはデータウェアハウスを構築することにはなるでしょう。

3.データウェアハウスを構築するまでの加工処理が複雑

データウェアハウスを構築するまでの加工処理が複雑な場合、システムの役割を明確に切り分けるために、加工処理やデータを一時的に保存する箇所をデータレイク、蓄積する箇所をデータウェアハウスにすることもあります。

データレイクの活用事例

ETL兼データレイクとしての活用

データレイクはその特徴から、加工することが必須の保存方式のため、データレイクとして活用するサーバー内にデータベースソフトと同時にバッチ関係の仕組みも合わせて導入することがあります。

エンジニアとしてはその方がその場で早く作業ができるためです。

ストレージ兼データレイクとしての活用

社内で作成されるデータの保存先をデータレイクにしておけば、社内のデータが常に分析が開始できる場所にデータが存在していることになるため、データ活用のスピードが迅速になります。

データレイクまとめ

最後にここまで記載した情報を振り返ります。

データレイクとは

データレイクとは分析のために特化されたデータベースで3つの特徴がある

  • データが整理整頓されていない
  • 利用ユーザーが限られる
  • リアルタイムのデータが保管される

以下4つの状況が存在する場合にはDWH導入を検討する

  1. 分析に使いたいデータが多岐にわたる
  2. エンジニアの人材が豊富
  3. データウェアハウス構築までの処理が複雑

エンジニアからすると、データレイクがある分析システムは非常にありがたいです。(利用者への影響を考えずに作業できるので。。。)

ちなみに、データレイク=Data Lake(※直訳でデータの湖)という意味です。とりあえずデータ溜まっているイメージからこの名前がついたそうですよ。

最後までご覧いただきありがとうございました!

おすすめの記事