第1回では以下の内容をご説明します。
2-2. Microsoft Fabricのエクスペリエンス
1. はじめに
Microsoft Fabricは、データの集約、分析、可視化を一元的に行うための強力なプラットフォームです。企業は日々膨大なデータを取り扱っていますが、これらのデータを適切に活用するためには、データ基盤の構築が不可欠です。Microsoft Fabricは、データの収集から処理、保存、分析、可視化までをシームレスに統合し、企業がデータ駆動型の意思決定を行えるようサポートします。本資料では、Microsoft Fabricの概要と、データ基盤の必要性について詳しく説明します。
2. Microsoft Fabricの概要
2-1. Microsoft Fabricとは
Microsoft Fabricは、Microsoftが提供する統合データプラットフォームで、企業が持つデータを効果的に管理、分析、可視化するための一連のツールを提供します。Microsoft Fabricは、データエンジニアリング、データサイエンス、ビジネスインテリジェンス、データ管理を一つのプラットフォームで実現することができ、ユーザーはデータを迅速かつ効率的に活用することができます。
Microsoft Fabricの主な特徴は以下の通りです。
- 豊富なツール
組織内のさまざまな役割に合わせてカスタマイズされたソリューションが準備されています。各ユーザーが必要なツールを選択して使用することが可能です。
- 統一されたデータレイク
OneLakeと呼ばれる、組織内のデータ管理とアクセスを簡略化する統合データレイクを提供します。Microsoft Fabricの各アーキテクチャから、容易にOneLakeへのアクセスが可能です。
- Copilot のサポート
Microsoftが提供する生成AIであるCopilotが準備されています。インテリジェントな提案を提供し、タスクを自動化することでユーザーを支援してくれます。
- Microsoft 365 との統合
Microsoft 365 ツールとのシームレスな統合により、組織全体のコラボレーションと生産性が向上します。
- Azure AI Studio
高度な AI と機械学習機能にAzure AI Studioを利用しており、ユーザーはAIモデルを効率的に構築してデプロイできるようになります。
- 統合データ管理
ガバナンス、共有、アクセスが簡単になる一元化されたデータ検出が可能です。そのため、基盤となるインフラストラクチャを統合したり、管理したり、理解したりする必要がなくなります。
2-2. Microsoft Fabricのエクスペリエンス
Microsoft Fabricは、Azureのクラウド環境上に構築されており、以下のアーキテクチャが連携しています。
※Microsoft Fabricでは、特定の機能を対象とするアーキテクチャを、「エクスペリエンス」と呼びます。
【エクスペリエンス一覧】
-
OneLake
組織のすべてのデータを、単一の統合された理論データレイクであるOneLakeに保存します。
-
Data Factory
複雑なデータの取り込み、変換、およびオーケストレーションのシナリオを解決します。
-
Data Engineering
レイクハウス、ノートブック、Spark環境を使用して、データ資産の構築、変換、共有を行います。
-
Data Science
AIと機械学習テクノロジを使用して、強力な分析情報を引き出します。
-
Data Warehouse
セキュリティで保護されたSQLウェアハウスでデータを分析し、オープンデータ形式でスケールとパフォーマンスを向上させます。
-
Real-Time Intelligence
ストリーミングデータから分析情報を探索します。データの取り込み、クエリ、視覚化の作成、変更に対するアクションを迅速に実行できます。
-
Power BI
ビジネスインテリジェンスツールとして、データの可視化やダッシュボード作成を支援します。
これらのエクスペリエンスが統合されることで、ユーザーは簡単にデータの処理から分析、可視化まで一貫して行うことができます。
次に各エクスペリエンスとエクスペリエンス内の一連の機能であるアイテムについてご紹介します。
2-2-1. OneLake
OneLake は、組織全体で 1 つに統合された論理データレイクです。OneLake 内のすべてのデータには、エクスペリエンス経由で自由にアクセスできます。
OneLake は、Azure Data Lake (ADLS) Gen2 の上に構築されており、構造化されているかに関係なく、任意の種類のファイルをサポートできます。
データウェアハウスやレイクハウスなどのファブリックデータ項目はすべて、オープンなDelta Parquet 形式で OneLake に自動的に格納します。
OneLakeの特徴は、以下3点です。
-
OneCopy
OneLakeでは、1度データを取り込むと、各エクスペリエンスから同じデータに直接アクセスすることが可能です。そのため、エクスペリエンス毎にデータを保有する必要がなく、効率的にストレージが期待できます。
-
オープンアクセス
OneLakeでは、ツールやサービス毎の専用APIを使用することなく、既存のツールやシステムをそのまま利用することが可能です。また、Microsoft製品だけでなく、他社製品からのデータ取込にも対応しており、柔軟な互換性があります。
-
オープンフォーマットDelta Parquet 形式
OneLakeでは、データ形式としてDelta Parquet 形式を採用しています。そのため、サービス・システムごとに異なるフォーマットであっても、Delta Parquet 形式に標準化して取り込みすることで、一貫したデータフォーマットで分析プロセスの効率性をアップします。
OneLakeには特定のアイテムはありませんが、用途に応じて3つの保存先があります。
2-2-1-1. レイクハウス
テーブル形式(構造化データ)とファイル形式(非構造化データ)の2種類で格納することが可能です。ファイルのアップロードや他サービスからのデータインポートを行う際に有用です。
※詳細は「2-2-3-1. レイクハウス」をご確認ください。
2-2-1-2. ウェアハウス
スキーマとテーブルでデータを管理しています。SQL分析エンドポイントも併せ持ち、SQLやデータ分析を行う際に有用です。
※詳細は「2-2-5-1. ウェアハウス」をご確認ください。
2-2-1-3. イベントハウス
データベースインスタンスのもとにテーブルを管理しています。主にReal-Time Intelligenceで使用し、リアルタイムデータの格納を行う際に有用です。
※詳細は「2-2-6-1. イベントハウス」をご確認ください。
※ウェアハウスとレイクハウスの一般的な使い分け
- ウェアハウスが向いている場合
オープン標準形式、標準的なパフォーマンス、最小限のセットアップを備えたエンタープライズ規模のソリューションが必要な場合、ウェアハウスを選択します。 半構造化データ形式と構造化データ形式に最適なウェアハウスは、初心者と経験豊富なプロフェッショナルの両方に適しており、シンプルで直感的なエクスペリエンスが期待されます。
- レイクハウスが向いている場合
異種ソースからの高度に構造化されていないデータの大規模な取込が必要で、低コストのオブジェクトストレージを利用し、プライマリ開発ツールとして Spark を使用する場合は、レイクハウスを選択します。 "軽量" なデータウェアハウスとして機能する場合は、常に SQL エンドポイントと T-SQL ツールを使用して、レイクハウスでレポートとデータインテリジェンスのシナリオが期待されます。
Data Factoryは豊富なデータソースからデータを取り込み、準備して、変換するためのデータ統合エクスペリエンスです。Power Query のシンプルさが組み込まれており、200 種類を超える標準コネクタを使用して、オンプレミスとクラウドのデータソースに接続できます。
Data Factoryには主に「データフロー(Gen2)」「Data pipeline」の2つのアイテムがあります。
2-2-2-1. データフロー(Gen2)
データフローは、数百のデータソースからデータを取り込み、300 以上のデータ変換を使用してデータを変換するためのローコードツールです。また、Power Queryで構築されており、結合、集計、データクレンジング、カスタム変換などは、すべて使いやすく、視覚的に優れたローコード UI から実行できます。
データフローは、手動またはスケジュールされた更新を使用して繰り返し実行することも、データパイプライン オーケストレーションの一部として実行することもできます。
2-2-2-2. Data pipeline
Data pipelineは、クラウド規模で強力なワークフロー機能を実現でき、データフローの更新、PB サイズのデータの移動、高度な制御フローパイプラインの定義ができる複雑なワークフローを構築できます。
データパイプラインを使用すると、さまざまなタスクを大規模に実行できる複雑な ETLワークフローとデータファクトリワークフローを構築することができます。その他、制御フロー機能が組み込まれており、ループと条件を提供するワークフローロジックも構築できます。
2-2-3. Data Engineering
Data Engineeringは、Spark プラットフォームによる組織が大量のデータを収集、保存、処理、分析できるインフラストラクチャとシステムを設計、構築、保守できます。Fabric Spark と Data Factory の統合により、ノートブックと Spark ジョブをスケジュール設定して調整できます。
Data Engineeringには主に「レイクハウス」「ノートブック」「環境」「Sparkジョブ定義」「Data pipeline」の5つのアイテムがあります。
※「Data pipeline」は「2-2-2-2. Data pipeline」をご確認ください。
2-2-3-1. レイクハウス
レイクハウスは、さまざまなツールとフレームワークを使用してそのデータを処理および分析することで、組織が構造化データと非構造化データを 1 か所で格納および管理できるデータアーキテクチャです。 これらのツールとフレームワークには、SQLベースのクエリと分析のほか、機械学習やその他の高度な分析手法が含まれます。
2-2-3-2. ノートブック
ノートブックは、Python、R、Scala など、各種プログラミング言語でコードを書いて実行ができ、データインジェスト、準備、解析、その他のデータ関連タスクに使用できます。インタラクティブなコンピューティング環境であり、ライブコード、数式、視覚化、および説明テキストを含むドキュメントを作成して共有できます。
2-2-3-3. 環境
環境は、ノートブックとSparkジョブ定義の共有ライブラリのバージョン確認や新規ライブラリのダウンロード、Sparkコンピューティング設定、リソースの設定を行うことができます。
2-2-3-4. Sparkジョブ定義
Spark ジョブ定義は、Spark クラスターでジョブを実行する方法を定義できます。 これには、Spark アプリケーションの入力データ ソースと出力データ ソース、変換、構成設定などの情報が含まれます。 Spark ジョブ定義を使うと、バッチまたはストリーミング ジョブの Spark クラスターへの送信、レイクハウスでホストされているデータに対する異なる変換ロジックの適用などができます。
2-2-4. Data Science
Data Scienceは、データの探索、準備、クレンジングから実験、モデリング、モデルスコアリング、予測分析情報の BI レポートへの提供まで、データサイエンスプロセス全体にまたがる幅広いアクティビティを行うことができます。この機能は Azure Machine Learning と統合され、組み込みの実験の追跡とモデルレジストリが提供されます。
Data Scienceには主に「MLモデル」「実験」「ノートブック」「環境」の4つのアイテムがあります。
※「ノートブック」は「2-2-3-2. ノートブック」、「環境」は「2-2-3-3. 環境」をご確認ください。
2-2-4-1. ML モデル
ML(機械学習)モデルは、特定のアルゴリズムに基づいて機械学習のモデルの構築を行い、その結果をMLflowに表示、結果の格納を行うことができます。一連のデータに対してモデルをトレーニングし、そのデータセットを推論してそこから学習するアルゴリズムをモデルに提供します。 モデルをトレーニングした後、それを使用して、未知のデータを推論し、そのデータに関する予測を行うことができます。
2-2-4-2. 実験
実験は、機械学習コードを実行し、実行時のパラメータ、コードバージョン、メトリック、出力ファイルをログに記録できます。 また、実験では、実行を視覚化、検索、比較できるだけでなく、他のツールで分析するために実行ファイルおよびメタデータをダウンロードすることもできます。
2-2-5. Data Warehouse
Data Warehouse は、次世代のデータ ウェアハウス ソリューションです。業界をリードする SQL パフォーマンスとスケールを提供します。 データレイクに存在し、オープンなDelta Lake 形式でデータをネイティブに格納しており、セキュリティやガバナンスを損なうことなく、データエンジニアとビジネスユーザー間のシームレスなコラボレーションが可能になります。
Data Warehouseには主に「ウェアハウス」「Data pipeline」「ノートブック」「データフロー(Gen2)」の4つのアイテムがあります。
※「Data pipeline」は「2-2-2-2. Data pipeline」、「データフロー(Gen2)」は「2-2-2-1. データフロー(Gen2)」、「ノートブック」は「2-2-3-2. ノートブック」をご確認ください。
2-2-5-1. ウェアハウス
ウェアハウスは、従来型のデータウェアハウスとして機能し、エンタープライズデータやウェアハウスに期待される完全にトランザクション型の T-SQL 機能をサポートします。
2-2-6. Real-Time Intelligence
Real-Time Intelligence は、データ分析、即時の視覚的分析情報、組織のリアルタイムデータの一元化、データに対するアクション、効率的なクエリ、変換、大量の構造化データまたは非構造化データの保存に使用できます。これにより、データインジェスト、変換、ストレージ、分析、視覚化、追跡、AI、リアルタイム アクションを処理することで、リアルタイムデータに対する分析情報、視覚化、アクションを抽出できます。 Real-Time Intelligence のリアルタイム ハブは、さまざまなノーコードコネクタを提供し、Fabric 全体で保護、管理、統合される組織データのカタログに集約されます。
Real-Time Intelligenceは、自動車、製造、IoT、不正行為の検出、ビジネス運用管理、異常検出など、さまざまなビジネスにまたがって活用されます。
Real-Time Intelligenceには主に「イベントハウス」「KQLクエリセット」「リアルタイムダッシュボード」「Eventstream」「アクティベーター」の5つのアイテムがあります。
2-2-6-1.イベントハウス
イベントハウスは、特にリアルタイムの分析と探索を必要とするシナリオで、大量のデータを処理および分析するためのソリューションを提供します。 リアルタイムデータストリームを効率的に処理するように設計されているため、組織はほぼリアルタイムでデータを取り込み、処理、分析できます。 1 つのワークスペースには複数のデータベースを保持でき、イベントハウスには複数の KQL データベースを含むことができ、各データベースには複数のテーブルを格納できます。
2-2-6-2. KQLクエリセット
KQLクエリセットは、データベースのデータに対するクエリの実行、結果の表示、およびクエリ結果の操作に使用されます。KQLクエリセットには、データベースとテーブル、クエリ、結果が含まれます。 KQLクエリセットを使うと、クエリをエクスポートして他のユーザーと共有したりできます。
2-2-6-3.リアルタイムダッシュボード
リアルタイムダッシュボードは、取り込んだデータの分析情報を視覚化し、データ取込から数秒で反映させることが可能です。また、視覚化オプションは、コードなしから完全に特殊な資格化まで行うことができるため初心者からエキスパートまで幅広く活用でき、データをグラフやテーブルとして視覚化します。 視覚的な情報を使用して、クエリ結果に対してフィルター処理と集計操作を実行したり、組み込みの視覚化の豊富な一覧を使用したりできます。
2-2-6-4. Eventstream
Eventstreamは、ノーコードツールでリアルタイムイベントのキャプチャ、変換、宛先へのルーティングを行うための、一元的な場所です。Eventstreamは、さまざまなストリーミングデータソース、インジェスト先、変換が必要な場合のためのイベントプロセッサから構成されます。
2-2-6-5.アクティベーター
アクティベーターは、アラート、トリガー、アクションをデータに対して作成できるノーコード、ローコード ツールです。アクティベーターは、データ ストリームにアラートを作成するために使用されます。
2-2-7. Power BI
Power BI を使うと、利用しているデータソースへの接続、重要事項の視覚化と検出、必要に応じた任意のユーザーまたはすべてのユーザーとの共有を簡単に実行できます。 この統合されたエクスペリエンスにより、Microsoft Fabric 内のすべてのデータに迅速かつ直感的にアクセスして、データを使用したより良い意思決定を行うことができます。
Power BIには特定のアイテムはありません。
3. Microsoft Fabric全体や各機能の操作性
ここではMicrosoft Fabricの操作性や実際の使用体験に基づくメリットや課題について簡単に解説します。
3-1. Microsoft Fabric全体の操作性
Microsoft Fabricは、インターフェースが直感的なデザインになっていて、誰にでも使用しやすいよう工夫がされています。各機能(Data Factory、Power BI、Data Warehouseなど)は一つのプラットフォーム上で整理されており、切り替えをシームレスに行うことが可能です。
また、Microsoft Fabricに搭載されている生成AIアシスタントのCopilotを使用すれば、自然言語を使って指示を出すだけで複雑なデータ操作や分析を始められるので、 IT初心者や非エンジニアなどでも簡単にデータからインサイトを見つけることが可能です。
画像:左下で各機能に切り替え可能
3-2. 機能の使用感について
実際に利用した機能の操作性や使用感についてご説明します。
3-2-1. Data Factory
データの取り込みや統合を行う機能で、様々な場所で管理されていたデータの一元化を図ったり、データを変換して新しいデータテーブルを作成したりすることが可能です。様々な処理の実装が GUI操作で行えるので、IT初心者や非エンジニアでも簡単にデータ加工の処理を行うことができます。
また、複雑な処理の場合はエンジニアが必要にはなりますが、豊富な関数が使用可能になっており、長いコードを記載することなく、複雑な操作を実装可能なのでエンジニアにとっても使いやすいです。
さらに、Copilotを活用することでコードを記述することなく、誰でも複雑な処理を実装することができます。ただし、想定通りの処理を実装してくれないことや精度が低い可能性もあり、場合によってはデータの整合性や誤りがないかなどのチェックが必要なこともありますので、その点は注意が必要です。
3-2-2. Power BI
Power BIは、Microsoft Fabric内でデータ可視化ツールとして利用されています。Data Factoryなどで加工されたデータを外部に出力することなくレポート用データとして直接読み込むことで、Power BIレポートを作成可能なため、Microsoft Fabric内で完結できます。
また、Copilotを活用することで、データに基づいたトピックの提案や、概要レベルの内容からページの作成を行うなどレポート作成をサポートしてくれます。ただし、出力結果が正確でない場合や、使用されるビジュアルが意図したものと異なる場合があるため、その際は手動で編集する必要があります。
3-2-3. Data Warehouse
Data Warehouseは、企業規模の大量データを効率的に保存・クエリできる設計となっています。SQLに慣れているユーザーには、Microsoft Fabric内で直接クエリを実行して詳細な分析を行うことが可能です。さらに、CopilotがSQLクエリを自動生成するため、SQLの知識が浅い初心者でも高度なデータ操作を行うことができます。
画像:Copilotのクエリのリアルタイムのコード提案、コード保管
4. 想定されるユーザー
これまでに紹介した通り、Microsoft Fabricはデータサイエンティストのみならず、ビジネスユーザーにとっても価値の高いツールです。
ビジネスユーザーは 直感的なGUI操作や Copilotの機能によって、Data Factoryから簡単に欲しいデータに加工や、自分が必要なデータのみをPower BIでグラフとして表示など、コーディングの知識が無くともデータ加工処理やレポーティングを実現できます。
一方で、データサイエンティストは Data Factoryなどで必要に応じてコーディングの実装を行い、最適なデータへ加工してデータを蓄積させて、 Power BIでビジュアル化したり、Data Scienceで機械学習を実装して新しい知見を得たりなど、より深い分析を行うことが可能です。
このようにMicrosoft Fabricは各スキルを持ったユーザーがガバナンスを確保しながら開発を進めることが出来るオールインワンツールとなっています。
5. 最後に
第1回では、Microsoft Fabricの概要・特徴と各エクスペリエンス・アイテムのご紹介をしました。
第2回では、実際にMicrosoft Fabricを利用するためのAzure Portalの設定方法や料金体系、Data Factoryの一部機能を実践したデータ加工処理についてご紹介します。