ビッグ データ解析

ビッグ データ解析は、フィーチャ レイヤー内または Amazon S3Azure Blob Store のようなクラウド ビッグ データ ストア内のデータなどの保存されたデータに対して、バッチ解析および処理を実行します。 ビッグ データ解析は、一般的に、観測値の集計、パターン解析の実行、データの情報付加に使用されます。 実行できる解析は、以下の Velocity のツール カテゴリのツールを使用します。

  • パターンの解析
  • データへの情報付加
  • 位置の検索
  • データの管理
  • データの集計
  • 近接性の使用

  • 環境科学者として、数百万個の静的なセンサーのレコードのデータセット内で、国全体のオゾン濃度が高い時間および位置を識別することができます。
  • 小売りアナリストとして、指定した時間範囲内で数百万個の匿名の携帯電話の位置を処理し、店舗の位置から特定の距離の範囲内の潜在的消費者の数を決定できます。
  • GIS アナリストとして、5 分ごとに新しいフィーチャについてデータ ソースをチェックし、特定の属性または空間条件が満たされた場合に通知を送信する、繰り返し実行するビッグ データ解析を実行できます。

ビッグ データ解析のコンポーネント

ビッグ データ解析には、以下の 3 つのコンポーネントがあります。

  • ソース
    • ビッグ データ解析では、静的データまたはほぼリアルタイムのデータを読み込むために、データ ソースが使用されます。 多くのデータ ソース タイプを利用できます。 ソースおよび使用可能なソース タイプの詳細については、「データ ソースとは」をご参照ください。
    • 解析では、複数のデータ ソースが存在することができます。
  • ツール
    • ツールは、ソースから読み込まれたデータを処理または解析します。
    • ビッグ データ解析では、複数のツールが存在することができます。
    • ツールを互いに接続することができ、その場合、1 つのツールの出力が次のツールの入力を表します。
  • 出力
    • 出力は、ビッグ データ解析処理の結果で何が実行されるべきかを定義します。
    • 新規または既存のフィーチャ レイヤーへのフィーチャの格納、Amazon S3 または Azure Blob Storage 内のクラウド レイヤーへのフィーチャの書き込みなどの、使用可能な多くの出力オプションがあります。 詳細については、「出力の概要」および「解析出力の基礎」をご参照ください。
    • ツールまたはソースの結果を複数の出力に送信することができます。

出力の操作

リアルタイム解析またはビッグ データ解析が実行されると、1 つ以上の出力が生成されます。 構成された出力のタイプに応じて、ArcGIS Velocity でそれらの出力にアクセスして操作できる複数の方法があります。

ArcGIS のフィーチャ レイヤー出力およびストリーム レイヤー出力

リアルタイム解析またはビッグ データ解析がフィーチャ レイヤー出力またはストリーム レイヤー出力を作成する場合、Velocity でそれらの出力レイヤーを操作できます。 なお、解析がまだ実行されていない場合は、これらの方法を使用できません。

解析でのフィーチャ レイヤー出力およびストリーム レイヤー出力へのアクセス

すでに実行され、出力レイヤーが正常に作成された解析を編集する場合は、解析エディターでフィーチャ レイヤーまたはストリーム レイヤーのノードを右クリックし、使用可能なオプションを表示します。オプションには、ノードのプロパティへのアクセス、ノード ラベルの変更、アイテムの詳細の表示、マップ ビューアーまたはシーン ビューアーでレイヤーを開く、ノード データのサンプリング、ノードの削除などがあります。

レイヤー ページからフィーチャ レイヤー出力およびストリーム レイヤー出力へのアクセス

リアルタイム解析およびビッグ データ解析によって作成されたすべてのフィーチャ レイヤー、マップ イメージ レイヤー、およびストリーム レイヤーは、Velocityレイヤー ページに表示されます。 そこでは、既存レイヤーを編集する、それらのレイヤーをマップ ビューアーで表示する、アイテム詳細にアクセスして表示する、REST サービス ディレクトリのレイヤーを開く、レイヤーを削除/共有するなどの作業を行うことができます。

Amazon S3 出力および Azure Blob Store 出力

ビッグ データ解析は、出力フィーチャを Amazon S3 クラウド ストレージまたは Azure Blob Store クラウド ストレージに書き込むことができます。 ビッグ データ解析が終了すると、各クラウドの場所で、データが使用可能になります。 期待どおりの出力を得られない場合は、[ログ] タブで解析のログを確認してください。

その他すべての出力

ビッグ データ解析のその他の出力タイプとして、[電子メール] および Kafka があります。 これらの出力を使用すると、Velocity は、選択された出力との接続を確立し、それに応じてイベント データを出力に送信します。

ビッグ データ解析の実行 (スケジュール)

ビッグ データ解析は、2 つの実行方法のいずれかを構成でき、1 回実行する、またはスケジュールを設定して実行することができます。 実行の設定を変更した場合は、必ず [適用] をクリックしてビッグ データ解析に変更を保存してください。

1 回実行

一度だけ実行されるように構成されたビッグ データ解析は、ユーザーがビッグ データ解析を開始したときのみ実行されます。 この解析は、定義されたとおりに処理および解析を実行し、完了後に停止状態に戻ります。 この解析は、開始後に実行を継続するフィード、リアル タイム解析、およびスケジュール済みのビッグ データ解析とは異なります。 [1 回実行] は、ビッグ データ解析のデフォルトのオプションです。

スケジュール ボタンの実行の設定で 1 回実行を選択

スケジュール済み

定期的に (たとえば、5 分ごとに) 実行するか、繰返し (たとえば、毎日午前 4 時に) 実行するように、ビッグ データ解析をスケジュール設定することができます。

スケジュール ボタンの実行の設定で 5 分ごとに繰返し実行を選択

スケジュール済みの方法で実行するようにビッグ データ解析を構成した場合、解析が開始されると、その解析は、停止されない限り開始されたままになります。 リアル タイム解析とは異なり、開始されたスケジュール済みのビッグ データ解析は、解析を実行しているときにのみリソースを消費します。 たとえば、ビッグ データ解析が 1 時間ごとに定期的に実行されるようにスケジュール設定され、解析が完了するのに 4 分かかる場合、このビッグ データ解析は、1 時間に一度、解析を実行するのにかかる 4 分の間だけリソースを消費します。

ビッグ データ解析のスケジュールを設定する方法については、「繰り返し実行するビッグ データ解析のスケジュール設定」をご参照ください。

ほぼリアルタイムの解析の実行

スケジュール済みのビッグ データ解析を使用して、ほぼリアルタイムの解析を実行できます。その場合、ビッグ データ解析は、最後の実行以降にフィーチャ レイヤーに追加された最新のフィーチャのみを処理します。 ほぼリアルタイムの解析のユース ケースおよび構成のオプションの詳細については、「ほぼリアルタイムの解析の実行」をご参照ください。

最新の情報製品の生成

別の方法として、スケジュール済みのビッグ データ解析を使用して、ユーザー定義の間隔で最新の情報製品を生成することができます。 そのようなワークフローのユース ケースの例およびオプションの詳細については、「最新の情報製品の生成」をご参照ください。

設定の実行

ビッグ データ解析では、ユーザーが [実行の設定] を調整できます。 これらの設定は、自分の Velocity 配置により提供される、解析処理用のリソース割り当てを制御します。 設定の実行に変更を加えた後で、必ず解析を保存してください。

一般的に、解析により多くのリソースを割り当てるほど、処理の完了と結果の生成を高速に行えます。 大きなデータセットや複雑な分析を使用するときは、解析で利用可能なリソース割り当てを増やすことが最善で、時には必須となります。

反対に、[中 (デフォルト)] の設定で正常に実行できるような少数のフィーチャの単純な解析を行う場合は、実行設定のリソース割り当てを [小] の設定に減らすことを検討してください。 これにより、Velocity 配置でより多くのフィード、リアルタイム解析、ビッグ データ解析が実行可能になります。

ビッグ データ解析のリソースの割り当ての実行設定

検討事項および制限事項

ビッグ データ解析を使用する際には、以下の点に注意してください。

  • ビッグ データ解析は、大量のデータを操作すること、およびパターンと傾向を集計することに対して最適化されています。その結果、通常は、入力フィーチャの数と比較して出力フィーチャまたはレコードの数が減少します。
  • ビッグ データ解析は、1 回の実行で大量のフィーチャを読み込むことまたは書き込むことに対しては、最適化されていません。 ビッグ データ解析を使用して数千万個以上のフィーチャを書き込むと、長い実行時間がかかることがあります。
  • ベスト プラクティスとして、データをコピーすることとは対照的に、集計および解析にビッグ データ解析を使用することをお勧めします。
  • ArcGIS Velocity の Standard および Advanced ライセンスで利用できる [大] の実行設定は、1 回実行設定でのみ使用できます。