機械学習ツールは、数十年にわたって、GIS における空間解析の主要コンポーネントでした。 ArcGIS で機械学習を使用して、画像分類を実行したり、クラスタリングを使用してデータに情報を付加したり、空間リレーションシップをモデル化することができました。 機械学習は、問題を解くためにアルゴリズムを使用して構造化データが処理される、人工知能の一分野です。 従来の構造化データでは、アルゴリズム内で動物の種類ごとに特定の特徴を理解し、他の写真内のそれらの動物の識別に使用できるように、人が猫や犬の写真などのデータにラベルを付ける必要があります。
ディープ ラーニングは、ニューラル ネットワークの形式でアルゴリズムの複数のレイヤーを使用する機械学習のサブセットです。 ネットワークの異なるレイヤーを介して入力データが解析され、各レイヤーがデータ内の特定の特徴およびパターンを定義します。 たとえば、建物や道路などの特徴を識別する場合、ディープ ラーニング モデルは、さまざまな建物および道路の画像を使用してトレーニングされ、ニューラル ネットワーク内のレイヤーを介して画像を処理し、その後、建物や道路を分類するために必要な識別子を見つけることができます。
Esri は、ディープ ラーニングにおける最新の技術革新を利用して、GIS およびリモート センシング アプリケーションにおける難しい質問の一部に回答するためのツールおよびワークフローを開発しました。 コンピューター ビジョン、つまりデジタル画像またはビデオを理解するためのコンピューターの能力は、従来の機械学習アルゴリズムからディープ ラーニング手法に移行しつつある分野です。 ディープ ラーニングを ArcGIS AllSource で画像に適用する前に、コンピューター ビジョン用のディープ ラーニングの異なるアプリケーションを理解することが重要です。
コンピューター ビジョン用のディープ ラーニングのアプリケーション
ディープ ラーニングのニューラル ネットワークを使用して実現できる多くのコンピューター ビジョンのタスクが存在しています。 Esri は、画像分類、オブジェクト検出、意味セグメンテーション、およびインスタンス セグメンテーションを実行できるツールを開発しました。 以下では、それらのコンピューター ビジョンのタスクのすべてについて、それぞれのリモート センシングの例およびより一般的なコンピューター ビジョンの例と共に説明します。
画像分類
画像分類は、ラベルまたはクラスをデジタル画像に割り当てることを含みます。 たとえば、左下のドローン画像には群衆というラベルが付けられ、右のデジタル写真には猫というラベルが付けられます。 このタイプの分類は、オブジェクト分類または画像認識とも呼ばれ、画像内の特徴を分類するために GIS において使用できます。
オブジェクトの検出
オブジェクトの検出は、画像内の特徴を特定する処理です。 たとえば、下のリモート センシング画像では、ニューラル ネットワークが飛行機の位置を見つけました。 さらに一般的なコンピューター ビジョンの使用事例では、あるモデルは、さまざまな動物の位置を検出することができます。 通常、この処理では、対象フィーチャの周辺にバウンディング ボックスが描画されます。 衛星画像、航空写真、またはドローン画像内の特定の特徴を特定し、それらの特徴をマップ上でプロットするために、GIS において使用できます。
セマンティック セグメンテーション
セマンティック セグメンテーションは、画像内の各ピクセルがクラスに属しているとして分類されるときに発生します。 たとえば、左下の画像では、道路のピクセルが道路以外のピクセルとは別に分類されます。 右では、写真内で猫を形成するピクセルが猫として分類され、画像内の他のピクセルが他のクラスに属しています。 通常、GIS では、ピクセルの分類、セマンティック セグメンテーション、画像分類と呼ばれます。 土地利用の分類マップを作成する際に使われます。
インスタンス セグメンテーション
インスタンス セグメンテーションは、各オブジェクトのインスタンスの境界が描画される、より正確なオブジェクト検出方法です。 たとえば、下記の左側の画像では、屋根の形状の正確なアウトラインを含め、家屋の屋根が検出されています。 右側の画像では、自動車が検出され、自動車の個別の形状を確認できます。 このタイプのディープ ラーニング アプリケーションは、オブジェクト セグメンテーションとも呼ばれます。
パノプティック セグメンテーション
パノプティック セグメンテーションは、セマンティック セグメンテーションとインスタンス セグメンテーションの両方を組み合わせています。 たとえば、以下の図は、すべてのピクセルが分類され、車などの各オブジェクトが独自の一意なオブジェクトであることを示しています。
画像変換
画像変換は、画像をシーンの 1 つの可能な表現またはスタイルから、別の表現またはスタイルに変換するタスクです (ノイズ リダクションや超解像など)。 たとえば、下記の左側の画像では元の低解像度の画像が表示され、右側の画像では超解像モデルを使用した結果が表示されています。 このタイプのディープ ラーニング アプリケーションは、画像対画像変換とも呼ばれます。
変化の検出
変化の検出のディープ ラーニング タスクでは、2 つの日付間の対象フィーチャの変化を検出して、変化の論理マップを生成できます。 たとえば、下記の左側の画像では 5 年前の住宅団地が表示され、中央の画像では現在の同じ住宅団地が表示され、右側の画像では新しい家屋を白色にした論理的な変化マップが表示されています。