
このドキュメントは、ArcGIS Living Atlas of the World で入手可能な Text SAM 事前トレーニング済みモデルの使用方法について説明しています。 このモデルは、プロンプトを使って画像内のオブジェクトを検出するために使用されます。
Text SAM は、オープンソースのサンプル モデルで、自由形式のテキスト プロンプトを使用してプロンプトを表示し、さまざまな種類のフィーチャを抽出します。 これは、Grounding DINO と Segment Anything Model (SAM) を使用して実現できます。 Grounding DINO は、テキスト プロンプトをもとにオブジェクトを見つけられる、オープンセットのオブジェクト検出器です。 Segment Anything Model は、境界四角形またはポイントで表される対象領域内のオブジェクトをセグメント化するために使用できます。 どちらのモデルも、このディープ ラーニング パッケージ内で順次呼び出されます。 Grounding DINO から検出されたオブジェクトを表す境界四角形は、オブジェクトのマスクを生成するプロンプトとして Segment Anything Model に入力されます。 最後に、マスクはポリゴンに変換され、GIS フィーチャとして返されます。 入力テキスト プロンプトで記述されるこれらのフィーチャには、車両、プール、船舶、航空機、ソーラー パネルなど、さまざまな対象オブジェクトを使用できます。
このワークフローを完了する場合のライセンス要件は次のとおりです。
- ArcGIS Desktop - ArcGIS Image Analyst の ArcGIS Pro エクステンション
- ArcGIS Enterprise—ArcGIS Image Server
- ArcGIS Online—ArcGIS Image for ArcGIS Online
モデルの詳細
このモデルには以下の特性があります。
- 入力 - 8 ビット、3 バンドの RGB 画像。
- 出力 - 画像内の各種オブジェクトのマスクを含むフィーチャクラス。
- 計算 - このワークフローは計算負荷が高いため、CUDA 計算能力が 6.0 以上の GPU が推奨されます。 このモデルには 8 GB 以上の GPU メモリが搭載された GPU が必要です。
- 適用できる地域 - このモデルは全世界で機能します。
- アーキテクチャ - このモデルは、IDEA-Research (The International Digital Economy Academy) によるオープンソースの Grounding DINO と、Meta による Segment Anything Model (SAM) に基づいています。 追加情報については、このサンプルのディープ ラーニング パッケージ (DLPK) のソース コードをご確認ください。
モデルへのアクセスとダウンロード
ArcGIS Living Atlas of the World から Text SAM 事前トレーニング済みモデルをダウンロードします。 または、ArcGIS Pro からモデルに直接アクセスするか、ArcGIS Image for ArcGIS Online でモデルを使用します。
- ArcGIS Living Atlas of the World を参照します。
- 自分の ArcGIS Online アカウントの認証情報を使用してサイン インします。
- 「Text SAM」を検索して、検索結果からアイテム ページを開きます。
- [ダウンロード] ボタンをクリックして、モデルをダウンロードします。
ダウンロードした .dlpk ファイルを ArcGIS Pro で直接使用することも、ArcGIS Enterprise にアップロードして使用することもできます。 さらに、必要に応じて事前トレーニング済みモデルを微調整できます。
リリース ノート
以下はリリースノートです。
Date | 説明 |
---|---|
2024 年 3 月 |
Text SAM の初回リリース |