ディープ ラーニング モデルのトレーニング (Train Deep Learning Model) (Image Analyst)

Image Analyst ライセンスで利用できます。

サマリー

[ディープ ラーニング用のトレーニング データをエクスポート (Export Training Data For Deep Learning)] ツールからの出力を使用してディープ ラーニング モデルをトレーニングします。

使用法

  • このツールでは、ディープ ラーニング フレームワークを使用して、ディープ ラーニング モデルをトレーニングできます。

  • ArcGIS AllSource のディープ ラーニング フレームワークを使用するようにコンピューターを設定するには、「ArcGIS 用のディープ ラーニング フレームワークのインストール」をご参照ください。

  • 非接続環境でモデルをトレーニングする場合は、「非接続環境のための追加インストール」で詳細をご確認ください。

  • このツールは、既存のトレーニング済みモデルの微調整にも使用できます。 たとえば、車に関してトレーニングされた既存のモデルを微調整して、トラックを識別するモデルをトレーニングすることができます。

  • GPU を使用してこのツールを実行するには、プロセッサー タイプ環境を [GPU] に設定します。 複数の GPU が存在する場合は、代わりに GPU ID 環境を指定します。

  • デフォルトでは、このツールでは、[モデル タイプ] パラメーターが以下のいずれかに設定された場合、使用可能なすべての GPU が使用されます。

    • ConnectNet
    • フィーチャ分類器
    • MaskRCNN
    • Multi Task Road Extractor
    • シングル ショット検出器
    • U-Net

    特定の GPU を使用するには、GPU ID 環境を使用します。

  • このツールの入力トレーニング データには、[ディープ ラーニング用のトレーニング データをエクスポート (Export Training Data For Deep Learning)] ツールから生成された画像フォルダーとラベル フォルダーを含める必要があります。

    この例外となるのは、トレーニング データが Pascal Visual Object Classes または KITTI の四角形メタデータ形式を使用している場合です。 これらの 2 つの形式では、トレーニング データを他のソースから取得できますが、画像チップは image フォルダーに存在する必要があり、対応するラベルは labels フォルダー内に存在する必要があります。

  • トレーニング データと同じフォルダーに格納されている transforms.json ファイルを使用して、トレーニング データセットと整合チェック データセットのデータ拡張のための fastai の変換を指定します。 以下は、transforms.json ファイルの例です。

    カスタム拡張パラメーター

    
    {
        "Training": {
            "rotate": {
                "degrees": 30,
                "p": 0.5
            },
            "crop": {
                "size": 224,
                "p": 1,
                "row_pct": "0, 1",
                "col_pct": "0, 1"
            },
            "brightness": {
                "change": "0.4, 0.6"
            },
            "contrast": {
                "scale": "1.0, 1.5"
            },
            "rand_zoom": {
                "scale": "1, 1.2"
            }
        },
        "Validation": {
            "crop": {
                "size": 224,
                "p": 1.0,
                "row_pct": 0.5,
                "col_pct": 0.5
            }
        }
    }

  • このツールの実行要件および発生する可能性のある問題の詳細については、「ディープ ラーニングに関するよくある質問」をご参照ください。

  • ディープ ラーニングの詳細については、「ArcGIS Image Analyst エクステンションを使用したディープ ラーニング」をご参照ください。

パラメーター

ラベル説明データ タイプ
入力トレーニング データ

モデルのトレーニングに必要な画像チップ、ラベル、統計を含むフォルダー。 [ディープ ラーニング用のトレーニング データをエクスポート (Export Training Data for Deep Learning)] ツールから生成された出力。

以下の条件が満たされる場合、複数の入力フォルダーを使用できます。

  • メタデータ形式タイプが分類タイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Class、または RCNN マスクであること。
  • すべてのトレーニング データのメタデータ形式が同じであること。
  • すべてのトレーニング データのバンド数が同じであること。

Folder
出力フォルダー

トレーニング済みモデルが格納される出力フォルダーの場所。

Folder
最大エポック
(オプション)

モデルをトレーニングする場合の対象となるエポックの最大数。 最大エポックを 1 に設定すると、データセットがニューラル ネットワークを通って前後に 1 回渡されます。 デフォルト値は 20 です。

Long
モデル タイプ
(オプション)

ディープ ラーニング モデルのトレーニングに使用されるモデル タイプを指定します。

  • BDCN Edge Detector (ピクセル分類)双方向カスケード ネットワーク (BDCN) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。 この方法は、さまざまな縮尺でのオブジェクトのエッジ検出を改善するのに便利です。
  • Change Detector (ピクセル分類)Change Detector アーキテクチャがモデルのトレーニングに使用されます。 Change Detector の使用目的はピクセル分類です。 この方法は、2 つの時空間画像を使用するモデル オブジェクトを作成して、変化の分類済みラスターを作成します。 このモデル タイプの入力トレーニング データは、分類済みタイル メタデータ形式を使用します。
  • ClimaX (ピクセル分類)ClimaX アーキテクチャがモデルのトレーニングに使用されます。 このモデルは主に天気と気候の解析に使用されます。 ClimaX の使用目的はピクセル分類です。 この方法で使用される予備データは多次元データです。
  • ConnectNet (ピクセル分類)ConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。 この方法は、衛星画像から道路網を抽出するのに便利です。
  • CycleGAN (画像変換)CycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN の使用目的は image-to-image の変換です。 この方法により、あるタイプから別のタイプへと画像を変換するモデル オブジェクトを作成できます。 この方法は、トレーニング対象の画像をオーバーラップする必要がない点で独特です。 このモデル タイプの入力トレーニング データは、CycleGAN メタデータ形式を使用します。
  • DeepLabV3 (ピクセル分類)DeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。
  • Deep Sort (オブジェクト追跡)Deep Sort アーキテクチャがモデルのトレーニングに使用されます。 Deep Sort の使用目的はビデオ内のオブジェクト検出です。 このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。 このモデル タイプの入力トレーニング データは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。
  • DETReg (オブジェクト検出)DETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes を使用します。 このモデル タイプは GPU を集中的に使用します。適切に実行するには、少なくとも 16 GB のメモリを備えた専用の GPU が必要です。
  • FasterRCNN (オブジェクト検出)FasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。
  • フィーチャ分類器 (オブジェクト分類)フィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。 フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。
  • HED Edge Detector (ピクセル分類)HED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。 この方法は、エッジとオブジェクト境界の検出に便利です。
  • Image Captioner (画像変換)Image Captioner アーキテクチャがモデルのトレーニングに使用されます。 Image Captioner の使用目的は画像テキスト変換です。 この方法は、画像のテキスト キャプションを生成するモデルを作成します。
  • MaskRCNN (オブジェクト検出)MaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。 このアプローチは、インスタンス セグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用されます。 このモデル タイプを使用して、建物フットプリントを検出することができます。 トレーニング データを入力データにする場合は、MaskRCNN メタ形式を使用します。 入力トレーニング データのクラス値は、1 で始める必要があります。 このモデル タイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。
  • MaX-DeepLab (パノプティック セグメンテーション)MaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab の使用目的はパノプティック セグメンテーションです。 この方法により、画像とフィーチャを生成するモデル オブジェクトを作成できます。 このモデル タイプの入力トレーニング データは、パノプティック セグメンテーション メタデータ形式を使用します。
  • MMDetection (オブジェクト検出)MMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection の使用目的はオブジェクト検出です。 サポートされているメタデータ形式は Pascal Visual Object Class の四角形と KITTI の四角形です。
  • MMSegmentation (ピクセル分類)MMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。 サポートされているメタデータ形式は分類済みタイルです。
  • Multi Task Road Extractor (ピクセル分類)Multi Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。 この方法は、衛星画像から道路網を抽出するのに便利です。
  • Pix2Pix (画像変換)Pix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix の使用目的は image-to-image の変換です。 この方法により、あるタイプから別のタイプへと画像を変換するモデル オブジェクトを作成できます。 このモデル タイプの入力トレーニング データは、エクスポート タイル メタデータ形式を使用します。
  • Pix2PixHD (画像変換)Pix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD の使用目的は画像対画像変換です。 この方法により、あるタイプから別のタイプへと画像を変換するモデル オブジェクトを作成できます。 このモデル タイプの入力トレーニング データは、エクスポート タイル メタデータ形式を使用します。
  • PSETAE (ピクセル分類)Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。 この方法で使用される予備データは多次元データです。
  • ピラミッド型解析ネットワーク (ピクセル分類)PSPNET (ピラミッド型解析ネットワーク) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。
  • RetinaNet (オブジェクト検出)RetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes メタデータ形式を使用します。
  • RTDetrV2 (オブジェクト検出)改善された Real-Time DEtection TRansformer (RTDetrV2) アーキテクチャがモデルのトレーニングに使用されます。 RTDetrV2 は、前のリアルタイム検出器の RT-DETR を基に構築されています。 RTDetrV2 の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes および KITTI の四角形メタデータ形式を使用します。
  • SAMLoRA (ピクセル分類)Low Rank Adaption (LoRA) による Segment Anything Model (SAM) は、モデルのトレーニングに使用されます。 このモデル タイプは、SAM を基礎モデルとして使用し、比較的低い演算要件と小さなデータセットの特定のタスクに合わせて微調整します。
  • Siam Mask (オブジェクト追跡)Siam Mask アーキテクチャがモデルのトレーニングに使用されます。 Siam Mask の使用目的はビデオ内のオブジェクト検出です。 このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。 このモデル タイプの入力トレーニング データは、MaskRCNN メタデータ形式を使用します。
  • シングル ショット検出器 (オブジェクト検出)SSD (シングル ショット検出器) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes メタデータ形式を使用します。
  • Super-resolution (画像変換)Super-resolution アーキテクチャがモデルのトレーニングに使用されます。 Super-resolution の使用目的は画像対画像変換です。 この方法により、解像度を高め、画像の質を向上させるモデル オブジェクトが作成されます。 このモデル タイプの入力トレーニング データは、エクスポート タイル メタデータ形式を使用します。
  • U-Net (ピクセル分類)U-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。
  • YOLOv3 (オブジェクト検出)YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。
String
バッチ サイズ
(オプション)

1 回のトレーニングで処理されるトレーニング サンプルの数。

バッチ サイズを増やすと、ツールのパフォーマンスが向上します。ただし、バッチ サイズの増加に伴って、使用されるメモリ量も多くなります。

設定されたバッチ サイズに対して GPU メモリが足りない場合、ツールが最適なバッチ サイズを計算して使用するよう試みます。 メモリ不足エラーが発生した場合は、より小さいバッチ サイズを使用します。

Long
モデル引数
(オプション)

[モデル タイプ] パラメーターの情報は、このパラメーターに値を取り込むために使用されます。 これらの引数は、モデル アークテクチャによって変わります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS の事前トレーニング済みモデルとカスタム ディープ ラーニング モデルは、別途ツールがサポートする引数を持つ場合があります。

各モデル タイプで利用可能な引数の詳細については、「ディープ ラーニングの引数」をご参照ください。

Value Table
学習率
(オプション)

トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。 値を指定しないと、トレーニング プロセス中に最適な学習率が学習曲線から抽出されます。

Double
バックボーン モデル
(オプション)

新しいモデルをトレーニングするためのアーキテクチャとして使用される構成済みのニューラル ネットワークを指定します。 この手法は転移学習と呼ばれています。

また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3 などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラル ネットワークを指定できます。

  • 1.40625 度このバックボーンは、各グリッド セルの解像度が 1.40625 度 x 1.40625 度の面積をカバーする画像でトレーニングされました。 これは、天気と気候の予測に使用されます。 高解像度の設定であるため、より精度の高い出力が可能ですが、要求される計算能力が高くなります。
  • 5.625 度このバックボーンは、各グリッド セルの解像度が 5.625 度 x 5.625 度の面積をカバーする画像でトレーニングされました。 これは、天気と気候の予測に使用されます。 低解像度の設定と見なされ、計算能力が低くて済みます。
  • DenseNet-121事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 121 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • DenseNet-161事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 161 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • DenseNet-169事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 169 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • DenseNet-201事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 201 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • MobileNet バージョン 2事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジ デバイス コンピューティングに適しています。
  • ResNet-18事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 18 層です。
  • ResNet-34事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 34 層です。 これがデフォルトです。
  • ResNet-50事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 50 層です。
  • ResNet-101事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 101 層です。
  • ResNet-152事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 152 層です。
  • VGG-11事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 11 層です。
  • VGG-11 (バッチ正規化あり)事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 11 層です。
  • VGG-13事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 13 層です。
  • VGG-13 (バッチ正規化あり)事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 13 層です。
  • VGG-16事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 16 層です。
  • VGG-16 (バッチ正規化あり)事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 16 層です。
  • VGG-19事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 19 層です。
  • VGG-19 (バッチ正規化あり)事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 19 層です。
  • DarkNet-53事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、深さは 53 層です。
  • Reid_v1事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、オブジェクトの追跡に使用されます。
  • Reid_v2事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、オブジェクトの追跡に使用されます。
  • ResNeXt-50事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、深さは 50 層です。 これは同質のニューラル ネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。
  • Wide ResNet-50事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、深さは 50 層です。 アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。
  • SR3事前構成済みモデルは、Super Resolution via Repeated Refinement (SR3) モデルを使用します。 SR3 は、ノイズ除去拡散確率論的モデルを条件付き画像生成に適応させ、確率論的ノイズ除去プロセスを通じて超解像度を実行します。 詳細については、arXiv サイトの「Image Super-Resolution via Iterative Refinement」をご参照ください。
  • SR3 U-ViTこのバックボーン モデルは、画像生成および SR3 タスク内の拡散モデル用に設計された diffusion (ViT) をベースとしたアーキテクチャの特定の実装です。
  • ViT-B事前構成済みの Segment Anything Model (SAM) は、基本のニューラル ネットワーク サイズで使用されます。 これが最小のサイズです。 詳細については、arXiv サイトの「Segment Anything」をご参照ください。
  • ViT-L事前構成済みの Segment Anything Model (SAM) は、大きなニューラル ネットワーク サイズで使用されます。 詳細については、arXiv サイトの「Segment Anything」をご参照ください。
  • ViT-H事前構成済みの Segment Anything Model (SAM) は、非常に大きなニューラル ネットワーク サイズで使用されます。 これが最大のサイズです。 詳細については、arXiv サイトの「Segment Anything」をご参照ください。
String
事前トレーニング済みモデル
(オプション)

新しいモデルの微調整に使用される事前トレーニング済みモデル。 入力は、Esri モデル定義ファイル (.emd) またはディープ ラーニング パッケージ ファイル (.dlpk) です。

類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。 事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデル タイプおよびバックボーン モデルでトレーニングされている必要があります。 モデルの微調整は、ArcGIS を使用してトレーニング済みのモデルでのみサポートされています。

File
検証 %
(オプション)

モデルの検証に使用するトレーニング サンプルの割合。 デフォルト値は 10 です。

Double
モデルが改善を見込めなくなった時点で停止
(オプション)

早期停止を実施するかどうかを指定します。

  • オン - 早期停止が実施され、指定した [最大エポック] パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングが停止します。 これがデフォルトです。
  • オフ - 早期停止が実施されず、[最大エポック] パラメーター値に到達するまで、モデルのトレーニングが続行されます。
Boolean
モデルの固定
(オプション)

事前トレーニング済みモデルのバックボーン層が固定されるかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。

  • オン - バックボーン層が固定され、事前定義済みのウェイトとバイアスは [バックボーン モデル] パラメーターで変更されません。 これがデフォルトです。
  • オフ - バックボーン層は固定されず、トレーニング サンプルに合わせて [バックボーン モデル] パラメーターのウェイトとバイアスを変更できます。 この処理には時間がかかりますが、通常は優れた結果が得られます。

Boolean
データ拡張
(オプション)

使用されるデータ拡張のタイプを指定します。

データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニング セットを増やす手法です。

  • デフォルトデフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、cropdihedral_affinebrightnesscontrastzoom です。 これらのデフォルト値は通常、衛星画像に適しています。
  • なしデータ拡張は使用されません。
  • カスタムデータ拡張値は、[拡張パラメーター] パラメーターを使用して指定されます。 これにより、croprotatebrightnesscontrastzoom 変換を直接制御できます。
  • ファイルトレーニング データセットと整合チェック データセットのデータ拡張のための fastai の変換は、トレーニング データと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。
String
拡張パラメーター
(オプション)

拡張パラメーター内の各変換の値を指定します。

  • rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。 角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。 デフォルト値は 30.0; 0.5 です。
  • brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。 変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。 変化が 0.5 の場合は、明るさは調整されません。 変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。 デフォルト値は (0.4,0.6); 1.0 です。
  • contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。 スケールが 0 の場合は画像がグレー スケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。 スケールが 1 の場合は、コントラストが調整されません。 スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。 デフォルト値は (0.75, 1.5); 1.0 です。
  • zoom - 画像がスケールの値に応じて無作為にズーム インされます。 ズームの値は、scale(a,b); p の形式を取ります。 デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。 スケールが 1.0 を超える場合のみ、画像のズーム インが行われます。 スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。
  • crop - 画像が無作為にトリミングされます。 トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。 位置は (col_pct, row_pct), によって与えられ、col_pctrow_pct は 0 ~ 1 に正規化されます。 col_pct または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップ サイズとなります。

Value Table
チップ サイズ
(オプション)

モデルのトレーニングに使用される画像のサイズ。 画像は、指定のチップ サイズにトリミングされます。

デフォルトのチップ サイズは、トレーニング データのタイル サイズと同じになります。 x タイル サイズと y タイル サイズが異なる場合は、小さい方の値がデフォルトのチップ サイズとして使用されます。 チップ サイズは、入力フォルダー内のすべての画像の最小の x タイル サイズまたは y タイル サイズより小さくなければなりません。

Long
サイズ変更
(オプション)

画像のチップのサイズを変更します。 チップのサイズを変更したら、チップ サイズのピクセル ブロックがトリミングされ、トレーニングに使用されます。 このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。

サイズ変更の値は、多くの場合、チップ サイズの半分です。 サイズ変更の値がチップ サイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセル ブロックの作成に使用されます。

String
加重初期化スキーマ
(オプション)

レイヤーの重みが初期化される Scheme を指定します。

マルチスペクトル データを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。 これは、モデルの第 1 レイヤーを再度初期化することで行われます。

このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。

  • ランダム非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。 これがデフォルトです。
  • Red バンド非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。
  • すべてランダムRGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。 このオプションは、マルチスペクトル画像にのみ適用されます。
String
監視指標
(オプション)

チェックポイントおよび早期停止中に監視する指標を指定します。

  • 検証ロス検証ロスが監視されます。 検証ロスが大きく変更されなくなると、モデルが停止します。 これがデフォルトです。
  • 平均精度各閾値の加重平均精度が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • Accuracy正しい予測の数と予測の合計数の比が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • F1 スコアモデルの精度スコアと再現率スコアの組み合わせが監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • MIoUテスト データセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • DiceDice 指標を使用して、モデルのパフォーマンスが監視されます。 この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。 値 1 は、整合チェック データとトレーニング データ間でピクセルが完全一致していることを示します。
  • 精度サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。 この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。
  • 再現率モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。 この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。 再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。
  • Corpus BLEUCorpus BLUE スコアが監視されます。 この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。
  • Multi label F-beta加重調和平均精度と加重調和平均再現率が監視されます。 この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。
String
Tensorboard の有効化
(オプション)

ツールのトレーニング中に Tensorboard 指標を有効化するかどうかを指定します。 ツール メッセージ内の URL を使用して、Tensorboard にアクセスできます。

このパラメーターは次のモデルでのみサポートされています。CycleGAN、DeepLab、Faster RCNN、Feature Classifier、Image Captioner、Mask RCNN、Multi-Task Road Extractor、Pix2Pix、PSPNet Classifier、RetinaNet、Single-Shot Detector、SuperResolution、U-Net Classifier。

  • オフ - Tensorboard 指標を有効化しません。 これがデフォルトです。
  • オン - Tensorboard 指標を有効化します。

Boolean

派生した出力

ラベル説明データ タイプ
出力モデル

出力トレーニング済みモデル ファイル

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})
名前説明データ タイプ
in_folder
[in_folder,...]

モデルのトレーニングに必要な画像チップ、ラベル、統計を含むフォルダー。 [ディープ ラーニング用のトレーニング データをエクスポート (Export Training Data for Deep Learning)] ツールから生成された出力。

以下の条件が満たされる場合、複数の入力フォルダーを使用できます。

  • メタデータ形式タイプが分類タイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Class、または RCNN マスクであること。
  • すべてのトレーニング データのメタデータ形式が同じであること。
  • すべてのトレーニング データのバンド数が同じであること。

Folder
out_folder

トレーニング済みモデルが格納される出力フォルダーの場所。

Folder
max_epochs
(オプション)

モデルをトレーニングする場合の対象となるエポックの最大数。 最大エポックを 1 に設定すると、データセットがニューラル ネットワークを通って前後に 1 回渡されます。 デフォルト値は 20 です。

Long
model_type
(オプション)

ディープ ラーニング モデルのトレーニングに使用されるモデル タイプを指定します。

  • BDCN_EDGEDETECTOR双方向カスケード ネットワーク (BDCN) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。 この方法は、さまざまな縮尺でのオブジェクトのエッジ検出を改善するのに便利です。
  • CHANGEDETECTORChange Detector アーキテクチャがモデルのトレーニングに使用されます。 Change Detector の使用目的はピクセル分類です。 この方法は、2 つの時空間画像を使用するモデル オブジェクトを作成して、変化の分類済みラスターを作成します。 このモデル タイプの入力トレーニング データは、分類済みタイル メタデータ形式を使用します。
  • CLIMAXClimaX アーキテクチャがモデルのトレーニングに使用されます。 このモデルは主に天気と気候の解析に使用されます。 ClimaX の使用目的はピクセル分類です。 この方法で使用される予備データは多次元データです。
  • CONNECTNETConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。 この方法は、衛星画像から道路網を抽出するのに便利です。
  • CYCLEGANCycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN の使用目的は image-to-image の変換です。 この方法により、あるタイプから別のタイプへと画像を変換するモデル オブジェクトを作成できます。 この方法は、トレーニング対象の画像をオーバーラップする必要がない点で独特です。 このモデル タイプの入力トレーニング データは、CycleGAN メタデータ形式を使用します。
  • DEEPLABDeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。
  • DEEPSORTDeep Sort アーキテクチャがモデルのトレーニングに使用されます。 Deep Sort の使用目的はビデオ内のオブジェクト検出です。 このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。 このモデル タイプの入力トレーニング データは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。
  • DETREGDETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes を使用します。 このモデル タイプは GPU を集中的に使用します。適切に実行するには、少なくとも 16 GB のメモリを備えた専用の GPU が必要です。
  • FASTERRCNNFasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。
  • FEATURE_CLASSIFIERフィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。 フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。
  • HED_EDGEDETECTORHED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。 この方法は、エッジとオブジェクト境界の検出に便利です。
  • IMAGECAPTIONERImage Captioner アーキテクチャがモデルのトレーニングに使用されます。 Image Captioner の使用目的は画像テキスト変換です。 この方法は、画像のテキスト キャプションを生成するモデルを作成します。
  • MASKRCNNMaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。 このアプローチは、インスタンス セグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用されます。 このモデル タイプを使用して、建物フットプリントを検出することができます。 トレーニング データを入力データにする場合は、MaskRCNN メタ形式を使用します。 入力トレーニング データのクラス値は、1 で始める必要があります。 このモデル タイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。
  • MAXDEEPLABMaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab の使用目的はパノプティック セグメンテーションです。 この方法により、画像とフィーチャを生成するモデル オブジェクトを作成できます。 このモデル タイプの入力トレーニング データは、パノプティック セグメンテーション メタデータ形式を使用します。
  • MMDETECTIONMMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection の使用目的はオブジェクト検出です。 サポートされているメタデータ形式は Pascal Visual Object Class の四角形と KITTI の四角形です。
  • MMSEGMENTATIONMMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。 サポートされているメタデータ形式は分類済みタイルです。
  • MULTITASK_ROADEXTRACTORMulti Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。 この方法は、衛星画像から道路網を抽出するのに便利です。
  • PIX2PIXPix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix の使用目的は image-to-image の変換です。 この方法により、あるタイプから別のタイプへと画像を変換するモデル オブジェクトを作成できます。 このモデル タイプの入力トレーニング データは、エクスポート タイル メタデータ形式を使用します。
  • PIX2PIXHDPix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD の使用目的は画像対画像変換です。 この方法により、あるタイプから別のタイプへと画像を変換するモデル オブジェクトを作成できます。 このモデル タイプの入力トレーニング データは、エクスポート タイル メタデータ形式を使用します。
  • PSETAEPixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。 この方法で使用される予備データは多次元データです。
  • PSPNETPSPNET (ピラミッド型解析ネットワーク) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。
  • RETINANETRetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes メタデータ形式を使用します。
  • RTDETRV2改善された Real-Time DEtection TRansformer (RTDetrV2) アーキテクチャがモデルのトレーニングに使用されます。 RTDetrV2 は、前のリアルタイム検出器の RT-DETR を基に構築されています。 RTDetrV2 の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes および KITTI の四角形メタデータ形式を使用します。
  • SAMLORALow Rank Adaption (LoRA) による Segment Anything Model (SAM) は、モデルのトレーニングに使用されます。 このモデル タイプは、SAM を基礎モデルとして使用し、比較的低い演算要件と小さなデータセットの特定のタスクに合わせて微調整します。
  • SIAMMASKSiam Mask アーキテクチャがモデルのトレーニングに使用されます。 Siam Mask の使用目的はビデオ内のオブジェクト検出です。 このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。 このモデル タイプの入力トレーニング データは、MaskRCNN メタデータ形式を使用します。
  • SSDSSD (シングル ショット検出器) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes メタデータ形式を使用します。
  • SUPERRESOLUTIONSuper-resolution アーキテクチャがモデルのトレーニングに使用されます。 Super-resolution の使用目的は画像対画像変換です。 この方法により、解像度を高め、画像の質を向上させるモデル オブジェクトが作成されます。 このモデル タイプの入力トレーニング データは、エクスポート タイル メタデータ形式を使用します。
  • UNETU-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。
  • YOLOV3YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。
String
batch_size
(オプション)

1 回のトレーニングで処理されるトレーニング サンプルの数。

バッチ サイズを増やすと、ツールのパフォーマンスが向上します。ただし、バッチ サイズの増加に伴って、使用されるメモリ量も多くなります。

設定されたバッチ サイズに対して GPU メモリが足りない場合、ツールが最適なバッチ サイズを計算して使用するよう試みます。 メモリ不足エラーが発生した場合は、より小さいバッチ サイズを使用します。

Long
arguments
[arguments,...]
(オプション)

model_type パラメーターの情報は、このパラメーターのデフォルト値を設定するために使用されます。 これらの引数は、モデル アークテクチャによって変わります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS の事前トレーニング済みモデルとカスタム ディープ ラーニング モデルは、別途ツールがサポートする引数を持つ場合があります。

各モデル タイプで利用可能な引数の詳細については、「ディープ ラーニングの引数」をご参照ください。

Value Table
learning_rate
(オプション)

トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。 値を指定しないと、トレーニング プロセス中に最適な学習率が学習曲線から抽出されます。

Double
backbone_model
(オプション)

新しいモデルをトレーニングするためのアーキテクチャとして使用される構成済みのニューラル ネットワークを指定します。 この手法は転移学習と呼ばれています。

  • 1.40625degこのバックボーンは、各グリッド セルの解像度が 1.40625 度 x 1.40625 度の面積をカバーする画像でトレーニングされました。 これは、天気と気候の予測に使用されます。 高解像度の設定であるため、より精度の高い出力が可能ですが、要求される計算能力が高くなります。
  • 5.625degこのバックボーンは、各グリッド セルの解像度が 5.625 度 x 5.625 度の面積をカバーする画像でトレーニングされました。 これは、天気と気候の予測に使用されます。 低解像度の設定と見なされ、計算能力が低くて済みます。
  • DENSENET121事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 121 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • DENSENET161事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 161 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • DENSENET169事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 169 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • DENSENET201事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 201 層です。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
  • MOBILENET_V2事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジ デバイス コンピューティングに適しています。
  • RESNET18事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 18 層です。
  • RESNET34事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 34 層です。 これがデフォルトです。
  • RESNET50事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 50 層です。
  • RESNET101事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 101 層です。
  • RESNET152事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 152 層です。
  • VGG11事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 11 層です。
  • VGG11_BN事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 11 層です。
  • VGG13事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 13 層です。
  • VGG13_BN事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 13 層です。
  • VGG16事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 16 層です。
  • VGG16_BN事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 16 層です。
  • VGG19事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクト カテゴリに分類します。深さは 19 層です。
  • VGG19_BN事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 19 層です。
  • DARKNET53事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークになります。含まれる画像数は 100 万を超え、深さは 53 層です。
  • REID_V1事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、オブジェクトの追跡に使用されます。
  • REID_V2事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、オブジェクトの追跡に使用されます。
  • RESNEXT50事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、深さは 50 層です。 これは同質のニューラル ネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。
  • WIDE_RESNET50事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、深さは 50 層です。 アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。
  • SR3事前構成済みモデルは、Super Resolution via Repeated Refinement (SR3) モデルを使用します。 SR3 は、ノイズ除去拡散確率論的モデルを条件付き画像生成に適応させ、確率論的ノイズ除去プロセスを通じて超解像度を実行します。 詳細については、arXiv サイトの「Image Super-Resolution via Iterative Refinement」をご参照ください。
  • SR3_UVITこのバックボーン モデルは、画像生成および SR3 タスク内の拡散モデル用に設計された diffusion (ViT) をベースとしたアーキテクチャの特定の実装です。
  • VIT_B事前構成済みの Segment Anything Model (SAM) は、基本のニューラル ネットワーク サイズで使用されます。 これが最小のサイズです。 詳細については、arXiv サイトの「Segment Anything」をご参照ください。
  • VIT_L事前構成済みの Segment Anything Model (SAM) は、大きなニューラル ネットワーク サイズで使用されます。 詳細については、arXiv サイトの「Segment Anything」をご参照ください。
  • VIT_H事前構成済みの Segment Anything Model (SAM) は、非常に大きなニューラル ネットワーク サイズで使用されます。 これが最大のサイズです。 詳細については、arXiv サイトの「Segment Anything」をご参照ください。

また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3 などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラル ネットワークを指定できます。

String
pretrained_model
(オプション)

新しいモデルの微調整に使用される事前トレーニング済みモデル。 入力は、Esri モデル定義ファイル (.emd) またはディープ ラーニング パッケージ ファイル (.dlpk) です。

類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。 事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデル タイプおよびバックボーン モデルでトレーニングされている必要があります。 モデルの微調整は、ArcGIS を使用してトレーニング済みのモデルでのみサポートされています。

File
validation_percentage
(オプション)

モデルの検証に使用するトレーニング サンプルの割合。 デフォルト値は 10 です。

Double
stop_training
(オプション)

早期停止を実施するかどうかを指定します。

  • STOP_TRAINING早期停止が実施され、指定した max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングが停止します。 これがデフォルトです。
  • CONTINUE_TRAINING早期停止が実施されず、max_epochs パラメーター値に到達するまで、モデルのトレーニングが続行されます。
Boolean
freeze
(オプション)

事前トレーニング済みモデルのバックボーン層が固定されるかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。

  • FREEZE_MODELバックボーン層が固定され、事前定義済みのウェイトとバイアスは backbone_model パラメーターで変更されません。 これがデフォルトです。
  • UNFREEZE_MODELバックボーン層は固定されず、トレーニング サンプルに合わせて backbone_model パラメーターのウェイトとバイアスを変更できます。 この処理には時間がかかりますが、通常は優れた結果が得られます。
Boolean
augmentation
(オプション)

使用されるデータ拡張のタイプを指定します。

データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニング セットを増やす手法です。

  • DEFAULTデフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、cropdihedral_affinebrightnesscontrastzoom です。 これらのデフォルト値は通常、衛星画像に適しています。
  • NONEデータ拡張は使用されません。
  • CUSTOMデータ拡張値は、augmentation_parameters パラメーターを使用して指定されます。 これにより、croprotatebrightnesscontrastzoom 変換を直接制御できます。
  • FILEトレーニング データセットと整合チェック データセットのデータ拡張のための fastai の変換は、トレーニング データと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。
String
augmentation_parameters
[augmentation_parameters,...]
(オプション)

拡張パラメーター内の各変換の値を指定します。

  • rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。 角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。 デフォルト値は 30.0; 0.5 です。
  • brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。 変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。 変化が 0.5 の場合は、明るさは調整されません。 変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。 デフォルト値は (0.4,0.6); 1.0 です。
  • contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。 スケールが 0 の場合は画像がグレー スケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。 スケールが 1 の場合は、コントラストが調整されません。 スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。 デフォルト値は (0.75, 1.5); 1.0 です。
  • zoom - 画像がスケールの値に応じて無作為にズーム インされます。 ズームの値は、scale(a,b); p の形式を取ります。 デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。 スケールが 1.0 を超える場合のみ、画像のズーム インが行われます。 スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。
  • crop - 画像が無作為にトリミングされます。 トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。 位置は (col_pct, row_pct), によって与えられ、col_pctrow_pct は 0 ~ 1 に正規化されます。 col_pct または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップ サイズとなります。

Value Table
chip_size
(オプション)

モデルのトレーニングに使用される画像のサイズ。 画像は、指定のチップ サイズにトリミングされます。

デフォルトのチップ サイズは、トレーニング データのタイル サイズと同じになります。 x タイル サイズと y タイル サイズが異なる場合は、小さい方の値がデフォルトのチップ サイズとして使用されます。 チップ サイズは、入力フォルダー内のすべての画像の最小の x タイル サイズまたは y タイル サイズより小さくなければなりません。

Long
resize_to
(オプション)

画像のチップのサイズを変更します。 チップのサイズを変更したら、チップ サイズのピクセル ブロックがトリミングされ、トレーニングに使用されます。 このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。

サイズ変更の値は、多くの場合、チップ サイズの半分です。 サイズ変更の値がチップ サイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセル ブロックの作成に使用されます。

String
weight_init_scheme
(オプション)

レイヤーの重みが初期化される Scheme を指定します。

マルチスペクトル データを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。 これは、モデルの第 1 レイヤーを再度初期化することで行われます。

  • RANDOM非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。 これがデフォルトです。
  • RED_BAND非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。
  • ALL_RANDOMRGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。 このオプションは、マルチスペクトル画像にのみ適用されます。

このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。

String
monitor
(オプション)

チェックポイントおよび早期停止中に監視する指標を指定します。

  • VALID_LOSS検証ロスが監視されます。 検証ロスが大きく変更されなくなると、モデルが停止します。 これがデフォルトです。
  • AVERAGE_PRECISION各閾値の加重平均精度が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • ACCURACY正しい予測の数と予測の合計数の比が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • F1_SCOREモデルの精度スコアと再現率スコアの組み合わせが監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • MIOUテスト データセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
  • DICEDice 指標を使用して、モデルのパフォーマンスが監視されます。 この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。 値 1 は、整合チェック データとトレーニング データ間でピクセルが完全一致していることを示します。
  • PRECISIONサンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。 この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。
  • RECALLモデルが正のサンプルを検出できる能力の指標である再現率が監視されます。 この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。 再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。
  • CORPUS_BLEUCorpus BLUE スコアが監視されます。 この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。
  • MULTI_LABEL_FBETA加重調和平均精度と加重調和平均再現率が監視されます。 この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。
String
tensorboard
(オプション)

ツールのトレーニング中に Tensorboard 指標を有効化するかどうかを指定します。 ツール メッセージ内の URL を使用して、Tensorboard にアクセスできます。

このパラメーターは次のモデルでのみサポートされています。CycleGAN、DeepLab、Faster RCNN、Feature Classifier、Image Captioner、Mask RCNN、Multi-Task Road Extractor、Pix2Pix、PSPNet Classifier、RetinaNet、Single-Shot Detector、SuperResolution、U-Net Classifier。

  • DISABLE_TENSORBOARDTensorboard 指標を有効化しません。 これがデフォルトです。
  • ENABLE_TENSORBOARDTensorboard 指標を有効化します。
Boolean

派生した出力

名前説明データ タイプ
out_model_file

出力トレーニング済みモデル ファイル

File

コードのサンプル

TrainDeepLearningModel の例 1 (Python ウィンドウ)

この例では、事前トレーニング済みモデルを使用した転移学習を使用しました。

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")
TrainDeepLearningModel の例 2 (スタンドアロン スクリプト)

この例では、SSD 手法を使用してオブジェクト検出モデルをトレーニングします。

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

関連トピック