ディープラーニングモデルのトレーニング (Train Deep Learning Model) (Image Analyst)—ArcGIS AllSource

Image Analyst ライセンスで利用できます。

サマリー

[ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力を使用してディープラーニングモデルをトレーニングします。

使用法

このツールでは、ディープラーニングフレームワークを使用して、ディープラーニングモデルをトレーニングできます。
ArcGIS AllSource のディープラーニングフレームワークを使用するようにコンピューターを設定するには、「ArcGIS 用のディープラーニングフレームワークのインストール」をご参照ください。
非接続環境でモデルをトレーニングする場合は、「非接続環境のための追加インストール」で詳細をご確認ください。
このツールは、既存のトレーニング済みモデルの微調整にも使用できます。たとえば、車に関してトレーニングされた既存のモデルを微調整して、トラックを識別するモデルをトレーニングすることができます。
GPU を使用してこのツールを実行するには、プロセッサータイプ環境を [GPU] に設定します。複数の GPU が存在する場合は、代わりに GPU ID 環境を指定します。
デフォルトでは、このツールでは、[モデルタイプ] パラメーターが以下のいずれかに設定された場合、使用可能なすべての GPU が使用されます。
- ConnectNet
- フィーチャ分類器
- MaskRCNN
- Multi Task Road Extractor
- シングルショット検出器
- U-Net
特定の GPU を使用するには、GPU ID 環境を使用します。
このツールの入力トレーニングデータには、[ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールから生成された画像フォルダーとラベルフォルダーを含める必要があります。
この例外となるのは、トレーニングデータが Pascal Visual Object Classes または KITTI の四角形メタデータ形式を使用している場合です。これらの 2 つの形式では、トレーニングデータを他のソースから取得できますが、画像チップは image フォルダーに存在する必要があり、対応するラベルは labels フォルダー内に存在する必要があります。

トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して、トレーニングデータセットと整合チェックデータセットのデータ拡張のための fastai の変換を指定します。以下は、transforms.json ファイルの例です。

カスタム拡張パラメーター


{
    "Training": {
        "rotate": {
            "degrees": 30,
            "p": 0.5
        },
        "crop": {
            "size": 224,
            "p": 1,
            "row_pct": "0, 1",
            "col_pct": "0, 1"
        },
        "brightness": {
            "change": "0.4, 0.6"
        },
        "contrast": {
            "scale": "1.0, 1.5"
        },
        "rand_zoom": {
            "scale": "1, 1.2"
        }
    },
    "Validation": {
        "crop": {
            "size": 224,
            "p": 1.0,
            "row_pct": 0.5,
            "col_pct": 0.5
        }
    }
}

このツールの実行要件および発生する可能性のある問題の詳細については、「ディープラーニングに関するよくある質問」をご参照ください。
ディープラーニングの詳細については、「ArcGIS Image Analyst エクステンションを使用したディープラーニング」をご参照ください。

パラメーター

ラベル	説明	データタイプ
入力トレーニングデータ	モデルのトレーニングに必要な画像チップ、ラベル、統計を含むフォルダー。 [ディープラーニング用のトレーニングデータをエクスポート (Export Training Data for Deep Learning)] ツールから生成された出力。以下の条件が満たされる場合、複数の入力フォルダーを使用できます。メタデータ形式タイプが分類タイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Class、または RCNN マスクであること。すべてのトレーニングデータのメタデータ形式が同じであること。すべてのトレーニングデータのバンド数が同じであること。	Folder
出力フォルダー	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
最大エポック (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポックを 1 に設定すると、データセットがニューラルネットワークを通って前後に 1 回渡されます。デフォルト値は 20 です。	Long
モデルタイプ (オプション)	ディープラーニングモデルのトレーニングに使用されるモデルタイプを指定します。 BDCN Edge Detector (ピクセル分類)—双方向カスケードネットワーク (BDCN) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。この方法は、さまざまな縮尺でのオブジェクトのエッジ検出を改善するのに便利です。 Change Detector (ピクセル分類)—Change Detector アーキテクチャがモデルのトレーニングに使用されます。 Change Detector の使用目的はピクセル分類です。この方法は、2 つの時空間画像を使用するモデルオブジェクトを作成して、変化の分類済みラスターを作成します。このモデルタイプの入力トレーニングデータは、分類済みタイルメタデータ形式を使用します。 ClimaX (ピクセル分類)—ClimaX アーキテクチャがモデルのトレーニングに使用されます。このモデルは主に天気と気候の解析に使用されます。 ClimaX の使用目的はピクセル分類です。この方法で使用される予備データは多次元データです。 ConnectNet (ピクセル分類)—ConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。この方法は、衛星画像から道路網を抽出するのに便利です。 CycleGAN (画像変換)—CycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN の使用目的は image-to-image の変換です。この方法により、あるタイプから別のタイプへと画像を変換するモデルオブジェクトを作成できます。この方法は、トレーニング対象の画像をオーバーラップする必要がない点で独特です。このモデルタイプの入力トレーニングデータは、CycleGAN メタデータ形式を使用します。 DeepLabV3 (ピクセル分類)—DeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。 Deep Sort (オブジェクト追跡)—Deep Sort アーキテクチャがモデルのトレーニングに使用されます。 Deep Sort の使用目的はビデオ内のオブジェクト検出です。このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。このモデルタイプの入力トレーニングデータは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。 DETReg (オブジェクト検出)—DETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes を使用します。このモデルタイプは GPU を集中的に使用します。適切に実行するには、少なくとも 16 GB のメモリを備えた専用の GPU が必要です。 FasterRCNN (オブジェクト検出)—FasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。フィーチャ分類器 (オブジェクト分類)—フィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。 HED Edge Detector (ピクセル分類)—HED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。この方法は、エッジとオブジェクト境界の検出に便利です。 Image Captioner (画像変換)—Image Captioner アーキテクチャがモデルのトレーニングに使用されます。 Image Captioner の使用目的は画像テキスト変換です。この方法は、画像のテキストキャプションを生成するモデルを作成します。 MaskRCNN (オブジェクト検出)—MaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。このアプローチは、インスタンスセグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用されます。このモデルタイプを使用して、建物フットプリントを検出することができます。トレーニングデータを入力データにする場合は、MaskRCNN メタ形式を使用します。入力トレーニングデータのクラス値は、1 で始める必要があります。このモデルタイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。 MaX-DeepLab (パノプティックセグメンテーション)—MaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab の使用目的はパノプティックセグメンテーションです。この方法により、画像とフィーチャを生成するモデルオブジェクトを作成できます。このモデルタイプの入力トレーニングデータは、パノプティックセグメンテーションメタデータ形式を使用します。 MMDetection (オブジェクト検出)—MMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection の使用目的はオブジェクト検出です。サポートされているメタデータ形式は Pascal Visual Object Class の四角形と KITTI の四角形です。 MMSegmentation (ピクセル分類)—MMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。サポートされているメタデータ形式は分類済みタイルです。 Multi Task Road Extractor (ピクセル分類)—Multi Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。この方法は、衛星画像から道路網を抽出するのに便利です。 Pix2Pix (画像変換)—Pix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix の使用目的は image-to-image の変換です。この方法により、あるタイプから別のタイプへと画像を変換するモデルオブジェクトを作成できます。このモデルタイプの入力トレーニングデータは、エクスポートタイルメタデータ形式を使用します。 Pix2PixHD (画像変換)—Pix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD の使用目的は画像対画像変換です。この方法により、あるタイプから別のタイプへと画像を変換するモデルオブジェクトを作成できます。このモデルタイプの入力トレーニングデータは、エクスポートタイルメタデータ形式を使用します。 PSETAE (ピクセル分類)—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。この方法で使用される予備データは多次元データです。ピラミッド型解析ネットワーク (ピクセル分類)—PSPNET (ピラミッド型解析ネットワーク) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。 RetinaNet (オブジェクト検出)—RetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 RTDetrV2 (オブジェクト検出)—改善された Real-Time DEtection TRansformer (RTDetrV2) アーキテクチャがモデルのトレーニングに使用されます。 RTDetrV2 は、前のリアルタイム検出器の RT-DETR を基に構築されています。 RTDetrV2 の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes および KITTI の四角形メタデータ形式を使用します。 SAMLoRA (ピクセル分類)—Low Rank Adaption (LoRA) による Segment Anything Model (SAM) は、モデルのトレーニングに使用されます。このモデルタイプは、SAM を基礎モデルとして使用し、比較的低い演算要件と小さなデータセットの特定のタスクに合わせて微調整します。 Siam Mask (オブジェクト追跡)—Siam Mask アーキテクチャがモデルのトレーニングに使用されます。 Siam Mask の使用目的はビデオ内のオブジェクト検出です。このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。このモデルタイプの入力トレーニングデータは、MaskRCNN メタデータ形式を使用します。シングルショット検出器 (オブジェクト検出)—SSD (シングルショット検出器) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 Super-resolution (画像変換)—Super-resolution アーキテクチャがモデルのトレーニングに使用されます。 Super-resolution の使用目的は画像対画像変換です。この方法により、解像度を高め、画像の質を向上させるモデルオブジェクトが作成されます。このモデルタイプの入力トレーニングデータは、エクスポートタイルメタデータ形式を使用します。 U-Net (ピクセル分類)—U-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。 YOLOv3 (オブジェクト検出)—YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。	String
バッチサイズ (オプション)	1 回のトレーニングで処理されるトレーニングサンプルの数。バッチサイズを増やすと、ツールのパフォーマンスが向上します。ただし、バッチサイズの増加に伴って、使用されるメモリ量も多くなります。設定されたバッチサイズに対して GPU メモリが足りない場合、ツールが最適なバッチサイズを計算して使用するよう試みます。メモリ不足エラーが発生した場合は、より小さいバッチサイズを使用します。	Long
モデル引数 (オプション)	[モデルタイプ] パラメーターの情報は、このパラメーターに値を取り込むために使用されます。これらの引数は、モデルアークテクチャによって変わります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS の事前トレーニング済みモデルとカスタムディープラーニングモデルは、別途ツールがサポートする引数を持つ場合があります。各モデルタイプで利用可能な引数の詳細については、「ディープラーニングの引数」をご参照ください。	Value Table
学習率 (オプション)	トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。値を指定しないと、トレーニングプロセス中に最適な学習率が学習曲線から抽出されます。	Double
バックボーンモデル (オプション)	新しいモデルをトレーニングするためのアーキテクチャとして使用される構成済みのニューラルネットワークを指定します。この手法は転移学習と呼ばれています。また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3　などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラルネットワークを指定できます。 1.40625 度—このバックボーンは、各グリッドセルの解像度が 1.40625 度 x 1.40625 度の面積をカバーする画像でトレーニングされました。これは、天気と気候の予測に使用されます。高解像度の設定であるため、より精度の高い出力が可能ですが、要求される計算能力が高くなります。 5.625 度—このバックボーンは、各グリッドセルの解像度が 5.625 度 x 5.625 度の面積をカバーする画像でトレーニングされました。これは、天気と気候の予測に使用されます。低解像度の設定と見なされ、計算能力が低くて済みます。 DenseNet-121—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 121 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-161—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 161 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-169—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 169 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-201—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 201 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 MobileNet バージョン 2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジデバイスコンピューティングに適しています。 ResNet-18—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 18 層です。 ResNet-34—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 34 層です。これがデフォルトです。 ResNet-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 50 層です。 ResNet-101—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 101 層です。 ResNet-152—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 152 層です。 VGG-11—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 11 層です。 VGG-11 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 11 層です。 VGG-13—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 13 層です。 VGG-13 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 13 層です。 VGG-16—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 16 層です。 VGG-16 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 16 層です。 VGG-19—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 19 層です。 VGG-19 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 19 層です。 DarkNet-53—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、深さは 53 層です。 Reid_v1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 Reid_v2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 ResNeXt-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。これは同質のニューラルネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。 Wide ResNet-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。 SR3—事前構成済みモデルは、Super Resolution via Repeated Refinement (SR3) モデルを使用します。 SR3 は、ノイズ除去拡散確率論的モデルを条件付き画像生成に適応させ、確率論的ノイズ除去プロセスを通じて超解像度を実行します。詳細については、arXiv サイトの「Image Super-Resolution via Iterative Refinement」をご参照ください。 SR3 U-ViT—このバックボーンモデルは、画像生成および SR3 タスク内の拡散モデル用に設計された diffusion (ViT) をベースとしたアーキテクチャの特定の実装です。 ViT-B—事前構成済みの Segment Anything Model (SAM) は、基本のニューラルネットワークサイズで使用されます。これが最小のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 ViT-L—事前構成済みの Segment Anything Model (SAM) は、大きなニューラルネットワークサイズで使用されます。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 ViT-H—事前構成済みの Segment Anything Model (SAM) は、非常に大きなニューラルネットワークサイズで使用されます。これが最大のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。	String
事前トレーニング済みモデル (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力は、Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) です。類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。モデルの微調整は、ArcGIS を使用してトレーニング済みのモデルでのみサポートされています。	File
検証 % (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は 10 です。	Double
モデルが改善を見込めなくなった時点で停止 (オプション)	早期停止を実施するかどうかを指定します。オン - 早期停止が実施され、指定した [最大エポック] パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングが停止します。これがデフォルトです。オフ - 早期停止が実施されず、[最大エポック] パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
モデルの固定 (オプション)	事前トレーニング済みモデルのバックボーン層が固定されるかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。オン - バックボーン層が固定され、事前定義済みのウェイトとバイアスは [バックボーンモデル] パラメーターで変更されません。これがデフォルトです。オフ - バックボーン層は固定されず、トレーニングサンプルに合わせて [バックボーンモデル] パラメーターのウェイトとバイアスを変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。	Boolean
データ拡張 (オプション)	使用されるデータ拡張のタイプを指定します。データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニングセットを増やす手法です。デフォルト—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、crop、dihedral_affine、brightness、contrast、zoom です。これらのデフォルト値は通常、衛星画像に適しています。なし—データ拡張は使用されません。カスタム—データ拡張値は、[拡張パラメーター] パラメーターを使用して指定されます。これにより、crop、rotate、brightness、contrast、zoom 変換を直接制御できます。ファイル—トレーニングデータセットと整合チェックデータセットのデータ拡張のための fastai の変換は、トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。	String
拡張パラメーター (オプション)	拡張パラメーター内の各変換の値を指定します。 rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。デフォルト値は 30.0; 0.5 です。 brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。変化が 0.5 の場合は、明るさは調整されません。変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.4,0.6); 1.0 です。 contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。スケールが 0 の場合は画像がグレースケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。スケールが 1 の場合は、コントラストが調整されません。スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.75, 1.5); 1.0 です。 zoom - 画像がスケールの値に応じて無作為にズームインされます。ズームの値は、scale(a,b); p の形式を取ります。デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。スケールが 1.0 を超える場合のみ、画像のズームインが行われます。スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 crop - 画像が無作為にトリミングされます。トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。位置は (col_pct, row_pct),　によって与えられ、col_pct と row_pct は 0 ～ 1 に正規化されます。 col_pct　または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップサイズとなります。	Value Table
チップサイズ (オプション)	モデルのトレーニングに使用される画像のサイズ。画像は、指定のチップサイズにトリミングされます。デフォルトのチップサイズは、トレーニングデータのタイルサイズと同じになります。 x タイルサイズと y タイルサイズが異なる場合は、小さい方の値がデフォルトのチップサイズとして使用されます。チップサイズは、入力フォルダー内のすべての画像の最小の x タイルサイズまたは y タイルサイズより小さくなければなりません。	Long
サイズ変更 (オプション)	画像のチップのサイズを変更します。チップのサイズを変更したら、チップサイズのピクセルブロックがトリミングされ、トレーニングに使用されます。このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。サイズ変更の値は、多くの場合、チップサイズの半分です。サイズ変更の値がチップサイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセルブロックの作成に使用されます。	String
加重初期化スキーマ (オプション)	レイヤーの重みが初期化される Scheme を指定します。マルチスペクトルデータを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。これは、モデルの第 1 レイヤーを再度初期化することで行われます。このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。ランダム—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。これがデフォルトです。 Red バンド—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。すべてランダム—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。このオプションは、マルチスペクトル画像にのみ適用されます。	String
監視指標 (オプション)	チェックポイントおよび早期停止中に監視する指標を指定します。検証ロス—検証ロスが監視されます。検証ロスが大きく変更されなくなると、モデルが停止します。これがデフォルトです。平均精度—各閾値の加重平均精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。 Accuracy—正しい予測の数と予測の合計数の比が監視されます。この値が大きく変更されなくなると、モデルが停止します。 F1 スコア—モデルの精度スコアと再現率スコアの組み合わせが監視されます。この値が大きく変更されなくなると、モデルが停止します。 MIoU—テストデータセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。この値が大きく変更されなくなると、モデルが停止します。 Dice—Dice 指標を使用して、モデルのパフォーマンスが監視されます。この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。値 1 は、整合チェックデータとトレーニングデータ間でピクセルが完全一致していることを示します。精度—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。再現率—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。 Corpus BLEU—Corpus BLUE スコアが監視されます。この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。 Multi label F-beta—加重調和平均精度と加重調和平均再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。	String
Tensorboard の有効化 (オプション)	ツールのトレーニング中に Tensorboard 指標を有効化するかどうかを指定します。ツールメッセージ内の URL を使用して、Tensorboard にアクセスできます。このパラメーターは次のモデルでのみサポートされています。CycleGAN、DeepLab、Faster RCNN、Feature Classifier、Image Captioner、Mask RCNN、Multi-Task Road Extractor、Pix2Pix、PSPNet Classifier、RetinaNet、Single-Shot Detector、SuperResolution、U-Net Classifier。オフ - Tensorboard 指標を有効化しません。これがデフォルトです。オン - Tensorboard 指標を有効化します。	Boolean

派生した出力

ラベル	説明	データタイプ
出力モデル	出力トレーニング済みモデルファイル	File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})

名前	説明	データタイプ
in_folder [in_folder,...]	モデルのトレーニングに必要な画像チップ、ラベル、統計を含むフォルダー。 [ディープラーニング用のトレーニングデータをエクスポート (Export Training Data for Deep Learning)] ツールから生成された出力。以下の条件が満たされる場合、複数の入力フォルダーを使用できます。メタデータ形式タイプが分類タイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Class、または RCNN マスクであること。すべてのトレーニングデータのメタデータ形式が同じであること。すべてのトレーニングデータのバンド数が同じであること。	Folder
out_folder	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
max_epochs (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポックを 1 に設定すると、データセットがニューラルネットワークを通って前後に 1 回渡されます。デフォルト値は 20 です。	Long
model_type (オプション)	ディープラーニングモデルのトレーニングに使用されるモデルタイプを指定します。 BDCN_EDGEDETECTOR—双方向カスケードネットワーク (BDCN) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。この方法は、さまざまな縮尺でのオブジェクトのエッジ検出を改善するのに便利です。 CHANGEDETECTOR—Change Detector アーキテクチャがモデルのトレーニングに使用されます。 Change Detector の使用目的はピクセル分類です。この方法は、2 つの時空間画像を使用するモデルオブジェクトを作成して、変化の分類済みラスターを作成します。このモデルタイプの入力トレーニングデータは、分類済みタイルメタデータ形式を使用します。 CLIMAX—ClimaX アーキテクチャがモデルのトレーニングに使用されます。このモデルは主に天気と気候の解析に使用されます。 ClimaX の使用目的はピクセル分類です。この方法で使用される予備データは多次元データです。 CONNECTNET—ConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。この方法は、衛星画像から道路網を抽出するのに便利です。 CYCLEGAN—CycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN の使用目的は image-to-image の変換です。この方法により、あるタイプから別のタイプへと画像を変換するモデルオブジェクトを作成できます。この方法は、トレーニング対象の画像をオーバーラップする必要がない点で独特です。このモデルタイプの入力トレーニングデータは、CycleGAN メタデータ形式を使用します。 DEEPLAB—DeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。 DEEPSORT—Deep Sort アーキテクチャがモデルのトレーニングに使用されます。 Deep Sort の使用目的はビデオ内のオブジェクト検出です。このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。このモデルタイプの入力トレーニングデータは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。 DETREG—DETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes を使用します。このモデルタイプは GPU を集中的に使用します。適切に実行するには、少なくとも 16 GB のメモリを備えた専用の GPU が必要です。 FASTERRCNN—FasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。 FEATURE_CLASSIFIER—フィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。 HED_EDGEDETECTOR—HED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。この方法は、エッジとオブジェクト境界の検出に便利です。 IMAGECAPTIONER—Image Captioner アーキテクチャがモデルのトレーニングに使用されます。 Image Captioner の使用目的は画像テキスト変換です。この方法は、画像のテキストキャプションを生成するモデルを作成します。 MASKRCNN—MaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。このアプローチは、インスタンスセグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用されます。このモデルタイプを使用して、建物フットプリントを検出することができます。トレーニングデータを入力データにする場合は、MaskRCNN メタ形式を使用します。入力トレーニングデータのクラス値は、1 で始める必要があります。このモデルタイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。 MAXDEEPLAB—MaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab の使用目的はパノプティックセグメンテーションです。この方法により、画像とフィーチャを生成するモデルオブジェクトを作成できます。このモデルタイプの入力トレーニングデータは、パノプティックセグメンテーションメタデータ形式を使用します。 MMDETECTION—MMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection の使用目的はオブジェクト検出です。サポートされているメタデータ形式は Pascal Visual Object Class の四角形と KITTI の四角形です。 MMSEGMENTATION—MMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。サポートされているメタデータ形式は分類済みタイルです。 MULTITASK_ROADEXTRACTOR—Multi Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。この方法は、衛星画像から道路網を抽出するのに便利です。 PIX2PIX—Pix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix の使用目的は image-to-image の変換です。この方法により、あるタイプから別のタイプへと画像を変換するモデルオブジェクトを作成できます。このモデルタイプの入力トレーニングデータは、エクスポートタイルメタデータ形式を使用します。 PIX2PIXHD—Pix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD の使用目的は画像対画像変換です。この方法により、あるタイプから別のタイプへと画像を変換するモデルオブジェクトを作成できます。このモデルタイプの入力トレーニングデータは、エクスポートタイルメタデータ形式を使用します。 PSETAE—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。この方法で使用される予備データは多次元データです。 PSPNET—PSPNET (ピラミッド型解析ネットワーク) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。 RETINANET—RetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 RTDETRV2—改善された Real-Time DEtection TRansformer (RTDetrV2) アーキテクチャがモデルのトレーニングに使用されます。 RTDetrV2 は、前のリアルタイム検出器の RT-DETR を基に構築されています。 RTDetrV2 の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes および KITTI の四角形メタデータ形式を使用します。 SAMLORA—Low Rank Adaption (LoRA) による Segment Anything Model (SAM) は、モデルのトレーニングに使用されます。このモデルタイプは、SAM を基礎モデルとして使用し、比較的低い演算要件と小さなデータセットの特定のタスクに合わせて微調整します。 SIAMMASK—Siam Mask アーキテクチャがモデルのトレーニングに使用されます。 Siam Mask の使用目的はビデオ内のオブジェクト検出です。このモデルは、ビデオのフレームを使用してトレーニングされ、各フレーム内のオブジェクトのクラスと境界四角形を検出します。このモデルタイプの入力トレーニングデータは、MaskRCNN メタデータ形式を使用します。 SSD—SSD (シングルショット検出器) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 SUPERRESOLUTION—Super-resolution アーキテクチャがモデルのトレーニングに使用されます。 Super-resolution の使用目的は画像対画像変換です。この方法により、解像度を高め、画像の質を向上させるモデルオブジェクトが作成されます。このモデルタイプの入力トレーニングデータは、エクスポートタイルメタデータ形式を使用します。 UNET—U-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。 YOLOV3—YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。	String
batch_size (オプション)	1 回のトレーニングで処理されるトレーニングサンプルの数。バッチサイズを増やすと、ツールのパフォーマンスが向上します。ただし、バッチサイズの増加に伴って、使用されるメモリ量も多くなります。設定されたバッチサイズに対して GPU メモリが足りない場合、ツールが最適なバッチサイズを計算して使用するよう試みます。メモリ不足エラーが発生した場合は、より小さいバッチサイズを使用します。	Long
arguments [arguments,...] (オプション)	model_type パラメーターの情報は、このパラメーターのデフォルト値を設定するために使用されます。これらの引数は、モデルアークテクチャによって変わります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS の事前トレーニング済みモデルとカスタムディープラーニングモデルは、別途ツールがサポートする引数を持つ場合があります。各モデルタイプで利用可能な引数の詳細については、「ディープラーニングの引数」をご参照ください。	Value Table
learning_rate (オプション)	トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。値を指定しないと、トレーニングプロセス中に最適な学習率が学習曲線から抽出されます。	Double
backbone_model (オプション)	新しいモデルをトレーニングするためのアーキテクチャとして使用される構成済みのニューラルネットワークを指定します。この手法は転移学習と呼ばれています。 1.40625deg—このバックボーンは、各グリッドセルの解像度が 1.40625 度 x 1.40625 度の面積をカバーする画像でトレーニングされました。これは、天気と気候の予測に使用されます。高解像度の設定であるため、より精度の高い出力が可能ですが、要求される計算能力が高くなります。 5.625deg—このバックボーンは、各グリッドセルの解像度が 5.625 度 x 5.625 度の面積をカバーする画像でトレーニングされました。これは、天気と気候の予測に使用されます。低解像度の設定と見なされ、計算能力が低くて済みます。 DENSENET121—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 121 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET161—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 161 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET169—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 169 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET201—事前構成済みモデルは、Imagenet データセット上でトレーニングされる高密度のネットワークになります。含まれる画像数は 100 万を超え、深さは 201 層です。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 MOBILENET_V2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジデバイスコンピューティングに適しています。 RESNET18—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 18 層です。 RESNET34—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 34 層です。これがデフォルトです。 RESNET50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 50 層です。 RESNET101—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 101 層です。 RESNET152—事前構成済みモデルは、Imagenet データセット上でトレーニングされる残差ネットワークになります。含まれる画像数は 100 万を超え、深さは 152 層です。 VGG11—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 11 層です。 VGG11_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 11 層です。 VGG13—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 13 層です。 VGG13_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 13 層です。 VGG16—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 16 層です。 VGG16_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 16 層です。 VGG19—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、画像を 1,000 のオブジェクトカテゴリに分類します。深さは 19 層です。 VGG19_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセット上でトレーニングされ、深さは 19 層です。 DARKNET53—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークになります。含まれる画像数は 100 万を超え、深さは 53 層です。 REID_V1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 REID_V2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 RESNEXT50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。これは同質のニューラルネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。 WIDE_RESNET50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。 SR3—事前構成済みモデルは、Super Resolution via Repeated Refinement (SR3) モデルを使用します。 SR3 は、ノイズ除去拡散確率論的モデルを条件付き画像生成に適応させ、確率論的ノイズ除去プロセスを通じて超解像度を実行します。詳細については、arXiv サイトの「Image Super-Resolution via Iterative Refinement」をご参照ください。 SR3_UVIT—このバックボーンモデルは、画像生成および SR3 タスク内の拡散モデル用に設計された diffusion (ViT) をベースとしたアーキテクチャの特定の実装です。 VIT_B—事前構成済みの Segment Anything Model (SAM) は、基本のニューラルネットワークサイズで使用されます。これが最小のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 VIT_L—事前構成済みの Segment Anything Model (SAM) は、大きなニューラルネットワークサイズで使用されます。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 VIT_H—事前構成済みの Segment Anything Model (SAM) は、非常に大きなニューラルネットワークサイズで使用されます。これが最大のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3　などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラルネットワークを指定できます。	String
pretrained_model (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力は、Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) です。類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。モデルの微調整は、ArcGIS を使用してトレーニング済みのモデルでのみサポートされています。	File
validation_percentage (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は 10 です。	Double
stop_training (オプション)	早期停止を実施するかどうかを指定します。 STOP_TRAINING—早期停止が実施され、指定した max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングが停止します。これがデフォルトです。 CONTINUE_TRAINING—早期停止が実施されず、max_epochs パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
freeze (オプション)	事前トレーニング済みモデルのバックボーン層が固定されるかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。 FREEZE_MODEL—バックボーン層が固定され、事前定義済みのウェイトとバイアスは backbone_model パラメーターで変更されません。これがデフォルトです。 UNFREEZE_MODEL—バックボーン層は固定されず、トレーニングサンプルに合わせて backbone_model パラメーターのウェイトとバイアスを変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。	Boolean
augmentation (オプション)	使用されるデータ拡張のタイプを指定します。データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニングセットを増やす手法です。 DEFAULT—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、crop、dihedral_affine、brightness、contrast、zoom です。これらのデフォルト値は通常、衛星画像に適しています。 NONE—データ拡張は使用されません。 CUSTOM—データ拡張値は、augmentation_parameters パラメーターを使用して指定されます。これにより、crop、rotate、brightness、contrast、zoom 変換を直接制御できます。 FILE—トレーニングデータセットと整合チェックデータセットのデータ拡張のための fastai の変換は、トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。	String
augmentation_parameters [augmentation_parameters,...] (オプション)	拡張パラメーター内の各変換の値を指定します。 rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。デフォルト値は 30.0; 0.5 です。 brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。変化が 0.5 の場合は、明るさは調整されません。変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.4,0.6); 1.0 です。 contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。スケールが 0 の場合は画像がグレースケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。スケールが 1 の場合は、コントラストが調整されません。スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.75, 1.5); 1.0 です。 zoom - 画像がスケールの値に応じて無作為にズームインされます。ズームの値は、scale(a,b); p の形式を取ります。デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。スケールが 1.0 を超える場合のみ、画像のズームインが行われます。スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 crop - 画像が無作為にトリミングされます。トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。位置は (col_pct, row_pct),　によって与えられ、col_pct と row_pct は 0 ～ 1 に正規化されます。 col_pct　または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップサイズとなります。	Value Table
chip_size (オプション)	モデルのトレーニングに使用される画像のサイズ。画像は、指定のチップサイズにトリミングされます。デフォルトのチップサイズは、トレーニングデータのタイルサイズと同じになります。 x タイルサイズと y タイルサイズが異なる場合は、小さい方の値がデフォルトのチップサイズとして使用されます。チップサイズは、入力フォルダー内のすべての画像の最小の x タイルサイズまたは y タイルサイズより小さくなければなりません。	Long
resize_to (オプション)	画像のチップのサイズを変更します。チップのサイズを変更したら、チップサイズのピクセルブロックがトリミングされ、トレーニングに使用されます。このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。サイズ変更の値は、多くの場合、チップサイズの半分です。サイズ変更の値がチップサイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセルブロックの作成に使用されます。	String
weight_init_scheme (オプション)	レイヤーの重みが初期化される Scheme を指定します。マルチスペクトルデータを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。これは、モデルの第 1 レイヤーを再度初期化することで行われます。 RANDOM—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。これがデフォルトです。 RED_BAND—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。 ALL_RANDOM—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。このオプションは、マルチスペクトル画像にのみ適用されます。このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。	String
monitor (オプション)	チェックポイントおよび早期停止中に監視する指標を指定します。 VALID_LOSS—検証ロスが監視されます。検証ロスが大きく変更されなくなると、モデルが停止します。これがデフォルトです。 AVERAGE_PRECISION—各閾値の加重平均精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。 ACCURACY—正しい予測の数と予測の合計数の比が監視されます。この値が大きく変更されなくなると、モデルが停止します。 F1_SCORE—モデルの精度スコアと再現率スコアの組み合わせが監視されます。この値が大きく変更されなくなると、モデルが停止します。 MIOU—テストデータセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。この値が大きく変更されなくなると、モデルが停止します。 DICE—Dice 指標を使用して、モデルのパフォーマンスが監視されます。この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。値 1 は、整合チェックデータとトレーニングデータ間でピクセルが完全一致していることを示します。 PRECISION—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。 RECALL—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。 CORPUS_BLEU—Corpus BLUE スコアが監視されます。この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。 MULTI_LABEL_FBETA—加重調和平均精度と加重調和平均再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。	String
tensorboard (オプション)	ツールのトレーニング中に Tensorboard 指標を有効化するかどうかを指定します。ツールメッセージ内の URL を使用して、Tensorboard にアクセスできます。このパラメーターは次のモデルでのみサポートされています。CycleGAN、DeepLab、Faster RCNN、Feature Classifier、Image Captioner、Mask RCNN、Multi-Task Road Extractor、Pix2Pix、PSPNet Classifier、RetinaNet、Single-Shot Detector、SuperResolution、U-Net Classifier。 DISABLE_TENSORBOARD—Tensorboard 指標を有効化しません。これがデフォルトです。 ENABLE_TENSORBOARD—Tensorboard 指標を有効化します。	Boolean

派生した出力

名前	説明	データタイプ
out_model_file	出力トレーニング済みモデルファイル	File

コードのサンプル

TrainDeepLearningModel の例 1 (Python ウィンドウ)

この例では、事前トレーニング済みモデルを使用した転移学習を使用しました。

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")

TrainDeepLearningModel の例 2 (スタンドアロンスクリプト)

この例では、SSD 手法を使用してオブジェクト検出モデルをトレーニングします。

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

環境

現在のワークスペース, プロセッサタイプ, GPU ID, テンポラリワークスペース

サマリー

使用法

パラメーター

派生した出力

派生した出力

コードのサンプル

環境

関連トピック

このトピックの内容