Beschriftung | Erläuterung | Datentyp |
Eingabe-Trainingsdaten | Die Ordner mit den Bildausschnitten, Beschriftungen und Statistiken, die zum Trainieren des Modells benötigt werden. Dies ist die Ausgabe des Werkzeugs Trainingsdaten für Deep Learning exportieren. Wenn die folgenden Bedingungen erfüllt sind, werden mehrere Eingabeordner unterstützt: - Beim Metadatenformattyp muss es sich um klassifizierte Kacheln, beschriftete Kacheln, mehrfach beschriftete Kacheln, Pascal Visual Object Classes oder RCNN-Masken handeln.
- Alle Trainingsdaten müssen dasselbe Metadatenformat haben.
- Alle Trainingsdaten müssen dieselbe Anzahl an Bändern aufweisen.
| Folder |
Ausgabeordner | Der Speicherort des Ausgabeordners, in dem das trainierte Modell gespeichert wird. | Folder |
Max. Epochen (optional) | Die maximale Anzahl von Epochen, für die das Modell trainiert wird. Eine maximale Epoche von 1 bedeutet, dass das Dataset einmal vorwärts und einmal rückwärts durch das neuronale Netz geleitet wird. Der Standardwert ist 20.
| Long |
Modelltyp (optional) | Gibt den Modelltyp an, der zum Trainieren des Deep-Learning-Modells verwendet wird. - BDCN Edge Detector (Pixelklassifizierung)—Die Bi-Directional Cascade Network-(BDCN-)Architektur wird zum Trainieren des Modells verwendet. BDCN Edge Detector wird für die Pixelklassifizierung eingesetzt. Dieser Ansatz empfiehlt sich zur Verbesserung der Kantenerkennung für Objekte in verschiedenen Maßstäben.
- Change Detector (Pixelklassifizierung)—Die Change Detector-Architektur wird zum Trainieren des Modells verwendet. Change Detector wird für die Pixelklassifizierung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, bei dem unter Verwendung von zwei räumlich-zeitlichen Bildern ein klassifiziertes Raster der Änderung erstellt wird. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Klassifizierte Kacheln" verwendet.
- ClimaX (Pixelklassifizierung)—Die ClimaX-Architektur wird zum Trainieren des Modells verwendet. Dieses Modell wird hauptsächlich für Analysen von Wetter und Klima verwendet. ClimaX wird für die Pixelklassifizierung verwendet. Bei den für diese Methode verwendeten vorläufigen Daten handelt es sich um multidimensionale Daten.
- ConnectNet (Pixelklassifizierung)—Die ConnectNet-Architektur wird zum Trainieren des Modells verwendet. ConnectNet wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern.
- CycleGAN (Bild-zu-Bild-Übersetzung)—Die CycleGAN-Architektur wird zum Trainieren des Modells verwendet. CycleGAN wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, das Bilder eines Typs für einen anderen generiert. Dieser Ansatz ist insofern einzigartig, als dass die zu trainierenden Bilder sich nicht überlappen müssen. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "CycleGAN" verwendet.
- DeepLabV3 (Pixelklassifizierung)—Die DeepLabV3-Architektur wird zum Trainieren des Modells verwendet. DeepLab wird für die Pixelklassifizierung eingesetzt.
- Deep Sort (Objekt-Tracker)—Die Deep Sort-Architektur wird zum Trainieren des Modells verwendet. Deep Sort wird für die Objekterkennung in Videos verwendet. Das Modell wird mit Videobildern trainiert und erkennt die Klassen und umgebenden Rechtecke der Objekte in den einzelnen Bildern. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "ImageNet" verwendet. Während Siam Mask bei der Nachverfolgung eines Objekts hilfreich ist, eignet sich Deep Sort für das Trainieren eines Modells zur Nachverfolgung mehrerer Objekte.
- DETReg (Objekterkennung)—Die DETReg-Architektur wird zum Trainieren des Modells verwendet. DETReg wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird "Pascal Visual Object Classes" verwendet. Dieser Modelltyp ist GPU-intensiv. Er erfordert eine dedizierte GPU mit mindestens 16 GB Speicher, damit er ordnungsgemäß ausgeführt wird.
- FasterRCNN (Objekterkennung)—Die FasterRCNN-Architektur wird zum Trainieren des Modells verwendet. FasterRCNN wird für die Objekterkennung eingesetzt.
- Feature Classifier (Objektklassifizierung)—Die Feature Classifier-Architektur wird zum Trainieren des Modells verwendet. Feature Classifier wird zur Objekt- oder Bildklassifizierung verwendet.
- HED Edge Detector (Pixelklassifizierung)—Die Holistically-Nested Edge Detection-(HED-)Architektur wird zum Trainieren des Modells verwendet. HED Edge Detector wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Kanten- und Objektgrenzenerkennung.
- Image Captioner (Bild-zu-Bild-Übersetzung)—Die Image Captioner-Architektur wird zum Trainieren des Modells verwendet. Image Captioner wird für die Bild-zu-Text-Übersetzung verwendet. Mit diesem Ansatz wird ein Modell erstellt, das Bildbeschreibungen für Bilder generiert.
- MaskRCNN (Objekterkennung)—Die MaskRCNN-Architektur wird zum Trainieren des Modells verwendet. MaskRCNN wird für die Objekterkennung eingesetzt. Dieser Ansatz wird für die Instanzsegmentierung verwendet, d. h. zur genauen Abgrenzung von Objekten in einem Bild. Dieser Modelltyp kann zur Erkennung von Gebäudegrundrissen verwendet werden. Er verwendet das MaskRCNN-Metadatenformat für die Trainingsdaten als Eingabe. Klassenwerte für Eingabe-Trainingsdaten müssen bei 1 beginnen. Dieser Modelltyp kann nur mit einer CUDA-aktivierten GPU trainiert werden.
- MaX-DeepLab (Panoptische Segmentierung)—Die MaX-DeepLab-Architektur wird zum Trainieren des Modells verwendet. MaX-DeepLab wird für die panoptische Segmentierung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, das Bilder und Features generiert. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Panoptische Segmentierung" verwendet.
- MMDetection (Objekterkennung)—Die MMDetection-Architektur wird zum Trainieren des Modells verwendet. MMDetection wird für die Objekterkennung eingesetzt. Unterstützte Metadatenformate sind Pascal Visual Object Classes-Rechtecke und KITTI-Rechtecke.
- MMSegmentation (Pixelklassifizierung)—Die MMSegmentation-Architektur wird zum Trainieren des Modells verwendet. MMSegmentation wird für die Pixelklassifizierung verwendet. Als Metadatenformat werden klassifizierte Kacheln unterstützt.
- Multi Task Road Extractor (Pixelklassifizierung)—Die Multi Task Road Extractor-Architektur wird zum Trainieren des Modells verwendet. Multi Task Road Extractor wird für die Pixelklassifizierung verwendet. Dieser Ansatz ist sinnvoll zur Extraktion von Straßennetzen aus Satellitenbildern.
- Pix2Pix (Bild-zu-Bild-Übersetzung)—Die Pix2Pix-Architektur wird zum Trainieren des Modells verwendet. Pix2Pix wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, das Bilder eines Typs für einen anderen generiert. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Kacheln exportieren" verwendet.
- Pix2PixHD (Bild-zu-Bild-Übersetzung)—Die Pix2PixHD-Architektur wird zum Trainieren des Modells verwendet. Pix2PixHD wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, das Bilder eines Typs für einen anderen generiert. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Kacheln exportieren" verwendet.
- PSETAE (Pixelklassifizierung)—Die Pixel-Set Encoders and Temporal Self-Attention-(PSETAE-)Architektur wird zum Trainieren des Modells für die Klassifizierung von Zeitserien verwendet. PSETAE wird für die Pixelklassifizierung verwendet. Bei den für diese Methode verwendeten vorläufigen Daten handelt es sich um multidimensionale Daten.
- Pyramid Scene Parsing Network (Pixelklassifizierung)—Die Pyramid Scene Parsing Network-(PSPNET-)Architektur wird zum Trainieren des Modells verwendet. PSPNET wird für die Pixelklassifizierung verwendet.
- RetinaNet (Objekterkennung)—Die Architektur "RetinaNet" wird zum Trainieren des Modells verwendet. RetinaNet wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet.
- RTDetrV2 (Objekterkennung)—Die verbesserte Real-Time DEtection TRansformer- (RTDetrV2-)Architektur wird zum Trainieren des Modells verwendet. RTDetrV2 basiert auf dem vorherigen Echtzeit-Detektor RT-DETR. RTDetrV2 wird für die Objekterkennung verwendet. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Pascal Visual Object Classes" oder "KITTI rectangles" verwendet.
- SAMLoRA (Pixelklassifizierung)—Das Segment Anything Modell (SAM) mit Low Rank Adaption (LoRA) wird zum Trainieren des Modells verwendet. Dieser Modelltyp verwendet das SAM als Grundlagenmodell und wird für eine spezifische Aufgabe mit verhältnismäßig niedrigen Berechnungsanforderungen und einem kleineren Dataset optimiert.
- Siam Mask (Objekt-Tracker)—Die Siam Mask-Architektur wird zum Trainieren des Modells verwendet. Siam Mask wird für die Objekterkennung in Videos verwendet. Das Modell wird mit Videobildern trainiert und erkennt die Klassen und umgebenden Rechtecke der Objekte in den einzelnen Bildern. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "MaskRCNN" verwendet.
- Single Shot Detector (Objekterkennung)—Die Single Shot Detector-(SSD-)Architektur wird zum Trainieren des Modells verwendet. SSD wird für die Objekterkennung eingesetzt. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Pascal Visual Object Classes-Metadatenformat verwendet.
- Super-Resolution (Bild-zu-Bild-Übersetzung)—Die Super-Resolution-Architektur wird zum Trainieren des Modells verwendet. Super-Resolution wird für die Bild-zu-Bild-Übersetzung verwendet. Mit diesem Ansatz wird ein Modellobjekt erstellt, das die Auflösung erhöht und die Qualität der Bilder verbessert. In den Eingabe-Trainingsdaten für diesen Modelltyp wird das Metadatenformat "Kacheln exportieren" verwendet.
- U-Net (Pixelklassifizierung)—Die U-Net-Architektur wird zum Trainieren des Modells verwendet. U-Net wird für die Pixelklassifizierung verwendet.
- YOLOv3 (Objekterkennung)—Die YOLOv3-Architektur wird zum Trainieren des Modells verwendet. YOLOv3 wird für die Objekterkennung eingesetzt.
| String |
Batch-Größe (optional) | Die Anzahl der Trainingsgebiete, die für das Training gleichzeitig bearbeitet werden. Durch Vergrößern der Batch-Größe kann die Performance des Werkzeugs verbessert werden; mit zunehmender Batch-Größe erhöht sich jedoch auch der Speicherbedarf. Wenn nicht genügend GPU-Speicher für die festgelegte Batch-Größe zur Verfügung steht, versucht das Werkzeug, eine optimale Batch-Größe zu schätzen und zu verwenden. Wenn ein Fehler vom Typ "Nicht genügend Arbeitsspeicher" auftritt, verwenden Sie eine kleinere Batch-Größe. | Long |
Modellargumente (optional) | Zum Füllen dieses Parameters werden die Informationen aus dem Parameter Modelltyp verwendet. Diese Argumente sind je nach Modellarchitektur unterschiedlich. Nachfolgend werden die Modellargumente beschrieben, die für Modelle unterstützt werden, die in ArcGIS trainiert werden. Vortrainierte Modelle und benutzerdefinierte Deep-Learning-Modelle in ArcGIS verfügen ggf. über weitere Argumente, die von dem Werkzeug unterstützt werden. Weitere Informationen zu den verfügbaren Argumenten für die einzelnen Modelltypen finden Sie unter Deep-Learning-Argumente. | Value Table |
Lernrate (optional) | Die Rate, mit der vorhandene Informationen während des gesamten Trainingsprozesses durch neu erworbene Informationen überschrieben werden. Ist kein Wert angegeben, wird die optimale Lernrate während des Trainingsprozesses aus der Lernkurve extrahiert. | Double |
Backbone-Modell (optional) | Gibt das vorkonfigurierte neuronale Netzwerk an, das als Architektur für das Training des neuen Modells verwendet werden soll. Diese Methode wird als Transfer Learning bezeichnet. Darüber hinaus können unterstützte neuronale Faltungsnetzwerke der PyTorch Image Models (timm) mit "timm" als Präfix angegeben werden, z. B. timm:resnet31, timm:inception_v4, timm:efficientnet_b3 usw. - 1,40625 Grad—Dieses Backbone wurde anhand von Bilddaten trainiert, bei denen die Auflösung jeder Gitterzelle einen Bereich von 1,40625 Grad mal 1,40625 Grad abdeckt. Dies wird für Wetter- und Klimavorhersagen verwendet. Dies ist eine Einstellung mit höherer Auflösung, die präzisere Ausgaben ermöglicht, aber mehr Rechenleistung erfordert.
- 5,625 Grad—Dieses Backbone wurde anhand von Bilddaten trainiert, bei denen die Auflösung jeder Gitterzelle einen Bereich von 5,625 Grad mal 5,625 Grad abdeckt. Dies wird für Wetter- und Klimavorhersagen verwendet. Dies wird als Einstellung mit niedriger Auflösung angesehen, erfordert jedoch auch weniger Rechenleistung.
- DenseNet-121—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes dichtes Netzwerk, das mehr als eine Million Bilder und 121 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- DenseNet-161—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes dichtes Netzwerk, das mehr als eine Million Bilder und 161 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- DenseNet-169—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes dichtes Netzwerk, das mehr als eine Million Bilder und 169 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- DenseNet-201—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes dichtes Netzwerk, das mehr als eine Million Bilder und 201 Layer enthält. Im Gegensatz zur ResNET-Architektur, die die Layer durch Summierung kombiniert, kombiniert DenseNet die Layer durch Verkettung.
- MobileNet-Version 2—Das vorkonfigurierte Modell wird auf der ImageNet-Datenbank trainiert und enthält 54 Layer. Es ist für das Edge-Geräte-Computing vorgesehen, da es weniger Speicher benötigt.
- ResNet-18—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes Residualnetzwerk, das mehr als eine Million Bilder und 18 Layer enthält.
- ResNet-34—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes Residualnetzwerk, das mehr als eine Million Bilder und 34 Layer enthält. Dies ist die Standardeinstellung.
- ResNet-50—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes Residualnetzwerk, das mehr als eine Million Bilder und 50 Layer enthält.
- ResNet-101—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes Residualnetzwerk, das mehr als eine Million Bilder und 101 Layer enthält.
- ResNet -152—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes Residualnetzwerk, das mehr als eine Million Bilder und 152 Layer enthält.
- VGG-11—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 11 Layer umfasst.
- VGG-11 mit Batch-Normalisierung—Das vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 11 Layer.
- VGG-13—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 1 Layer umfasst.
- VGG-13 mit Batch-Normalisierung—Das vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 13 Layer.
- VGG-16—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 16 Layer umfasst.
- VGG-16 mit Batch-Normalisierung—Das vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 16 Layer.
- VGG-19—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder zur Klassifizierung von Bildern in 1.000 Objektkategorien enthält und 19 Layer umfasst.
- VGG-19 mit Batch-Normalisierung—Das vorkonfigurierte Modell basiert auf dem VGG-Netzwerk, jedoch mit Batch-Normalisierung, was bedeutet, dass jeder Layer im Netzwerk normalisiert wird. Es wurde auf dem ImageNet-Dataset trainiert und enthält 19 Layer.
- DarkNet-53—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das mehr als 1 Million Bilder enthält und 53 Layer umfasst.
- Reid_v1—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das für die Objektverfolgung verwendet wird.
- Reid_v2—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das für die Objektverfolgung verwendet wird.
- ResNeXt-50—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das 50 Layer enthält. Es handelt sich um ein homogenes neuronales Netzwerk, das die Anzahl der vom konventionellen ResNet benötigten Hyperparameter reduziert.
- Wide ResNet-50—Das vorkonfigurierte Modell ist ein auf dem ImageNet-Dataset trainiertes neuronales Faltungsnetzwerk, das 50 Layer enthält. Es hat dieselbe Architektur wie ResNet, jedoch mit weiteren Kanälen.
- SR3—Das vorkonfigurierte Modell verwendet das Modell Super Resolution via Repeated Refinement (SR3). SR3 passt probabilistische Modelle der Entrauschungsdiffusion an die bedingte Bilderzeugung an und führt eine Super-Resolution mittels eines stochastischen Entrauschungsvorgangs durch. Weitere Informationen finden Sie unter Image Super-Resolution via Iterative Refinement auf der arXiv-Site.
- SR3 U-ViT—Dieses Backbone-Modell bezieht sich auf eine spezifische Implementierung einer auf Vision Transformer (ViT) basierenden Architektur, die für Diffusionsmodelle innerhalb von Bildgenerierungs- und SR3-Tasks entwickelt wurde.
- ViT-B—Das vorkonfigurierte Segment Anything Modell (SAM) wird mit einer Basisgröße des neuronalen Netzwerks verwendet. Dies ist die kleinste Größe. Weitere Informationen finden Sie unter Segment Anything auf der arXiv-Site.
- ViT-L—Das vorkonfigurierte Segment Anything Modell (SAM) wird mit einer großen Größe des neuronalen Netzwerks verwendet. Weitere Informationen finden Sie unter Segment Anything auf der arXiv-Site.
- ViT-H—Das vorkonfigurierte Segment Anything Modell (SAM) wird mit einer sehr großen Größe des neuronalen Netzwerks verwendet. Dies ist die größte Größe. Weitere Informationen finden Sie unter Segment Anything auf der arXiv-Site.
| String |
Vortrainiertes Modell (optional) | Ein vortrainiertes Modell, das zum Feintuning des neuen Modells verwendet wird. Die Eingabe ist eine Esri Modelldefinitionsdatei (.emd) oder eine Deep-Learning-Paketdatei (.dlpk). Für ein vortrainiertes Modell mit ähnlichen Klassen kann ein Finetuning durchgeführt werden, um es auf das neue Modell abzustimmen. Das vortrainierte Modell muss mit dem gleichen Modelltyp und dem gleichen Backbone-Modell trainiert worden sein, das für das Training des neuen Modells verwendet wird. Das Optimieren wir nur für Modelle unterstützt, die mit ArcGIS trainiert wurden. | File |
Prozentsatz für Validierung (optional) | Der Prozentsatz der Trainingsgebiete, die für die Überprüfung des Modells verwendet werden sollen. Der Standardwert ist 10. | Double |
Beenden, wenn sich das Modell nicht mehr verbessert (optional) | Gibt an, ob ein frühzeitiges Beenden implementiert wird. - Aktiviert: Frühzeitiges Beenden wird implementiert, und das Modelltraining wird beendet, wenn sich das Modell nicht mehr verbessert, und zwar unabhängig vom angegebenen Parameterwert Max. Epochen. Dies ist die Standardeinstellung.
- Deaktiviert: Frühzeitiges Beenden wird nicht implementiert, und das Modelltraining wird fortgesetzt, bis der Parameterwert Max. Epochen erreicht ist.
| Boolean |
Modell einfrieren (optional) | Gibt an, ob die Backbone-Layer im vorab trainierten Modell fixiert werden sollen, sodass die Gewichtungen und Verzerrungen wie ursprünglich vorgesehen beibehalten werden. - Aktiviert: Die Backbone-Layer werden fixiert, und die vordefinierten Gewichtungen und Verzerrungen werden im Parameter Backbone-Modell nicht geändert. Dies ist die Standardeinstellung.
- Deaktiviert: Die Backbone-Layer werden nicht fixiert, und die Gewichtungen und Verzerrungen des Parameters Backbone-Modell können geändert werden, um sie an die Trainingsgebiete anzupassen. Die Verarbeitung dauert zwar länger, führt aber in der Regel zu besseren Ergebnissen.
| Boolean |
Datenerweiterung (optional) | Gibt den verwendeten Datenerweiterungstyp an. Datenerweiterung ist ein Verfahren, bei dem das Training-Dataset künstlich vergrößert wird, indem mithilfe vorhandener Daten modifizierte Kopien eines Datasets erstellt werden. - Standard—Es werden die standardmäßigen Datenerweiterungsverfahren und -werte verwendet.Die verwendeten standardmäßigen Datenerweiterungsverfahren sind crop, dihedral_affine, brightness, contrast und zoom. Diese Standardwerte funktionieren bei Satellitenbildern in der Regel gut.
- Keine—Es wird keine Datenerweiterung eingesetzt.
- Benutzerdefiniert—Datenerweiterungswerte werden mithilfe des Parameters Erweiterungsparameter angegeben. Dies ermöglicht eine direkte Kontrolle über die Transformationen crop, rotate, brightness, contrast und zoom.
- Datei—Mithilfe der Datei transforms.json, die sich im selben Ordner befindet wie die Trainingsdaten, werden fastai-Transformationen für die Datenerweiterung von Trainings- und Validierungs-Datasets festgelegt.Weitere Informationen zu den verschiedenen Transformationen finden Sie auf der fastai-Website unter vision transforms.
| String |
Erweiterungsparameter (optional) | Gibt den Wert für jede Transformation im Erweiterungsparameter an. - rotate: Das Bild wird nach dem Zufallsprinzip (in Grad) nach einer Wahrscheinlichkeit (p) gedreht. Falls die Gradzahlen als Bereich angegeben sind (a,b) wird ein Wert einheitlich von a nach b zugewiesen. Der Standardwert ist 30,0; 0,5.
- brightness: Die Helligkeit des Bildes wird nach dem Zufallsprinzip je nach Änderungswert mit einer Wahrscheinlichkeit (p) angepasst. Durch eine Änderung von "0" wird das Bild so hell wie möglich, und durch eine Änderung von "1" wird das Bild so hell wie möglich. Bei einer Änderung von 0,5 wird die Helligkeit nicht angepasst. Falls die Änderung ein Bereich ist (a,b), wird durch die Erweiterung einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist (0,4,0,6); 1,0.
- contrast: Der Kontrast des Bildes wird nach dem Zufallsprinzip je nach Skalenwert mit einer Wahrscheinlichkeit (p) angepasst. Bei einer Skala von "0" wird das Bild in Graustufen transformiert, und bei einer Skala über "1" wird das Bild in ein Bild mit Super-Kontrast transformiert. Bei einer Skala von "1" wird der Kontrast nicht angepasst. Falls die Skala ein Bereich ist (a,b), wird durch die Erweiterung einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist (0,75, 1,5); 1,0.
- zoom: Das Bild wird nach dem Zufallsprinzip je nach Skalenwert vergrößert. Der Zoom-Wert hat die Form scale(a,b); p. Der Standardwert ist (1,0, 1,2); 1,0, wobei p für die Wahrscheinlichkeit steht. Nur bei einer Skala von über 1,0 wird das Bild vergrößert. Falls die Skala ein Bereich ist (a,b), wird einheitlich ein Wert von a nach b zugewiesen.
- crop: Das Bild wird nach dem Zufallsprinzip zugeschnitten. Der Zuschnittswert hat die Form size;p;row_pct;col_pct, wobei p für die Wahrscheinlichkeit steht. Die Position wird durch (col_pct, row_pct), angegeben, wobei col_pct und row_pct zwischen 0 und 1 normalisiert werden. Falls col_pct oder row_pct ein Bereich ist (a,b), wird einheitlich ein Wert von a nach b zugewiesen. Der Standardwert ist chip_size;1,0; (0, 1); (0, 1), wobei 224 die Standardbildausschnittgröße ist.
| Value Table |
Bildausschnittgröße (optional) | Die Größe des Bildes, das zum Trainieren des Modells verwendet wird. Bilder werden auf die angegebene Bildausschnittgröße zugeschnitten. Die Standardbildausschnittgröße entspricht der Kachelgröße der Trainingsdaten. Wenn X- und Y-Kachelgröße unterschiedlich sind, wird der kleinere Wert als Standardbildausschnittgröße verwendet. Die Bildausschnittgröße muss kleiner sein als die kleinste X- oder Y-Kachelgröße aller Bilder in den Eingabeordnern. | Long |
Größe anpassen (optional) | Passt die Größe der Bildausschnitt an. Nachdem die Größe eines Bildausschnittes angepasst wurde, werden Pixelblöcke auf die Bildausschnittgröße zugeschnitten und für das Training verwendet. Dieser Parameter findet nur auf die Objekterkennung (PASCAL VOC), die Objektklassifizierung (beschriftete Kacheln) und auf Super-Resolution-Daten Anwendung. Oftmals ist der Wert der Größenanpassung halb so groß wie der Wert der Bildausschnittgröße. Wenn der Wert der Größenanpassung kleiner ist als der Wert der Bildausschnittgröße, werden mit dem Wert der Größenanpassung Pixelblöcke für das Training erstellt. | String |
Gewichtungs-Initialisierungsschema (optional) | Gibt das Schema an, in dem die Gewichtungen für den Layer initialisiert werden. Damit ein Modell mit multispektralen Daten trainiert werden kann, müssen in dem Modell die verschiedenen verfügbaren Bandtypen berücksichtigt werden. Dies erfolgt durch erneute Initialisierung des ersten Layers in dem Modell. Dieser Parameter findet nur dann Anwendung, wenn in dem Modell multispektrale Bilddaten verwendet werden. - Zufällig—Für Nicht-RGB-Bänder werden zufällige Gewichtungen initialisiert, während für RGB-Bänder vortrainierte Gewichtungen beibehalten werden. Dies ist die Standardeinstellung.
- Rotes Band—Gewichtungen, die dem roten Band aus dem Layer des vortrainierten Modells entsprechen, werden für Nicht-RGB-Bänder geklont, während für RGB-Bänder vortrainierte Gewichtungen beibehalten werden.
- Alle zufällig—Zufällige Gewichtungen werden sowohl für RGB-Bänder als auch für Nicht-RGB-Bänder initialisiert. Diese Option findet nur auf multispektrale Bilddaten Anwendung.
| String |
Kennwert überwachen (optional) | Gibt den Kennwert an, der bei Kontrollpunkten und frühzeitigem Beenden überwacht wird. - Validierungsverlust—Der Validierungsverlust wird überwacht. Wenn sich der Validierungsverlust nicht mehr signifikant verändert, wird das Modell beendet. Dies ist die Standardeinstellung.
- Average Precision—Es wird der gewichtete Mittelwert der Precision an jedem Schwellenwert überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
- Genauigkeit—Es wird das Verhältnis zwischen der Anzahl der richtigen Vorhersagen und der Gesamtzahl der Vorhersagen überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
- F1-Punktzahl—Es wird die Kombination des Precision-Score und des Recall-Score des Modells überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
- MIoU—Es wird der Durchschnitt aus dem IoU-Wert (Intersection over Union) der segmentierten Objekte im Verhältnis zu allen Bildern des Test-Datasets überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.
- Stückeln—Die Modell-Performance wird mithilfe des Kennwerts "Stückeln" überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Dieser Wert kann in einem Bereich zwischen 0 und 1 liegen. Der Wert "1" entspricht einer perfekten Pixelübereinstimmung zwischen den Validierungsdaten und den Trainingsdaten.
- Genauigkeit—Es wird die Precision überwacht, mit der die Genauigkeit des Modells bei der Klassifizierung einer Stichprobe als "positiv" gemessen wird. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Die Precision ist das Verhältnis zwischen der Anzahl der richtig klassifizierten positiven Stichproben und der Gesamtzahl der (richtig oder falsch) klassifizierten Stichproben.
- Recall—Es wird der Recall überwacht, der die Fähigkeit des Modells zur Erkennung positiver Stichproben misst. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Je höher der Recall, umso mehr positive Stichproben werden erkannt. Der Recall-Wert ist das Verhältnis zwischen der Anzahl der richtig als positiv klassifizierten positiven Stichproben und der Gesamtzahl der positiven Stichproben.
- Corpus Bleu—Der Corpus-Bleu-Score wird überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Mit diesem Score wird die Genauigkeit mehrerer Sätze, wie z. B. in einem Absatz oder einem Dokument berechnet.
- Mehrfachbeschriftung F-beta—Es wird das gewichtete harmonische Mittel zwischen Precision und Recall überwacht. Wenn sich dieser Wert nicht mehr signifikant verändert, wird das Modell beendet.Dies wird häufig als F-beta-Score bezeichnet.
| String |
Tensorboard aktivieren (optional) | Gibt an, ob Tensorboard-Kennwerte während des Trainings durch das Werkzeug aktiviert werden. Auf Tensorboard kann über die URL in den Meldungen des Werkzeugs zugegriffen werden. Dieser Parameter wird nur für die folgenden Modelle unterstützt: CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution und U-Net Classifier. - Deaktiviert: Tensorboard-Kennwerte werden nicht aktiviert. Dies ist die Standardeinstellung.
- Aktiviert: Tensorboard-Kennwerte werden aktiviert.
| Boolean |