Entraîner le modèle de régression Arbres aléatoires (Image Analyst)

Disponible avec une licence Image Analyst.

Synthèse

Modélise la relation entre des variables explicatives (variables indépendantes) et un jeu de données cible (variable dépendante).

Utilisation

  • L’outil peut servir à l’entraînement avec différents types de données. Les rasters en entrée (variables explicatives) peuvent être un seul raster ou une liste de rasters, une seule bande ou une multibande dans laquelle chaque bande est une variable explicative, un raster multidimensionnel dans lequel les valeurs du raster sont les variables explicatives ou une combinaison de plusieurs types de données.

  • Un jeu de données mosaïque en entrée est traité comme un jeu de données raster (non comme une collection de rasters). Pour utiliser une collection de rasters en entrée, générez des informations multidimensionnelles pour le jeu de données mosaïque et utilisez le résultat en entrée.

  • La cible en entrée peut être une classe d’entités ou un raster. Lorsque la cible est une entité, la valeur Champ de valeur cible doit être définie sur un champ numérique.

  • Si l’entité cible en entrée comporte un champ de date ou un champ qui définit la dimension, spécifiez une valeur à la fois pour le paramètre Champ de valeur cible et pour le paramètre Champ de dimension cible.

  • La cible raster en entrée peut également être un raster multidimensionnel.

  • Si la cible en entrée est multidimensionnelle, les variables explicatives en entrée correspondantes doivent comporter au moins un raster multidimensionnel. Celles qui intersectent les dimensions cibles sont utilisées pour l’entraînement. Les autres rasters sans dimension dans la liste sont appliqués à toutes les dimensions. Si aucune variable explicative n’intersecte ou si elles sont toutes sans dimension, aucun entraînement n’a lieu.

  • Si la cible en entrée est sans dimension et que les variables explicatives ont une dimension, la première tranche est utilisée.

  • Si la sortie est un raster multidimensionnel, utilisez le format CRF. Si la sortie est un raster sans dimension, il peut être stocké dans n’importe quel format raster en sortie.

  • Les tailles de cellule des variables explicatives en entrée ont un impact sur le résultat d’entraînement et le délai de traitement. Par défaut, l’outil utilise la taille de cellule du premier raster explicatif. Vous pouvez changer ce comportement à l’aide du paramètre d’environnement Taille de cellule. En règle générale, l’entraînement avec une taille de cellule inférieure à celle de vos données n’est pas recommandé.

  • La valeur du paramètre Table d’importance en sortie permet d’analyser l’importance de chaque variable explicative contribuant à prédire la variable cible.

  • Sélectionnez le paramètre Pourcentage d’échantillons à tester pour calculer trois types d’erreurs : les erreurs sur les points d’entraînement, les erreurs sur les points de test et les erreurs sur les points de localisation test. Par exemple, si la valeur de pourcentage est définie sur 10, 10 pour cent des points d’échantillon d’entraînement sont utilisés comme référence en fonction de la localisation. Ces points de référence permettent de mesurer l’erreur d’interpolation dans l’espace : les points de localisation test. Les points d’échantillon d’entraînement restants sont divisés en deux groupes : un groupe contenant 90 pour cent des points d’échantillon d’entraînement et l’autre groupe contenant 10 pour cent des points d’échantillon d’entraînement. Le groupe contenant 90 pour cent des points permet d’entraîner le modèle de régression et le groupe contenant 10 pour cent des points est utilisé dans des tests de déduction de la précision.

  • La sélection du paramètre Pourcentage d’échantillons à tester génère un nuage de points des valeurs d’échantillon d’entraînement de référence et prédites. Le coefficient de détermination (R-Carré) est également calculé comme une estimation de la qualité de l’ajustement.

  • Pour créer un nuage de points de valeurs prédites et de valeurs d’entraînement, vous pouvez utiliser l’outil Échantillon pour extraire les valeurs prédites des rasters prédits. Réalisez ensuite une jointure tabulaire avec le champ LocationID dans la sortie de l’outil Échantillon et le champ ObjectID dans la classe du champ cible. Si l’entrée cible est un raster, vous pouvez générer des points aléatoires et extraire des valeurs à la fois du raster cible en entrée et du raster de prédiction.

Paramètres

ÉtiquetteExplicationType de données
Rasters en entrée

Jeux de données raster monobandes, multidimensionnels ou multibandes, ou jeux de données mosaïque contenant des variables explicatives.

Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
Raster ou points cibles

Raster ou classe d’entités ponctuelles contenant les données de la variable cible (variable dépendante).

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
Fichier de définition de régression en sortie

Fichier au format JSON avec une extension .ecd qui contient des informations attributaires, des statistiques ou d’autres informations pour le classificateur.

File
Champ de valeur cible
(Facultatif)

Nom de champ des informations à modéliser dans la classe d’entités ponctuelles cible ou le jeu de données raster.

Field
Champ de dimension cible
(Facultatif)

Champ de date ou numérique dans la classe d’entités ponctuelles en entrée qui définit les valeurs de dimension.

Field
Dimension du raster
(Facultatif)

Nom de la dimension du raster multidimensionnel en entrée (variables explicatives) qui fait référence à la dimension dans les données cibles.

String
Table d’importance en sortie
(Facultatif)

Table contenant des informations décrivant l’importance de chaque variable explicative utilisée dans le modèle. Un nombre plus élevé indique que la variable correspondante est davantage corrélée à la variable prédite et aura une plus grande part dans la prédiction. Les valeurs sont comprises entre 0 et 1 et la somme de toutes les valeurs est égale à 1.

Table
Nombre maximum d'arbres
(Facultatif)

Nombre maximal d'arbres dans la forêt. L’augmentation du nombre d’arbres entraîne des taux de précision accrus, même si cette amélioration se stabilise. Le nombre d'arbres augmente de manière linéaire le temps de traitement. La valeur par défaut est 50.

Long
Profondeur d'arbre maximum
(Facultatif)

Profondeur maximale de chaque arbre dans la forêt. La profondeur détermine le nombre de règles que chaque arbre peut créer pour parvenir à une décision. Les arbres ne peuvent pas dépasser la profondeur définie par ce paramètre. La valeur par défaut est 30.

Long
Nombre maximum d’échantillons
(Facultatif)

Nombre maximal d’échantillons à utiliser pour l’analyse de régression. Lorsque la valeur est inférieure ou égale à 0, le système utilise tous les échantillons du raster cible en entrée ou de la classe d’entités ponctuelles pour entraîner le modèle de régression. La valeur par défaut est de 10 000.

Long
Nombre moyen de points par cellule
(Facultatif)

Spécifie si la moyenne est calculée lorsque plusieurs points d’entraînement entrent dans une cellule. Ce paramètre est applicable uniquement lorsque la cible en entrée est une classe d’entités ponctuelles.

  • Désactivé : tous les points sont utilisés lorsque plusieurs points d’entraînement entrent dans une seule cellule. Il s’agit de l’option par défaut.
  • Activé : la valeur moyenne des points d’entraînement dans une cellule est calculée.

  • Conserver tous les pointsTous les points sont utilisés lorsque plusieurs points d’entraînement entrent dans une seule cellule. Il s’agit de l’option par défaut.
  • Nombre moyen de points par celluleLa valeur moyenne des points d’entraînement dans une cellule est calculée.
Boolean
Pourcentage d’échantillons à tester
(Facultatif)

Pourcentage des points de test à utiliser pour rechercher des erreurs. L’outil recherche trois types d’erreurs : les erreurs sur les points d’entraînement, les erreurs sur les points de test et les erreurs sur les points de localisation test. La valeur par défaut est 10.

Double
Nuages de points en sortie (PDF ou HTML)
(Facultatif)

Nuages de points en sortie au format PDF ou HTML. La sortie inclut des nuages de points des données d’entraînement, des données de test et des données test de localisation.

File
Entités d’échantillon en sortie
(Facultatif)

Classe d’entités en sortie qui contient les valeurs cibles et les valeurs prédites pour les points d’entraînement, les points de test et les points de test de localisation.

Feature Class

TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})
NomExplicationType de données
in_rasters
[in_rasters,...]

Jeux de données raster monobandes, multidimensionnels ou multibandes, ou jeux de données mosaïque contenant des variables explicatives.

Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String
in_target_data

Raster ou classe d’entités ponctuelles contenant les données de la variable cible (variable dépendante).

Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service
out_regression_definition

Fichier au format JSON avec une extension .ecd qui contient des informations attributaires, des statistiques ou d’autres informations pour le classificateur.

File
target_value_field
(Facultatif)

Nom de champ des informations à modéliser dans la classe d’entités ponctuelles cible ou le jeu de données raster.

Field
target_dimension_field
(Facultatif)

Champ de date ou numérique dans la classe d’entités ponctuelles en entrée qui définit les valeurs de dimension.

Field
raster_dimension
(Facultatif)

Nom de la dimension du raster multidimensionnel en entrée (variables explicatives) qui fait référence à la dimension dans les données cibles.

String
out_importance_table
(Facultatif)

Table contenant des informations décrivant l’importance de chaque variable explicative utilisée dans le modèle. Un nombre plus élevé indique que la variable correspondante est davantage corrélée à la variable prédite et aura une plus grande part dans la prédiction. Les valeurs sont comprises entre 0 et 1 et la somme de toutes les valeurs est égale à 1.

Table
max_num_trees
(Facultatif)

Nombre maximal d'arbres dans la forêt. L’augmentation du nombre d’arbres entraîne des taux de précision accrus, même si cette amélioration se stabilise. Le nombre d'arbres augmente de manière linéaire le temps de traitement. La valeur par défaut est 50.

Long
max_tree_depth
(Facultatif)

Profondeur maximale de chaque arbre dans la forêt. La profondeur détermine le nombre de règles que chaque arbre peut créer pour parvenir à une décision. Les arbres ne peuvent pas dépasser la profondeur définie par ce paramètre. La valeur par défaut est 30.

Long
max_samples
(Facultatif)

Nombre maximal d’échantillons à utiliser pour l’analyse de régression. Lorsque la valeur est inférieure ou égale à 0, le système utilise tous les échantillons du raster cible en entrée ou de la classe d’entités ponctuelles pour entraîner le modèle de régression. La valeur par défaut est de 10 000.

Long
average_points_per_cell
(Facultatif)

Spécifie si la moyenne est calculée lorsque plusieurs points d’entraînement entrent dans une cellule. Ce paramètre est applicable uniquement lorsque la cible en entrée est une classe d’entités ponctuelles.

  • Désactivé : tous les points sont utilisés lorsque plusieurs points d’entraînement entrent dans une seule cellule. Il s’agit de l’option par défaut.
  • Activé : la valeur moyenne des points d’entraînement dans une cellule est calculée.

  • KEEP_ALL_POINTSTous les points sont utilisés lorsque plusieurs points d’entraînement entrent dans une seule cellule. Il s’agit de l’option par défaut.
  • AVERAGE_POINTS_PER_CELLLa valeur moyenne des points d’entraînement dans une cellule est calculée.
Boolean
percent_testing
(Facultatif)

Pourcentage des points de test à utiliser pour rechercher des erreurs. L’outil recherche trois types d’erreurs : les erreurs sur les points d’entraînement, les erreurs sur les points de test et les erreurs sur les points de localisation test. La valeur par défaut est 10.

Double
out_scatterplots
(Facultatif)

Nuages de points en sortie au format PDF ou HTML. La sortie inclut des nuages de points des données d’entraînement, des données de test et des données test de localisation.

File
out_sample_features
(Facultatif)

Classe d’entités en sortie qui contient les valeurs cibles et les valeurs prédites pour les points d’entraînement, les points de test et les points de test de localisation.

Feature Class

Exemple de code

Exemple 1 d’utilisation de la fonction TrainRandomTreesRegressionModel (fenêtre Python)

Ce script de fenêtre Python modélise la relation entre des variables explicatives et un jeu de données cible.

# Import system modules 
import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Execute  
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd",  "mean_pm2.5", "date_collected", "StdTime”,  r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)
Exemple 2 d’utilisation de la fonction TrainRandomTreesRegressionModel (script autonome)

Ce script autonome Python modélise la relation entre des variables explicatives et un jeu de données cible.

# Import system modules 

import arcpy 
from arcpy.ia import * 

# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 

# Define input parameters 
in_weather_variables = "C:/Data/ClimateVariables.crf" 
in_dem_varaible = "C:/Data/dem.tif" 
in_target = "C:/Data/pm2.5_observations.shp" 
target_value_field = "mean_pm2.5" 
Target_date_field = "date_collected" 
Raster_dimension = “StdTime” 
out_model_definition = "C:/Data/pm2.5_trained_model.ecd" 
Out_importance_table = "C:/Data/pm2.5_importance_table.csv" 
max_num_trees = 50 
max_tree_depth = 30 
max_num_samples = 10000 

# Execute - train with random tree regression model 
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition,  target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)

Rubriques connexes