Etiqueta | Explicación | Tipo de datos |
Rásteres de entrada | Datasets ráster de banda única, multidimensional o multibanda o datasets de mosaico que contienen variables explicativas. | Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String |
Puntos o ráster de destino | La clase de entidad de punto o ráster que contiene los datos de la variable de destino (variable dependiente). | Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service |
Archivo de definición de regresión de salida | Archivo de formato JSON con extensión .ecd que contiene información de atributos, estadísticas u otra información para el clasificador. | File |
Campo de valor de destino (Opcional) | Nombre de campo de la información que se va a modelar en la clase de entidad de punto o dataset ráster de destino. | Field |
Campo de dimensión de destino (Opcional) | Campo de fecha o numérico de la clase de entidad de punto de entrada que define los valores de dimensión. | Field |
Dimensión de ráster (Opcional) | Nombre de dimensión del ráster multidimensional de entrada (variables explicativas) que se vincula a la dimensión de los datos de destino. | String |
Tabla de importancia de salida (Opcional) | Tabla que contiene información que describe la importancia de cada variable explicativa utilizada en el modelo. Un número mayor indica que la variable correspondiente está más correlacionada con la variable prevista y aportará más a la predicción. Los valores varían entre 0 y 1, y la suma de todos los valores es igual a 1. | Table |
Número máximo de árboles (Opcional) | El número máximo de árboles en el bosque. Al aumentar el número de árboles se obtendrán tasas de precisión más elevadas, aunque esta mejora se estabilizará. El número de árboles aumenta el tiempo de procesamiento de forma lineal. El valor predeterminado es 50. | Long |
Profundidad máxima de árbol (Opcional) | La profundidad máxima de cada árbol del bosque. La profundidad determina el número de reglas que puede crear cada árbol, lo que resulta en una decisión. Los árboles no profundizarán más allá de este valor. El valor predeterminado es 30. | Long |
Número máximo de muestras (Opcional) | Número máximo de muestras que se utilizará en el análisis de regresión. Un valor igual o menor que 0 significa que el sistema utilizará todas las muestras del ráster de destino de entrada o la clase de entidad de punto para entrenar el modelo de regresión. El valor predeterminado es 10.000. | Long |
Promedio de puntos por celda (Opcional) | Especifica si el promedio se calculará cuando varios puntos de entrenamiento caigan en una celda. Este parámetro solo se aplica cuando el destino de entrada es una clase de entidad de punto.
| Boolean |
Porcentaje de muestras para evaluación (Opcional) | Porcentaje de puntos de prueba que se utilizará en la comprobación de errores. La herramienta comprueba si hay tres tipos de errores: errores en puntos de entrenamiento, errores en puntos de prueba y errores en puntos de ubicación de prueba. El valor predeterminado es 10. | Double |
Gráficos de dispersión de salida (pdf o html) (Opcional) | Gráficos de dispersión de salida en formato PDF o HTML. La salida incluirá gráficos de dispersión de datos de entrenamiento, datos de prueba y datos de prueba de ubicación. | File |
Entidades de muestra de salida (Opcional) | Clase de entidad de salida que contendrá valores de destino y valores previstos para puntos de entrenamiento, puntos de prueba y puntos de prueba de ubicación. | Feature Class |
Disponible con licencia de Image Analyst.
Resumen
Modela la relación entre variables explicativas (variables independientes) y un dataset de destino (variable dependiente).
Uso
La herramienta se puede usar para entrenar con diversos tipos de datos. Los rásteres de entrada (variables explicativas) pueden ser un ráster o una lista de rásteres, una banda única o una multibanda en la que cada banda sea una variable explicativa, un ráster multidimensional en el que las variables del ráster sean las variables explicativas o una combinación de tipos de datos.
Un dataset de mosaico de entrada se tratará como un dataset ráster (no como un conjunto de rásteres). Para usar un conjunto de rásteres como entrada, genere información multidimensional para el dataset de mosaico y utilice el resultado como entrada.
El destino de entrada puede ser un ráster o una clase de entidad. Cuando el destino es una entidad, el valor Campo de valor de destino se debe establecer en un campo numérico.
Si la entidad de destino de entrada tiene un campo de fecha o un campo que define la dimensión, especifique un valor para los parámetros Campo de valor de destino y Campo de dimensión de destino.
El destino del ráster de entrada también puede ser un ráster multidimensional.
Si el destino de entrada es multidimensional, las variables explicativas de entrada correspondientes deben tener al menos un ráster multidimensional. Las que intersecan las dimensiones de destino se utilizarán en el entrenamiento; los demás rásteres sin dimensiones de la lista se aplicarán a todas las dimensiones. Si no se intersecan variables explicativas o no tienen dimensiones, no se producirá ningún entrenamiento.
Si el destino de entrada no tiene dimensiones y las variables explicativas tienen dimensión, se utilizará el primer segmento.
Si la salida es un ráster multidimensional, utilice el formato CRF. Si la salida es un ráster sin dimensión, se puede almacenar en cualquier formato de ráster de salida.
Los tamaños de celda de las variables explicativas de entrada afectarán al resultado de entrenamiento y al tiempo de procesamiento. De forma predeterminada, la herramienta utiliza el tamaño de celda del primer ráster explicativo; puede cambiarlo con la configuración del entorno Tamaño de celda. En general, no se recomienda entrenar con un tamaño de celda inferior al de sus datos.
El valor del parámetro Tabla de importancia de salida se puede utilizar para analizar la importancia de cada variable explicativa que contribuye a predecir el destino de la variable.
Compruebe el parámetro Porcentaje de muestras para evaluación para calcular tres tipos de errores: errores en los puntos de entrenamiento, errores en los puntos de prueba y errores en los puntos de ubicación de prueba. Por ejemplo, si el valor porcentual está establecido en 10, se utilizará el 10 por ciento de los puntos de muestra de entrenamiento como referencia basada en la ubicación. Estos puntos de referencia se utilizarán para medir el error de la interpolación en el espacio, denominado puntos de ubicación de prueba. Los puntos de muestra de entrenamiento restantes se dividirán en dos grupos: un grupo, que contiene el 90 por ciento de los puntos de muestra de entrenamiento y el otro grupo que contiene el 10 por ciento de los puntos de muestra de entrenamiento. El grupo que contiene el 90 por ciento de los puntos se utilizará para entrenar el modelo de regresión y el grupo que contiene el 10 por ciento de los puntos se utilizará para obtener la exactitud.
Al activar el parámetro Porcentaje de muestras para evaluación, se generará un gráfico de dispersión de los valores de muestras de entrenamiento previstos frente a referencia. El coeficiente de determinación (R cuadrado) también se calcula como una estimación de la idoneidad de ajuste.
Para crear un gráfico de dispersión de valores previstos y valores de entrenamiento, puede usar la herramienta Muestra para extraer los valores previstos de los rásteres previstos. A continuación, realice una unión de tabla utilizando el campo LocationID en la salida de la herramienta Muestra y el campo ObjectID en la clase de campo de destino. Si la entrada de destino es un ráster, puede generar puntos aleatorios y extraer valores tanto del ráster de destino de entrada como del ráster de predicción.
Parámetros
TrainRandomTreesRegressionModel(in_rasters, in_target_data, out_regression_definition, {target_value_field}, {target_dimension_field}, {raster_dimension}, {out_importance_table}, {max_num_trees}, {max_tree_depth}, {max_samples}, {average_points_per_cell}, {percent_testing}, {out_scatterplots}, {out_sample_features})
Nombre | Explicación | Tipo de datos |
in_rasters [in_rasters,...] | Datasets ráster de banda única, multidimensional o multibanda o datasets de mosaico que contienen variables explicativas. | Mosaic Dataset; Mosaic Layer; Raster Dataset; Raster Layer; Image Service; String |
in_target_data | La clase de entidad de punto o ráster que contiene los datos de la variable de destino (variable dependiente). | Feature Class; Feature Layer; Raster Dataset; Raster Layer; Mosaic Layer; Image Service |
out_regression_definition | Archivo de formato JSON con extensión .ecd que contiene información de atributos, estadísticas u otra información para el clasificador. | File |
target_value_field (Opcional) | Nombre de campo de la información que se va a modelar en la clase de entidad de punto o dataset ráster de destino. | Field |
target_dimension_field (Opcional) | Campo de fecha o numérico de la clase de entidad de punto de entrada que define los valores de dimensión. | Field |
raster_dimension (Opcional) | Nombre de dimensión del ráster multidimensional de entrada (variables explicativas) que se vincula a la dimensión de los datos de destino. | String |
out_importance_table (Opcional) | Tabla que contiene información que describe la importancia de cada variable explicativa utilizada en el modelo. Un número mayor indica que la variable correspondiente está más correlacionada con la variable prevista y aportará más a la predicción. Los valores varían entre 0 y 1, y la suma de todos los valores es igual a 1. | Table |
max_num_trees (Opcional) | El número máximo de árboles en el bosque. Al aumentar el número de árboles se obtendrán tasas de precisión más elevadas, aunque esta mejora se estabilizará. El número de árboles aumenta el tiempo de procesamiento de forma lineal. El valor predeterminado es 50. | Long |
max_tree_depth (Opcional) | La profundidad máxima de cada árbol del bosque. La profundidad determina el número de reglas que puede crear cada árbol, lo que resulta en una decisión. Los árboles no profundizarán más allá de este valor. El valor predeterminado es 30. | Long |
max_samples (Opcional) | Número máximo de muestras que se utilizará en el análisis de regresión. Un valor igual o menor que 0 significa que el sistema utilizará todas las muestras del ráster de destino de entrada o la clase de entidad de punto para entrenar el modelo de regresión. El valor predeterminado es 10.000. | Long |
average_points_per_cell (Opcional) | Especifica si el promedio se calculará cuando varios puntos de entrenamiento caigan en una celda. Este parámetro solo se aplica cuando el destino de entrada es una clase de entidad de punto.
| Boolean |
percent_testing (Opcional) | Porcentaje de puntos de prueba que se utilizará en la comprobación de errores. La herramienta comprueba si hay tres tipos de errores: errores en puntos de entrenamiento, errores en puntos de prueba y errores en puntos de ubicación de prueba. El valor predeterminado es 10. | Double |
out_scatterplots (Opcional) | Gráficos de dispersión de salida en formato PDF o HTML. La salida incluirá gráficos de dispersión de datos de entrenamiento, datos de prueba y datos de prueba de ubicación. | File |
out_sample_features (Opcional) | Clase de entidad de salida que contendrá valores de destino y valores previstos para puntos de entrenamiento, puntos de prueba y puntos de prueba de ubicación. | Feature Class |
Muestra de código
Este script de la ventana de Python modela la relación entre las variables explicativas y un dataset de destino.
# Import system modules
import arcpy
from arcpy.ia import *
# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")
# Execute
arcpy.ia.TrainRandomTreesRegressionModel("weather_variables.crf";"dem.tif", "pm2.5.shp", r"c:\data\pm2.5_trained.ecd", "mean_pm2.5", "date_collected", "StdTime”, r"c:\data\pm2.5_importanc.csv", 50, 30, 10000)
Este script independiente de Python modela la relación entre las variables explicativas y un dataset de destino.
# Import system modules
import arcpy
from arcpy.ia import *
# Check out the ArcGIS Image Analyst extension license
arcpy.CheckOutExtension("ImageAnalyst")
# Define input parameters
in_weather_variables = "C:/Data/ClimateVariables.crf"
in_dem_varaible = "C:/Data/dem.tif"
in_target = "C:/Data/pm2.5_observations.shp"
target_value_field = "mean_pm2.5"
Target_date_field = "date_collected"
Raster_dimension = “StdTime”
out_model_definition = "C:/Data/pm2.5_trained_model.ecd"
Out_importance_table = "C:/Data/pm2.5_importance_table.csv"
max_num_trees = 50
max_tree_depth = 30
max_num_samples = 10000
# Execute - train with random tree regression model
arcpy.ia.TrainRandomTreesRegressionModel(in_weather_variables;in_dem_varaible, in_target, out_model_definition, target_value_field, Target_date_field, Raster_dimension, max_num_trees, max_tree_depth, max_num_samples)