Etiqueta | Explicación | Tipo de datos |
Entidades de entrada | La clase en entidad que contiene las variables dependientes e independientes. | Feature Layer |
Variable dependiente | El campo numérico que contiene los valores observados que se van a modelar. | Field |
Tipo de modelo | Especifica el tipo de datos que se va a modelar.
| String |
Entidades de salida | La nueva clase de entidad que contendrá las estimaciones y los residuales de la variable dependiente. | Feature Class |
Variables explicativas | Una lista de campos que representan variables explicativas independientes en el modelo de regresión. | Field |
Entidades de distancia explicativas (Opcional) | Crea automáticamente variables explicativas mediante el cálculo de una distancia desde las entidades proporcionadas a los valores de Entidades de entrada. Las distancias se calculan desde cada uno de los valores de Entidades de distancia explicativas de entrada hasta el valor de Entidades de entrada más cercano. Si los valores de Entidades de distancia explicativas de entrada son polígonos o líneas, los atributos de distancia se calcularán como la distancia entre los segmentos más cercanos del par de entidades. | Feature Layer |
Ubicaciones de predicción (Opcional) | Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada. | Feature Layer |
Variables explicativas coincidentes (Opcional) | Hace coincidir las variables explicativas del parámetro Ubicaciones de predicción con las variables explicativas correspondientes del parámetro Clase de entidad de entrada. | Value Table |
Entidades de distancia coincidentes (Opcional) | Hace coincidir las entidades de distancia especificadas para el parámetro Ubicaciones de predicción de la izquierda con las entidades de distancia correspondientes para el parámetro Entidades de entrada de la derecha. | Value Table |
Entidades predichas de salida (Opcional) | La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada valor de Ubicación de predicción. | Feature Class |
Archivo de modelo entrenado de salida (Opcional) | Un archivo de modelo de salida que guardará el modelo entrenado, que se puede utilizar más tarde para la predicción. | File |
Resumen
Realiza una regresión lineal generalizada (GLR) para generar predicciones o para modelar una variable dependiente en términos de su relación con un conjunto de variables explicativas. Esta herramienta se puede usar para ajustarse a modelos continuos (OLS), binarios (logísticos) y de recuento (Poisson).
Más información sobre cómo funciona Regresión lineal generalizada
Ilustración
Uso
-
La salida principal de esta herramienta es un archivo de informe que está disponible como mensajes en la parte inferior del panel Geoprocesamiento durante el procesamiento de la herramienta. Para acceder a los mensajes, pase el cursor sobre la barra de progreso y haga clic en el botón emergente o expanda la sección de mensajes del panel Geoprocesamiento. También puede acceder a los mensajes de una ejecución anterior de la herramienta en el historial de geoprocesamiento.
Use el parámetro Entidades de entrada con un campo que represente el fenómeno que está modelando (el valor Variable dependiente) y uno o varios campos que representen el valor Variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en la variable explicativa o dependiente se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar la herramienta.
-
Esta herramienta también produce valores de Entidades de salida con diagnósticos e información de coeficiente. La clase de entidad de salida se agrega automáticamente a la tabla de contenido con un esquema de representación en pantalla que se aplica a los residuales del modelo.
La opción que seleccione para el parámetro Tipo de modelo depende de los datos que esté modelando. Es importante usar el modelo correcto para el análisis con el fin de obtener resultados precisos del análisis de regresión.
-
Los diagnósticos y resultados del resumen del modelo se escriben en la ventana de mensajes y los gráficos se crean bajo la clase de entidad de salida. Los diagnósticos y gráficos reportados dependen del valor del parámetro Tipo de modelo y se explican con detalle en el tema Cómo funciona Regresión lineal generalizada.
-
Los resultados de la GLR son fiables solo si los datos y el modelo de regresión satisfacen todas las presuposiciones que este método requiere inherentemente. Revise todos los diagnósticos resultantes y consulte la tabla Problemas, consecuencias y soluciones comunes de regresión en Conceptos básicos del análisis de regresión para asegurarse de que el modelo esté especificado correctamente.
Los parámetros Variable dependiente y Variables explicativas deben ser campos numéricos con una serie de valores. Esta herramienta no puede resolver cuando las variables tienen los mismos valores (por ejemplo, todos los valores de un campo son 9,0).
Las variables explicativas pueden provenir de campos o calcularse a partir de entidades de distancia mediante el parámetro Entidades de distancia explicativas. Es posible usar una combinación de estos tipos de variables explicativas, pero se requiere al menos un tipo. Los valores del parámetro Entidades de distancia explicativas se usan para crear automáticamente variables explicativas que representen una distancia desde las entidades proporcionadas hasta los valores del parámetro Entidades de entrada. Las distancias se calculan desde cada uno de los valores de Entidades de distancia explicativas de entrada hasta los valores de Entidades de entrada más cercanos. Si los valores de Entidades de distancia explicativas de entrada son polígonos o líneas, los atributos de distancia se calcularán como la distancia entre los segmentos más cercanos del par de entidades. Sin embargo, las distancias se calcularán de forma diferente para los polígonos y las líneas. Consulte Cómo calculan la distancia las herramientas de proximidad para obtener más detalles.
El parámetro Archivo de modelo entrenado de salida se puede usar para guardar los resultados del modelo entrenado como un archivo reutilizable. La herramienta Predecir con archivo de modelo de estadística espacial se puede utilizar para predecir a nuevas entidades mediante el archivo de modelo.
Es recomendable usar datos proyectados si los valores de Entidades de distancia explicativas forman parte del análisis. Se recomienda que los datos estén proyectados mediante un sistema de coordenadas proyectadas (en lugar de un sistema de coordenadas geográficas) para medir distancias de forma precisa.
-
Si hay una autocorrelación espacial estadísticamente significativa de los residuales de la regresión, se considerará que el modelo GLR está mal especificado y, por lo tanto, los resultados de GLR no son fiables. Ejecute la herramienta Autocorrelación espacial en los residuales de la regresión para evaluar este problema potencial. La autocorrelación espacial estadísticamente significativa de los residuales de regresión podría indicar la ausencia de una o más variables explicativas clave en el modelo.
-
Inspeccione visualmente las sobrepredicciones y las subpredicciones que sean evidentes en los residuales de regresión para ver si ofrecen pistas sobre las posibles variables que falten en el modelo de regresión. Podría ayudarle a ejecutar el Análisis de puntos calientes en los residuales para visualizar el clustering espacial de las sobrepredicciones y las subpredicciones.
-
Cuando se produce una especificación incorrecta como resultado del intento de modelar variables no estacionarias con un modelo global (GLR es un modelo global), puede utilizar la herramienta Regresión ponderada geográficamente para mejorar las predicciones y comprender mejor la no estacionariedad (variación regional) inherente en las variables explicativas.
-
Cuando el resultado de un cómputo es infinito o indefinido, la salida para los no shapefiles será Nulo; para los shapefiles la salida será -DBL_MAX (-1,7976931348623158e+308, por ejemplo).
Precaución:
Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.
Parámetros
arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features}, {output_trained_model})
Nombre | Explicación | Tipo de datos |
in_features | La clase en entidad que contiene las variables dependientes e independientes. | Feature Layer |
dependent_variable | El campo numérico que contiene los valores observados que se van a modelar. | Field |
model_type | Especifica el tipo de datos que se va a modelar.
| String |
output_features | La nueva clase de entidad que contendrá las estimaciones y los residuales de la variable dependiente. | Feature Class |
explanatory_variables [explanatory_variables,...] | Una lista de campos que representan variables explicativas independientes en el modelo de regresión. | Field |
distance_features [distance_features,...] (Opcional) | Crea automáticamente variables explicativas mediante el cálculo de una distancia desde las entidades proporcionadas a los valores in_features. Las distancias se calculan desde cada uno de los valores de distance_features de entrada hasta el valor de in_features más cercano. Si los valores de distance_features de entrada son polígonos o líneas, los atributos de distancia se calcularán como la distancia entre los segmentos más cercanos del par de entidades. | Feature Layer |
prediction_locations (Opcional) | Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada. | Feature Layer |
explanatory_variables_to_match [[Field from Prediction Locations, Field from Input Features],...] (Opcional) | Hace coincidir las variables explicativas del parámetro prediction_locations con las variables explicativas correspondientes del parámetro in_features. | Value Table |
explanatory_distance_matching [[Prediction Distance Features, Input Explanatory Distance Features],...] (Opcional) | Hace coincidir las entidades de distancia especificadas para el parámetro features_to_predict de la izquierda con las entidades de distancia correspondientes del parámetro in_features de la derecha. | Value Table |
output_predicted_features (Opcional) | La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada valor de prediction_location. La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada valor de Ubicación de predicción. | Feature Class |
output_trained_model (Opcional) | Un archivo de modelo de salida que guardará el modelo entrenado, que se puede utilizar más tarde para la predicción. | File |
Muestra de código
El siguiente script de la ventana de Python muestra cómo utilizar la función GeneralizedLinearRegression.
import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
"BINARY", "out_features",
["eastness", "northness", "elevation", "slope"],
"rivers")
El siguiente script independiente de Python muestra cómo utilizar la función GeneralizedLinearRegression.
# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts",
"total_crimes", "COUNT", "out_features", ["YRBLT", "TOTPOP", "AVGHINC"],
"CBD", "prediction_locations", [["YRBLT", "YRBLT"], ["TOTPOP", "TOTPOP"], ["AVGHINC", "AVGHINC"]],
[["CBD", "CBD"]], "predicted_features")