Autorregresión espacial (Estadística espacial)

Resumen

Estima un modelo de regresión espacial global para una clase de entidad de punto o polígono.

Las suposiciones de los modelos tradicionales de regresión lineal se infringen con frecuencia cuando se utilizan datos espaciales. Cuando hay autocorrelación espacial en un dataset, las estimaciones de los coeficientes pueden estar sesgadas y conducir a una inferencia excesivamente confiada. Esta herramienta puede utilizarse para estimar un modelo de regresión que sea robusto en presencia de dependencia espacial y heterocedasticidad, así como para medir los efectos indirectos espaciales. La herramienta utiliza pruebas de diagnóstico del multiplicador de Lagrange (ML), también conocido como puntuación de Rao, para determinar el modelo más apropiado. Según el diagnóstico de ML, se puede estimar un modelo de mínimos cuadrados ordinarios (MCO), un modelo de intervalo espacial (MRE), un modelo de error espacial (MEE) o un modelo combinado autorregresivo espacial (MCA).

Más información sobre cómo funciona la Autorregresión espacial

Ilustración

Ilustración de herramienta Autorregresión espacial

Uso

  • La herramienta solo acepta entradas de puntos y polígonos.

  • La variable dependiente debe ser continua (no binaria ni de categorías).

  • Las variables dependientes debe ser continua (no binaria ni de categorías). No utilice variables binarias (que contengan solo los valores 0 y 1, ya que pueden violar los supuestos del modelo y causar un error).

  • El resultado de la herramienta incluye un diagrama de dispersión de Moran de valores residuales que puede utilizarse para identificar la autocorrelación en los valores residuales del modelo.

  • La matriz de ponderaciones espaciales utilizada no puede tener más de un 30 por ciento de conectividad. Se producirá un error si se alcanza este umbral para evitar estimaciones sesgadas.

  • Cuando se utilizan los k vecinos más cercanos con un esquema de peso de configuración regional, se calculará un ancho de banda adaptativo si no se proporciona ningún ancho de banda.

  • Un modelo espacial de Durbin puede estimarse ajustando un SLM e incluyendo cada variable explicativa y sus intervalos espaciales. Utilice la herramienta Estadísticas de resumen de vecindad para calcular intervalos espaciales.

  • Los modelos se estiman utilizando los siguientes métodos relacionados con la heterocedasticidad y la normalidad:

    • SLM utiliza la regresión espacial de mínimos cuadrados en dos etapas (S2SLS).
    • SEM utiliza el método generalizado de momentos (GMM).
    • SAC utiliza el método S2SLS generalizado (GS2SLS).

Parámetros

EtiquetaExplicaciónTipo de datos
Entidades de entrada

Entidades de entrada que contienen las variables dependientes y explicativas.

Feature Layer
Variable dependiente

Campo numérico que se predecirá en el modelo de regresión.

Field
Variables explicativas

Lista de campos que se utilizarán para predecir la variable dependiente en el modelo de regresión.

Field
Entidades de salida

La clase de entidad de salida que contiene los valores predichos de la variable dependiente y los valores residuales.

Feature Class
Tipo de modelo

Tipo de modelo que se utilizará para la estimación. De forma predeterminada, se utilizarán pruebas de diagnóstico LM para determinar el modelo más apropiado para los datos de entrada.

  • Detección automáticaSe utilizarán pruebas de diagnóstico LM para determinar si se estimará un OLS, SLM, SEM o SAC. Esta es la opción predeterminada.
  • Modelo de error espacial (SEM)Se estimará un SEM independientemente de los diagnósticos del LM.
  • Modelo de intervalo espacial (SLM)Se realizará una estimación de SLM independientemente de los diagnósticos de LM.
  • Modelo combinado autorregresivo espacial (SAC)Se realizará una estimación de SAC independientemente de los diagnósticos de LM.
String
Tipo de vecindad
(Opcional)

Especifica cómo se elegirán los vecinos para cada entidad de entrada. Para identificar patrones espaciales locales, deben identificarse las entidades vecinas para cada entidad de entrada.

  • Banda de distancia fijaLas entidades dentro de una distancia especificada de cada entidad se considerarán vecinas.
  • K vecinos más próximosLas entidades k más cercanas se considerarán vecinas. El parámetro Cantidad de vecinos especifica la cantidad de vecinos.
  • Solo bordes de contigüidadLas entidades de polígono que compartan algún borde se incluirán como vecinas.
  • Bordes o esquinas de contigüidadLas entidades de polígono que compartan algún eje o esquina se incluirán como vecinas. Esta es la opción predeterminada para las entidades poligonales.
  • Triangulación de DelaunayLas entidades cuya triangulación de Delaunay compartan un borde o esquina se incluirán como vecinas. Esta es la opción predeterminada para las entidades de punto.
  • Obtener ponderaciones espaciales a partir del archivoLos vecinos y los pesos se definirán mediante un archivo especificado de pesos espaciales. El archivo se especifica mediante el parámetro Archivo de matriz de ponderaciones.
String
Banda de distancia
(Opcional)

La distancia dentro de la cual las entidades se incluirán como vecinas. Si no se proporciona ningún valor, se estimará uno durante el procesamiento y se incluirá como un mensaje de geoprocesamiento.

Linear Unit
Cantidad de vecinos
(Opcional)

Número de vecinos que se incluirá como vecinos. El número no incluye la entidad focal. El valor predeterminado es 8.

Long
Archivo de matriz de ponderaciones
(Opcional)

La ruta y el nombre del archivo de la matriz de ponderaciones espaciales que define relaciones espaciales entre las entidades.

File
Esquema de ponderación local
(Opcional)

Especifica el esquema de ponderación que se aplicará a los vecinos. Los pesos siempre estarán normalizados por filas, a menos que se proporcione un archivo de matriz de ponderaciones espaciales.

  • No ponderadoSe les asignará a los vecinos una ponderación igual a 1. Esto es lo predeterminado.
  • BicuadradoLos vecinos se ponderarán utilizando un kernel bicuadrado (cuártico).
  • GaussianoLos vecinos se ponderarán utilizando un kernel gaussiano (distribución normal).
String
Ancho de banda kernel
(Opcional)

Ancho de banda del kernel de ponderación. Si no se proporciona ningún valor, se utilizará un kernel adaptativo. Un kernel adaptativo utiliza la distancia máxima desde un vecino a una entidad focal como ancho de banda.

Linear Unit

arcpy.stats.SAR(in_features, dependent_variable, explanatory_variables, out_features, model_type, {neighborhood_type}, {distance_band}, {number_of_neighbors}, {weights_matrix_file}, {local_weighting_scheme}, {kernel_bandwidth})
NombreExplicaciónTipo de datos
in_features

Entidades de entrada que contienen las variables dependientes y explicativas.

Feature Layer
dependent_variable

Campo numérico que se predecirá en el modelo de regresión.

Field
explanatory_variables
[explanatory_variables,...]

Lista de campos que se utilizarán para predecir la variable dependiente en el modelo de regresión.

Field
out_features

La clase de entidad de salida que contiene los valores predichos de la variable dependiente y los valores residuales.

Feature Class
model_type

Tipo de modelo que se utilizará para la estimación. De forma predeterminada, se utilizarán pruebas de diagnóstico LM para determinar el modelo más apropiado para los datos de entrada.

  • AUTOSe utilizarán pruebas de diagnóstico LM para determinar si se estimará un OLS, SLM, SEM o SAC. Esta es la opción predeterminada.
  • ERRORSe estimará un SEM independientemente de los diagnósticos del LM.
  • LAGSe realizará una estimación de SLM independientemente de los diagnósticos de LM.
  • COMBINEDSe realizará una estimación de SAC independientemente de los diagnósticos de LM.
String
neighborhood_type
(Opcional)

Especifica cómo se elegirán los vecinos para cada entidad de entrada. Para identificar patrones espaciales locales, deben identificarse las entidades vecinas para cada entidad de entrada.

  • DISTANCE_BANDLas entidades dentro de una distancia especificada de cada entidad se considerarán vecinas.
  • K_NEAREST_NEIGHBORSLas entidades k más cercanas se considerarán vecinas. El parámetro number_of_neighbors especifica la cantidad de vecinos.
  • CONTIGUITY_EDGES_ONLYLas entidades de polígono que compartan algún borde se incluirán como vecinas.
  • CONTIGUITY_EDGES_CORNERSLas entidades de polígono que compartan algún eje o esquina se incluirán como vecinas. Esta es la opción predeterminada para las entidades poligonales.
  • DELAUNAY_TRIANGULATIONLas entidades cuya triangulación de Delaunay compartan un borde o esquina se incluirán como vecinas. Esta es la opción predeterminada para las entidades de punto.
  • GET_SPATIAL_WEIGHTS_FROM_FILELos vecinos y los pesos se definirán mediante un archivo especificado de pesos espaciales. El archivo se especifica mediante el parámetro weights_matrix_file.
String
distance_band
(Opcional)

La distancia dentro de la cual las entidades se incluirán como vecinas. Si no se proporciona ningún valor, se estimará uno durante el procesamiento y se incluirá como un mensaje de geoprocesamiento.

Linear Unit
number_of_neighbors
(Opcional)

Número de vecinos que se incluirá como vecinos. El número no incluye la entidad focal. El valor predeterminado es 8.

Long
weights_matrix_file
(Opcional)

La ruta y el nombre del archivo de la matriz de ponderaciones espaciales que define relaciones espaciales entre las entidades.

File
local_weighting_scheme
(Opcional)

Especifica el esquema de ponderación que se aplicará a los vecinos. Los pesos siempre estarán normalizados por filas, a menos que se proporcione un archivo de matriz de ponderaciones espaciales.

  • UNWEIGHTEDSe les asignará a los vecinos una ponderación igual a 1. Esto es lo predeterminado.
  • BISQUARELos vecinos se ponderarán utilizando un kernel bicuadrado (cuártico).
  • GAUSSIANLos vecinos se ponderarán utilizando un kernel gaussiano (distribución normal).
String
kernel_bandwidth
(Opcional)

Ancho de banda del kernel de ponderación. Si no se proporciona ningún valor, se utilizará un kernel adaptativo. Un kernel adaptativo utiliza la distancia máxima desde un vecino a una entidad focal como ancho de banda.

Linear Unit

Muestra de código

Ejemplo 1 de SAR (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la función SAR.

# Fit SAR model and auto-detect the regression model.
arcpy.stats.SAR(
    in_features=r"C:\data\data.gdb\house_price",
    dependent_variable="price",
    explanatory_variables=["crime", "income", "school_rate"],
    out_features=r"C:\data\data.gdb\house_price_SAR",
    model_type="AUTO",
    neighborhood_type="DELAUNAY_TRIANGULATION",
    distance_band=None,
    number_of_neighbors=None,
    weights_matrix_file=None,
    local_weighting_scheme="UNWEIGHTED",
    kernel_bandwidth=None
)
Ejemplo 2 de SAR (script independiente)

El siguiente script independiente muestra cómo utilizar la función SAR.

# Fit SAR model using SLM.  

# Import modules
import arcpy

# Set the current workspace
arcpy.env.workspace = r"C:\data\data.gdb"


# Run SAR tool with Spatial Lag model
arcpy.stats.SAR(
    in_features=r"health_factors_CA",
    dependent_variable="Diabetes",
    explanatory_variables=["Drink", "Inactivity"],
    out_features=r"Diabetes_SAR",
    model_type="LAG",
    neighborhood_type="CONTIGUITY_EDGES_CORNERS",
    distance_band=None,
    number_of_neighbors=None,
    weights_matrix_file=None,
    local_weighting_scheme="UNWEIGHTED",
    kernel_bandwidth=None
)

Temas relacionados