Regresión ponderada geográficamente (GWR) es una de las tantas técnicas de regresión espacial, que se utiliza en geografía y otras disciplinas. GWR evalúa un modelo local de la variable o el proceso que trata de comprender o predecir ajustando una ecuación de regresión a todas las entidades del dataset. GWR construye estas ecuaciones individuales mediante la incorporación de las variables dependiente y explicativa de las entidades que caen dentro de la vecindad de cada entidad de destino. La forma y extensión de todas las vecindades que se analizan se basan en los parámetros Tipo de vecindad y Método de selección de vecindad. GWR se debe aplicar a los datasets con varios cientos de entidades. No es un método adecuado para datasets pequeños y no funciona con datos de multipunto.
La herramienta Regresión ponderada geográficamente multiescala se puede utilizar para realizar GWR en datos con escalas variables de relaciones entre las variables dependiente y explicativa.
Nota:
Esta herramienta se ha actualizado para ArcGIS Pro 2.3 e incluye investigación académica adicional, mejoras en el método desarrollado en los últimos años y aumenta la compatibilidad con modelos adicionales. La incorporación de los modelos Recuento (Poisson) y Binario (logístico) permite que la herramienta se aplique a un mayor abanico de problemas.
Aplicaciones potenciales
La herramienta Regresión ponderada geográficamente se puede utilizar para una variedad de aplicaciones, incluidas las siguientes:
- ¿La relación entre resultados académicos e ingresos es uniforme en toda el área de estudio?
- ¿La aparición de determinadas enfermedades aumenta con la proximidad a entidades de agua?
- ¿Cuáles son las variables clave que explican la alta frecuencia de incendio forestal?
- ¿Qué hábitats se deben proteger para alentar la reintroducción de una especie en peligro?
- ¿Dónde se encuentran los distritos en los que los niños están alcanzando las notas de examen más altas? ¿Qué características parecen estar asociadas? ¿Dónde es más importante cada característica?
- ¿Los factores que influyen en las tasas de cáncer más elevadas son uniformes en toda el área de estudio?
Entradas
Para ejecutar la herramienta GWR, proporcione al parámetro Entidades de entrada un campo que represente la Variable dependiente y uno o varios campos que representen las Variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en las variables explicativa o dependiente se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar GWR. A continuación, debe elegir un Tipo de modelo en base a los datos que esté analizando. Es importante que utilice un modelo adecuado para sus datos. A continuación, puede encontrar las descripciones de los tipos de modelos y cómo determinar cuál es el adecuado para sus datos.
Tipo de modelo
GWR proporciona tres tipos de modelos de regresión: continuo, binario y recuento. En las publicaciones sobre estadística, estos tipos de regresión se conocen como gaussiano, logística y Poisson, respectivamente. El Tipo de modelo para su análisis se debería elegir dependiendo de cómo se midiera o resumiera su Variable dependiente, así como del rango de valores que contiene.
Continuo (gausiano)
Utilice el Tipo de modelo Continuo (gaussiano) si su Variable dependiente puede obtener un amplio rango de valores, por ejemplo, temperatura o ventas totales. Lo ideal sería que su variable dependiente presentara una distribución normal. Puede crear un histograma de su variable dependiente para verificar que presenta una distribución normal. Si el histograma es una curva de campana simétrica, utilice el tipo de modelo gaussiano. La mayoría de los valores se agrupará cerca del valor medio, con unos pocos valores separados radicalmente del valor medio. Deberían existir tantos valores en el lado izquierdo del valor medio como en el lado derecho (el valor medio y la mediana de la distribución son iguales). Si su Variable dependiente no presenta una distribución normal, plantéese volver a clasificarla como una variable binaria. Por ejemplo, si su variable dependiente es la media de ingresos por hogar, puede volver a codificarla como una variable binaria en la que 1 indica los valores superiores a la mediana nacional de ingresos y 0 (cero) indica los valores inferiores a la mediana nacional de ingresos. Un campo continuo se puede volver a clasificar como un campo binario utilizando la función de ayuda Reclasificar de la herramienta Calcular campo.
Binario (logístico)
Utilice un Tipo de modelo Binario (logístico) si su Variable dependiente puede obtener uno de dos valores posibles, por ejemplo, éxito y fracaso o presencia y ausencia. El campo que contiene su Variable dependiente debe ser numérico y solo debe contener unos y ceros. Será más fácil interpretar los resultados si codifica el evento de interés, por ejemplo, éxito o presencia de un animal, como 1, ya que la regresión modelará la probabilidad de 1. Debe existir una variación de los unos y los ceros de sus datos tanto global como localmente. Si crea un histograma de su Variable dependiente, solo debería mostrar unos y ceros. Puede utilizar la herramienta Seleccionar por círculo para comprobar la variación local seleccionando varias regiones del mapa y asegurándose de que existe una combinación de unos y ceros en cada región.
Recuento (Poisson)
Considere la posibilidad de utilizar un Tipo de modelo Recuento (Poisson) si su Variable dependiente es discreta y representa el número de ocurrencias de un evento, por ejemplo, un recuento de crímenes. Los modelos de recuento también se pueden utilizar si su Variable dependiente representa una tasa y el denominador de esta es un valor fijo como, por ejemplo, las ventas mensuales o el número de gente con cáncer por cada 10.000 habitantes. Un modelo Recuento (Poisson) presupone que el valor medio y la varianza de la Variable dependiente son iguales y los valores de su Variable dependiente no pueden ser negativos ni contener decimales.
Elegir una vecindad (ancho de banda)
La vecindad (también conocida como ancho de banda) es la banda de distancia o la cantidad de vecinos utilizadas para cada ecuación de regresión local y puede que sea el parámetro más importante para la Regresión ponderada geográficamente, ya que controla el grado de suavizado del modelo. La forma y extensión de las vecindades que se analizan se basan en la entrada de los parámetros Tipo de vecindad y Método de selección de vecindad con una modificación: si el número de entidades de la vecindad es superior a 1.000, solo se utilizan las 1.000 más cercanas en cada una de las ecuaciones de regresión locales.
El parámetro Tipo de vecindad puede basarse en la Cantidad de vecinos o en la Banda de distancia. Si se utiliza la Cantidad de vecinos, el tamaño de vecindad es una función de una cantidad de vecinos específica, lo que permite que las vecindades sean más pequeñas cuando las entidades son densas y más grandes cuando las entidades están dispersas. Si se utiliza la Banda de distancia, el tamaño de vecindad se mantiene constante para cada entidad del área de estudio, lo que resulta en más entidades por vecindad cuando las entidades son densas y menos por vecindad cuando están dispersas.
El parámetro Método de selección de vecindad especifica cómo se determina el tamaño de la vecindad (la distancia o la cantidad de vecinos utilizados en realidad). La vecindad seleccionada con la opción Búsqueda dorada o Intervalos manuales siempre se basa en minimizar el valor del criterio de información de Akaike (AICc). De forma alternativa, puede establecer una distancia de vecindad o una cantidad de vecinos específicas con la opción Definido por el usuario.
Si elige la opción Búsqueda dorada, la herramienta determina los mejores valores de los parámetros Banda de distancia o Cantidad de vecinos si está utilizando el método búsqueda por sección dorada. Primero, la Búsqueda dorada busca las distancias máxima y mínima y evalúa el AICc a varias distancias que incrementan entre ellas. Cuando existen más de 1.000 entidades en un dataset, la distancia máxima es la distancia a la que cualquier entidad presenta como máximo 1.000 vecinos. La distancia mínima es la distancia a la que todas las entidades tienen al menos 20 vecinos. Si existen menos de 1.000 entidades, la distancia máxima es la distancia a la que todas las entidades tienen n/2 vecinos (la mitad de las entidades que son vecinos), y la distancia mínima es la distancia a la que todas las entidades tienen al menos el 5 por ciento de n (el 5 por ciento de las entidades del dataset que son vecinos). La Búsqueda dorada determina la distancia o la cantidad de vecinos con el AICc más bajo como el tamaño de vecindad.
Los parámetros Distancia mínima de búsqueda y Distancia máxima de búsqueda (para Banda de distancia) y Cantidad mínima de vecinos y Cantidad máxima de vecinos (para Cantidad de vecinos) se pueden utilizar para limitar el rango de búsqueda, estableciendo manualmente las distancias inicial y final para la Búsqueda dorada.
Esquema de ponderación local
El poder de GWR es que aplica una ponderación geográfica a las entidades utilizadas en cada una de las ecuaciones de regresión local. A las entidades que están más alejadas del punto de regresión se les da menos peso y, por tanto, tienen menos influencia en los resultados de regresión para la entidad de destino; las entidades más cercanas tienen más peso en la ecuación de regresión. Los pesos se determinan utilizando un kernel, que es una función de disminución de la distancia que determina la rapidez con la que los pesos disminuyen a medida que aumentan las distancias. La herramienta Regresión ponderada geográficamente proporciona dos opciones de kernel en el parámetro Esquema de ponderación local, Gaussiano yBicuadrado.
El esquema de ponderación Gaussiano asigna un peso de uno a la entidad de regresión (entidad i) y pondera las entidades circundantes (entidades j) que disminuyen fluida y gradualmente a medida que aumenta la distancia de la entidad de regresión. Por ejemplo, si las entidades i y j están alejadas 0,25 unidades, el peso resultante en la ecuación será 0,88 aproximadamente. Si las entidades i y j están alejadas 0,75 unidades, el peso resultante solo será 0,32 aproximadamente. La entidad j tendrá menos influencia en la regresión, dado que está más alejada. Un esquema de ponderación Gaussiano nunca llega a cero, pero los pesos para las entidades alejadas de la entidad de regresión pueden ser bastante pequeños y apenas tener impacto en la regresión. Teóricamente, al utilizar un esquema de ponderación Gaussiano, todas las entidades de los datos de entrada son una entidad vecina y se les asignará un peso. Sin embargo, para una mayor eficiencia informática, cuando la cantidad de entidades vecinas supere las 1000, solo las 1000 entidades más cercanas se incorporan en cada regresión local. Un esquema de ponderación Gaussiano garantiza que cada entidad de regresión tenga varios vecinos y, por tanto, aumenta las probabilidades de que existan variaciones en los valores de esos vecinos. Esto evita un problema muy conocido en la regresión ponderada geográficamente, denominado colinealidad local. Utilice un esquema de ponderación Gaussiano cuando la influencia de las entidades vecinas se vuelva fluida y gradualmente menos importante, pero esté siempre presente con independencia de la lejanía de las entidades circundantes.
El esquema de ponderación Bicuadrado es similar al Gaussiano. Asigna un peso de uno a la entidad de regresión (entidad i) y pondera las entidades circundantes (entidades j) que disminuyen fluida y gradualmente a medida que aumenta la distancia de la entidad de regresión. Sin embargo, a todas las entidades que quedan fuera de la vecindad especificada se les asigna cero y no afectan a la regresión local para la entidad de destino. Si se compara un esquema de ponderación Bicuadrado con un esquema de ponderación Gaussiano con las mismas especificaciones de vecindad, los pesos disminuirán más rápidamente con el Bicuadrado. Utilizar un esquema de ponderación Bicuadrado permite especificar una distancia tras la cual las entidades no afectarán a los resultados de regresión. Dado que Bicuadrado excluye las entidades situadas más allá de cierta distancia, no existen garantías de que haya suficientes entidades (con influencia) en la vecindad circundante para producir un buen análisis de regresión local. Utilice un esquema de ponderación Gaussiano cuando la influencia de las entidades vecinas se vuelva fluida y gradualmente menos importante y exista una distancia tras la cual dicha influencia no esté presente. Por ejemplo, la regresión se utiliza con frecuencia para modelar los precios de las viviendas y los precios de venta de las viviendas circundantes son una variable explicativa habitual. Dichas viviendas circundantes se denominan comps o propiedades comparables. En algunas ocasiones, las agencias de préstamos establecen reglas que requieren que haya una vivienda comparable dentro de una distancia máxima. En este ejemplo, se puede utilizar un Bicuadrado con una vecindad igual a la distancia máxima especificada por la institución crediticia.
Predicción
Puede utilizar el modelo de regresión que se ha creado para realizar predicciones para otras entidades (puntos o polígonos) en la misma área de estudio. Crear dichas predicciones requiere que cada una de las Ubicaciones de predicción tenga valores para cada una de las Variables explicativas proporcionadas. Si los nombres de campo de los parámetros Entidades de entrada y Ubicaciones de predicción no coinciden, se proporciona un parámetro variable coincidente. Al comparar las variables explicativas, los campos de los parámetros Entidades de entrada y Ubicaciones de predicción deben ser del mismo tipo (los campos dobles deben corresponderse con los campos dobles, por ejemplo).
Rásteres de coeficiente
Un aspecto eficaz de GWR es que permite explorar las relaciones que varían espacialmente. Un modo de visualizar cómo varían las relaciones entre las variables explicativas y la variable dependiente en el espacio es crear rásteres de coeficientes. Cuando proporciona un nombre de ruta para el parámetro Espacio de trabajo de ráster de coeficiente, la herramienta GWR creará superficies de ráster de coeficiente para la interceptación del modelo y cada variable explicativa. El entorno Tamaño de celda controla la resolución de los rásteres. Se construye una vecindad (kernel) alrededor de cada celda ráster que utiliza los parámetros Tipo de vecindad y Esquema de ponderación local. Los pesos basados en la distancia se calculan desde el centro de la celda ráster hasta todas las entidades de entrada que quedan dentro de la vecindad (ancho de banda). Estos pesos se utilizan para calcular una ecuación de regresión única para cada celda ráster. Los coeficientes varían de una celda ráster a otra porque la distancia basada en pesos cambia y puede que entidades de entrada diferentes queden dentro de la vecindad (ancho de banda).
Nota:
Actualmente, no existe un consenso sobre cómo evaluar la confianza en los coeficientes de un modelo GWR. Mientras que las pruebas t se han utilizado para basar una inferencia en si el valor estimado de los coeficientes es significativamente diferente a cero, la validez de este enfoque es todavía un área en la que se está investigando activamente. Un enfoque para evaluar de manera informal los coeficientes es dividir el coeficiente entre el error estándar proporcionado para cada entidad, como una forma de escalar la magnitud de la estimación con el error estándar asociado y visualizar esos resultados, buscando clústeres de errores estándar elevados relativos a sus coeficientes.
Salidas
La herramienta Regresión ponderada geográficamente produce una variedad de salidas diferentes. Dispone de unos resúmenes del modelo GWR y de las estadísticas en forma de mensajes en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Para acceder a los mensajes desplace el cursor sobre la barra de progreso, haga clic en el botón emergente o expanda la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de la herramienta Regresión ponderada geográficamente ejecutada anteriormente mediante el historial de geoprocesamiento. La herramienta también genera Entidades de salida, gráficos y, de forma opcional, Entidades predichas de salida y superficies ráster de coeficiente. Las Entidades de salida y gráficos asociados se agregan automáticamente al panel Contenido con un esquema de representación de cálido a frío que se aplica a los residuales del modelo. Los diagnósticos y gráficos generados dependen del Tipo de modelo de las Entidades de entrada y se describen a continuación.
Las estadísticas del modelo global se calculan para todos los modelos.
Continuo (gausiano)
Clase de entidades y campos agregados
Además de los residuales de regresión, el parámetro Entidades de salida incluye campos para los valores de variable dependiente observados y previstos, número de condición (COND), R2 local, coeficientes de variable explicativa y errores estándar.
También se reportan Intercepción, Error estándar de la intercepción, Coeficientes, Errores estándar de las variables explicativas, Predicho, Residual, Residual estandarizado, Influencia, Cook's D, R cuadrado local y Número de condición. Muchos de estos campos se analizan en Cómo funciona la regresión de OLS. Los valores de Influencia y Cook's D miden la influencia de la entidad en la estimación de los coeficientes de regresión. Puede utilizar un gráfico de histograma para determinar si algunas entidades son más influyentes que el resto del dataset. Con frecuencia, estas entidades son valores atípicos que distorsionan la estimación de los coeficientes y los resultados del modelo pueden mejorarse eliminándolos y volviendo a ejecutar la herramienta. El valor R cuadrado local va de 0 a 1 y representa la fuerza de las correlaciones del modelo local de la entidad. El Número de condición es una medida de la estabilidad de los coeficientes estimados. Los números de condición superiores a aproximadamente 1000 indican inestabilidad en el modelo; se suele deber a la existencia de variables explicativas que están altamente correlacionadas entre sí.
Interpretar mensajes y diagnósticos
Los mensajes muestran detalles del análisis, incluidas la cantidad de entidades analizadas, las variables dependientes y explicativas y la cantidad de vecinos especificada. Además, se reportan varios diagnósticos de modelo:
- R2: R cuadrado es una medida de la bondad de ajuste. Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión. El denominador para el cálculo de R2 es la suma de los valores de la variable dependiente cuadrada. Agregar una variable explicativa extra al modelo no altera el denominador, pero sí altera el numerador; esto brinda la impresión de mejora en el ajuste del modelo que puede no ser real. Consulte R2 ajustado a continuación.
- AdjR2: debido al problema descrito más arriba para el valor R2, los cálculos para el valor R cuadrado ajustado normalizan el numerador y denominador mediante los grados de libertad. Esto tiene el efecto de compensar el número de variables en un modelo y, por consiguiente, el valor R2 ajustado es casi siempre menor que el valor R2. Sin embargo, al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. En GWR, el número efectivo de grados de libertad es una función de la vecindad utilizada; por lo tanto, el ajuste puede estar bastante marcado en comparación con un modelo global como, por ejemplo, Regresión lineal generalizada (GLR). Por esta razón, se prefiere el AICc como medio de comparación de los modelos.
- AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste, pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de GLR es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR).
Consulte Gollini et al. en la sección Recursos adicionales para las fórmulas utilizadas para calcular el AICc para todos los tipos de modelo.
- Sigma cuadrado: es la estimación de mínimos cuadrados de la varianza (desviación estándar cuadrada) para los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor es la suma residual normalizada de cuadrados, donde la suma residual de los cuadrados se divide entre los grados de libertad efectivos de los residuales. Sigma cuadrado se utiliza para cómputos de AICc.
- Sigma cuadrado MLE: es la estimación de máxima probabilidad (MLE) de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor se calcula dividiendo la suma residual de los cuadrados entre el número de entidades de entrada.
- Grados de libertad efectivos: este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de tamaño de vecindad. Debido a que la vecindad se acerca al infinito, los pesos geográficos para cada entidad se acercan a 1 y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo GLR global. Para vecindades muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza, pero estarán un poco influenciadas. Por el contrario, a medida que la vecindad se acerca a cero, los pesos geográficos para cada entidad se acercan a cero con la excepción del punto de regresión. Para las vecindades extremadamente pequeñas, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular muchas otras medidas de diagnóstico.
- Valor crítico ajustado de estadísticas pseudo t: este es el valor crítico ajustado utilizado para evaluar la importancia estadística de los coeficientes en una prueba T de dos lados con una confianza del 95 por ciento. El valor corresponde a un nivel de significancia (alfa) de 0,05 dividido entre los grados de libertad efectivos. Este ajuste controla la tasa de error por familia (FWER) de la importancia de las variables explicativas.
Gráficos de salida
La herramienta genera una matriz de gráficos de dispersión y un histograma en el panel Contenido. La matriz de gráficos de dispersión incluye una variable dependiente y hasta nueve variables explicativas. El histograma muestra la desviación residual y una curva de distribución normal.
Binario (logístico)
Clase de entidades y campos agregados
Se reportan Intercepción (INTERCEPT), Error estándar de la intercepción (SE_INTERCEPT), Coeficientes y errores estándar para cada una de las variables explicativas, así como Probabilidad de ser 1, Predicho, Desviación residual, Influencia G y Desviación porcentual local.
Interpretar mensajes y diagnósticos
Los mensajes muestran detalles del análisis, incluidas la cantidad de entidades analizadas, las variables dependientes y explicativas y la cantidad de vecinos especificada. Además, se informa de los siguientes diagnósticos:
- % de desviación explicado por el modelo global (no espacial): es una medida de bondad de ajuste y cuantifica el rendimiento de un modelo global (GLR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión.
- % de desviación explicado por el modelo local: es una medida de bondad de ajuste y cuantifica el rendimiento de un modelo local (GWR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión local.
- % de desviación explicado por el modelo local frente al modelo global: esta proporción es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR), comparando la suma residual de cuadrados del modelo local con la suma residual de cuadrados del modelo global. Su valor varía de 0,0 a 1,0, donde los valores más altos indican que el modelo de regresión local rindió mejor que un modelo global.
- AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste, pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de OLS es una forma de evaluar los beneficios de cambiar de un modelo global (OLS) a un modelo de regresión local (GWR).
- Sigma cuadrado: este valor es la suma residual normalizada de cuadrados, en la que la suma residual de los cuadrados se divide entre los grados de libertad efectivos del residual. Es la estimación de mínimos cuadrados de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Sigma cuadrado se utiliza para cómputos de AICc.
- Sigma cuadrado MLE: es la estimación de máxima probabilidad (MLE) de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor se calcula dividiendo la suma residual de los cuadrados entre el número de entidades de entrada.
- Grados de libertad efectivos: este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de tamaño de vecindad. Debido a que la vecindad se acerca al infinito, los pesos geográficos para cada entidad se acercan a 1 y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo GLR global. Para vecindades muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza, pero estarán un poco influenciadas. Por el contrario, a medida que la vecindad se acerca a cero, los pesos geográficos para cada entidad se acercan a cero con la excepción del punto de regresión. Para las vecindades extremadamente pequeñas, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular muchas otras medidas de diagnóstico.
- Valor crítico ajustado de estadísticas pseudo t: este es el valor crítico ajustado utilizado para evaluar la importancia estadística de los coeficientes en una prueba T de dos lados con una confianza del 95 por ciento. El valor corresponde a un nivel de significancia (alfa) de 0,05 dividido entre los grados de libertad efectivos. Este ajuste controla la tasa de error por familia (FWER) de la importancia de las variables explicativas.
Gráficos de salida
Se proporciona una matriz de gráficos de dispersión, así como diagramas de caja y un histograma de la desviación residual.
Recuento (Poisson)
Clase de entidades y campos agregados
Se reportan Intercepción (INTERCEPT), Error estándar de la intercepción (SE_INTERCEPT), Coeficientes y errores estándar para cada una de las variables explicativas, así como el valor predicho antes de la transformación logarítmica (RAW_PRED), Predicho, Residual de desviación, Influencia G, Desviación porcentual local y Número de condición.
Interpretar mensajes y diagnósticos
Los mensajes muestran detalles del análisis, incluidas la cantidad de entidades analizadas, las variables dependientes y explicativas y la cantidad de vecinos especificada. Además, se reporta el diagnóstico en la siguiente captura de pantalla:
- % de desviación explicado por el modelo global (no espacial): es una medida de bondad de ajuste y cuantifica el rendimiento de un modelo global (GLR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión.
- % de desviación explicado por el modelo local: es una medida de bondad de ajuste y cuantifica el rendimiento del modelo local (GWR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión local.
- % de desviación explicado por el modelo local frente al modelo global: esta proporción es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR), comparando la suma residual de cuadrados del modelo local con la suma residual de cuadrados del modelo global. Su valor varía de 0,0 a 1,0, donde los valores más altos indican que el modelo de regresión local rindió mejor que un modelo global.
- AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste, pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de OLS es una forma de evaluar los beneficios de cambiar de un modelo global (OLS) a un modelo de regresión local (GWR).
- Sigma cuadrado: este valor es la suma residual normalizada de cuadrados, en la que la suma residual de los cuadrados se divide entre los grados de libertad efectivos del residual. Es la estimación de mínimos cuadrados de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Sigma cuadrado se utiliza para cómputos de AICc.
- Sigma cuadrado MLE: es la estimación de máxima probabilidad (MLE) de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor se calcula dividiendo la suma residual de los cuadrados entre el número de entidades de entrada.
- Grados de libertad efectivos: este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de tamaño de vecindad. Debido a que la vecindad se acerca al infinito, los pesos geográficos para cada entidad se acercan a 1 y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo GLR global. Para vecindades muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza, pero estarán un poco influenciadas. Por el contrario, a medida que la vecindad se acerca a cero, los pesos geográficos para cada entidad se acercan a cero con la excepción del punto de regresión. Para las vecindades extremadamente pequeñas, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular muchas otras medidas de diagnóstico.
- Valor crítico ajustado de estadísticas pseudo t: este es el valor crítico ajustado utilizado para evaluar la importancia estadística de los coeficientes en una prueba T de dos lados con una confianza del 95 por ciento. El valor corresponde a un nivel de significancia (alfa) de 0,05 dividido entre los grados de libertad efectivos. Este ajuste controla la tasa de error por familia (FWER) de la importancia de las variables explicativas.
Gráficos de salida
Se proporciona una matriz de gráficos de dispersión en el panel Contenido (que incluye hasta 19 variables), así como un histograma de la desviación residual y una línea de distribución normal.
Otras notas y sugerencias sobre la implementación
En los modelos de regresión global, como la GLR, los resultados son poco fiables cuando dos o más variables exhiben multicolinealidad (cuando dos o más variables son redundantes o cuentan la misma historia). La herramienta Regresión ponderada geográficamente construye una ecuación de regresión local para cada entidad del dataset. Cuando los valores para una variable explicativa particular se agrupan espacialmente, es probable que tenga problemas con la multicolinealidad local. El número de condición en el parámetro Entidades de salida indica cuándo los resultados son inestables debido a la multicolinealidad local. Como regla general, sospeche de resultados para entidades con un número de condición mayor que 30, igual que Nulo o, para los shapefiles, igual que -1,7976931348623158e+308. El número de condición está ajustado a la escala para corregir el número de variables explicativas del modelo. Esto permite una comparación directa del número de condición entre modelos usando diferentes números de variables explicativas.
Los errores de diseño del modelo con frecuencia indican que hay un problema con la multicolinealidad global o local. Para determinar dónde está el problema, ejecute el modelo con GLR y examine el valor VIF para cada variable explicativa. Si algunos de los valores VIF son grandes (por ejemplo, mayores que 7,5), la multicolinealidad global impide que se resuelva la GWR. Sin embargo, es más probable que la multicolinealidad local sea el problema. Intente crear un mapa temático para cada variable explicativa. Si el mapa muestra un clustering espacial de valores idénticos, considere quitar esas variables del modelo o combinarlas con otras variables explicativas para aumentar la variación del valor. Por ejemplo, si está modelando valores de viviendas y tiene variables tanto para los dormitorios como para los cuartos de baño, es posible que desee combinarlas para aumentar la variación del valor o para representarlas como metros cuadrados de cuarto de baño/dormitorio. Evite utilizar variables artificiales o binarias del régimen espacial para los tipos de modelo gaussiano o Poisson, variables categóricas o nominales de clustering espacial con el tipo de modelo logístico o variables con pocos valores posibles al construir modelos GWR.
Los problemas con la multicolinealidad local también pueden impedir que la herramienta resuelva una Banda de distancia o una Cantidad de vecinos óptimas. Intente especificar Intervalos manuales o una Banda de distancia definida por el usuario o un recuento de vecinos específico. Después, examine los números de condiciones en la Clase de entidad de salida para ver qué entidades están asociadas con los problemas de multicolinealidad local (números de condición mayores que 30). Es posible que desee quitar las entidades con problemas de manera temporal mientras busca una distancia y una cantidad de vecinos óptimas. Tenga en cuenta que los resultados asociados con números de condición mayores que 30 son poco fiables.
Los cálculos del parámetro y los valores previstos para GWR se calculan mediante la siguiente función de ponderación espacial: exp(-d^2/b^2). Es posible que existan diferencias en esta función de ponderación entre las distintas implementaciones de software de GWR. Por lo tanto, es posible que los resultados de la herramienta GWR no coincidan exactamente con los resultados de otros paquetes de software de GWR.
Recursos adicionales
Existen varios recursos para ayudarle a obtener más información sobre Regresión lineal generalizada y Regresión ponderada geográficamente. Comience con los Conceptos básicos del análisis de regresión o siga el tutorial de análisis de regresión.
A continuación, se muestran otros recursos útiles:
Brunsdon, C., Fotheringham, A. S., y Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.
Fotheringham, Stewart A., Chris Brunsdon y Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.
Gollini, I., Lu, B., Charlton, M., Brunsdon, C., y Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.
Nakaya, T., Fotheringham, A. S., Brunsdon, C., y Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.
Páez, A., Farber, S., y Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.