Conceptos básicos del análisis de regresión

La caja de herramientas Estadística espacial proporciona herramientas efectivas para cuantificar los patrones espaciales. Al utilizar la herramienta Análisis de punto caliente, por ejemplo, puede realizar preguntas como éstas:

  • ¿Hay lugares en Estados Unidos donde se registre una tendencia constante de muertes de personas jóvenes?
  • ¿Dónde están los puntos calientes para los delitos, las llamadas de emergencia al 911 (ver gráfico a continuación) o los incendios?
  • ¿Dónde encontramos una proporción de accidentes de tráfico mayor de la esperada en una ciudad?

Análisis de punto caliente de las llamadas de emergencia al 911
El análisis de datos de llamadas de emergencia al 911 que muestran puntos calientes de llamadas (rojos), puntos fríos de llamadas (azules) y ubicaciones de las unidades policiales y de bomberos responsables de responder (cruces verdes)

Cada una de las preguntas anteriores preguntan "¿dónde?" La próxima pregunta lógica para los tipos de análisis anteriores incluye "¿por qué?"

  • ¿Por qué hay lugares en Estados Unidos donde se registra una tendencia constante de muertes de personas jóvenes? ¿Qué es lo que puede causar esto?
  • ¿Podemos modelar las características de los lugares que experimentan muchos delitos, llamadas al 911 o eventos de incendio para ayudar a reducir estos incidentes?
  • ¿Cuáles son los factores que contribuyen a más accidentes de tráfico de lo esperado? ¿Hay consecuencias políticas o acciones atenuantes que puedan reducir los accidentes de tráfico en la ciudad o en las áreas particulares de accidentes altos?

Estas herramientas incluyen regresión Mínimos cuadrados ordinarios (OLS) y Regresión ponderada geográficamente.

Relaciones espaciales

El análisis de regresión le permite modelar, examinar y explorar relaciones espaciales y puede ayudar a explicar los factores detrás de los patrones espaciales observados. Es posible que desee entender por qué las personas mueren constantemente jóvenes en ciertas regiones del país o qué factores contribuyen a tasas de diabetes más altas de lo esperado. Sin embargo, al modelar las relaciones espaciales, el análisis de regresión también se puede utilizar para la predicción. Modelar los factores que contribuyen a tasas de graduación universitaria, por ejemplo, le permite hacer predicciones sobre los próximos recursos y habilidades de la fuerza de trabajo. También puede utilizar la regresión para prever las precipitaciones o la calidad del aire en casos donde la interpolación no es suficiente debido a la escasez de estaciones de monitoreo (por ejemplo, los pluviómetros a veces son escasos en crestas de montaña y en valles).

OLS es la más conocida de todas las técnicas de regresión. También es el punto de inicio adecuado para todos los análisis de regresión espacial. Proporciona un modelo global de la variable o proceso que intenta entender o prever (muerte prematura/precipitación); crea una sola ecuación de regresión simple para representar ese proceso. La regresión ponderada geográficamente (GWR) es una de varias técnicas de regresión espacial, que se utiliza cada vez más en geografía y otras disciplinas. GWR proporciona un modelo local de la variable o proceso que intenta entender/prever al ajustar una ecuación de regresión a cada entidad en el dataset. Cuando se utilizan correctamente, estos modelos proporcionan estadísticas poderosas y confiables para examinar y calcular las relaciones lineales.

Las relaciones lineales son positivas o negativas. Si descubre que el número de eventos de búsqueda y rescate aumenta cuando aumentan las temperaturas diurnas, se dice que la relación es positiva; hay una correlación positiva. Otra forma de expresar esta relación positiva es decir que los eventos de búsqueda y rescate disminuyen a medida que disminuyen las temperaturas diurnas. Por el contrario, si descubre que la cantidad de delitos disminuye a medida que la cantidad de agentes de policía que patrullan un área aumenta, se dice que la relación es negativa. También puede expresar esta relación negativa al establecer que la cantidad de delitos aumenta a medida que la cantidad de agentes de policía que patrullan disminuye. El gráfico a continuación muestra relaciones positivas y negativas, así como también el caso donde no hay relación entre dos variables:

Relación positiva, Relación negativa, No hay relación
Gráficos de dispersión: una relación positiva, una relación negativa y un caso donde dos variables no se relacionan

Los análisis de correlación y sus gráficos asociados que se muestran anteriormente prueban la fortaleza de la relación entre las dos variables. Los análisis de regresión, por su parte, van más allá e intentan demostrar el grado hasta el cual una o más variables pueden favorecer un cambio positivo o negativo en otra variable.

Aplicaciones del análisis de regresión

El análisis de regresión se puede utilizar para una gran variedad de aplicaciones:

  • Modelar las altas tasas de retención escolar para entender mejor los factores que ayudan a mantener los niños en la escuela.
  • Modelar los accidentes de tráfico como una función de velocidad, condiciones de carretera, clima, etc., para informar la política que apunta a disminuir los accidentes.
  • Modelar la pérdida de propiedad por incendios como una función de variables como el grado de intervención del departamento de incendios, el tiempo de respuesta o los valores de propiedad. Si descubre que el tiempo de respuesta es el factor clave, es posible que deba crear más estaciones de bomberos. Si descubre que la intervención es el factor clave, es posible que deba aumentar el equipo y la cantidad de oficiales enviados.

Existen tres razones principales por las que puede desear utilizar el análisis de regresión:

  • Para modelar algún fenómeno para entenderlo mejor y posiblemente utilizar ese entendimiento para llevar a cabo la política o tomar decisiones sobre las medidas apropiadas a tomar. El objetivo básico es medir la extensión que cambia en una o más variables que en conjunto afectan los cambios en la otra. Ejemplo: entender las características clave del hábitat de algunas especies de pájaros particulares en peligro (quizás las precipitaciones, las fuentes de alimentos, la vegetación, los depredadores) para ayudar en el diseño de la legislación destinada a proteger esas especies.
  • Para modelar algún fenómeno para prever valores en otros lugares u otros tiempos. El objetivo básico es crear un modelo de predicción que sea consistente y preciso. Ejemplo: Dadas las proyecciones de crecimiento de la población y las condiciones climáticas normales, ¿cuál será la demanda de electricidad el próximo año?
  • También puede utilizar el análisis de regresión para explorar las hipótesis. Supongamos que modela los delitos residenciales para entenderlos mejor e implementar con optimismo la política que podría prevenirlos. A medida que comience su análisis, es probable que tenga preguntas o hipótesis que desee examinar:
    • La "Teoría de la ventana rota" indica que el destrozo de la propiedad pública (grafiti, estructuras dañadas, etc.) promueve otros delitos. ¿Habrá alguna relación positiva entre incidentes de vandalismo y robo residencial?
    • ¿Hay alguna relación entre el uso ilegal de drogas y los robos (los adictos a las drogas pueden robar para sustentar los hábitos)?
    • ¿Los ladrones son depredadores? ¿Podría haber más incidentes en las vecindades residenciales con mayores proporciones de ancianos u hogares liderados por mujeres?
    • ¿Las personas corren mayor riesgo de robo si viven en una vecindad rica o pobre?
    Puede utilizar el análisis de regresión para explorar estas relaciones y responder sus preguntas.

Términos y conceptos del análisis de regresión

Es imposible discutir el análisis de regresión sin familiarizarse primero con algunos términos y conceptos básicos específicos de la estadística de regresión:

Ecuación de regresión: esta es la fórmula matemática que se aplica a las variables explicativas para prever mejor la variable dependiente que intenta modelar. Desgraciadamente para aquellos geocientíficos que piensan en x e y como coordenadas, la anotación en las ecuaciones de regresión para la variable dependiente es siempre y y para la variable independiente o explicativa es siempre X. Cada variable independiente está asociada a un coeficiente de regresión que describe la longitud y el signo de la relación de esa variable con la variable dependiente. Una ecuación de regresión puede tener un aspecto como este (y es la variable dependiente, las X son las variables explicativas y las β son coeficientes de regresión; cada uno de estos componentes de la ecuación de regresión se explican en más detalle a continuación):

Ecuación de regresión de OLS
Elementos de una ecuación de regresión de OLS
  • Variable dependiente (y): es la variable que representa el proceso que intenta predecir o entender (robo residencial, ejecución hipotecaria, precipitaciones). En la ecuación de regresión, aparece en el lado izquierdo del signo igual. Mientras pueda utilizar la regresión para prever la variable dependiente, siempre comience con un grupo de valores y conocidos y utilícelos para crear (o para calibrar) el modelo de regresión. Los valores y conocidos a veces se denominan valores observados.
  • Variables independientes/explicativas (X): son las variables utilizadas para modelar o predecir los valores de la variable dependiente. En la ecuación de regresión, aparecen en el lado derecho del signo igual y a veces se denominan variables explicativas. La variable dependiente es una función de las variables explicativas. Si le interesa prever las compras anuales de una tienda propuesta, puede incluir en su modelo variables explicativas que representen la cantidad de clientes potenciales, la distancia a la competencia, la visibilidad de la tienda y los patrones de gastos locales, por ejemplo.
  • Coeficientes de regresión (β): coeficientes que calcula la herramienta de regresión. Son valores, uno para cada variable explicativa, que representan la fortaleza y el tipo de relación que tiene la variable explicativa con la variable dependiente. Supongamos que modela la frecuencia de incendios como una función de la radiación solar, la vegetación, las precipitaciones y el aspecto. Puede esperar una relación positiva entre la frecuencia de incendios y la radiación solar (en otras palabras, cuanto más sol haya, más frecuentes serán los incidentes de incendio). Cuando la relación es positiva, el signo del coeficiente asociado también es positivo. Puede esperar una relación negativa entre la frecuencia de incendios y las precipitaciones (en otras palabras, los lugares con más lluvias tienen menos incendios). Los coeficientes de las relaciones negativas tienen signos negativos. Cuando la relación es una relación sólida, el coeficiente es relativamente grande (relativo a las unidades de la variable explicativa con la que se asocia). Las relaciones débiles se asocian con coeficientes cercanos a cero; β0 es la interceptación de regresión.Representa el valor esperado para la variable dependiente si todas las variables independientes (explicativas) son cero.

Valores P: La mayoría de los métodos de regresión realizan una prueba estadística para calcular una probabilidad, llamada valor P, para los coeficientes asociados a cada variable independiente. La hipótesis nula para esta prueba estadística establece que un coeficiente no es significativamente distinto a cero (en otras palabras, para todos los intentos y propósitos, el coeficiente es cero y la variable explicativa asociada no ayuda al modelo). Los valores P pequeños reflejan pequeñas probabilidades y sugieren que el coeficiente es, sin duda, importante para su modelo con un valor que es significativamente distinto a cero (en otras palabras, un valor P pequeño indica que el coeficiente no es cero). Usted diría que un coeficiente con un valor P de 0,01, por ejemplo, es estadísticamente significativo en el 99 por ciento del nivel de confianza; la variable asociada es un indicador efectivo. Las variables con coeficientes cercanos a cero no ayudan a prever o modelar la variable dependiente; casi siempre se quitan de la ecuación de regresión, a menos que haya razones teóricas fuertes para mantenerlos.

R2/R cuadrado: R cuadrado múltiple y R cuadrado ajustado son estadísticas derivadas de la ecuación de regresión para cuantificar el rendimiento del modelo. El valor de R cuadrado va desde 0 a 100 por ciento. Si su modelo se ajusta perfectamente a los valores de la variable dependiente observados, R cuadrado es 1,0 (e indudablemente ha cometido un error; quizás utilizó una forma de y para prever y). Los más probable es que verá valores R cuadrado como 0,49, por ejemplo, que puede interpretar al decir: "Este modelo explica el 49 por ciento de la variación en la variable dependiente". Para entender a dónde está llegando el valor R cuadrado, cree un gráfico de barras que muestre los valores y estimados y observados ordenados por los valores estimados. Observe cuánta superposición hay. Este gráfico proporciona una representación visual de lo bien que los valores previstos del modelo explican la variación en los valores de la variable dependiente observados. Ver una ilustración. El valor R cuadrado ajustado siempre es un poquito más bajo que el valor R cuadrado múltiple porque refleja la complejidad del modelo (el número de variables) a medida que se relaciona con los datos. Por consiguiente, el valor R cuadrado ajustado es una medida más precisa del rendimiento del modelo.

Residuales: estas son la porción sin explicar de la variable dependiente, representada en la ecuación de regresión con el término de error aleatorio ε. Ver una ilustración. Los valores conocidos de la variable dependiente se utilizan para crear y calibrar el modelo de regresión. Al utilizar valores conocidos para la variable dependiente (y) y valores conocidos para todas las variables explicativas (las X), la herramienta de regresión construye una ecuación que preverá esos valores y conocidos y posibles. Sin embargo, los valores previstos raramente coinciden exactamente con los valores observados. La diferencia entre los valores y observados y los valores y previstos se llama residual. La magnitud de los residuales de una ecuación de regresión es una medida del ajuste del modelo. Los grandes residuales indican un ajuste del modelo pobre.

La creación de un modelo de regresión es un proceso iterativo que implica buscar variables independientes efectivas para explicar la variable dependiente que intenta modelar o entender, ejecutar la herramienta de regresión para determinar qué variables son indicadores efectivos, quitar o agregar repetidamente variables hasta que encuentre el mejor modelo de regresión posible. Mientras que el proceso de creación del modelo a veces es exploratorio, nunca debe ser una "expedición de pesca". Debe identificar posibles variables explicativas al consultar la teoría, expertos en el campo y el sentido común. Debe poder establecer y justificar la relación esperada entre cada variable explicativa posible y la variable dependiente antes del análisis, y debe cuestionar los modelos donde estas relaciones no coinciden.

Nota:

Si no ha probado el análisis de regresión anteriormente, este podría ser un buen momento para descargar el tutorial de Análisis de regresión y trabajar con los pasos 1 a 5.

Problemas del análisis de regresión

La regresión de OLS es un método simple, tiene una teoría bien desarrollada y posee una cantidad de diagnósticos efectivos para ayudar con la interpretación y la solución de problemas. Sin embargo, OLS sólo es efectivo y confiable si los datos y el modelo de regresión cumplen/satisfacen todas las presuposiciones requeridas intrínsecamente por este método (ver la tabla a continuación). Los datos espaciales a veces violan las presuposiciones y requisitos de la regresión de OLS, por eso es importante utilizar herramientas de regresión en conjunto con herramientas de diagnóstico apropiadas que puedan evaluar si la regresión es un método apropiado para el análisis, dada la estructura de los datos y el modelo que se implementará.

Cómo dejan de funcionar los modelos de regresión

Una violación grave de varios modelos de regresión es la mala especificación. Un modelo mal especificado es el que no está completo, le faltan variables explicativas importantes, por eso no representa en forma adecuada lo que está tratando de modelar o prever (la variable dependiente y). En otras palabras, el modelo de regresión no cuenta toda la historia. La mala especificación es evidente siempre que vea una autocorrelación espacial estadísticamente significativa en los residuales de regresión o, dicho de otra manera, siempre que observe que las predicciones excesivas y escasas (residuales) de su modelo tienden a agruparse espacialmente para que las predicciones excesivas se agrupen en algunas porciones del área de estudio y las predicciones escasas se agrupen en otras. Por lo general, al asignar los residuales de regresión o los coeficientes asociados con el análisis de Regresión ponderada geográficamente se obtendrán pistas sobre lo que se ha dejado atrás. Ejecutar el Análisis de punto caliente en los residuales de regresión también puede ayudar a revelar distintos regímenes espaciales que se pueden modelar en OLS con variables regionales o se pueden remediar mediante el método de regresión ponderada geográficamente. Supongamos que cuando asigna los residuales de regresión ve que el modelo siempre realiza predicciones excesivas en las áreas montañosas y predicciones escasas en los valles; probablemente concluirá que a su modelo le falta una variable de elevación. Sin embargo, habrá momentos donde las variables que faltan serán demasiado complejas de modelar o imposibles de cuantificar o demasiado difíciles de medir. En estos casos, podrá cambiar a GWR o a otro método de regresión espacial para obtener un modelo bien especificado.

La siguiente tabla enumera problemas comunes con los modelos de regresión y las herramientas disponibles en ArcGIS para ayudar a abordarlos:

Problemas, consecuencias y soluciones comunes de regresión

Variables explicativas omitidas (se especificaron mal).

Cuando faltan variables explicativas clave en un modelo de regresión, no se puede confiar en los coeficientes y en los valores P asociados.

Asigne y examine los residuales de OLS y los coeficientes GWR o ejecute el Análisis de punto caliente en los residuales de regresión de OLS para ver si esto proporciona pistas sobre las posibles variables que faltan.

Relaciones no lineales. Ver una ilustración.

OLS y GWR son métodos lineales. Si la relación entre cualquiera de las variables explicativas y la variable dependiente es no lineal, el modelo resultante tendrá un funcionamiento inadecuado.

Preste mucha atención a las relaciones que incluyen la variable dependiente. La curvilinealidad a veces se puede remediar al transformar las variables. Ver una ilustración. Alternativamente, utilice un método de regresión no lineal.

Valores atípicos de datos. Ver una ilustración.

Los valores atípicos influyentes pueden extraer relaciones de regresión modeladas del mejor ajuste, lo que afecta los coeficientes de regresión.

Corrija o quite los valores atípicos si representan errores. Cuando los valores atípicos son valores correctos/válidos, no se pueden/no se deben quitar. Ejecute la regresión con y sin los valores atípicos para ver cuánto afectan sus resultados.

No estacionariedad. Puede descubrir que una variable de ingresos, por ejemplo, tiene un fuerte poder explicativo en la región A pero es insignificante o incluso cambia los signos en la región B. Ver una ilustración.

Si las relaciones entre las variables dependientes y explicativas no son consistentes en el área de estudio, los errores estándar calculados se exagerarán artificialmente.

La herramienta OLS en ArcGIS evalúa automáticamente los problemas asociados con la no estacionariedad (variación regional) y calcula los valores del error estándar sólido. Ver una ilustración. Cuando la probabilidad asociada con la prueba Koenker es pequeña (<0,05, por ejemplo), tiene una variación regional estadísticamente significativa y debe consultar las probabilidades sólidas para determinar si una variable explicativa es estadísticamente significativa o no. A menudo mejorará los resultados del modelo al utilizar la herramienta Regresión ponderada geográficamente.

Multicolinealidad. Una o una combinación de variables explicativas es redundante. Ver una ilustración.

La multicolinealidad conduce a un tipo de influencia que cuenta más y a un modelo inestable/poco confiable.

La herramienta OLS en ArcGIS verifica automáticamente la redundancia. A cada variable explicativa se le otorga un valor VIF calculado. Cuando este valor es grande (> 7,5, por ejemplo), la redundancia es un problema y las variables ofensivas se deben quitar del modelo o se deben modificar al crear una variable de interacción o al incrementar el tamaño de la muestra. Ver una ilustración.

Varianza inconsistente en los residuales. Puede ser que el modelo prevea bien los valores pequeños de la variable dependiente pero se vuelve poco confiable para los valores grandes. Ver una ilustración.

Cuando el modelo hace una mala predicción de algún rango de valores, los resultados estarán influenciados.

La herramienta OLS en ArcGIS evalúa automáticamente la varianza inconsistente de residuales (llamada heteroscedasticidad) y calcula errores estándar que son sólidos para este problema. Cuando la probabilidad asociada con la prueba Koenker es pequeña (<0,05, por ejemplo), debe consultar las probabilidades sólidas para determinar si una variable explicativa es estadísticamente significativa o no. Ver una ilustración.

Residuales de autocorrelación espacial. Ver una ilustración.

Cuando hay clustering espacial de las predicciones escasas/excesivas que sale del modelo, se introduce un tipo de influencia que cuenta más y representa al modelo como poco confiable.

Ejecute la herramienta Autocorrelación espacial en los residuales para asegurarse de que no exhiban ningún clustering espacial estadísticamente significativo. La autocorrelación espacial estadísticamente significativa es casi siempre un síntoma de mala especificación (falta una variable clave en el modelo). Ver una ilustración.

Influencia de distribución normal. Ver una ilustración.

Cuando los residuales del modelo de regresión no se distribuyen normalmente con un valor medio de cero, los valores P asociados con los coeficientes son poco confiables.

La herramienta OLS en ArcGIS evalúa automáticamente si los residuales se distribuyen normalmente. Cuando la estadística Jarque-Bera es significativa (< 0,05, por ejemplo), es probable que su modelo esté mal especificado (falta una variable clave en el modelo) o que algunas de las relaciones que modela sean no lineales. Examine el mapa residual de salida y quizás los mapas de coeficiente GWR para ver si este ejercicio revela las variables clave que faltan en el análisis.

Problemas y soluciones comunes de regresión

Es importante verificar cada uno de los problemas que se enumeraron anteriormente. Los resultados pueden ser 100 por ciento incorrectos (180 grados diferentes) si se ignoran los problemas anteriores.

Nota:

Si no utilizó el análisis de regresión anteriormente, este podría ser un buen momento para descargar y trabajar con el tutorial de Análisis de regresión.

Regresión espacial

Los datos espaciales exhiben dos propiedades que hacen difícil (pero no imposible) cumplir con las presuposiciones y los requisitos de los métodos estadísticos (no espaciales) tradicionales, como la regresión de OLS:

  • En general, las entidades geográficas están autocorrelacionadas espacialmente; esto significa que las entidades cercanas tienden a ser más similares que las entidades que están más lejos. Esto crea un tipo de influencia que cuenta más para los métodos de regresión (no espaciales) tradicionales.
  • La geografía es importante y a veces los procesos más importantes para lo que está modelando son no estacionarios; estos procesos se comportan de manera diferente en distintas partes del área de estudio. Esta característica de los datos espaciales se puede denominar variación regional o no estacionariedad.

Los verdaderos métodos de regresión espacial se desarrollaron para administrar de manera sólida estas dos características de los datos espaciales e incluso incorporar estas cualidades especiales de los datos espaciales para mejorar su capacidad para modelar las relaciones de los datos. Algunos métodos de regresión espacial tratan de manera efectiva con la primera característica (autocorrelación espacial), otros tratan de manera efectiva con la segunda (no estacionariedad). En este momento, los métodos de regresión espacial son efectivos para las dos características. Sin embargo, para un modelo GWR especificado correctamente, la autocorrelación espacial por lo general no es un problema.

Autocorrelación espacial

Parece haber una gran diferencia entre cómo ve un estadístico tradicional la autocorrelación espacial y cómo ve un estadístico espacial la autocorrelación espacial. El estadístico tradicional la ve como algo malo que se debe quitar de los datos (a través del remuestreo, por ejemplo) porque la autocorrelación espacial viola las presuposiciones subyacentes de varios métodos estadísticos (no espaciales) tradicionales. Sin embargo, para el geógrafo o analista de SIG, la autocorrelación espacial es evidencia de procesos espaciales subyacentes importantes en el trabajo; es un componente integral de los datos. Al quitar espacio, se quitan los datos de su contexto espacial; es como obtener sólo la mitad de la historia. Los procesos espaciales y las relaciones espaciales evidentes en los datos son un interés principal y una de las razones por las que los usuarios de SIG se entusiasman con el análisis de datos espaciales. Sin embargo, para evitar un tipo de influencia que cuente más en su modelo, debe identificar el conjunto completo de variables explicativas que efectivamente capturen la estructura espacial inherente en su variable dependiente. Si no puede identificar todas estas variables, probablemente verá la autocorrelación espacial estadísticamente significativa en los residuales del modelo. Lamentablemente, los resultados de regresión no serán confiables hasta que esto se solucione. Utilice la herramienta Autocorrelación espacial para verificar la autocorrelación espacial estadísticamente significativa en los residuales de regresión.

Hay al menos tres estrategias para tratar con la autocorrelación espacial en los residuales del modelo de regresión:

  1. Remuestree hasta que las variables de entrada ya no exhiban una autocorrelación espacial estadísticamente significativa. Mientras que esto no garantiza que el análisis está libre de problemas de autocorrelación espacial, son mucho menos probables cuando se quita la autocorrelación espacial de las variables dependientes y explicativas. Este es el enfoque del estadístico tradicional para tratar con la autocorrelación espacial y sólo es apropiado si la autocorrelación espacial es el resultado de la redundancia de los datos (el esquema de muestreo es demasiado bueno).
  2. Aísle los componentes espaciales y no espaciales de cada variable de entrada mediante un método de regresión de filtrado espacial. El espacio se quita de cada variable, pero se vuelve a colocar en el modelo de regresión como una nueva variable para dar cuenta de los efectos espaciales/la estructura espacia. ArcGIS actualmente no proporciona métodos de regresión de filtrado espacial.
  3. Incorpore la autocorrelación espacial en el modelo de regresión mediante métodos de regresión econométricos espaciales. Los métodos de regresión econométricos espaciales se agregarán a ArcGIS en una futura versión.

Variación regional

Los modelos globales, como la regresión de OLS, crea ecuaciones que describen mejor las relaciones de datos generales en un área de estudio. Cuando esas relaciones son consistentes en el área de estudio, la ecuación de regresión de OLS modela bien esas relaciones. Sin embargo, cuando esas relaciones se comportan de manera diferente en distintas partes del área de estudio, la ecuación de regresión es más de un promedio de la mezcla de relaciones presentes y, en el caso donde esas relaciones representan dos extremos, el promedio global no modelará bien ningún extremo. Cuando las variables explicativas exhiben relaciones no estacionarias (variación regional), los modelos globales tienden a apartarse a menos que se utilicen métodos sólidos para calcular los resultados de regresión. Idealmente, podrá identificar un conjunto completo de variables explicativas para capturar la variación regional inherente en su variable dependiente. Sin embargo, si no puede identificar todas estas variables espaciales, volverá a observar una autocorrelación espacial estadísticamente significativa en los residuales del modelo o valores R cuadrado menores de lo esperado. Lamentablemente, los resultados de regresión no serán confiables hasta que esto se solucione.

Hay al menos cuatro formas de tratar con la variación regional en los modelos de regresión de OLS:

  1. Incluya una variable en el modelo que explique la variación regional. Por ejemplo, si ve que su modelo siempre realiza predicciones excesivas en el Norte y predicciones escasas en el Sur, agregue una variable regional establecida en 1 para las entidades del Norte y establecida en 0 para las entidades del Sur.
  2. Utilice métodos que incorporen variación regional en el modelo de regresión como Regresión ponderada geográficamente.
  3. Consulte las probabilidades y los errores estándar de regresión sólidos para determinar si los coeficientes de la variable son estadísticamente significativos. Aún se recomienda la regresión ponderada geográficamente.
  4. Redefina/reduzca el tamaño del área de estudio de manera que los procesos dentro de ésta sean todos estacionarios (para que ya no exhiban una variación regional).

Recursos adicionales

Para obtener más información sobre cómo utilizar las herramientas de regresión, consulte lo siguiente: