Cuando ejecuta la herramienta Regresión exploratoria, la salida principal es un informe. El informe se escribe como mensajes de geoprocesamiento mientras se ejecuta la herramienta y también se puede acceder a él desde el historial de geoprocesamiento del proyecto. También puede generar una tabla para ayudarle a investigar más a fondo los modelos que se han probado. Un propósito del informe es ayudarlo a determinar si las variables explicativas candidatas producen algún modelo de OLS especificado adecuadamente. En caso de que ningún modelo cumpla todos los criterios que especificó cuando inició la herramienta Regresión exploratoria, la salida seguirá revelando qué variables son predictores más coherentes y le ayudará a determinar qué diagnósticos causan problemas. Las estrategias para corregir problemas asociados con cada uno de los diagnósticos se proporcionan en Lo que no le dicen sobre el análisis de regresión y Conceptos básicos del análisis de regresión (consulte Problemas, consecuencias y soluciones comunes de regresión). Para obtener más información sobre cómo determinar si tiene un modelo de OLS especificado adecuadamente, consulte Conceptos básicos del análisis de regresión.
Detalles del informe
El informe de la herramienta Regresión exploratoria tiene cinco secciones. Cada sección se describe a continuación.
- Mejores modelos por número de variables explicativas
- Resumen global de regresión exploratoria
- Resumen de significancia de la variable
- Resumen de multicolinealidad
- Resúmenes de diagnóstico adicionales
Mejores modelos por número de variables explicativas
El primer conjunto de resúmenes del informe de salida se agrupa por el número de variables explicativas en los modelos probados. Si define 1 para el parámetro Número mínimo de variables explicativas y 5 para el para el parámetro Número máximo de variables explicativas, tendrá cinco secciones de resumen. Cada sección enumera los tres modelos con los valores de R2 ajustado más elevados y todos los modelos aprobados. Cada sección de resumen también incluye los valores de diagnóstico para cada modelo enumerado: Criterio de información de Akaike corregido (AICc), valor p de Jarque-Bera (JB), valor p de Breusch-Pagan estudentizado de Koenker (K(BP)), Factor de inflación de la varianza (VIF) más grande y una medida de la Autocorrelación espacial (SA) residual (valor p de I de Moran global). Estos resúmenes le dan una estimación de hasta qué punto sus modelos están realizando predicciones correctas (R2 ajustado) y si los modelos satisfacen todos los criterios de diagnóstico que especificó. Si aceptó todos los criterios de búsqueda predeterminados (parámetros R cuadrado ajustado mínimo aceptado, Valor límite máximo de valor p de coeficiente, Valor límite de valor VIF máximo, Valor p de Jarque-Bera mínimo aceptado y Valor p de autocorrelación espacial mínimo aceptado), todos los modelos incluidos en la lista de Modelos aprobados serán modelos de OLS especificados correctamente.
Si no hay ningún modelo aprobado, el resto del informe de salida aún proporciona información útil sobre las relaciones de las variables y puede ayudarle a tomar decisiones acerca de cómo avanzar.
Resumen global de regresión exploratoria
La sección Resumen general de regresión exploratoria es un punto importante por el que comenzar, especialmente si no ha encontrado ningún modelo aprobado, ya que le muestra por qué no se aprueba ninguno de los modelos. En esta sección se muestran las cinco pruebas de diagnóstico y el porcentaje de modelos que aprobó cada una de esas pruebas. Si no tiene ningún modelo que apruebe, este resumen puede ayudarle a determinar qué prueba de diagnóstico está causando problemas.
A menudo, el diagnóstico que causa problemas es la prueba I de Moran global para la Autocorrelación espacial (SA). Cuando todos los modelos probados tienen residuales de regresión autocorrelacionados espacialmente, a menudo indica que faltan variables explicativas clave. Una de las mejores formas de encontrar las variables explicativas que faltan es examinar el mapa de los residuales que genera la herramienta Regresión de mínimos cuadrados ordinarios (OLS). Elija uno de los modelos de regresión exploratoria que funcionan bien para el resto de criterios (utilice las listas de los valores R cuadrado ajustados más elevados o seleccione un modelo de los que se encuentren en la tabla de salida opcional) y ejecute la regresión de OLS con ese modelo. La salida de la herramienta Regresión de mínimos cuadrados ordinarios (OLS) es un mapa de los residuales del modelo. Debe examinar los residuales para ver si proporcionan pistas sobre lo que puede faltar. Intente considerar tantas variables espaciales candidatas como pueda (por ejemplo, la distancia a las principales autopistas, hospitales u otras entidades geográficas clave). Plantéese probar las variables del régimen espacial: si todas las subpredicciones están en las áreas rurales, por ejemplo, cree una variable de marcador de posición para ver si mejora los resultados de la regresión exploratoria.
El otro diagnóstico que comúnmente es problemático es la prueba Jarque-Bera de residuales normalmente distribuidos. Cuando ninguno de los modelos supera la prueba Jarque-Bera (JB), existe un problema con el sesgo del modelo. Entre los orígenes comunes del sesgo del modelo se incluyen:
- Relaciones no lineales
- Valores atípicos de datos
La visualización de una matriz de gráficos de dispersión de las variables explicativas del candidato en relación con su variable dependiente le mostrará si tiene cualquiera de estos problemas. Las estrategias adicionales se describen en Conceptos básicos del análisis de regresión. Si sus modelos fallan en la prueba de SA, corrija primero esos problemas. La influencia puede ser el resultado de la ausencia de las variables explicativas.
Resumen de significancia de la variable
La sección Resumen de significancia de la variable proporciona información sobre relaciones de variables y la coherencia de dichas relaciones. Cada variable explicativa candidata se enumera junto con el porcentaje de veces en que fue estadísticamente significativa. Las primeras variables de la lista tienen los valores más elevados de la columna % significativo. También puede ver la estabilidad de las relaciones de las variables examinando las columnas % negativo y % positivo. Los indicadores más potentes serán coherentemente significativos (% significativo) y la relación será estable (principalmente negativo o principalmente positivo).
Esta parte del informe también puede ayudarle a ser más eficiente. Es especialmente importante al trabajar con un gran número de variables explicativas candidatas (más de 50) y desea probar modelos con cinco o más predictores. Cuando tiene un gran número de variables explicativas y está probando muchas combinaciones, los cálculos pueden tomar mucho tiempo. En algunos casos, la herramienta no terminará debido a errores de memoria. Una práctica recomendada consiste en aumentar gradualmente el número de modelos probados: empiece configurando los parámetros Número mínimo de variables explicativas y Número máximo de variables explicativas en 2, luego 3, luego 4, etc. Con cada ejecución, elimine las variables que rara vez son estadísticamente significativas en los modelos probados. La sección Resumen de significancia de la variable le ayudará a encontrar las variables que son indicadores sistemáticamente potentes. Incluso eliminar una sola variable explicativa candidata de su lista puede reducir significativamente el tiempo que tarda la herramienta Regresión exploratoria en completarse.
Resumen de multicolinealidad
Puede utilizar la sección Resumen de multicolinealidad del informe junto con la sección Resumen de significancia de la variable para comprender qué variables explicativas candidatas se pueden eliminar del análisis para mejorar el rendimiento. La sección Resumen de multicolinealidad indica cuántas veces se incluyó cada variable explicativa en modelos con alta multicolinealidad, y el resto de variables explicativas que también se incluyeron en dichos modelos. Cuando dos (o más) variables explicativas suelen estar juntas con frecuencia en modelos con alta multicolinealidad, quiere decir que esas variables pueden estar proporcionando los mismos resultados. Puesto que solo desea incluir variables que expliquen un aspecto único de la variable dependiente, plantéese elegir solo una de las variables redundantes para incluirla en análisis posteriores. Un método es utilizar la variable de redundancia más potente en base a los resultados de Resumen de significancia de la variable.
Resúmenes de diagnóstico adicionales
Los resúmenes finales de diagnóstico muestran los valores P de Jarque-Bera más elevados (Resumen de normalidad residual) y los valores P de I de Moran global más elevados (Resumen de autocorrelación residual). Para pasar estas pruebas de diagnóstico, usted busca valores p grandes.
Estos resúmenes no son especialmente útiles cuando sus modelos aprueban la prueba Jarque-Bera y Autocorrelación espacial (I de Moran global), porque si sus criterios para la significancia estadística son 0,1, todos los modelos con valores mayores que 0,1 son modelos que aprueban por igual. Estos resúmenes son útiles, sin embargo, cuando no se tiene ningún modelo que pase la prueba y desea ver lo lejos que está de haber distribuido normalmente los residuales o residuales que estén libres de la autocorrelación espacial estadísticamente significativa. Por ejemplo, si todos los valores p del resumen Jarque-Bera son 0,000000, es claro que está lejos de tener residuales distribuidos normalmente. Como alternativa, si los valores p son 0,092, está cerca de tener residuales distribuidos normalmente (de hecho, en función del nivel de significado que eligió, puede que un valor p de 0,092 sea apto). Estos resúmenes demuestran lo grave que es el problema y, cuando ninguno de los modelos aprueba, indican qué variables están asociadas con los modelos que casi aprueban.
Detalles de tabla
Si proporcionó un valor para el parámetro Tabla de resultados de salida, se creará una tabla que contendrá todos los modelos que cumplen sus criterios de Valor límite máximo de valor p de coeficiente y Valor límite de valor VIF máximo. Incluso si no tiene ningún modelo que apruebe, es probable que tenga algunos modelos en la tabla de salida. Cada fila de la tabla representa un modelo que reúne sus criterios para los valores del coeficiente y valores VIF. Las columnas en la tabla proporcionan el diagnóstico del modelo y las variables explicativas. Los diagnósticos que se enumeran son R cuadrado ajustada (R2), Criterio de información de Akaike corregido (AICc), valor p de Jarque-Bera (JB), valor p de Breusch-Pagan estudentizado de Koenker (BP), Factor de inflación de la varianza (VIF) y valor p de I Moran global (SA). Es posible que quiera ordenar los modelos por sus valores AICc. Mientras más bajo sea el valor de AICc, mejor es el modelo a realizar. Puede ordenar los valores de AICc en ArcMap haciendo doble clic en la columna AICc. Si elige un modelo para utilizar en un análisis de OLS (para examinar los residuales), asegúrese de elegir un modelo con un valor de AICc bajo y aprobar valores para tantos de los otros diagnósticos como sea posible. Por ejemplo, si ha examinado su informe de salida y sabe que Jarque-Bera fue el diagnóstico que provocó problemas, busque el modelo con el valor de AICc más bajo que cumpla todos los criterios salvo Jarque-Bera.
Recursos adicionales
Si está empezando con el análisis de regresión en ArcGIS, se recomienda que vea Análisis de regresión: creación de un modelo de regresión utilizando ArcGIS Pro y después complete el tutorial Análisis de regresión.
También puede consultar estos recursos:
- Más información sobre cómo funciona la Regresión exploratoria
- Lo que no le cuentan sobre el análisis de regresión
- Conceptos básicos del análisis de regresión
Burnham, K.P. y D.R. Anderson. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2.ª edición. New York: Springer. Sección 1.5.