Cómo funciona la regresión exploratoria

Encontrar un modelo OLS correctamente especificado puede ser difícil, sobre todo cuando hay muchas posibles variables exploratorias que considera que pueden ser factores importantes que contribuyen a la variable que está intentando modelar (su variable dependiente). La herramienta Regresión exploratoria puede ayudar. Es una herramienta de minería de datos que probará todas las posibles combinaciones de variables exploratorias para determinar qué modelos pasan todos los diagnósticos OLS necesarios. Al evaluar todas las posibles combinaciones de las variables exploratorias candidatas, aumenta en gran medida la posibilidad de encontrar el mejor modelo para solucionar el problema o responder a la pregunta. En tanto que la Regresión exploratoria es similar a la regresión escalonada (que se encuentra en muchos paquetes de software estadístico), en lugar de buscar modelos con valores altos de R2 ajustado, la Regresión exploratoria busca modelos que cumplen todos los requisitos y supuestos del método OLS.

Uso de la herramienta Regresión exploratoria

Cuando ejecuta la herramienta Regresión exploratoria, especifica un número mínimo y máximo de variables explicativas que debería contener cada modelo, junto con los criterios de umbral de R2 ajustado, valores p de coeficiente, valores de factor de variabilidad de la inflación (VIF), valores p de Jarque-Bera y valores p de autocorrelación espacial. La regresión exploratoria ejecuta OLS en cada posible combinación de valores del parámetro Variables exploratorias candidatas correspondiente a modelos con al menos el valor del parámetro Número mínimo de variables explicativas y no más del valor del parámetro Número máximo de variables explicativas. Cada modelo que prueba se evalúa en función del valor del parámetro Criterios de búsqueda. Cuando encuentra un modelo:

  • Supera el umbral de R2 ajustado especificado
  • Con valores p de coeficiente, para todas las variables explicativas, es inferior al especificado
  • Con valores VIF de coeficiente, para todas las variables explicativas, es menor que el umbral especificado
  • Devolución de un valor p de Jarque-Bera superior al especificado

Entonces ejecuta la herramienta Autocorrelación espacial (I de Moran global) en los valores residuales de ese modelo. Si el valor p de autocorrelación espacial también es mayor que el especificado en los criterios de búsqueda de la herramienta (valor del parámetroValor p de autocorrelación espacial mínimo aceptable), el modelo figura como modelo de paso. La herramienta Regresión exploratoria también probará los valores residuales de regresión utilizando la herramienta de Autocorrelación espacial para modelos con los tres resultados de R2 ajustado más altos.

Los modelos que figuran en la sección del modelo de paso cumplen los criterios de búsqueda especificados. Si acepta los valores predeterminados de Valor límite máximo de valor p de coeficiente, Valor límite de valor VIF máximo, Valor p de Jarque-Bera mínimo aceptado y Valor p de autocorrelación espacial mínimo aceptado, los modelos de paso también serán modelos OLS correctamente especificados. Los modelos OLS correctamente especificados tienen las siguientes propiedades:

  • Variables explicativas en las que todos los coeficientes son estadísticamente significativos
  • Coeficientes que reflejan la relación prevista, o al menos una relación justificable, entre cada variable explicativa y la variable dependiente
  • Variables explicativas que representan diferentes aspectos de lo que está intentando modelar (ninguno es redundante, valores VIF pequeños, inferiores a 7,5)
  • Valores residuales distribuidos normalmente que indican que el modelo carece de sesgo (el valor p de Jarque-Bera no es estadísticamente significativo)
  • Predicciones por exceso o por defecto distribuidas aleatoriamente que indican que los valores residuales del modelo se distribuyen con normalidad (el valor p de autocorrelación espacial no es estadísticamente significativo)

Cuando especifica un valor en el parámetro Tabla de resultados de salida, los modelos que satisfagan el valor del parámetro Valor límite de valor VIF máximo y para los cuales todas las variables explicativas satisfagan el valor del parámetro Valor límite máximo de valor p de coeficiente se sobrescribirán en una tabla. Esta tabla es útil cuando se desea examinar más que solo esos modelos incluidos en el archivo del informe de texto.

Algunas precauciones

Tenga en cuenta que, igual que ocurre con el uso de métodos como la regresión escalonada, el empleo de la herramienta Regresión exploratoria es polémico. Aunque pueda considerarse una exageración, básicamente existen dos corrientes de pensamiento al respecto: el punto de vista del método científico y el punto de vista de la minería de datos.

Punto de vista del método científico

Un firme defensor del método científico podría oponerse a los métodos de regresión exploratoria. Desde su punto de vista, debería formalizar sus hipótesis antes de explorar los datos para evitar crear modelos que solo se adecuen a sus datos, pero no reflejen procesos más amplios. La construcción de modelos con sobreajuste a un dataset particular podría no ser relevante para otros datasets; de hecho, a veces incluso agregar nuevas observaciones dará lugar a que un modelo de sobreajuste se vuelva inestable (el rendimiento podría reducirse o la importancia del coeficiente de la variable explicativa podría disminuir). Si el modelo no es robusto, incluso para nuevas observaciones, no está llegando a los procesos clave para lo que está intentando modelar.

Asimismo, tiene que darse cuenta de que las estadísticas de regresión están basadas en la teoría de la probabilidad y cuando ejecuta miles de modelos, aumenta en gran medida la probabilidad de rechazar la hipótesis nula de forma incorrecta (error estadísticos de tipo 1). Cuando selecciona un nivel de confianza del 95 por ciento, por ejemplo, está aceptando un riesgo concreto; si pudiese muestrear los datos 100 veces, la probabilidad indica que hasta 5 de cada 100 muestra arrojaría falsos positivos. Se calculan los valores p de cada coeficiente; la hipótesis nula es que el coeficiente es realmente cero y, por tanto, la variable explicativa asociada con ese coeficiente no ayuda a su modelo. La teoría de la probabilidad indica que, en hasta 5 de 100 muestras, el valor p podría ser estadísticamente significativa solo porque ha seleccionado las observaciones que respaldan falsamente esa conclusión. Cuando solo ejecuta un modelo, un nivel de confianza del 95 por ciento parece conservador. A medida que aumenta el número de modelos que prueba, reduce la capacidad de extraer conclusiones de sus resultados. La herramienta Regresión exploratoria puede probar miles de modelos en unos cuantos minutos. El número de modelos probado se indica en la sección de resumen global del valor del parámetro Archivo de informe de salida.

Punto de vista de minería de datos

Por su parte, los investigadores que defienden la minería de datos probablemente piensen que es imposible conocer a priori todos los factores que contribuyen a cualquier resultado determinado del mundo real. Las preguntas que intentamos responder a menudo son complejas y puede no existir una teoría sobre un tema particular o puede estar obsoleta. Los mineros de datos son grandes defensores de los análisis inductivos, como los que proporciona la regresión exploratoria. Fomentan el pensamiento libre y el uso de métodos de regresión exploratoria para desarrollar hipótesis.

Recomendaciones

La herramienta Regresión exploratoria puede ser una herramienta de minería de datos valiosa que puede ayudar encontrar un modelo OLS correctamente especificado. Es recomendable que siempre elija variables de regresión explicativa candidatas respaldadas por la teoría, las directrices de expertos y el sentido común. Calibre sus modelos de regresión utilizando una porción de los datos y valídelos en función del resto o valide el modelo en datasets adicionales. Si piensa sacar conclusiones de sus resultados, también debería realizar análisis de sensibilidad, como arranque.

El uso de la herramienta Regresión exploratoria ofrece ventajas en comparación con otros métodos exploratorios que solo evalúan el rendimiento del modelo en términos de valores de R2 ajustado. La herramienta Regresión exploratoria busca modelos que pasen todos los diagnósticos OLS descritos antes.