Disponible en análisis de big data.
La herramienta Regresión lineal generalizada realiza una regresión lineal generalizada (GLR) para generar predicciones o para modelar una variable dependiente en cuanto a su relación con un conjunto de variables explicativas. Esta herramienta se puede usar para ajustar los tipos de modelo Continuo (gaussiano), Recuento (Poisson) y Binario (logístico).
Diagrama de flujo de trabajo
Ejemplo
Como analista de una ciudad grande, tiene acceso a los anteriores registros de llamadas al 911 e información demográfica. Debe responder a las siguientes preguntas: ¿Qué variables prevén de manera efectiva el volumen de llamadas al 911? Dadas las proyecciones futuras, ¿cuál es la demanda esperada para los recursos de respuesta de emergencia?
Notas de uso
Tenga en cuenta lo siguiente cuando trabaje con la herramienta Regresión lineal generalizada:
- Esta herramienta se puede configurar para realizar uno de los dos métodos operativos:
- Método 1: si solo se proporcionan datos de destino (entrenamiento), la herramienta ajustará un modelo para evaluar el rendimiento del modelo. A continuación, la herramienta le permite evaluar el rendimiento de distintos modelos al explorar distintas variables explicativas y ajustes de la herramienta.
- Método 2: una vez que ha identificado un modelo adecuado y variables explicativas, configure el modelo para proporcionar también datos de unión (predicción). Cuando se configuran los datos de unión, la herramienta predecirá valores para la variable dependiente de las entidades de sus datos de unión (predicción) en función de las variables explicativas asignadas.
- Utilice el parámetro Variable dependiente para seleccionar un campo de la Capa de entrada de destino (datos de entrenamiento) que represente el fenómeno que está modelando. Use el parámetro Variables explicativas para seleccionar uno o varios campos que representen las variables explicativas de la Capa de entrada de destino (datos de entrenamiento). Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en las variables explicativa o dependiente se excluirán del análisis. Para modificar valores nulos, use la herramienta Calcular campo antes de actualizar los valores.
- La herramienta Regresión lineal generalizada también produce entidades y diagnósticos de salida. Las capas de entidades de salida tienen aplicado automáticamente un esquema de representación a los residuales del modelo. A continuación, se proporciona una explicación completa de cada salida.
- Es importante usar el tipo de modelo correcto (Continuo (gaussiano), Recuento (Poisson) o Binario (logístico)) para el análisis con el fin de obtener resultados precisos del análisis de regresión.
- Los diagnósticos y resultados del resumen del modelo se escriben en los registros analíticos, así como en la página de detalles del elemento de la capa de entidades de salida. Estos diagnósticos incluyen un resumen del modelo Regresión lineal generalizada y resúmenes estadísticos que se utilizan para evaluar si un modelo es un buen ajuste para los datos. Los diagnósticos devueltos dependen del tipo de modelo elegido. Las tres opciones para Tipo de modelo son las siguientes:
- Continuo (gaussiano): utilícelo si la variable dependiente puede obtener un amplio rango de valores, por ejemplo, temperatura o ventas totales. Lo ideal sería que la variable dependiente presentara una distribución normal.
- Recuento (Poisson): utilícelo si la variable dependiente es discreta y representa el número de ocurrencias de un evento, por ejemplo, un recuento de delitos. Los modelos de recuento también se pueden utilizar si la variable dependiente representa una tasa y el denominador de esta es un valor fijo como, por ejemplo, las ventas mensuales o el número de gente con cáncer por cada 10.000 habitantes. Un tipo de modelo Recuento (Poisson) presupone que el valor medio y la varianza de la variable dependiente son iguales y que los valores de la variable dependiente no pueden ser negativos ni contener decimales.
- Binario (logístico): utilícelo si la variable dependiente puede obtener uno de dos valores posibles, por ejemplo, éxito o fracaso, o presencia o ausencia. El campo que contiene la variable dependiente debe ser numérico y solo debe contener unos y ceros. Debe existir una variación de los unos y los ceros de los datos.
- Los parámetros Variable dependiente y Variable(s) explicativa(s) deben ser campos numéricos con un rango de valores. Esta herramienta no puede resolver cuando las variables tienen los mismos valores (por ejemplo, si todos los valores de un campo son 9,0).
- Las entidades con uno o varios valores nulos o valores de cadena de caracteres vacíos en campos explicativos o de predicción se ejecutarán desde la salida. Si es necesario, modifique los valores con la herramienta Calcular campo.
- Inspeccione visualmente las sobrepredicciones y las subpredicciones que sean evidentes en los residuales de regresión para ver si ofrecen pistas sobre las posibles variables que falten en el modelo de regresión.
- Utilice el modelo de regresión que se ha creado para realizar predicciones para otras entidades. Crear dichas predicciones requiere que cada una de las entidades de predicción (dataset de unión) tenga valores para cada una de las variables explicativas especificadas. Se proporciona una configuración de asignación de variable explicativa para correlacionar nombres de campo de variables explicativas de las entidades de destino (entrenamiento) y de unión (predicción). Al comparar los campos de las variables explicativas, los campos de las entidades de destino (datos de entrenamiento) y de unión (datos de predicción) deben ser del mismo tipo (por ejemplo, los campos dobles deben corresponderse con los campos dobles).
Parámetros
A continuación, se indican los parámetros de la herramienta Regresión lineal generalizada:
Parámetro | Descripción | Tipo de datos |
---|---|---|
Capa de entrada de destino (datos de entrenamiento) | Las entidades de entrenamiento utilizadas para generar un modelo. | Entidades |
Capa de entrada de unión (datos de predicción) (Opcional) | Las entidades de predicción para las que se predecirá la variable dependiente en función de las variables explicativas y el tipo de modelo especificados. Este parámetro es opcional. Si no se especifica, la herramienta Regresión lineal generalizada ajustará un modelo para evaluar el rendimiento del modelo en función de los datos de entrenamiento. | Entidades |
Tipo de modelo | Especifica el tipo de modelo que se va a utilizar. El tipo de modelo elegido depende del tipo de datos del campo de variable dependiente. Entre las opciones de tipo de modelo se incluyen las siguientes:
| Cadena de caracteres |
Variable dependiente | Especifica el campo que representa el fenómeno que se está modelando. | FieldName |
Asignación de texto a cero | En el tipo de modelo Binario (logístico), si se especifica un campo de cadena de caracteres para la Variable dependiente, este parámetro se puede utilizar para especificar que la cadena de caracteres en la variable dependiente se convierta en cero. | Cadena de caracteres |
Asignación de texto a uno | En el tipo de modelo Binario (logístico), si se especifica un campo de cadena de caracteres para la Variable dependiente, este parámetro se puede utilizar para especificar que la cadena de caracteres en la variable dependiente se convierta en uno. | Cadena de caracteres |
Variables explicativas | Campo o campos del esquema de destino para representar variables explicativas independientes en el modelo de regresión. | FieldNames |
Asignación de variables explicativas (solo predicción) | Asigna los nombres de campo de variable explicativa seleccionados en el esquema de destino (entrenamiento) a los nombres de campo correspondientes en el esquema de unión (predicción). Este parámetro es opcional. Las asignaciones de variables explicativas solo se deben especificar si se especifican datos de unión (predicción). | ExplanatoryVariableMappings |
Capa de salida
La herramienta Regresión lineal generalizada produce una variedad de salidas. Dispone de un resumen del modelo Regresión lineal generalizada y resúmenes estadísticos en la página de detalles del elemento de la capa de entidades de salida o en los registros del análisis.
Si se implementa el Método 1 de esta herramienta para simplemente ajustar un modelo para evaluar el rendimiento, los datos de entrenamiento serán la salida, así como los mensajes y diagnósticos disponibles en los detalles del elemento de la capa de entidades de salida, además de los resultados en los registros del análisis.
Si se implementa el Método 2 de esta herramienta para ajustar un modelo y predecir valores, los datos de predicción serán la salida con los valores predichos incorporados, así como los mensajes y diagnósticos disponibles en los detalles del elemento de la capa de entidades de salida, además de los resultados en los registros del análisis.
Los diagnósticos generados dependen del tipo de modelo de las entidades de entrada y se describen a continuación.
Continuo (gaussiano)
Interpretar mensajes y diagnósticos
- AIC: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AIC más bajo proporciona un mejor ajuste de los datos observados. AIC no es una medida absoluta de la bondad de ajuste, pero es útil para comparar modelos con distintas variables explicativas, siempre y cuando se apliquen a la misma variable dependiente. Si los valores AIC para los dos modelos difieren por más de 3, el modelo con el valor AIC más bajo se considera más preciso.
- AICc: AICc aplica una corrección sesgada a AIC para tamaños de muestra pequeños. AICc tomará AIC como la cantidad de entidades del aumento de entrada. Consulte AIC arriba.
- R cuadrado múltiple: R cuadrado es una medida de la bondad de ajuste. Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión. El denominador para el cómputo de R cuadrado es la suma de los valores de la variable dependiente al cuadrado. Agregar una variable explicativa extra al modelo no altera el denominador, pero sí altera el numerador; esto brinda la impresión de mejora en el ajuste del modelo que puede no ser real. Consulte R cuadrado ajustado a continuación.
- R cuadrado ajustado: dado el problema descrito anteriormente para el valor R cuadrado, los cálculos para el valor R cuadrado ajustado normalizan el numerador y denominador mediante por sus grados de libertad. Tiene el efecto de compensar el número de variables en un modelo y, por consiguiente, el valor R cuadrado ajustado es casi siempre menor que el valor R cuadrado. Sin embargo, al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. En la Regresión ponderada geográficamente (GWR), el número efectivo de grados de libertad es una función de la vecindad utilizada, por lo tanto el ajuste puede estar bastante marcado en comparación con un modelo global como, por ejemplo, GLR. Por esta razón, se prefiere el AICc como medio de comparación de los modelos.
Recuento (Poisson)
Interpretar mensajes y diagnósticos
- AIC: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AIC más bajo proporciona un mejor ajuste de los datos observados. AIC no es una medida absoluta de la bondad de ajuste, pero es útil para comparar modelos con distintas variables explicativas, siempre y cuando se apliquen a la misma variable dependiente. Si los valores AIC para los dos modelos difieren por más de 3, el modelo con el valor AIC más bajo se considera más preciso.
- AICc: AICc aplica una corrección sesgada a AIC para tamaños de muestra pequeños. AICc tomará AIC como la cantidad de entidades del aumento de entrada. Consulte AIC arriba.
Binario (logístico)
Interpretar mensajes y diagnósticos
- AIC: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AIC más bajo proporciona un mejor ajuste de los datos observados. AIC no es una medida absoluta de la bondad de ajuste, pero es útil para comparar modelos con distintas variables explicativas, siempre y cuando se apliquen a la misma variable dependiente. Si los valores AIC para los dos modelos difieren por más de 3, el modelo con el valor AIC más bajo se considera más preciso.
- AICc: AICc aplica una corrección sesgada a AIC para tamaños de muestra pequeños. AICc tomará AIC como la cantidad de entidades del aumento de entrada. Consulte AIC arriba.
Consideraciones y limitaciones
La implementación en ArcGIS Velocity de Regresión lineal generalizada presenta las siguientes limitaciones:
- Es un modelo de regresión global y no tiene en cuenta la distribución espacial de los datos.
- El análisis no aplica la prueba I de Moran en los residuales.
- Se admiten puntos, líneas, polígonos y tablas como geometría de dataset de destino (datos de entrenamiento).
- No puede clasificar valores en varias clases.