Generalized Linear Regression (Régression linéaire généralisée)

Icône d’outil Disponible dans les analyses de Big Data.

L'outil Régression linéaire généralisée Outil Régression linéaire généralisée effectue une régression linéaire généralisée (GLR) en vue de générer des prévisions ou de modéliser une variable dépendante en fonction de sa relation à un ensemble de variables explicatives. Cet outil permet d’adapter des modèles de type Continuous (Gaussian) (Continu (gaussien)), Count (Poisson) (Total (Poisson)) et Binary (Logistic) (Binaire (logistique)) .

Diagramme de workflow

Diagramme de workflow Régression linéaire généralisée

Exemple

En tant qu’analyste pour une grande ville, vous avez accès à l’historique des appels aux services d’urgence, ainsi qu'aux informations démographiques. Vous devez répondre aux questions suivantes : quelles variables prévoient efficacement le volume des appels aux services d’urgence ? Sur la base des projections à venir, quelle est la demande attendue en termes de ressources pour les services d'urgence ?

Remarques sur l’utilisation

Gardez les points suivants à l’esprit lorsque vous utilisez l’outil Régression linéaire généralisée :

  • Cet outil peut être configuré pour effectuer une ou deux méthodes opérationnelles :
    • Méthode 1 : si seules les données cibles (entraînement) sont fournies, l'outil s'adapte à un modèle pour en évaluer les performances. L'outil vous permet alors d'évaluer les performances des différents modèles lorsque vous explorez différentes variables explicatives et divers paramètres d’outil.
    • Méthode 2 : une fois que vous avez identifié un modèle approprié et des variables explicatives, configurez le modèle pour qu'il fournisse également des données de jointure (prévision). Si les données de jointure sont configurées, l'outil prévoit les valeurs des variables dépendantes des entités de vos données de jointure (prévision) en fonction des variables explicatives appairées.
  • Utilisez le paramètre Dependent variable (Variable dépendante) pour sélectionner un champ de la Target Input Layer (training data) (Couche en entrée cible (données d'entraînement)) qui représente le phénomène que vous modélisez. Utilisez le paramètre Explanatory variables (Variables explicatives) pour sélectionner un ou plusieurs champs représentant les variables explicatives de la Target Input Layer (training data) [Couche en entrée cible (données d'entraînement)]. Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui contiennent les valeurs manquantes dans la variable dépendante ou explicative seront exclues de l’analyse. Pour modifier les valeurs nulles, utilisez l’outil Calculate Field (Calculer un champ) avant de mettre à jour les valeurs.
  • L’outil Régression linéaire généralisée produit également des entités en sortie et des diagnostics. Dans les couches d’entités en sortie, un schéma de rendu est automatiquement appliqué aux valeurs résiduelles du modèle. Une explication complète de chaque sortie est fournie ci-dessous.
  • Il est important d’utiliser le bon type de modèle Continuous (Gaussian) [Continu (gaussien)], Count (Poisson) [Total (Poisson)] ou Binary (Logistic) [Binaire (logistique)] pour votre analyse afin d’obtenir des résultats précis de votre analyse de régression.
  • Les résultats et diagnostics des résumés de modèle sont écrits dans les journaux d'analyse, ainsi que dans la page des détails des éléments de la couche d’entités en sortie. Ces diagnostics incluent un résumé du modèle de Régression linéaire généralisée et des résumés statistiques permettant de déterminer si un modèle est adapté aux données. Les diagnostics signalés dépendent du type de modèle choisi. Les trois options de Model Type (Type de modèle) sont les suivantes :
    • Continuous (Gaussian) (Continu (gaussien)) : utilisez ce type de modèle si la variable dépendante peut adopter une plage de valeurs étendue, comme la température ou un volume total de ventes. Il est recommandé que la variable dépendante soit distribuée normalement.
    • Count (Poisson) (Total (Poisson)) : utilisez ce type de modèle si la variable dépendante est discrète et représente le nombre d'occurrences d’un événement, tel que le nombre de délits. Les modèles de type Total peuvent également être utilisés si la variable dépendante représente un taux et que le dénominateur du taux est une valeur fixe telle que les ventes mensuelles ou le nombre de cas de cancer sur 10 000 personnes parmi la population totale. Le type de modèle Count (Poisson) (Total (Poisson)) suppose que la moyenne et la variance de la variable dépendante sont identiques et que les valeurs de la variable dépendante ne peuvent pas être négatives ou contenir de décimale.
    • Binary (Logistic) [Binaire (logistique)] : utilisez ce type de modèle si la variable dépendante peut adopter l’une des deux valeurs possibles, telles que réussite ou échec, ou présence ou absence. Le champ contenant la variable dépendante doit être un champ numérique et ne contenir que des uns et des zéros. Les données doivent présenter une variation des valeurs un et zéro.
  • Les paramètres Dependent Variable (Variable dépendante) et Explanatory variable(s) (Variables explicatives) doivent être des champs numériques contenant une plage de valeurs. Cet outil ne peut pas être résolu si les variables possèdent toutes la même valeur (par exemple, si toutes les valeurs d'un champ sont définies sur 9,0).
  • Les entités qui comportent une ou plusieurs valeurs nulles ou encore des valeurs de chaîne vide dans les champs de prévision ou explicatifs seront exclues de la sortie. Si nécessaire, modifiez les valeurs à l'aide de l'outil Calculate Field (Calculer un champ).
  • Étudiez les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression afin de trouver des indices permettant de déterminer s'il manque des variables dans votre modèle de régression.
  • Utilisez le modèle de régression créé pour effectuer des prévisions pour les autres entités. La création de ces prévisions exige que chaque entité de prévision (jeu de données de jointure) possède des valeurs pour chacune des variables explicatives spécifiées. Une configuration d’appariement des variables explicatives est fournie pour apparier les noms de champ de la variable explicative à partir des entités cibles (entraînement) et des entités de jointure (prévision). Lors de l’appariement des champs de variable explicative, les champs des entités cibles (données d’entraînement) et des entités de jointure (données de prévision) doivent être de même type (par exemple, les champs doubles doivent être appariés à des champs doubles).

Paramètres

Les paramètres de l’outil Régression linéaire généralisée sont les suivants :

ParamètreDescriptionType de données

Couche en entrée cible (données d'entraînement)

Entités d'entraînement utilisées pour générer un modèle.

Entités

Couche en entrée de jointure (données de prévision)

(Facultatif)

Entités de prévision pour lesquelles la variable dépendante est prédite en fonction des variables explicatives et du type de modèle spécifiés.

Ce paramètre est facultatif. S'il n'est pas spécifié, l'outil Generalized Linear Regression (Régression linéaire généralisée) adapte un modèle pour en évaluer les performances en fonction des données d'entraînement.

Entités

Model type

Spécifie le type de modèle à utiliser. Le type de modèle choisi dépend du type de données dans le champ de la variable dépendante. Les options du type de modèle sont notamment les suivantes :

  • Continuous (Gaussian) (Continu (gaussien)) : choisissez ce type de modèle si la variable dépendante peut adopter une plage de valeurs étendue, comme la température ou un volume total de ventes.
  • Count (Poisson) (Total (Poisson)) : choisissez ce type de modèle si la variable dépendante est discrète et représente le nombre d'occurrences d’un événement, tel que le nombre de délits ou un taux et que le dénominateur de ce taux est une valeur fixe.
  • Binary (Logistic) [Binaire (logistique)] : choisissez ce type de modèle si la variable dépendante peut adopter l’une des deux valeurs possibles, telles que réussite ou échec, ou présence ou absence.

Chaîne

Variable dépendante

Spécifie le champ représentant le phénomène que vous modélisez.

FieldName

Appariement de texte à la valeur zéro

Pour le type de modèle Binary (Logistic) (Binaire (logistique)), si un champ de type chaîne est spécifié pour la Dependent variable (Variable dépendante), ce paramètre peut être utilisé pour spécifier la chaîne de la variable dépendante à convertir en valeur zéro.

Chaîne

Appariement de texte à la valeur un

Pour le type de modèle Binary (Logistic) (Binaire (logistique)), si un champ de type chaîne est spécifié pour la Dependent variable (Variable dépendante), ce paramètre peut être utilisé pour spécifier la chaîne de la variable dépendante à convertir en valeur un.

Chaîne

Variables explicatives

Champ ou champs de la structure cible qui représentent des variables explicatives indépendantes dans le modèle de régression.

FieldNames

Appariement des variables explicatives (prévision uniquement)

Apparie les noms de champ de variable explicative sélectionnés dans la structure cible (entraînement) aux noms de champ correspondant dans la structure de jointure (prévision).

Ce paramètre est facultatif. Les appariements de variables explicatives ne doivent être spécifiés que si des données de jointure (prévision) sont spécifiées.

ExplanatoryVariableMappings

Couche en sortie

L’outil Régression linéaire généralisée produit diverses sorties. Un résumé du modèle Generalized Linear Regression (Régression linéaire généralisée) et des résumés statistiques sont disponibles dans la page des détails des éléments de la couche d’entités en sortie ou dans les journaux d'analyse.

Si vous mettez en œuvre la méthode 1 de cet outil pour ajuster simplement un modèle afin d'évaluer les performances, les données d'entraînement sont la sortie, ainsi que les messages et diagnostics disponibles dans les détails des éléments de la couche d’entités en sortie en plus des résultats des journaux d'analyse.

Si vous mettez en œuvre la méthode 2 de cet outil pour ajuster un modèle et prédire des valeurs, les données de prévision sont la sortie à laquelle les valeurs prédites ont été ajoutées, ainsi que les messages et diagnostics disponibles dans les détails des éléments de la couche d’entités en sortie en plus des résultats des journaux d'analyse.

Les diagnostics générés dépendent du type de modèle des entités en entrée et sont présentés ci-dessous.

Continu (gaussien)

Interpréter des messages et diagnostics

  • AIC mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AIC fournit un meilleur ajustement aux données observées. La valeur AIC n'est pas une mesure absolue de la qualité d'ajustement, mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AIC de deux modèles diffèrent de plus de 3, le modèle avec la valeur AIC inférieure est considéré meilleur.
  • AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente. Voir la valeur AIC ci-dessus.
  • R-Carré multiple : R-Carré est une mesure de qualité d'ajustement. Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression. Le dénominateur pour le calcul de R-Carré est la somme des valeurs de variables dépendantes au carré. L'ajout d'une variable explicative supplémentaire au modèle ne modifie pas le dénominateur mais le numérateur ; ce qui donne une impression d'amélioration dans l'ajustement du modèle qui peut ne pas être réelle. Voir la valeur R-Carré ajustée ci-dessous.
  • R-Carré ajustée : en raison du problème décrit ci-dessus pour la valeur R-Carré, les calculs de la valeur R-Carré ajustée normalisent le numérateur et le dénominateur par leurs degrés de liberté. Cela a pour effet de compenser le nombre de variables d'un modèle ; par conséquent, la valeur R-Carré ajustée est presque toujours inférieure à la valeur R-Carré. Toutefois, pour effectuer cet ajustement, vous perdez l'interprétation de la valeur en tant que proportion de la variance expliquée. Dans la régression pondérée géographiquement, le nombre effectif de degrés de liberté est une fonction du voisinage utilisé, l'ajustement peut donc être très marqué par rapport à un modèle global comme la régression linéaire généralisée. Pour cette raison, il est préférable d’utiliser la valeur AICc pour comparer des modèles.

Total (Poisson)

Interpréter des messages et diagnostics

  • AIC mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AIC fournit un meilleur ajustement aux données observées. La valeur AIC n'est pas une mesure absolue de la qualité d'ajustement, mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AIC de deux modèles diffèrent de plus de 3, le modèle avec la valeur AIC inférieure est considéré meilleur.
  • AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente. Voir la valeur AIC ci-dessus.

Binaire (logistique)

Interpréter des messages et diagnostics

  • AIC mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AIC fournit un meilleur ajustement aux données observées. La valeur AIC n'est pas une mesure absolue de la qualité d'ajustement, mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AIC de deux modèles diffèrent de plus de 3, le modèle avec la valeur AIC inférieure est considéré meilleur.
  • AICc : applique une correction de biais à la valeur AIC pour les échantillons de petites tailles. La valeur AICc avoisine la valeur AIC lorsque le nombre d’entités en entrée augmente. Voir la valeur AIC ci-dessus.

Considérations et limitations

L'implémentation ArcGIS Velocity de la régression linéaire généralisée présente les limites suivantes :

  • Il s’agit d’un modèle de régression global qui ne tient pas compte de la distribution spatiale des données.
  • L'analyse ne s'applique pas au test de l’outil d'auto-corrélation spatiale (Moran I) sur les résidus.
  • Les points, les lignes, les polygones et les tables sont pris en charge comme géométrie de jeu de données cible (données d’entraînement).
  • Vous ne pouvez pas classer les valeurs en plusieurs classes.