Régression linéaire généralisée (Statistiques spatiales)

Synthèse

Effectue une régression linéaire généralisée pour générer des prévisions ou modéliser une variable dépendante en termes de relations pour définir un ensemble de variables explicatives. Cet outil permet d’adapter des modèles continus (moindres carrés ordinaires), binaires (logistique) et totaux (Poisson).

Pour en savoir plus sur le fonctionnement de l’outil Régression linéaire généralisée

Illustration

Illustration de l’outil Régression linéaire généralisée

Utilisation

  • La sortie principale de cet outil est un fichier de rapport qui est disponible sous forme de messages au bas de la fenêtre Géotraitement au cours du traitement de l’outil. Pour accéder aux messages, passez le curseur de la souris sur la barre d’avancement et cliquez sur le bouton de menu contextuel ou développez la section des messages dans la fenêtre Géotraitement. Vous pouvez également accéder aux messages d’une précédente exécution de l’outil via l’historique du géotraitement.

  • Utilisez le paramètre Entités en entrée avec un champ représentant les phénomènes que vous modélisez (valeur Variable dépendante) et un ou plusieurs champs représentant la valeur Variables explicatives. Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui comportent des valeurs manquantes dans la variable dépendante ou explicative sont exclues de l’analyse. Vous pouvez toutefois utiliser l’outil Renseigner les valeurs manquantes pour renseigner le jeu de données avant d’exécuter l’outil.

  • Cet outil génère également les valeurs du paramètre Entités en sortie avec des informations de coefficient et des diagnostics. La classe d’entités en sortie est ajoutée automatiquement à la table des matières et un schéma de rendu est appliqué aux résiduels du modèle.

  • L’option que vous choisissez pour le paramètre Model Type (Type de modèle) dépend des données que vous modélisez. Il est important d’utiliser le modèle adapté à l’analyse pour obtenir des résultats exacts de l’analyse de régression.

    Type de données des modèles Continu, Total et Binaire

  • Les résultats récapitulatifs et diagnostics du modèle sont écrits dans la fenêtre de messages et des diagrammes sont créés sous la classe d’entités en sortie. Les diagnostics et diagrammes signalés dépendent de la valeur de paramètre Type de modèle et sont expliqués en détail dans la rubrique Fonctionnement de l’outil Régression linéaire généralisée.

  • Les résultats de la régression linéaire généralisée ne sont fiables que si les données et le modèle de régression satisfont toutes les hypothèses requises de manière inhérente par cette méthode. Vérifiez tous les diagnostics résultants et consultez la table Problèmes de régression courants, conséquences et solutions dans la rubrique Principes de base de l'analyse de régression pour vous assurer que le modèle est correctement spécifié.

  • Les paramètres Dependent Variable (Variable dépendante) et Explanatory Variable(s) (Variables explicatives) doivent être des champs numériques contenant différentes valeurs. Cet outil ne peut pas fonctionner si les variables ont les mêmes valeurs (lorsque toutes les valeurs d’un champ sont définies sur 9,0 par exemple).

  • Les variables explicatives peuvent provenir de champs ou être calculées à partir d’entités de distance à l’aide du paramètre Explanatory Distance Features (Entités de distance explicatives). Vous pouvez utiliser une combinaison de ces types de variable explicative, mais au moins un type est obligatoire. Les valeurs de paramètre Entités de distance explicatives permettent de créer automatiquement des variables explicatives représentant une distance entre les entités fournies et les valeurs de paramètre Entités en entrée. Les distances sont calculées entre chacune des valeurs Entités de distance explicatives en entrée et les valeurs Entités en entrée les plus proches. Si les valeurs Entités de distance explicatives en entrée correspondent à des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités. La méthode de calcul des distances est différente toutefois pour les polygones et pour les lignes. Pour plus d’informations, reportez-vous à la rubrique Calcul de la distance avec les outils de proximité.

  • Le paramètre Fichier de modèle entraîné en sortie peut être utilisé pour enregistrer les résultats du modèle entraîné sous forme de fichier réutilisable. L’outil Prévoir à l’aide d’un fichier de modèle de statistiques spatiales peut être utilisé pour prévoir de nouvelles entités à l’aide d’un fichier de modèle.

  • Il est conseillé d’utiliser des données projetées si les valeurs Entités de distance explicatives représentent un composant de l’analyse. Il est également recommandé de projeter les données à l’aide d’un système de coordonnées projetées (et non d'un système de coordonnées géographiques) pour mesurer les distances avec exactitude.

  • Lorsque l’autocorrélation spatiale des résiduels de régression est statistiquement significative, le modèle de régression linéaire généralisée est considéré comme incorrectement spécifié et, par conséquent, les résultats de la régression linéaire généralisée ne sont pas fiables. Exécutez l'outil Autocorrélation spatiale sur les valeurs résiduelles de régression pour évaluer ce problème potentiel. L’autocorrélation spatiale statistiquement significative de résiduels de régression peut indiquer qu’une ou plusieurs variables explicatives clés manquent dans le modèle.

  • Étudiez visuellement les surestimations et sous-estimations évidentes dans les valeurs résiduelles de régression afin de trouver des indices permettant de déterminer s’il manque des variables dans le modèle de régression. Il peut être bon d’exécuter l’outil Analyse de points chauds sur les valeurs résiduelles pour mieux visualiser l’agrégation spatiale des surestimations et sous-estimations.

  • Si une spécification incorrecte est le résultat d’une tentative de modélisation de variables non stationnaires à l’aide d’un modèle global (la régression linéaire généralisée est un modèle global), vous pouvez utiliser l’outil Régression pondérée géographiquement pour améliorer les prévisions et mieux comprendre la non stationnarité (variation régionale) inhérente aux variables explicatives.

  • Si le résultat d’un calcul est l’infini ou s’il est indéfini, la sortie pour les fichiers autres que des shapefiles sera nulle. Pour les shapefiles, le résultat sera -DBL_MAX (-1,7976931348623158e+308, par exemple).

  • Attention :

    Lorsque vous utilisez des shapefiles, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.

Paramètres

ÉtiquetteExplicationType de données
Entités en entrée

Classe d'entités qui contient les variables dépendantes et indépendantes.

Feature Layer
Variable dépendante

Champ numérique contenant les valeurs observées à modéliser.

Field
Type de modèle

Précise le type de données à modéliser.

  • Continu (gaussien)La valeur Dependent Variable (Variable dépendante) est continue. Le modèle utilisé est gaussien et l’outil effectue une régression des moindres carrés ordinaires.
  • Binaire (logistique)La valeur Dependent Variable (Variable dépendante) représente la présence ou l’absence. Il peut s’agir de valeurs 1 et de valeurs 0 conventionnelles, ou de données continues qui ont été recodées en fonction d’une valeur de seuil. Le modèle utilisé est la régression logistique.
  • Total (Poisson)La valeur Variable dépendante est discrète et représente des événements (par exemple, le nombre de délits, des maladies ou des accidents de la circulation). Le modèle utilisé est la régression Poisson.
String
Entités en sortie

Nouvelle classe d’entités qui contiendra des estimations de variable dépendante et des résiduels.

Feature Class
Variables explicatives

Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression.

Field
Entités de distance explicatives
(Facultatif)

Crée automatiquement des variables explicatives en calculant la distance entre les entités fournies et les valeurs Entités en entrée. Les distances sont calculées entre chacune des valeurs Entités de distance explicatives en entrée et la valeur Entités en entrée la plus proche. Si les valeurs Entités de distance explicatives en entrée correspondent à des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités.

Feature Layer
Emplacements des prévisions
(Facultatif)

Une classe d’entités contenant des entités qui représentent des localisations pour lesquelles des estimations vont être calculées. Chaque entité dans ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la classe d’entités en entrée.

Feature Layer
Apparier les variables explicatives
(Facultatif)

Apparie les variables explicatives du paramètre Emplacements des prévisions et les variables explicatives correspondantes du paramètre Classe d’entités en entrée.

Value Table
Apparier les entités de distance
(Facultatif)

Apparie les entités de distance spécifiées pour le paramètre Emplacements des prévisions sur la gauche et les entités de distance correspondantes pour le paramètre Entités en entrée sur la droite.

Value Table
Entités prévues en sortie
(Facultatif)

Classe d'entités en sortie qui recevra des estimations de variable dépendante pour chaque valeur Emplacements des prévisions.

Feature Class
Fichier du modèle entraîné en sortie.
(Facultatif)

Un fichier de modèle en sortie dans lequel sera enregistré le modèle entraîné qui pourra être utilisé ultérieurement pour effectuer des prévisions.

File

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features}, {output_trained_model})
NomExplicationType de données
in_features

Classe d'entités qui contient les variables dépendantes et indépendantes.

Feature Layer
dependent_variable

Champ numérique contenant les valeurs observées à modéliser.

Field
model_type

Précise le type de données à modéliser.

  • CONTINUOUSLa valeur dependent_variable est continue. Le modèle utilisé est gaussien et l’outil effectue une régression des moindres carrés ordinaires.
  • BINARYLa valeur dependent_variable représente la présence ou l’absence. Il peut s’agir de valeurs 1 et de valeurs 0 conventionnelles, ou de données continues qui ont été recodées en fonction d’une valeur de seuil. Le modèle utilisé est la régression logistique.
  • COUNTLa valeur dependent_variable est discrète et représente des événements (par exemple, le nombre de délits, des maladies ou des accidents de la circulation). Le modèle utilisé est la régression Poisson.
String
output_features

Nouvelle classe d’entités qui contiendra des estimations de variable dépendante et des résiduels.

Feature Class
explanatory_variables
[explanatory_variables,...]

Liste des champs qui représentent des variables explicatives indépendantes dans le modèle de régression.

Field
distance_features
[distance_features,...]
(Facultatif)

Crée automatiquement des variables explicatives en calculant la distance entre les entités fournies et les valeurs in_features. Les distances entre chacune des valeurs distance_features en entrée et la valeur in_features la plus proche sont calculées. Si les valeurs distance_features en entrée sont des polygones ou des lignes, les attributs de distance sont calculés comme la distance entre les segments les plus proches de la paire d’entités.

Feature Layer
prediction_locations
(Facultatif)

Une classe d’entités contenant des entités qui représentent des localisations pour lesquelles des estimations vont être calculées. Chaque entité dans ce jeu de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante pour ces entités sera estimée à l’aide du modèle calibré pour les données de la classe d’entités en entrée.

Feature Layer
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(Facultatif)

Apparie les variables explicatives du paramètre prediction_locations avec les variables explicatives correspondantes du paramètre in_features.

Value Table
explanatory_distance_matching
[[Prediction Distance Features, Input Explanatory Distance Features],...]
(Facultatif)

Apparie les entités de distance spécifiées pour le paramètre features_to_predict sur la gauche avec les entités de distance correspondantes pour le paramètre in_features sur la droite.

Value Table
output_predicted_features
(Facultatif)

Classe d’entités en sortie qui recevra des estimations de variable dépendante pour chaque valeur prediction_location.

Classe d'entités en sortie qui recevra des estimations de variable dépendante pour chaque valeur Emplacements des prévisions.

Feature Class
output_trained_model
(Facultatif)

Un fichier de modèle en sortie dans lequel sera enregistré le modèle entraîné qui pourra être utilisé ultérieurement pour effectuer des prévisions.

File

Exemple de code

Exemple 1 d’utilisation de l’outil GeneralizedLinearRegression (fenêtre Python)

Le script suivant pour la fenêtre Python illustre l’utilisation de la fonction GeneralizedLinearRegression.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 ["eastness", "northness", "elevation", "slope"], 
                                 "rivers")
Exemple 2 d’utilisation de l’outil GeneralizedLinearRegression (script autonome)

Le script Python autonome ci-dessous illustre l’utilisation de la fonction GeneralizedLinearRegression.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)

import arcpy

# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"

arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", ["YRBLT", "TOTPOP", "AVGHINC"], 
     "CBD", "prediction_locations", [["YRBLT", "YRBLT"], ["TOTPOP", "TOTPOP"], ["AVGHINC", "AVGHINC"]], 
     [["CBD", "CBD"]], "predicted_features")