La régression pondérée géographiquement est l’une des techniques de régression spatiale utilisées en géographie et dans d’autres disciplines. Elle évalue un modèle local de la variable ou du processus que vous essayez de comprendre ou de prévoir en ajustant une équation de régression à chaque entité du jeu de données. La régression pondérée géographiquement crée ces équations distinctes en insérant les variables dépendantes et explicatives des entités se trouvant dans le voisinage de chaque entité cible. La forme et l’étendue de chaque voisinage analysé repose sur les paramètres Neighborhood Type (Type de voisinage) et Neighborhood Selection Method (Méthode de sélection de voisinage). La régression pondérée géographiquement doit être appliquée aux jeux de données contenant plusieurs centaines d'entités. Cette méthode n’est pas adaptée aux jeux de données de petite taille et ne fonctionne pas avec les données multi-points.
L’outil Régression pondérée géographiquement multi-échelle permet de réaliser une régression pondérée géographiquement sur des données à différentes échelles de relations entre les variables dépendantes et explicatives.
Remarque :
Cet outil a été mis à jour pour ArcGIS Pro 2.3 et inclut le fruit de la recherche universitaire, les améliorations apportées à la méthode au cours des dernières années, et élargit la prise en charge à des modèles supplémentaires. L’ajout des modèles Count (Poisson) [Total (Poisson)] et Binary (Logistic) [Binaire (Logistique)] augmente le champ des applications possibles de l’outil.
Applications possibles
L’outil Régression pondérée géographiquement peut avoir diverses applications parmi lesquelles :
- La relation entre niveau de diplôme et revenu est-elle cohérente à travers la zone d’étude ?
- Les incidences de certaines maladies augmentent-elles avec la proximité par rapport aux entités d'eau ?
- Quelles sont les variables clés qui expliquent la fréquence élevée d'incendies de forêt ?
- Quels habitats devraient être protégés pour favoriser la réintroduction d'une espèce en danger ?
- Dans quels arrondissements/quartiers les enfants obtiennent-ils des résultats élevés aux examens ? Quelles caractéristiques semblent être associées ? Où chacune des caractéristiques est-elle la plus importante ?
- Les facteurs influencent-ils des taux de cancer plus élevés de manière cohérente à l’échelle de la zone d'étude ?
Entrées
Pour exécuter l’outil régression pondérée géographiquement, spécifiez le paramètre Input Features (Entités en entrée), avec un champ représentant la Dependent Variable (Variable dépendante) et un ou plusieurs champs représentant la ou les Explanatory Variable(s) [Variable(s) explicative(s)]. Ces champs doivent être numériques et comporter une plage de valeurs. Les entités qui comportent des valeurs manquantes dans les variables dépendantes ou explicatives seront exclues de l’analyse. Vous pouvez toutefois utiliser l’outil Remplacer les valeurs manquantes pour renseigner le jeu de données avant d’exécuter la régression pondérée géographiquement. Choisissez ensuite un Model Type (Type de modèle) en fonction des données que vous analysez. Il est important d’utiliser un modèle adapté à vos données. Les types de modèles et comment déterminer le modèle adapté à vos données sont présentés ci-dessous.
Model type
La régression pondérée géographiquement propose trois types de modèles de régression : continu, binaire et total. En matière statistique, ces types de régression sont appelés Gaussien, Logistique et Poisson respectivement. Le Model Type (Type de modèle) de votre analyse doit être choisi en fonction de la façon dont votre Dependent Variable (Variable dépendante) a été mesurée ou synthétisée ainsi que de la plage de valeurs qu’il contient.
Continu (gaussien)
Utilisez le Model Type (Type de modèle) Continuous (Gaussian) [Continu (gaussien)] si votre Dependent Variable (Variable dépendante peut adopter une plage de valeurs étendue comme la température ou un volume total de ventes. Il est recommandé que votre variable dépendante soit répartie normalement. Vous pouvez créer un histogramme de votre variable dépendante pour vérifier qu’elle est distribuée normalement. Si l’histogramme présente une courbe en cloche symétrique, utilisez un type de modèle gaussien. La plupart des valeurs sont généralement concentrées près de la moyenne, peu de valeurs s’en écartant radicalement. Il devrait y avoir autant de valeurs du côté gauche de la moyenne que du côté droit (valeurs moyennes et médianes de la distribution sont les mêmes). Si votre Dependent Variable (Variable dépendante) ne semble pas être distribuée normalement, envisagez de la reclasser en variable binaire. Par exemple, si votre variable dépendante est le revenu moyen des ménages, vous pouvez la recoder en variable binaire, 1 indiquant un revenu supérieur à la moyenne nationale et 0 (zéro), un revenu inférieur à la moyenne nationale. Un champ continu peut être reclassé en champ binaire en utilisant la fonction d’aide Reclassification dans l’outil Calculer un champ.
Binaire (logistique)
Utilisez le Model Type (Type de modèle) Binary (Logistic) [Binaire (logistique)] si votre Dependent Variable (Variable dépendante) peut prendre l’une des deux valeurs possibles telles que réussite ou échec ou présence et absence. Le champ contenant votre Dependent Variable (Variable dépendante) doit être un champ numérique et ne contenir que des uns et zéros. Les résultats seront plus faciles à interpréter si vous codez l’événement présentant un intérêt, comme la réussite ou la présence d’un animal, avec la valeur 1, puisque la régression modélisera la probabilité de 1. Vos données doivent présenter une variation des valeurs un et zéro à la fois globalement et localement. Si vous créez un histogramme de votre Dependent Variable (Variable dépendante), celui-ci ne devrait contenir que des uns et des zéros. Vous pouvez utiliser l’outil Sélectionner par cercle pour contrôler les variations locales en sélectionnant plusieurs régions sur la carte et en vérifiant que chaque région comporte une combinaison de uns et zéros.
Total (Poisson)
Envisagez d’utiliser le Model Type (Type de modèle) Count (Poisson) [Total (Poisson)] si votre Dependent Variable (Variable dépendante) est discrète et représente le nombre d'occurrences d’un événement, tel que le nombre de délits . Les modèles de type Total peuvent également être utilisés si votre Dependent Variable (Variable dépendante) représente un taux et que le dénominateur du taux est une valeur fixe telle que les ventes par mois ou le nombre de personnes atteintes de cancer parmi un échantillon de 10 000 personnes. Un modèle Count (Poisson) [Total (Poisson)] suppose que la moyenne et la variance de la Dependent Variable (Variable dépendante) sont identiques, et que les valeurs de votre Dependent Variable (Variable dépendante) ne peuvent pas être négatives, ni contenir de décimale.
Choisir un voisinage (bande passante)
Un voisinage (également appelé bande passante) est la bande de distance ou le nombre de voisins utilisés pour chaque équation de régression locale et peut-être le paramètre le plus important à prendre en compte pour la régression pondérée géographiquement, puisque c’est ce qui contrôle le degré du lissage dans le modèle. La forme et l’étendue des voisinages analysés dépendent de l’entrée des paramètres Neighborhood Type (Type de voisinage) et Neighborhood Selection Method (Méthode de sélection de voisinage). Il existe néanmoins une différence : lorsque le nombre d’entités dans le voisinage dépasse 1 000, seules les 1 000 entités les plus proches sont utilisées dans chaque équation de régression locale.
Le paramètre Neighborhood Type (Type de voisinage) peut être basé sur le Number of Neighbors (Nombre de voisins) ou sur la Distance Band (Bande de distance). Lorsque c’est le Number of Neighbors (Nombre de voisins) qui est utilisé, la taille du voisinage est fonction du nombre de voisins spécifié, ce qui permet aux voisinages d’être plus petits lorsque les entités sont denses et plus grands lorsque les entités sont clairsemées. Lorsque l’option Distance Band (Bande de distance) est utilisée, la taille du voisinage reste constante pour chaque entité de la zone d’étude, ce qui se traduit par un nombre d’entités par voisinage plus élevé là où la densité des entités est importante et un nombre d’entités par voisinage plus faible lorsque les entités sont clairsemées.
Le paramètre Neighborhood Selection Method (Méthode de sélection du voisinage) spécifie la façon dont est déterminée la taille du voisinage (la distance ou le nombre de voisins effectivement utilisé). Le voisinage sélectionné à l’aide de l’option Golden search (Recherche absolue) ou Manual intervals (Intervalles manuels) suppose toujours de réduire la valeur du critère d'information Akaike (AICc). Une autre possibilité, consiste à définir une distance de voisinage spécifique ou un nombre de voisins déterminé à l'aide de l’option User defined (Défini par l’utilisateur).
Lorsque l’option Golden search (Recherche absolue) est sélectionnée, l’outil détermine les valeurs les mieux adaptées au paramètre Distance band (Canal de distance) ou Number of neighbors (Nombre de voisins) à l’aide de la méthode de recherche absolue. La Golden search (Recherche absolue) identifie tout d’abord les distances maximum et minimum et teste l’AICc à diverses distances en procédant par incrémentation. Lorsqu’un jeu de données contient plus de 1 000 entités, la distance maximum est celle à laquelle toute entité a au maximum 1 000 voisins. La distance minimum est celle à laquelle chaque entité possède au moins 20 voisins. Lorsque le jeu de données contient moins de 1 000 entités, la distance maximum est celle à laquelle chaque entité possède n/2 voisins (la moitié des entités comme voisins), et la distance minimum est celle à laquelle chaque entité compte au minimum 5 pour cent de n (5 pour cent des entités du jeu de données comme voisins). La Golden search (Recherche absolue) détermine la taille du voisinage à l’aide de la distance ou du nombre de voisins ayant l’AICc le plus faible.
Les paramètres Distance de recherche minimale et Distance de recherche maximale (pour Bande de distance) et Nombre minimal de voisins et Nombre maximal de voisins (pour Nombre de voisins) peuvent être utilisés pour restreindre la plage de recherche en définissant manuellement les distances de départ et de fin pour Recherche absolue.
Structure de pondération locale
La régression pondérée géographiquement a pour avantage d’appliquer une pondération géographique aux entités utilisées dans chacune des équations de régression locales. Un poids moins important est attribué aux entités les plus éloignées des points de régression, celles-ci ont donc moins d’influence sur les résultats de régression pour l’entité cible ; les entités plus proches ont un poids plus important dans l’équation de régression. Les pondérations sont déterminées à l’aide d’un noyau. Un noyau est une fonction de pondération de la fréquentation par rapport à la distance qui détermine à quelle vitesse la fréquentation diminue à mesure que les distances augmentent. L’outil Régression pondérée géographiquement propose deux options de noyau dans le paramètre Structure de pondération locale : Gaussien et Bicarré.
La structure de pondération Gaussian (Gaussienne) attribue une pondération à l’une des entités de régression (entité i), les pondérations des entités environnantes (entités j) diminuant de manière progressive à mesure qu’augmente la distance par rapport à l’entité de régression. Par exemple, si les entités i et j sont situées à une distance de 0,25 unité l’une de l’autre, la pondération obtenue par l’équation sera approximativement de 0,88. Si les entités i et j sont situées à une distance de 0,75 unité l’une de l’autre, la pondération obtenue sera approximativement de 0,32. L’entité j aura moins d’influence sur la régression en raison de son éloignement. Une structure de pondération Gaussian (Gaussienne) n’atteint jamais la valeur zéro, mais les pondérations des entités éloignées de l’entité de régression peuvent être très faibles et n’avoir presque aucun impact sur la régression. Théoriquement, lorsqu’on utilise une structure de pondération Gaussian (Gaussienne), toutes les autres entités des données en entrée sont des entités voisines et se voient attribuer une pondération. Toutefois, pour garantir l’efficacité des calculs, lorsque le nombre d’entités voisines dépasse 1 000, seules les 1 000 entités les plus proches sont intégrées à chaque régression locale. Une structure de pondération Gaussian (Gaussienne) garantit un grand nombre de voisins pour chaque entité de régression, ce qui augmente la probabilité d’une variation dans les valeurs de ces voisins. Ce qui évite les problèmes de colinéarité locale bien connue en termes de régression pondérée géographiquement. Utilisez une structure de pondération de type Gaussien lorsque l’influence des entités voisines devient progressivement moins importante mais que cette influence reste présente peu importe le degré d’éloignement des entités environnantes.
La structure de pondération Bisquare (Bicarré) est similaire à la fonction Gaussian (Gaussienne). Elle attribue une pondération à l’une des entités de régression (entité i), les pondérations des entités environnantes (entités j) diminuant de manière progressive à mesure qu’augmente la distance par rapport à l’entité de régression. Toutefois, toutes les entités se trouvant en dehors du voisinage spécifié se voient attribuer la valeur zéro et n’ont pas d’influence sur la régression locale pour l’entité cible. Lorsque l’on compare une structure de pondération Bisquare (Bicarré) à une structure de pondération Gaussian (Gaussienne) en utilisant les mêmes spécifications de voisinage, les pondérations diminuent plus rapidement avec la méthode Bisquare (Bicarré). L’utilisation d’une structure de pondération Bisquare (Bicarré) vous permet de spécifier une distance au-delà de laquelle les entités n’ont plus d’impact sur les résultats de régression. Puisque Bisquare (Bicarré) exclut les entités au-delà d’une certaine distance, il n’y a pas de garantie que le nombre d’entités (avec influence) sera suffisant dans le voisinage immédiat pour produire une analyse de régression locale significative. Utilisez une structure de pondération Gaussian (Gaussienne) lorsque l’influence des entités voisines diminue progressivement et qu’il existe une distance au-delà de laquelle cette influence n’existe plus. Par exemple, la régression est fréquemment utilisée pour modéliser le prix de l'immobilier, le prix de vente des logements environnants étant une variable explicative habituelle. Les logements environnants sont nommés propriétés comparables. Les organismes de prêts déterminent parfois une distance maximum entre logements comparables. Dans cet exemple, une fonction Bisquare (Bicarré) peut être utilisée avec un voisinage correspondant à la distance maximum spécifiée par l’organisme de prêts.
Prévision
Vous pouvez utiliser le modèle de régression créé pour effectuer des prévisions pour d’autres entités (ponctuelles ou surfaciques) dans la même zone d’étude. Pour effectuer ces prévisions chaque Prediction Locations (Emplacement de prévision) doit posséder des valeurs pour chaque Explanatory Variable(s) (Variable explicative) fournie. Si les noms des champs des paramètres Input Features (Entités en entrée) et Prediction Locations (Emplacements des prévisions) ne concordent pas, un paramètre d’appariement des variables est fourni. Lorsque vous appariez les variables explicatives, les champs des paramètres Input Features (Entités en entrée) et Prediction Locations (Emplacements des prévisions) doivent être du même type (les champs doubles doivent être appariés à des champs doubles, par exemple).
Rasters de coefficient
Un aspect essentiel de la régression pondérée géographiquement est la possibilité d’explorer spatialement différentes relations. Une façon de visualiser dans l’espace la variation des relations entre les variables explicatives et la variable dépendante est de créer des rasters de coefficient. Lorsque vous indiquez un nom de chemin d’accès pour le paramètre Coefficient Raster Workspace (Espace de travail raster du coefficient), l’outil de régression pondérée géographiquement crée des surfaces raster de coefficient pour l’intersection du modèle et chaque variable explicative. La résolution des rasters peut être contrôlée à l'aide du paramètre d'environnement Cell Size (Taille de cellule). Un voisinage (noyau) est construit autour de chaque cellule raster à l’aide des paramètres Neighborhood Type (Type de voisinage) et Local Weighting Scheme (Structure de pondération locale). Les pondérations basées sur la distance sont calculées à partir du centre de la cellule raster vers toutes les entités en entrée se trouvant dans la zone de voisinage (bande passante). Ces pondérations sont utilisées pour calculer une équation de régression unique pour cette cellule raster. Les coefficients varient d’une cellule raster à une autre puisque les pondérations basées sur la distance changent, des entités en entrée potentiellement différentes pourront donc être incluses dans le voisinage (bande passante).
Remarque :
Il n’existe à l’heure actuelle aucun consensus sur la façon d’évaluer le degré de confiance des coefficients d’un modèle de régression pondérée géographiquement. Si des tests t ont été effectués afin de déduire si la valeur estimée des coefficients est considérablement différente de zéro, la validité de cette approche fait toujours l’objet de recherches. Une approche simple pour évaluer les coefficients consiste à diviser le coefficient par l’erreur standard fournie pour chaque entité afin de mesurer l’ampleur de l’estimation à l’aide de l’erreur standard associée et de visualiser ces résultats, en recherchant les agrégats élevés d’erreurs standard liées au coefficient.
Sorties
L'outil Régression pondérée géographiquement génère différents résultats en sortie. Un résumé du modèle de régression pondérée géographiquement, ainsi que des résumés statistiques, sont disponibles sous forme de messages au bas de la fenêtre Geoprocessing (Géotraitement) au cours de l’exécution de l’outil. Pour accéder aux messages, passez le curseur de la souris sur la barre de progression, cliquez sur le bouton de menu contextuel ou développez la section de messages dans la fenêtre Geoprocessing (Géotraitement). Vous pouvez également accéder aux messages d’une précédente exécution de l’outil Régression pondérée géographiquement via l’historique du géotraitement. L’outil génère également des Output Features (Entités en sortie), des diagrammes et de manière optionnelle des Output Predicted Features (Entités prévues en sortie) et des surfaces raster de coefficient. Les Output Features (Entités en sortie) et les diagrammes associés sont automatiquement ajoutés à la fenêtre Contents (Contenu) et un schéma de rendu chaud/froid (hot/cold) est appliqué aux valeurs résiduelles du modèle. Les diagnostics et diagrammes générés dépendent du Model Type (Type de modèle) des Input Features (Entités en entrée) et sont présentés ci-dessous.
Les statistiques du modèle global sont calculées pour tous les modèles.
Continu (gaussien)
Classe d'entités et champs ajoutés
Outre les résidus de régression, le paramètre Entités en sortie comprend les champs des valeurs des variables dépendantes observées et prévues, le numéro de condition (COND), la valeur R2 locale, les coefficients des variables explicatives et les erreurs standard.
Les champs Interception, Erreur standard de l’interception, Coefficients, Erreurs standard pour chaque variable explicative, Prévu, Résidus, Résidus standard, Influence, Cook’s D, R-carré local et Indice de conditionnement sont également indiqués. Nombre de ces champs sont abordés à la rubrique Fonctionnement de la régression des moindres carrés ordinaires. Les valeurs Influence et Cook's D mesurent toutes les deux l’influence de l’entité dans l’estimation des coefficients de régression. Vous pouvez utiliser un histogramme pour déterminer si certaines entités ont plus d’influence que le reste du jeu de données. Ces entités sont souvent des points aberrants qui déforment l’estimation des coefficients. Pour améliorer les résultats du modèle, il peut être judicieux de les supprimer et de relancer l’outil. La valeur de R-carré est comprise entre 0 et 1. Elle représente la force des corrélations du modèle local de l’entité. L’indice de conditionnement est une mesure de la stabilité des coefficients estimés. Les indices de conditionnement supérieurs à environ 1 000 indiquent l’instabilité du modèle. Cela est généralement le fait de variables explicatives fortement corrélées les unes aux autres.
Interprétation des messages et diagnostics
Les détails d’analyse sont fournis dans les messages et incluent le nombre d’entités analysées, les variables dépendantes et explicatives, et le nombre de voisins spécifié. En outre, différents diagnostics de modèle sont signalés :
- R2 : R au carré est une mesure de la qualité d'ajustement. Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression. Le dénominateur pour le calcul de R2 est la somme des valeurs de variables dépendantes au carré. L'ajout d'une variable explicative supplémentaire au modèle ne modifie pas le dénominateur mais le numérateur ; ce qui donne une impression d'amélioration dans l'ajustement du modèle qui peut ne pas être réelle. Reportez-vous au R2 ajusté ci-dessous.
- R2 ajusté : en raison du problème décrit ci-dessus pour la valeur R2, les calculs pour la valeur R-carré ajustée normalisent le numérateur et le dénominateur par leurs degrés de liberté. Cela a pour effet de compenser le nombre de variables d'un modèle ; par conséquent, la valeur R2 ajustée est presque toujours inférieure à la valeur R2. Toutefois, pour effectuer cet ajustement, vous perdez l'interprétation de la valeur en tant que proportion de la variance expliquée. Dans la régression pondérée géographiquement, le nombre effectif de degrés de liberté étant une fonction du voisinage utilisé, l’ajustement peut donc être très marqué par rapport à un modèle global comme la régression linéaire généralisée. Pour cette raison, il est préférable d’utiliser la valeur AICc pour comparer des modèles.
- AICc : mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc de deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. Comparer la valeur AICc de régression pondérée géographiquement à la valeur AICc de régression linéaire généralisée est une manière d'évaluer les avantages qu’il y a à passer d'un modèle global (régression linéaire généralisé) à un modèle de régression local (régression pondérée géographiquement).
Reportez-vous à la référence Gollini et al. de la section Ressources supplémentaires pour connaître les formules utilisées dans le calcul des valeurs AICc pour tous les types de modèle.
- Sigma-Squared (Sigma carré) : estimation des moindres carrés de la variance (écart type au carré) des valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. Cette valeur est la somme de carrés résiduelle normalisée, où la somme résiduelle de carrés est divisée par les degrés de liberté effectifs de la valeur résiduelle. Le sigma au carré est utilisé pour le calcul des valeurs AICc.
- Sigma-Squared MLE (Estimation selon le maximum de vraisemblance de Sigma carré) : estimation correspondant à un maximum de vraisemblance de la variance (écart type au carré) des valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. Le calcul de cette valeur consiste à diviser la somme résiduelle des carrés par le nombre d’entités en entrée.
- Degrés de liberté effectifs : cette valeur reflète un compromis entre la variance des valeurs ajustées et la déviation des estimations de coefficient, et est liée au choix de taille du voisinage. Lorsque le voisinage approche de l'infini, les pondérations géographiques pour chaque entité approchent de 1 et les estimations de coefficient sont très proches de celles d'un modèle de régression linéaire généralisée global. Pour les très grands voisinages, le nombre effectif de coefficients se rapproche du nombre réel ; les évaluations de coefficient locales présentent une variance réduite mais une déviation plutôt importante. Inversement, plus la taille du voisinage est réduite et approche de zéro, plus les pondérations géographiques de chaque entité approchent de zéro à l'exception du point de régression lui-même. Pour les voisinages extrêmement réduits, le nombre effectif de coefficients correspond au nombre d'observations et les évaluations de coefficient locales présentent une variance importante mais une déviation réduite. Le nombre effectif permet de calculer un grand nombre d’autres mesures diagnostiques.
- Valeur critique ajustée des statistiques pseudo-T : il s’agit de la valeur critique ajustée utilisée pour tester la signification statistique des coefficients dans un test-T bilatéral à une confiance de 95 pour cent. La valeur correspond à un niveau de signification (alpha) de 0,05 divisé par les degrés de liberté effectifs. Cet ajustement contrôle le taux d’erreur par famille (FWER) de la signification des variables explicatives.
Diagrammes en sortie
L’outil génère comme sortie une matrice de nuages de points et un histogramme dans la fenêtre Contenu. La matrice de nuages de points comprend une seule variable dépendante et un maximum de neuf variables explicatives. L’histogramme affiche le résidu d’écart et une courbe de distribution normale.
Binaire (logistique)
Classe d'entités et champs ajoutés
L’intersection (INTERCEPT), l’erreur standard de l’intersection (SE_INTERCEPT), les coefficients et les erreurs standard pour chaque variable explicative, ainsi que la probabilité de valeur 1, la valeur prévue, la valeur résiduelle d’écart, GInfluence et l’écart de pourcentage local sont signalés.
Interprétation des messages et diagnostics
Les détails d’analyse sont fournis dans les messages et incluent le nombre d’entités analysées, les variables dépendantes et explicatives et le nombre de voisins spécifié. De plus, les diagnostics suivants sont signalés :
- % d'écart expliqué par le modèle global (non spatial) : mesure la qualité de l’ajustement et quantifie la performance d’un modèle global (régression linéaire généralisée). Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression.
- % d'écart expliqué par le modèle local : mesure la qualité de l’ajustement et quantifie la performance d’un modèle local (régression pondérée géographiquement). Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression local.
- % d'écart expliqué par le modèle local par opposition au modèle global : ce pourcentage permet d’évaluer les avantages du passage d’un modèle global (régression linéaire généralisée) à un modèle de régression local (régression pondérée géographiquement) en comparant la somme des carrés résiduelle du modèle local à la somme des carrés résiduelle du modèle global. Sa valeur varie de 0,0 à 1,0, les valeurs élevées signifiant que le modèle de régression local obtient de meilleurs résultats que le modèle global.
- AICc : mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc de deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. La comparaison des valeurs AICc de la Régression pondérée géographiquement et des Moindres carrés ordinaires est une manière d'évaluer les avantages du passage d'un modèle global (Moindres carrés ordinaires) à un modèle de régression local (Régression pondérée géographiquement).
- Sigma-Squared (Sigma carré) : cette valeur est la somme des carrés résiduelle normalisée, où la somme résiduelle des carrés est divisée par les degrés de liberté effectifs de la valeur résiduelle. Il s’agit de l’estimation des moindres carrés de la variance (écart type au carré) des valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. Le sigma au carré est utilisé pour le calcul des valeurs AICc.
- Sigma-Squared MLE (Estimation selon le maximum de vraisemblance de Sigma carré) : estimation correspondant à un maximum de vraisemblance de la variance (écart type au carré) des valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. Le calcul de cette valeur consiste à diviser la somme résiduelle des carrés par le nombre d’entités en entrée.
- Degrés de liberté effectifs : cette valeur reflète un compromis entre la variance des valeurs ajustées et la déviation des estimations de coefficient, et est liée au choix de taille du voisinage. Lorsque le voisinage approche de l'infini, les pondérations géographiques pour chaque entité approchent de 1 et les estimations de coefficient sont très proches de celles d'un modèle de régression linéaire généralisée global. Pour les très grands voisinages, le nombre effectif de coefficients se rapproche du nombre réel ; les évaluations de coefficient locales présentent une variance réduite mais une déviation plutôt importante. Inversement, plus la taille du voisinage est réduite et approche de zéro, plus les pondérations géographiques de chaque entité approchent de zéro à l'exception du point de régression lui-même. Pour les voisinages extrêmement réduits, le nombre effectif de coefficients correspond au nombre d'observations et les évaluations de coefficient locales présentent une variance importante mais une déviation réduite. Le nombre effectif permet de calculer un grand nombre d’autres mesures diagnostiques.
- Valeur critique ajustée des statistiques pseudo-T : il s’agit de la valeur critique ajustée utilisée pour tester la signification statistique des coefficients dans un test-T bilatéral à une confiance de 95 pour cent. La valeur correspond à un niveau de signification (alpha) de 0,05 divisé par les degrés de liberté effectifs. Cet ajustement contrôle le taux d’erreur par famille (FWER) de la signification des variables explicatives.
Diagrammes en sortie
Une matrice de nuages de points, ainsi que des boîtes à moustaches et un histogramme des valeurs résiduelles d’écart, sont fournis.
Total (Poisson)
Classe d'entités et champs ajoutés
L’intersection (INTERCEPT), l’erreur standard de l’intersection (SE_INTERCEPT), les coefficients et les erreurs standard pour chaque variable explicative, ainsi que la valeur prévue avant la transformation logarithmique (RAW_PRED), la valeur prévue, la valeur résiduelle d’écart, GInfluence, l’écart de pourcentage local et le numéro de condition sont signalés.
Interprétation des messages et diagnostics
Les détails d’analyse sont fournis dans les messages et incluent le nombre d’entités analysées, les variables dépendantes et explicatives, et le nombre de voisins spécifié. Les diagnostics de la capture d'écran suivante sont également signalés :
- % d'écart expliqué par le modèle global (non spatial) : mesure la qualité de l’ajustement et quantifie la performance d’un modèle global (régression linéaire généralisée). Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression.
- % d'écart expliqué par le modèle local : mesure la qualité de l’ajustement et quantifie la performance d’un modèle local (régression pondérée géographiquement). Sa valeur varie de 0,0 à 1,0, les valeurs supérieures étant préférables. Elle peut être interprétée en tant que proportion de variance de la variable dépendante correspondant au modèle de régression local.
- % d'écart expliqué par le modèle local par opposition au modèle global : ce pourcentage permet d’évaluer les avantages du passage d’un modèle global (régression linéaire généralisée) à un modèle de régression local (régression pondérée géographiquement) en comparant la somme des carrés résiduelle du modèle local à la somme des carrés résiduelle du modèle global. Sa valeur varie de 0,0 à 1,0, les valeurs élevées signifiant que le modèle de régression local obtient de meilleurs résultats que le modèle global.
- AICc : mesure des performances du modèle, utile pour comparer des modèles de régression. En considérant la complexité du modèle, un modèle de valeur AICc inférieure fournit un meilleur ajustement aux données observées. La valeur AICc n'est pas une mesure absolue de la qualité d'ajustement mais elle est utile pour la comparaison de modèles avec des variables explicatives différentes, tant qu'ils s'appliquent à la même variable dépendante. Si les valeurs AICc de deux modèles diffèrent de plus de 3, le modèle avec la valeur AICc inférieure est considéré meilleur. La comparaison des valeurs AICc de la Régression pondérée géographiquement et des Moindres carrés ordinaires est une manière d'évaluer les avantages du passage d'un modèle global (Moindres carrés ordinaires) à un modèle de régression local (Régression pondérée géographiquement).
- Sigma-Squared (Sigma carré) : cette valeur est la somme des carrés résiduelle normalisée, où la somme résiduelle des carrés est divisée par les degrés de liberté effectifs de la valeur résiduelle. Il s’agit de l’estimation des moindres carrés de la variance (écart type au carré) des valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. Le sigma au carré est utilisé pour le calcul des valeurs AICc.
- Sigma-Squared MLE (Estimation selon le maximum de vraisemblance de Sigma carré) : estimation correspondant à un maximum de vraisemblance de la variance (écart type au carré) des valeurs résiduelles. Pour cette statistique, les valeurs réduites sont préférables. Le calcul de cette valeur consiste à diviser la somme résiduelle des carrés par le nombre d’entités en entrée.
- Degrés de liberté effectifs : cette valeur reflète un compromis entre la variance des valeurs ajustées et la déviation des estimations de coefficient, et est liée au choix de taille du voisinage. Lorsque le voisinage approche de l'infini, les pondérations géographiques pour chaque entité approchent de 1 et les estimations de coefficient sont très proches de celles d'un modèle de régression linéaire généralisée global. Pour les très grands voisinages, le nombre effectif de coefficients se rapproche du nombre réel ; les évaluations de coefficient locales présentent une variance réduite mais une déviation plutôt importante. Inversement, plus la taille du voisinage est réduite et approche de zéro, plus les pondérations géographiques de chaque entité approchent de zéro à l'exception du point de régression lui-même. Pour les voisinages extrêmement réduits, le nombre effectif de coefficients correspond au nombre d'observations et les évaluations de coefficient locales présentent une variance importante mais une déviation réduite. Le nombre effectif permet de calculer un grand nombre d’autres mesures diagnostiques.
- Valeur critique ajustée des statistiques pseudo-T : il s’agit de la valeur critique ajustée utilisée pour tester la signification statistique des coefficients dans un test-T bilatéral à une confiance de 95 pour cent. La valeur correspond à un niveau de signification (alpha) de 0,05 divisé par les degrés de liberté effectifs. Cet ajustement contrôle le taux d’erreur par famille (FWER) de la signification des variables explicatives.
Diagrammes en sortie
Une matrice de nuages de points est fournie dans la fenêtre Contenu (incluant jusqu’à 19 variables) ainsi qu’un histogramme de la valeur résiduelle d’écart et une ligne de distribution normale.
Implémentation : autres conseils et remarques
Dans les modèles de régression globaux, tels que la régression linéaire généralisée, les résultats sont peu fiables si plusieurs variables présentent un phénomène de multicolinéarité (lorsque plusieurs variables sont redondantes ou décrivent la même chose). L’outil Régression pondérée géographiquement génère une équation de régression locale pour chaque entité dans le jeu de données. Lorsque les valeurs d'une variable explicative particulière s'agrègent spatialement, vous risquez de rencontrer des problèmes de multicolinéarité locale. Le conditionnement du paramètre Output Features (Entités en sortie) indique quand les résultats sont instables en raison d'un problème de multicolinéarité local. En règle générale, soyez critique à l’égard des résultats d’entités présentant un conditionnement supérieur à 30, nul ou, pour les shapefiles, égal à -1.7976931348623158e+308. Le conditionnement est ajusté en fonction de l’échelle pour s’adapter au nombre de variables explicatives dans le modèle. Cela permet de comparer directement le numéro de condition entre les modèles utilisant des nombres de variables explicatives différents.
Les erreurs de conception de modèle indiquent souvent un problème de multicolinéarité globale ou locale. Pour déterminer l’origine du problème, exécutez le modèle à l’aide de l’outil Régression linéaire généralisée et examinez la valeur VIF pour chaque variable explicative. Si certaines valeurs VIF sont élevées (supérieures à 7,5, par exemple), la multicolinéarité globale empêche la résolution de la régression pondérée géographiquement. Toutefois, la multicolinéarité locale est plus vraisemblablement à l'origine du problème. Essayez de créer une carte thématique pour chaque variable explicative. Si la carte révèle une agrégation spatiale de valeurs identiques, envisagez la suppression de ces variables du modèle ou la combinaison de ces variables avec d'autres variables explicatives afin d'augmenter la variation des valeurs. Par exemple, si vous modélisez des valeurs d’habitat et que vous disposez de variables pour les chambres et les salles de bains, vous pouvez les combiner pour augmenter la variation des valeurs ou les représenter en tant que superficie salle de bain/chambre. Évitez d’utiliser un régime spatial artificiel ou des variables binaires pour les modèles de type Gaussien ou Poisson, des variables catégorielles ou nominales spatialement agrégées avec le type de modèle logistique, ou des variables possédant peu de valeurs possibles en créant des modèles de régression pondérée géographiquement.
Les problèmes de multicolinéarité locale peuvent également empêcher l’outil de trouver un Distance band (Canal de distance) optimale ou un Number of neighbors (Nombre de voisins) optimal. Essayez de définir des Manual intervals (Intervalles manuels) ou un Distance Band (Canal de distance) User defined (Défini par l’utilisateur) ou un nombre de voisins spécifique. Examinez ensuite les conditionnements dans la Output feature class (Classe d’entités en sortie) pour voir quelles entités sont associées à des problèmes de multicolinéarité locale (conditionnements supérieurs à 30). Vous pouvez supprimer temporairement ces entités problématiques en attendant de trouver une distance optimale ou un nombre de voisins optimal. N'oubliez pas que les résultats associés à des conditionnements supérieurs à 30 ne sont pas fiables.
Les estimations de paramètre et les valeurs prévues pour la régression pondérée géographiquement sont calculées à l'aide de la fonction de pondération spatiale suivante : exp(-d^2/b^2). Cette fonction de pondération peut être légèrement différente suivant le type d'implémentation du logiciel de régression pondérée géographiquement. Par conséquent, les résultats de l’outil Régression pondérée géographiquement peuvent ne pas correspondre exactement aux résultats d’autres solutions logicielles similaires.
Ressources supplémentaires
Plusieurs ressources utiles sont à votre disposition pour vous aider à approfondir vos connaissances sur la régression linéaire généralisée et la régression pondérée géographiquement. Commencez par lire la rubrique Principes de base de l’analyse de régression ou exercez-vous avec le didacticiel Regression Analysis.
Les ressources suivantes sont également utiles :
Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.
Fotheringham, Stewart A., Chris Brunsdon et Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.
Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.
Páez, A., Farber, S., & Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.
Vous avez un commentaire à formuler concernant cette rubrique ?