Fonctionnement de l'analyse de points chauds (Getis-Ord Gi*)

AllSource 1.1    |

L'outil Analyse de points chauds permet de calculer les statistiques Getis-Ord Gi* de chaque entité d'un jeu de données. Les scores z et valeurs p obtenus vous indiquent l'endroit où les entités de valeurs élevées ou faibles sont agrégées spatialement. Cet outil fonctionne en examinant chaque entité dans le contexte des entités voisines. Une entité dotée d'une valeur élevée est intéressante, mais il ne s'agit pas forcément d'un point chaud statistiquement significatif. Pour être un point chaud statistiquement significatif, une entité doit avoir une valeur élevée et être entourée d'autres entités également dotées de valeurs élevées. La somme locale d'une entité et de ses voisins est comparée proportionnellement à la somme de toutes les entités. Lorsque la somme locale est très différente de la somme locale attendue, et si la différence est trop importante pour n'être que le fruit du hasard, un score z statistiquement significatif est généré. Lorsque la correction FDR est appliquée, la signification statistique est ajustée pour prendre en compte les tests multiples et la dépendance spatiale.

Calculs

Formules mathématiques des statistiques Gi*

Interprétation

La statistique Gi* renvoyée pour chaque entité du jeu de données est un score z. Pour les scores z positifs statistiquement significatifs, plus le score z est élevé et plus l'intensité de l'agrégation des valeurs élevées (point chaud) est importante. Pour les scores z négatifs statistiquement significatifs, plus le score z est faible et plus l'intensité de l'agrégation des valeurs faibles (point froid) est importante. Pour plus d'informations sur la définition de la signification statistique et sur la correction en tenant compte des tests multiples et de la dépendance spatiale, reportez-vous à la rubrique Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur p ?

Sortie

Cet outil permet de créer une nouvelle classe d'entités en sortie avec un score z, une valeur p et un bin de niveau de confiance (Gi_Bin) pour chaque entité de la classe d'entités en entrée. Si un ensemble de sélection est appliqué à la classe d'entités en entrée, seules les entités sélectionnées seront analysées et seules les entités sélectionnées apparaîtront dans la classe d'entités en sortie.

Lorsque cet outil s’exécute dans ArcMap, la classe d’entités en sortie(Output Feature Class) est ajoutée automatiquement à la table des matières et le rendu par défaut est appliqué au champ Gi_Bin.

Points à prendre en compte pour l'analyse des points chauds

Avant d'entreprendre une analyse des points chauds, vous devez tenir compte des trois points suivants :

  1. Qu'est-ce que le champ d'analyse (Champ en entrée) ? L'outil Analyse de points chauds évalue si des valeurs élevées ou faibles (le nombre de délits, la gravité des accidents ou le nombre d'euros dépensés en articles de sport, par exemple) sont agrégées spatialement. Le champ contenant ces valeurs est votre champ d'analyse. En ce qui concerne les données ponctuelles liées aux incidents toutefois, vous pouvez être davantage intéressé par l'évaluation de l'intensité des incidents que par l'analyse de l'agrégation spatiale d'une valeur donnée associée aux incidents. Dans ce cas, vous devez agréger les données d'incident avant l'analyse. Il existe plusieurs manières d'y parvenir :
    • Si vous possédez des entités surfaciques pour votre zone d'étude, vous pouvez utiliser l'outil Jointure spatiale pour comptabiliser le nombre d'événements dans chaque polygone. Le champ obtenu contenant le nombre d'événements dans chaque polygone devient le champ en entrée pour l'analyse.
    • Utilisez l'outil Créer un quadrillage pour construire une grille surfacique sur vos entités ponctuelles. Utilisez ensuite l'outil Jointure spatiale pour comptabiliser le nombre d'événements qui se trouvent au sein de chaque polygone de la grille. Supprimez les polygones qui se trouvent à l'extérieur de votre zone d'étude. En outre, lorsqu'un grand nombre de polygones de grille situés dans la zone d'étude contiennent des zéros pour le nombre d'événements, vous devrez, le cas échéant, augmenter la taille du quadrillage du polygone ou supprimer les polygones de grille dont la valeur est zéro avant d'effectuer l'analyse.
    • Si vous avez plusieurs points coïncidents ou des points situés à une courte distance l'un de l'autre, vous pouvez également utiliser l'outil Intégrer avec l'outil Collect Events pour (1) capturer les entités situées à une distance spécifique l'une de l'autre, puis (2) créer une classe d'entités contenant un point à chaque emplacement unique associé à un attribut de comptage afin d'indiquer le nombre d'événements/de points capturés. Utilisez le champ ICOUNT obtenu comme champ en entrée (Input Field) pour l’analyse.
      Remarque :

      Si vous pensez que vos points coïncidents risquent d'être des enregistrements redondants, l'outil Rechercher les doublons peut vous aider à localiser et à supprimer les doublons.

    Agrégation des données d'incident
    Stratégies d'agrégation de données d'incident
  2. Quelle est la conceptualisation de relations spatiales appropriée ? Quelle est la valeur Canal distance ou distance seuil la mieux adaptée ?

    La valeur recommandée (et par défaut) du paramètre Conceptualisation de relations spatiales pour l'outil Analyse de points chauds (Getis-Ord Gi*) est Bande de distance fixe. Les options Fenêtre spatio-temporelle, Zone d'indifférence, Contiguïté, K voisins les plus proches et Triangulation de Delaunay peuvent aussi s'avérer efficaces. Pour en savoir plus sur les pratiques conseillées et les stratégies à adopter afin de déterminer une valeur de distance d'analyse, reportez-vous aux rubriques Sélection d'une conceptualisation de relations spatiales et Sélection d'une distance fixe. Pour plus d'informations sur l'analyse de semis de points spatio-temporelle, consultez la rubrique Analyse spatio-temporelle.

  3. Quelle est la question ?

    Cela peut sembler évident, mais la façon dont vous créez le champ en entrée pour l'analyse détermine les types de questions que vous pouvez poser. Souhaitez-vous de préférence identifier les lieux où un nombre élevé d'incidents se produisent ou les endroits où des valeurs élevées/faibles pour un attribut en particulier s'agrègent spatialement ? Dans ce cas, exécutez l'outil Analyse de points chauds sur les valeurs brutes ou sur les nombres d'incidents bruts. Ce type d'analyse est particulièrement utile pour les problèmes d'allocation de ressources. Vous avez également la possibilité de localiser les zones présentant des valeurs anormalement élevées par rapport à une autre variable. Si vous analysez les saisies immobilières, par exemple, vous vous attendez probablement à trouver plus de saisies immobilières dans les endroits comportant plus d'habitations (pour le dire autrement, à un certain niveau, vous vous attendez à ce que le nombre de saisies soit une fonction du nombre d'habitations). Si vous divisez le nombre de saisies par le nombre d'habitations, puis exécutez l'outil Hot Spot Analysis sur ce ratio, vous ne recherchez plus les zones où il y a beaucoup de saisies, mais celles où le nombre de saisies est anormalement élevé étant donné le nombre d'habitations. En créant un taux ou un ratio avant analyse, vous pouvez contrôler certaines relations attendues (par exemple, le nombre de délits est une fonction de la population, le nombre de saisies immobilières est une fonction du nombre d'habitations) et identifier les points chauds/froids inattendus.

Instructions sur les pratiques conseillées

  • Est-ce que la classe d'entités en entrée contient au moins 30 entités ? Les résultats ne sont pas fiables avec un nombre d'entités inférieur à 30.
  • La valeur Canal distance ou distance seuil est-elle appropriée ? Reportez-vous à la rubrique Sélection d'une distance fixe.
    • Toutes les entités doivent comporter au moins un voisin.
    • Aucune entité ne doit comporter toutes les autres entités comme voisines.
    • En particulier si les valeurs du champ en entrée sont asymétriques, les entités doivent comporter environ huit voisins chacune. L'outil Calculer la bande de distance à partir du nombre de voisins permet de trouver la distance moyenne à laquelle chaque entité a huit voisins.

Applications possibles

Les applications possibles couvrent les domaines de l'analyse criminelle, l'épidémiologie, l'analyse de la répartition des votes, la géographie économique, l'analyse des ventes de détail, l'analyse des accidents de la circulation et la démographie. Voici quelques exemples :

  • Où l'épidémie est-elle concentrée ?
  • Où les incendies de cuisine représentent-ils une part plus importante que prévue de tous les incendies domestiques ?
  • Où placer les sites d'évacuation ?
  • Où et quand les pics d'intensité se produisent-ils ?
  • Où et quand devons-nous allouer des ressources plus importantes ?

Ressources supplémentaires

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

Getis, A. et Aldstadt, J. (2004). Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" dans Geographical Analysis 24(3).

Ord, J.K. and A. Getis. 1995. "Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" dans Geographical Analysis 27(4).

La page Spatial Statistics Resources propose des vidéos rapides, des didacticiels, des séminaires Web, des articles et différents autres supports pour vous aider à utiliser les statistiques spatiales.

Scott, L. and N. Warmerdam. Extend Crime Analysis with ArcGIS Spatial Statistics Tools in ArcUser Online, April–June 2005.