Fonctionnement de l'outil Analyse de valeurs aberrantes locales

L’outil Local Outlier Analysis (Analyse de valeurs aberrantes locales) identifie les grappes et points aberrants significatifs dans vos données. Il recherche les emplacements de votre zone d’étude comportant des valeurs statistiquement différentes de leurs voisins dans l’espace et le temps. Il accepte en entrée un cube NetCDF spatio-temporel créé à l’aide de l’outil Create Space Time Cube By Aggregating Points (Créer un cube spatio-temporel en agrégeant des points) ou Create Space Time Cube From Defined Locations (Créer un cube spatio-temporel à partir d’emplacements définis). Il utilise ensuite les valeurs du paramètre Conceptualization of Spatial Relationships (Conceptualisation de relations spatiales) pour calculer une implémentation spatio-temporelle de la statistique Anselin Local Morans I (Analyse de grappes et de valeurs aberrantes) pour chaque groupe. Pour cela, l’outil calcule un index Local Morans I, une pseudo valeur de p et un code de type (CO_TYPE) représentant le type de catégorie de grappe ou de point aberrant de chaque groupe statistiquement significatif dans la valeur de paramètre Input Space Time Cube (Cube spatio-temporel en entrée). Les pseudo valeurs de p représentent la signification statistique des valeurs d’index calculées et leur précision dépend du nombre de permutations.

Applications possibles

L'outil Analyse de valeurs aberrantes locales peut être utilisé dans de nombreux domaines, tels que l'économie, la gestion de ressources, la géographie politique, la démographie, la santé publique et la prévention des fraudes. Cet outil permet de répondre à plusieurs sortes de questions, telles que :

  • Certains emplacements de ma zone d'étude présentent-ils des modèles de dépense anormaux ?
  • Y a-t-il eu une période avec des taux anormalement élevés d'épidémies dans la zone d'étude ?
  • Y a-t-il des zones suburbaines au sein desquelles les habitants utilisent beaucoup plus d'eau que leurs voisins ? Vous pouvez également déterminer les zones suburbaines qui utilisent systématiquement moins d'eau afin de développer des pratiques conseillées en matière de conservation de l'eau.
  • Ma région comporte-t-elle des emplacements présentant des hausses significatives du nombre de déclarations de sinistres remplies au cours du dernier mois ?

Sorties de l’outil

Cet outil produit plusieurs sorties. La sortie la plus utile est une carte bidimensionnelle récapitulant chaque emplacement dans le temps, qui est ajoutée à la carte à la fin de l'exécution de l'outil. Les catégories sont les suivantes :

Nom de typeDéfinition
Jamais significatif

Never Significant

Emplacement n’ayant jamais connu de champ CO_TYPE statistiquement élevé.

Cluster élevé-élevé uniquement

Only High-High Cluster

Emplacement où le seul type statistiquement significatif dans le temps a été Grappes élevées-élevées.

Cluster élevé-faible uniquement

Only High-Low Outlier

Emplacement où le seul type statistiquement significatif dans le temps a été Points aberrants élevés-faibles.

Cluster faible-élevé uniquement

Only Low-High Outlier

Emplacement où le seul type statistiquement significatif dans le temps a été Points aberrants faibles-élevés.

Cluster faible-faible uniquement

Only Low-Low Cluster

Emplacement où le seul type statistiquement significatif dans le temps a été Grappes faibles-faibles.

Types multiples

Multiple Types

Emplacement ayant connu plusieurs types de grappes et points aberrants statistiquement significatifs dans le temps (par exemple, pendant certaines périodes, l'emplacement a été un point aberrant faible-élevé, et pendant d'autres périodes, il a été une grappe élevée-élevée).

En outre, des messages récapitulant les résultats d’analyse apparaissent en bas de la fenêtre Geoprocessing (Géotraitement) pendant l’implémentation de l’outil. Vous pouvez accéder aux messages en passant le curseur de la souris sur la barre de progression, en cliquant sur le bouton de menu contextuel Ouvrir dans une nouvelle fenêtre ou en développant la section de messages dans la fenêtre Geoprocessing (Géotraitement). Vous pouvez également consulter les messages provenant d'un outil déjà exécuté via l’historique de géotraitement.

Ces messages contiennent des informations sur la valeur du paramètre Input Space Time Cube (Cube spatio-temporel en entrée), telles que la période, la déformation temporelle et le nombre de groupes et d’emplacements analysés. Les messages incluent également des informations importantes sur les éventuels points aberrants de l’intervalle temporel le plus récent et récapitulent les principales phases susceptibles de présenter un intérêt. Ainsi, si vous voulez déterminer les zones les moins performantes de votre secteur de vente et que vous recherchez les points aberrants faibles-élevés, les messages vous indiquent la principale phase possédant le nombre le plus élevé de points aberrants faibles-élevés.

Exemple de messages de l'outil Analyse de valeurs aberrantes locales

Cet outil crée une classe d’entités en sortie comportant les champs suivants qui récapitulent les groupes à chaque emplacement de la valeur du paramètre Input Space Time Cube (Cube spatio-temporel en entrée) :

AliasNom du champ
Number of OutliersNUM_OUT
Percentage of OutliersPERC_OUT
Number of Low ClustersN_LOW_CLS
Percentage of Low ClustersP_LOW_CLS
Number of Low OutliersN_LOW_OUT
Percentage of Low OutliersP_LOW_OUT
Number of High ClustersN_HIGH_CLS
Percentage of High ClustersP_HIGH_CLS
Number of High OutliersN_HIGH_OUT
Percentage of High OutliersP_HIGH_OUT

Emplacements avec No Spatial Neighbors qui s’appuient uniquement sur des voisins temporels pour les calculs d’analyse

NO_SP_NBR

Emplacements avec un Outlier in the Most Recent Time Step

OUT_R_TIME
Cluster Outlier Type

CO_TYPE

Autres résumés statistiques comprenant la somme, la valeur minimale, la valeur maximale, la moyenne, l’écart type et la valeur médiane de la variable analysée.

SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE et MED_VALUE

Enfin, l’outil Local Outlier Analysis (Analyse de valeurs aberrantes locales) ajoute un certain nombre de nouvelles variables à la valeur du paramètre Input Space Time Cube (Cube spatio-temporel en entrée). Si ces variables existent déjà (si vous exécutez plusieurs fois l’outil Local Outlier Analysis (Analyse de valeurs aberrantes locales) pour la même valeur de paramètre Analysis Variable (Variable d’analyse)), elles sont remplacées afin que le cube contienne toujours les résultats d’analyse les plus récents.

Vous pouvez visualiser ces variables à l’aide de ArcGIS AllSource. Pour les stratégies, reportez-vous à la rubrique Visualiser le cube spatio-temporel.

Interprétation

Pour faciliter l’interprétation des résultats de l’outil Local Outlier Analysis (Analyse de valeurs aberrantes locales), l’outil Make Space Time Cube Layer (Créer une couche de cube spatio-temporel) peut être utilisé pour créer une couche de cube spatio-temporel pouvant afficher les variables de résultats ajoutées au cube. Vous pouvez visualiser l’index Local Morans I, la valeur p et Cluster Outlier Analysis Type pour chaque groupe en sélectionnant la couche de cube spatio-temporel, puis, sur le ruban Space Time Cube (Cube spatio-temporel), définir le Display Theme (Thème d’affichage) sur le thème approprié dans la section Local Outlier Analysis (Analyse de valeurs aberrantes locales). Un index ayant une valeur positive indique qu'un groupe est voisin de groupes présentant également des valeurs attributaires élevées ou faibles ; ce groupe fait partie d'une grappe. Un index ayant une valeur négative indique qu'un groupe est voisin de groupes présentant des valeurs différentes ; ce groupe est un point aberrant. Dans les deux cas, la pseudo valeur de p ou la valeur de p de l'entité doit être assez faible pour que la grappe ou le point aberrant soit considéré comme statistiquement significatif. Pour plus d’informations sur la définition de la signification statistique, reportez-vous à la rubrique Qu’est-ce qu’un score z ? Qu'est-ce qu'une valeur de p ? Notez que l'index Local Morans (I) est une mesure relative et qu'il ne peut être interprété que dans le contexte de sa distribution de référence générée et de sa pseudo valeur de p ou valeur de p calculée. Les pseudo valeur de p ou valeur de p signalées dans la classe d'entités en sortie sont corrigées pour tenir compte des tests multiples et de la dépendance spatiale.

Le type de grappe ou de point aberrant fait la distinction entre une grappe statistiquement significative de valeurs élevées (élevé-élevé), une grappe de valeurs faibles (faible-faible), un point aberrant dans lequel une valeur élevée est entourée principalement de valeurs faibles (élevé-faible) et un point aberrant dans lequel une valeur faible est entourée principalement de valeurs élevées (faible-élevé). La signification statistique est définie au niveau de confiance de 95 pour cent. Cette signification représente une correction FDR, qui ajuste le seuil de valeur de p de 0,05 sur une valeur reflétant mieux le niveau de confiance de 95 %, en prenant en compte des tests multiples.

Valeurs par défaut du voisinage

Pour déterminer si la valeur de groupe à un emplacement dans l’espace et dans le temps fait partie d’un point chaud, froid ou aberrant statistiquement significatif, chaque groupe est évalué en fonction des groupes spatio-temporels voisins. Par défaut, cet outil utilise la méthode Fixed distance (Distance fixe) pour définir les relations entre les groupes. Les valeurs des paramètres Neighborhood Distance (Distance du voisinage) et Neighborhood Time Step (Intervalle temporel de voisinage) définissent l’étendue du voisinage de chaque groupe (le contexte de l’analyse de chaque groupe). Supposons des dimensions de bins de 400 mètres sur 400 mètres sur un jour. Si vous définissez la valeur du paramètre Neighborhood Distance (Distance du voisinage) sur 801 mètres et la valeur du paramètre Neighborhood Time Step (Intervalle temporel de voisinage) sur 2, les voisins spatiaux s’étendent sur deux groupes horizontalement et verticalement et sur un groupe en diagonale, comme illustré :

Exemple de voisins spatiaux

En outre, il existera des voisins temporels. Tous les bins au même emplacement que la cible et ses voisins spatiaux (illustrés ci-dessus) pour les périodes correspondantes ou les deux périodes précédentes, à savoir un total de trois jours dans cet exemple, sont inclus en tant que voisins. Notez que les voisins temporels sont uniquement dans le passé et qu’une valeur de paramètre Neighborhood Time Step (Intervalle temporel de voisinage) de 2 englobe trois intervalles temporels. Pour garantir que chaque emplacement possède au moins un voisin temporel, l'index Local Morans n'est pas calculé pour les groupes de la première tranche horaire. Les valeurs de groupe de la première tranche horaire sont cependant incluses dans le calcul de la moyenne globale.

Si vous n’indiquez pas de valeur pour le paramètre Neighborhood Distance (Distance du voisinage), une valeur par défaut est calculée. La formule est produite à partir du calcul utilisé pour déterminer un rayon de recherche de densité du noyau par défaut. Si vous n’indiquez pas de valeur pour le paramètre Intervalle temporel de voisinage, la valeur par défaut est égale à 1.

Des options supplémentaires permettent de définir des relations de voisinage à l’aide du paramètre Conceptualisation de relations spatiales. Pour chacune des options, l’outil recherche d’abord des voisins spatiaux, puis les groupes se trouvant aux mêmes emplacements que les N intervalles temporels précédents, N représentant la valeur du paramètre Neighborhood Time Step (Intervalle temporel de voisinage) que vous spécifiez.

Le choix du paramètre Conceptualisation des relations spatiales doit refléter les relations inhérentes entre les entités que vous analysez. Plus la modélisation des interactions entre les entités dans l’espace est réaliste, plus les résultats sont précis. Des recommandations sont présentées dans la section Pratiques recommandées pour sélectionner une conceptualisation de relations spatiales.

Permutations

Les permutations permettent de déterminer la probabilité de détecter la distribution spatiale réelle des valeurs que vous analysez en comparant vos valeurs à un ensemble de valeurs générées de manière aléatoire. Même avec une structure spatiale totalement aléatoire (complete spatial randomness, CSR), un certain niveau d'agrégation est toujours observé en raison du caractère aléatoire. Les permutations génèrent de nombreux jeux de données aléatoires et comparent ces valeurs à l'index Local Moran's I de vos données d'origine. Pour cela, chaque permutation réorganise de manière aléatoire les valeurs voisines autour de chaque groupe et calcule la valeur d'index Local Moran's I de ces données aléatoires. En regardant la distribution de l'index Local Moran's I généré à partir des permutations, vous pouvez voir la plage de valeurs Local Moran's I pouvant raisonnablement découler du caractère aléatoire. Si vos données présentent un modèle spatial statistiquement significatif, les valeurs de l'index Local Moran's I générées à partir des permutations doivent présenter une agrégation moindre que la valeur de l'index Local Moran's I de vos données d'origine. Une pseudo valeur de p est ensuite calculée en déterminant la proportion de valeurs de l'index Local Moran's I générées à partir des permutations qui présentent une agrégation plus élevée que vos données d'origine. Si cette proportion (la pseudo valeur de p) est faible (inférieure à 0,05), vous pouvez en conclure que vos données contiennent vraiment une agrégation statistiquement significative.

Le choix du nombre de permutations doit faire l’objet d’un compromis entre précision et augmentation du temps de traitement. L'augmentation du nombre de permutations améliore la précision en augmentant la plage des valeurs possibles pour la pseudo valeur de p. Ainsi, avec 99 permutations, la précision de la pseudo valeur de p est de 0,01 (1/99+1), et pour 999 permutations, la précision est de 0,001 (1/999+1). Il est possible d’utiliser un nombre moins élevé de permutations lors de la première exploration d’un problème, mais il est recommandé d’augmenter les permutations au nombre le plus élevé possible pour les résultats finaux.

Ressources supplémentaires

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.