Une opération de statistiques zonales est une opération qui calcule des statistiques sur les valeurs des cellules d’un raster (un raster de valeur) dans les zones définies par un autre jeu de données. Deux outils permettent de calculer des statistiques par zones : Statistiques zonales et Statistiques zonales (table).
L’outil Statistiques zonales ne calcule qu’une seule statistique à la fois et crée un raster en sortie. Cette valeur devient la valeur de la cellule du raster en sortie pour les cellules correspondant à cette zone. Si une entité de zone contient des zones superposées, la statistique est calculée pour une seule zone car une cellule dans le raster en sortie ne peut représenter qu’une seule valeur.
L’outil Statistiques zonales (table) calcule une ou plusieurs statistiques en utilisant des sous-ensembles prédéfinis, ou toutes les statistiques, et crée un tableau en sortie. Comme pour Statistiques zonales, la statistique obtenue est une valeur unique pour chaque zone. Le tableau en sortie contient un enregistrement par zone et les valeurs statistiques sont reportées dans des champs prédéfinis. Si la zone en entrée est une entité et qu’elle contient des zones superposées, les statistiques sont calculées pour toutes les zones et la sortie est reportée dans des enregistrements individuels pour chaque zone.
La couche de zone en entrée régit la forme, les valeurs et les emplacements des zones, qui peuvent être soit un raster soit une entité. Pendant l’opération zonale, les données d’entité sont d’abord converties en un raster. Dans les données raster, une zone est constituée par l’ensemble des cellules qui ont la même valeur, qu’elles soient contiguës ou non. Chaque zone doit avoir une identité unique et s’il s’agit d’un raster, il doit avoir le type de données entier. Vous pouvez saisir tout champ entier ou toute chaîne de valeurs uniques dans la zone en entrée pour définir les zones.
Le raster de valeur en entrée contient les valeurs utilisées pour calculer le résultat statistique de chaque zone. Il peut être soit de type entier soit de type à virgule flottante.
Dans l’illustration suivante, la moyenne de la valeur en entrée est identifiée pour chaque zone :
Comment les cellules d’un raster de valeur sont identifiées pour une zone de raster ?
Pour calculer une statistique, l’outil extrait d’abord les valeurs de cellule du raster de valeur pour toutes les cellules qui se trouvent dans chaque zone. Cette identification des cellules d’un raster de valeur à l’intérieur d’une zone se fait en superposant des zones sur le raster de valeur. Lorsque la zone ou les valeurs en entrée sont des rasters avec la même taille de cellule et que les cellules sont alignées, les valeurs de cellule du raster de valeur qui recouvre celui des zones sont extraites et les statistiques sont calculées.
Lorsque la taille des cellules ou l’alignement diffère entre le raster de zones et le raster de valeur, les cellules entre les rasters de zone et de valeur ne peuvent pas être parfaitement superposées les unes sur les autres. Dans ce cas, l’outil ajuste en interne un ou les deux rasters pour obtenir cette superposition parfaite de cellules. Cet ajustement suit quelques règles simples. Lorsque la taille de la cellule du raster de zones et du raster de valeur est différente, la taille de la cellule en sortie correspond à la valeur Maximum Of Inputs (Maximum d’entrées), et le raster de valeur est utilisé en interne comme raster de capture. Si la taille de cellule est identique mais que les cellules ne sont pas alignées, le raster de valeurs est utilisé comme raster de capture en interne. L’une de ces cases déclenche un ré-échantillonnage interne avant l’exécution de l’opération zonale.
Lorsque la taille de cellule, le raster de capture, le système de coordonnées en sortie, ou une combinaison de ces éléments, sont spécifiés dans les paramètres d’environnement de géotraitement, l’opération zonale est effectuée dans une fenêtre d’analyse créée en respectant ces paramètres. Reportez-vous à la rubrique Détermination de la fenêtre d’analyse dans Spatial Analyst pour plus d’informations.
Comment les cellules d’un raster de valeur sont identifiées pour une zone d’entités ?
Fondamentalement, une opération zonale est une analyse raster effectuée sur deux rasters dans laquelle l’un est la zone et l’autre la valeur. Si les zones sont définies par des entités, une conversion interne entité vers raster a lieu. La conversion interne d'une zone surfacique utilise la méthode Centre de cellule dans l’outil Polygone vers raster pour rastériser l’entrée à l'aide de la taille de cellule et du raster de capture du raster de valeur. Cette méthode peut conduire à un résultat inattendu : des zones manquantes dans la sortie si aucun des centres de cellules de la grille de rastérisation ne se trouve dans la zone d’entités. Cela peut se produire avec des zones plus petites que la surface d’une cellule du raster de zones interne, ainsi qu’avec des zones plus grandes.
Dans l’exemple ci-dessous, la figure (1) représente la zone d’entités en entrée, le raster de valeur en entrée et son centre de cellule. Les entités en entrée comportent trois zones (formes jaunes), qui vérifient les caractéristiques suivantes :
- zone1 est plus grande qu’une cellule individuelle.
- zone2 et zone3 sont plus petites qu’une cellule.
- Un centre de cellule se situe à l’extérieur de zone2, mais à l’intérieur de zone3.
Au cours du processus de rastérisation des zones de la figure (2), aucun centre de cellule ne se situant à l’intérieur de zone1 et zone2, seule zone3 est rastérisée, les deux autres zones disparaissant pour ainsi dire.
Pour éviter que des zones ne disparaissent de votre sortie, assurez-vous que chaque zone contienne un ou plusieurs centres de cellules du raster de valeur. Une façon de procéder est de créer davantage de centres de cellule en indiquant une taille de cellule plus petite dans l’environnement. La taille de cellule d’analyse par défaut est issue du raster de valeur. Cependant, si vous spécifiez une taille de cellule dans l’environnement d’analyse qui est plus petite que celle du raster de valeur, vous permettrez de capturer plus de zones, comme le démontre la figure (3) ci-dessus. Gardez à l’esprit que l’indication d’une taille de cellule inférieure génère un raster en sortie plus important. La résolution supérieure en sortie ne fournira pas nécessairement un résultat d’aussi bonne qualité qu’il n’y paraît, car les détails supplémentaires ne sont pas réellement présents dans le raster de valeur en entrée.
Après qu’une zone d’entités est convertie en une zone de raster en utilisant la même taille de cellule et le même alignement de cellule du raster de valeur, l’extraction des cellules d’un raster de valeur dans une zone est effectué en superposant les zones sur le raster de valeur.
Lorsque la taille de cellule, le raster de capture, le système de coordonnées en sortie, ou une combinaison de ces éléments, sont spécifiés dans les paramètres d’environnement de géotraitement, l’opération zonale, y compris la conversion interne entité vers raster, est effectuée dans une fenêtre d’analyse définie sur la base de ces paramètres. Reportez-vous à la rubrique Détermination de la fenêtre d’analyse dans Spatial Analyst pour en savoir plus.
Calculer les statistiques arithmétiques et circulaires
Le calcul d'une moyenne en additionnant toutes les valeurs de cellule, puis en divisant le résultat par le nombre de cellules peut fonctionner avec des données telles que l'altitude. Toutefois, si vos données représentent des quantités cycliques, telles que l'exposition (cap de boussole de 0 à 360 degrés ) ou les heures d'une journée (0 à 24 heures), le calcul de la moyenne arithmétique génère un résultat incorrect car les valeurs minimum et maximum représentent la même quantité. Pour ce type de données, vous devez calculer des statistiques circulaires.
Par exemple, si vous calculez la moyenne de deux valeurs de cellule, 0 degré et 360 degrés, la moyenne arithmétique est de 180 degrés. Ce résultat est incorrect car 0 degré et 360 degrés représentent le même cap de boussole. Les statistiques correctes peuvent être obtenues en calculant la moyenne circulaire, qui est de 0 degré.
Vous pouvez spécifier le calcul des statistiques circulaires en sélectionnant le paramètre Calculer les statistiques circulaires (circular_calculation = "CIRCULAR" dans Python). Lorsque vous calculez des statistiques circulaires, soyez attentif aux valeurs les plus faibles et les plus élevées pour représenter les données cycliques. La valeur la plus faible est supposée être 0. La valeur la plus élevée peut être spécifiée comme paramètre Valeur de repli circulaire (circular_wrap_value in Python). La valeur par défaut de ce paramètre est 360.
Selon le type de vos données, sélectionnez le type de calcul des statistiques et une valeur de repli circulaire appropriée pour les statistiques circulaires, afin d'obtenir le résultat correct. Les statistiques circulaires suivantes sont prises en charge : Moyenne, Majorité, Minorité, Écart type et Variété.
Calculer les statistiques zonales à l’aide de rasters multidimensionnels
Les données raster multidimensionnelles représentent des données à des heures et/ou profondeurs ou hauteurs différentes. Ce type de données, couramment utilisé dans les sciences atmosphériques, océanographiques et de la Terre, est observé par des plateformes de surveillance, capturé par des satellites ou généré à partir de modèles de simulation numérique où les données sont traitées, agrégées ou interpolées à l’aide de diverses techniques statistiques. Pour en savoir plus sur les rasters multidimensionnels, reportez-vous à la rubrique Vue d’ensemble des données raster multidimensionnelles.
Les outils Statistiques zonales et Statistiques zonales (table) prennent en charge les données raster multidimensionnelles de zone et de valeur en entrée. Les statistiques zonales sont calculées pour toutes les tranches d’un raster multidimensionnel si le paramètre Traitement comme multidimensionnel est sélectionné (ALL_SLICES dans le paramètre process_as_multidimensional dans Python). Si le paramètre Traitement comme multidimensionnel est désélectionné (CURRENT_SLICES dans Python), seule la tranche en cours est traitée.
Voici quelques exemples d’analyse de statistiques zonales sur des données multidimensionnelles :
- Un météorologue souhaite obtenir un aperçu du mouvement d’un ouragan et de la distribution des précipitations le long de sa trajectoire pour une période donnée. À l’aide du traitement multidimensionnel de l’outil Statistiques zonales, le météorologue peut déterminer la précipitation moyenne de chaque tranche de temps pour les zones de l’ouragan qui ont changé au fil du temps.
- Un écologiste souhaite examiner la distribution des événements extrêmes à partir des données sur les précipitations quotidiennes maximales sur les 30 dernières années pour un bassin fluvial particulier. L’outil Statistiques zonales (table), avec le type de statistique Pourcentage pour une liste de valeurs de pourcentages, peut être utilisé pour examiner la distribution des données des précipitations quotidiennes maximales pour les données de séries chronologiques lors d’un traitement multidimensionnel.
Les types de données raster multidimensionnelles pris en charge incluent la couche raster multidimensionnelle, la mosaïque multidimensionnelle, les services d’imagerie et le CRF (Cloud Raster Format) d’Esri.
Pour ajouter une couche raster multidimensionnelle dans ArcGIS AllSource, dans l'onglet Carte, dans le groupe Couche, cliquez sur l'option Couche raster multidimensionnelle depuis Ajouter des données. Vous pouvez également utiliser l’outil Générer une couche raster multidimensionnelle, sélectionner la variable appropriée pour l’opération zonale et générer une couche raster multidimensionnelle.
Sortie multidimensionnelle de l’outil Statistiques zonales
Lorsque vous demandez à l’outil Statistiques zonales de traiter l’entrée comme multidimensionnelle, il crée un raster multidimensionnel en sortie. L’opération zonale s’effectue tranche par tranche, entre les tranches du raster de zones et les tranches de la variable actuelle du raster de valeur. Les valeurs statistiques calculées sont stockées dans une variable multidimensionnelle dont le nom est créé en combinant le nom de la variable du raster de valeur et la statistique en cours de calcul. Le nombre de dimensions de la variable en sortie et le nombre de tranches dépendent de la nature spécifique de la zone et des rasters de valeurs en entrée.
Vous pouvez explorer les informations multidimensionnelles du raster en sortie à partir de la fenêtre des propriétés.
En ce qui concerne l’outil Statistiques zonales (table), lorsque vous demandez que les données soient traitées comme étant multidimensionnelles, cela génère une table plate contenant les statistiques calculées pour toutes les zones et toutes les tranches. Ce tableau comprend des champs supplémentaires pour indiquer le nom de la variable, les noms des dimensions et leurs valeurs ainsi que les statistiques calculées pour chaque zone.
Comme le traitement multidimensionnel s’effectue tranche par tranche entre les rasters de zones et de valeur, le nombre de tranches dans le raster multidimensionnel en sortie de l’outil Statistiques zonales et le nombre d’enregistrements dans la table en sortie de l’outil Statistiques zonales (table) dépendront du type des rasters en entrée et du nombre de tranches qu’ils contiennent. Les sous-sections suivantes décrivent des exemples.
Rasters de zones et de valeur multidimensionnels ayant les mêmes dimensions
Pour déterminer la salinité maximale à différentes profondeurs de l’océan pour différentes plages de température à une profondeur correspondante, il faut réaliser des statistiques zonales avec une zone multidimensionnelle représentant les zones de température et un raster de valeur multidimensionnel représentant la salinité. L’opération zonale est effectuée pour chaque tranche de zone avec la tranche correspondante du raster de valeur. Le raster multidimensionnel en sortie a le même nombre de tranches que le raster de valeur.
Dans l’illustration ci-dessous, les variables des rasters de zones et de valeurs ont les mêmes trois dimensions x, y et d, ainsi que le même nombre de tranches aux valeurs de dimension d0, d1 et d2. La variable dans le raster multidimensionnel en sortie a également les mêmes trois dimensions, x, y et d, ainsi que le même nombre de tranches aux valeurs de dimension d0, d1 et d2.
Pour déterminer le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table), ajoutez le nombre de zones de chaque tranche. Si le nombre de zones aux profondeurs d0, d1 et d2 est de 5, 4 et 3, respectivement, le nombre total d’enregistrements est de 12 (5 + 4 + 3 = 12).
Rasters de zones et de valeurs multidimensionnels de dimensions différentes
Il est possible de déterminer une fenêtre horaire et d’emplacements appropriée en vue du déploiement des ressources, comme des véhicules sous-marins téléguidés, en effectuant des statistiques zonales avec une zone multidimensionnelle représentant les emplacements potentiels des véhicules sous-marins téléguidés à différents instants et un raster de valeurs multidimensionnel, comme la sortie du modèle HYCOM (Hybrid Coordinate Ocean Model), représentant l’océan actuel à différentes profondeurs et différentes heures.
L’opération zonale est effectuée pour chaque tranche du raster de zones avec chaque tranche du raster de valeurs. Pour déterminer le nombre de tranches du raster multidimensionnel en sortie, multipliez le nombre de tranches dans le raster de zones par le nombre de tranches dans le raster de valeurs.
Dans l’illustration ci-dessous, les variables du raster de zones ont trois dimensions, x, y et j, ainsi que trois tranches aux valeurs de dimension, d0, d1 et d2. La variable du raster de valeurs a trois dimensions, x, y et t, ainsi que deux tranches aux valeurs de dimension, t0 et t1. La variable dans le raster multidimensionnel en sortie aura quatre dimensions : x, y, d et t.
Pour déterminer le nombre total de tranches dans la sortie de l’outil Statistiques zonales, multipliez le nombre de profondeurs du raster de zones par le nombre de phases du raster de valeurs, ce qui dans le cas présent donne 6 (3 profondeurs x 2 phases = 6). Pour déterminer le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table), ajoutez le nombre de zones de chaque tranche. Si le nombre de zones est de 5, le nombre total d’enregistrements dans le cas présent est égal à 30 (5 zones x 3 profondeurs x 2 phases = 30).
Raster de valeur multidimensionnel uniquement
Pour déterminer la température maximale dans chaque comté pour chaque jour de l’année, il faut effectuer une statique zonale avec un raster de valeur multidimensionnel représentant la température quotidienne et un raster de zones représentant les comtés. L’opération zonale est effectuée pour chaque tranche du raster de valeur en utilisant le même raster de zones. Le raster multidimensionnel en sortie a le même nombre de tranches que le raster de valeur.
Dans l’illustration ci-dessous, les variables du raster de valeurs ont trois dimensions, x, y et j, ainsi que trois tranches aux valeurs de dimension, t0, t1 et t2. La variable dans le raster multidimensionnel en sortie a également les mêmes trois dimensions, x, y et d, ainsi que le même nombre de tranches aux valeurs de dimension t0, t1 et t2.
Pour déterminer le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table), multipliez le nombre de zones par le nombre de tranches dans le raster de valeurs. Si le nombre de zones est de 5, le nombre total d’enregistrements est de 15 (5 x 3 = 15).
Raster de zones multidimensionnel uniquement
Pour trouver la moyenne des précipitations maximales par décennies dans chaque catégorie de zonage d’une plaine inondable, qui change au fil du temps, à des fins de planification écologique du paysage, il faut effectuer une statistique zonale avec un raster de zones multidimensionnel représentant les zones de la plaine inondable et un raster de valeur représentant les précipitations maximales par décennies. L’opération zonale est effectuée pour chaque tranche du raster de zones en utilisant le même raster de valeur. Le raster multidimensionnel en sortie a le même nombre de tranches que le raster de zones.
Dans l’illustration ci-dessous, les variables du raster de zones ont trois dimensions, x, y et j, ainsi que trois tranches aux valeurs de dimension, t0, t1 et t2. La variable dans le raster multidimensionnel en sortie a également les mêmes trois dimensions, x, y et d, ainsi que le même nombre de tranches aux valeurs de dimension t0, t1 et t2.
Pour déterminer le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table), multipliez le nombre de zones par le nombre de tranches dans le raster de zones. Si le nombre de zones est de 5, le nombre total d’enregistrements est de 15 (5 x 3 = 15).
Statistiques
Vous trouvez ci-dessous une liste des types de statistiques disponibles pour calculer les statistiques zonales, avec des détails supplémentaires et une illustration graphique montrant les résultats pour chaque option à partir d’un exemple en entrée.
Majorité
- La valeur la plus récurrente dans chaque zone est associée à toutes les cellules qui figurent dans ces zones.
- Lorsqu’il existe une association à une valeur de majorité dans une zone, la sortie correspondant aux emplacements dans cette zone est associée à la valeur la plus faible.
Exemple :
Maximum
- La plus haute valeur dans chaque zone est affectée à toutes les cellules dans cette zone.
Exemple :
Moyenne
- La moyenne des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
- La formule de la moyenne arithmétique est la suivante :
où :
- x̄ = moyenne
- xi = valeurs observées
- N = nombre d'observations
- La formule de la moyenne circulaire est la suivante :
où :
- x̄ = moyenne circulaire
- xi = valeurs observées
- N = nombre d'observations
Dans le cas altéré où Σsin xi et Σcos xi sont toutes deux égales à zéro, la valeur spéciale -1 est utilisée pour indiquer que la moyenne circulaire n'est pas bien définie.
Exemple :
Médiane
- La médiane des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
- Les valeurs de type statistiques sont calculées selon la méthode Q1 de Hyndman et Fan (1996). Lorsque deux valeurs triées sont également proches de la valeur médiane cible, la plus petite des deux valeurs est choisie.
- Pour calculer la médiane, toutes les cellules dans une zone sont classées. S'il existe n cellules dans la zone et que la valeur n est impaire, la valeur médiane ((n+1)/2) est écrite dans chaque cellule de la zone. S’il existe un nombre pair de cellules, la valeur (n/2) est générée.
Exemple :
Minimum
- La valeur la plus faible dans chaque zone est affectée à toutes les cellules dans cette zone.
Exemple :
Minorité
- La valeur la moins récurrente dans chaque zone est associée à toutes les cellules qui figurent dans ces zones.
- Lorsqu’il existe une association à une valeur de minorité dans une zone, la sortie correspondant aux emplacements dans cette zone est associée à la valeur la plus faible.
Exemple :
Centile
- Le pourcentage des valeurs dans chaque zone est affecté à toutes les cellules en sortie dans cette zone.
- Cette valeur de type statistique est calculée selon la méthode Q1 de Hyndman et Fan (1996). Lorsque deux valeurs triées sont également proches de la valeur médiane cible, la plus petite des deux valeurs est choisie.
- Pour calculer le centile, toutes les cellules d’un raster de valeurs sont classées selon la formule suivante : R = P/100 x (n - 1) +1, où P représente le centile souhaité et n, le nombre de cellules.
Exemple :
Plage
- La différence entre les valeurs minimales et maximales dans chaque zone est affectée à toutes les cellules dans cette zone.
- La plage est définie comme suit :
Plage zonale = Maximum zonal – Minimum zonal
Exemple :
Écart type
- L’écart-type des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
- La formule de l’écart type arithmétque est la suivante :
où :
- σ = écart type
- xi = valeurs observées
- x̄ = moyenne
- N = nombre d'observations
Remarque :
L’écart type est calculé sur la population entière (méthode N). Il ne repose pas sur un échantillon (méthode N-1). Par comparaison, le calcul de l'écart type est équivalent à la méthode STDEVP, et non STDEV, dans Microsoft Excel.
- La formule de l’écart type circulaire est la suivante :
où :
- σ = Écart type circulaire
- R̄ = Longueur moyenne résultante de
Dans un échantillon de n angles en degrés, la somme des angles a1, a2, …, an est calculée et chaque angle est représenté par un composant vecteur, , qui pointe dans la direction de l'observation correspondante.
Exemple :
Somme
- La somme des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
- Le type de données du raster en sortie est en virgule flottante. En effet, la valeur de la somme a tendance à être assez élevée et il n’est pas être possible de le représenter avec une valeur entière.
Par exemple, prenons une zone qui comprend 2 500 lignes et colonnes dans la cellule. Supposons que chaque cellule a la valeur 1 000. La somme pour cette zone serait 2 500 x 2 500 x 1 000 = 6,25 milliards. Si une sortie de nombre entier est requise et que la plage est comprise dans une fourchette de ± 2,147 milliards, vous pouvez utiliser l’outil Entier.
Exemple :
Variété
- Le nombre de valeurs distinctes dans chaque zone est affecté à toutes les cellules dans cette zone
Exemple :
Type de données en sortie
Le type de données (entier ou à virgule flottante) en sortie est déterminé à la fois par le calcul zonal effectué et par le type raster de valeurs en entrée. Le tableau ci-après identifie les types de données attendus du raster en sortie :
Statistiques | Type de valeur en entrée | Sortie |
---|---|---|
Majorité | Entier* | Entier |
Maximum | Entier, virgule flottante | Identique à la valeur |
Moyenne | Entier, virgule flottante | Flottant |
Médiane | Entier, virgule flottante | Entier |
Minimum | Entier, virgule flottante | Identique à la valeur |
Minorité | Entier* | Entier |
Centile | Entier, virgule flottante | Entier |
Plage | Entier, virgule flottante | Identique à la valeur |
Écart type | Entier, virgule flottante | Flottant |
Somme | Entier, virgule flottante | Flottant |
Variété | Entier* | Entier |
Remarque :
* Seuls les entiers sont compatibles.
Lorsqu’un emplacement dans le jeu de données de la zone est associé à la valeur NoData, NoData apparaît dans le résultat.
Bibliographie
Rob J. Hyndman and Yanan Fan (1996) "Sample Quantiles in Statistical Packages" The American Statistician, Vol. 50, No. 4 (Nov., 1996), pp. 361-365.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?