Vous pouvez évaluer la qualité et la distribution des valeurs de chaque champ dans vos données à l’aide de l’ingénierie des données. Par exemple, le nombre de valeurs nulles dans un champ peut constituer une mesure de qualité des données utile pour identifier les entités dont des données sont manquantes. Les statistiques descriptives, telles que la moyenne, l’écart type et l’aplatissement, peuvent vous aider à comprendre la distribution des valeurs dans les champs, ainsi qu’à déterminer la marche à suivre pour utiliser un champ dans une analyse.
La vue Data Engineering dans ArcGIS AllSource vous permet d’afficher des mesures et statistiques descriptives pour les champs d’intérêt dans vos données, dans un format tabulaire. Chaque champ s’affiche sous forme de ligne et chaque statistique sous forme de colonne. Vous pouvez recourir à cette table pour explorer les données ou corriger les éventuels problèmes de données en définissant la symbologie, en créant des diagrammes et en exécutant les outils de géotraitement appropriés à chaque mesure et propriété du champ sélectionné.
Sélectionner des champs et calculer les statistiques
Lorsque vous ouvrez la vue Data Engineering (Ingénierie des données), elle comporte deux volets : l’un d’entre eux affiche les champs dans vos données et l’autre affiche une table des statistiques de champs (une fois qu’ils ont été sélectionnés et calculés).
En savoir plus sur la vue Data Engineering (Ingénierie des données)
Pour commencer, cliquez sur un seul champ dans le volet des champs, appuyez sur Ctrl et cliquez pour sélectionner des champs individuels distincts ou appuyez sur Maj et cliquez pour sélectionner plusieurs champs. Faites ensuite glisser les champs dans le volet des statistiques.
Vous pouvez également cliquer avec le bouton droit sur les champs sélectionnés et choisir Add To Statistics (Ajouter aux statistiques) ou Add To Statistics And Calculate (Ajouter aux statistiques et calculer).
Remarque :
Vous pouvez également ajouter et calculer tous les champs en une seule opération en cliquant sur le bouton Add Fields and Calculate Statistics (Ajouter des champs et calculer les statistiques) sur la barre d’outils du Fields Panel (Volet des champs) ou en cliquant sur le bouton Add All Fields and Calculate (Ajouter tous les champs et calculer) au milieu du volet des statistiques vide avant d’ajouter des champs.
Une fois les champs ajoutés, ils s’affichent sous forme de lignes dans la table des statistiques. Chaque ligne contient le nom du champ, l’alias et le type de données des champs sélectionnés. Une série de colonnes statistiques s’affichent également. Elles contiendront des informations complémentaires concernant les champs sélectionnés une fois les calculs effectués.
Pour renseigner les colonnes statistiques des champs sélectionnés, cliquez sur le bouton Calculate (Calculer). Lors du calcul des statistiques, le bouton Calculate (Calculer) se transforme en bouton Cancel (Annuler) sur lequel vous pouvez cliquer pour annuler le calcul.
Les colonnes statistiques sont renseignées avec les informations concernant chaque champ des données.
Si vous avez sélectionné des enregistrements, les résultats correspondent aux enregistrements sélectionnés dans les données. Le nombre d’entités sélectionnées et le nombre d’entités qui ont été utilisées pour calculer les statistiques s’affichent sous la table des statistiques.
Si des mises à jour sont en attente dans la table ou couche d’entités, elles sont utilisées dans le calcul.
Types de statistiques
Dans la vue Data Engineering (Ingénierie des données), vous pouvez calculer et afficher les statistiques et les mesures de qualité des données de chaque champ dans les données sous forme de colonnes dans une table. Dans la table, certains noms d’en-tête des statistiques sont abrégés. Survolez l’en-tête pour afficher le nom complet de la statistique. Les résultats dans la table des statistiques sont affichés jusqu’à 6 décimales. Vous pouvez cliquer avec le bouton droit de la souris sur une cellule et sélectionner l’option Copy (Copier) pour copier la valeur brute.
Remarque :
Pour les champs de type de données Décalage de l’horodatage ou Heure uniquement, prenez en compte les éléments suivants :
- Les statistiques pour les champs de type de données Décalage de l’horodatage sont calculées et affichées en temps universel coordonné UTC (décalage +00:00:00).
- Les statistiques pour les champs de type de données Heure uniquement sont des statistiques linéaires et non circulaires.
Une fois les valeurs calculées, cliquez avec le bouton droit sur les cellules statistiques de chaque champ afin d’accéder à des fonctions complémentaires. Certaines de ces fonctions utilisent des outils de géotraitement pour modifier les données en entrée. Si les données ne sont pas modifiables, créez une copie modifiable avant d’entamer le processus d’ingénierie des données.
Statistique | Description | Types de données applicables | Options de menu |
---|---|---|---|
Valeurs nulles | Nombre et pourcentage du nombre total d’enregistrements contenant des valeurs nulles dans le champ. Pour sélectionner des enregistrements qui contiennent des valeurs nulles, cliquez avec le bouton droit sur les cellules dans cette colonne. Remarque :Si la symbologie de la couche n’est pas configurée pour afficher les valeurs nulles, la sélection risque de ne pas apparaître sur la carte. Configurez la symbologie de façon à afficher les valeurs hors de la plage sous forme d’entités avec des valeurs nulles. | Numérique, texte, date |
|
Aperçu du diagramme | Représentation visuelle de la distribution des valeurs dans le champ. Des histogrammes s’affichent pour les champs numériques (court, long, entier très grand, flottant, double), des diagrammes à barres pour les champs catégoriels (texte) et des diagrammes linéaires pour les champs de date (date, date uniquement, heure uniquement, décalage de l’horodatage). Utilisez la colonne d’aperçu du diagramme pour réaliser une exploration initiale. Pour créer des diagrammes relatifs aux champs d’intérêt, cliquez avec le bouton droit sur les cellules dans cette colonne. Remarque :Les histogrammes et les diagrammes linéaires s’affichent avec 20 groupes par défaut. Selon la rareté des données, il est possible que certains groupes ne contiennent aucune donnée. Les groupes avec des valeurs vides sont traités sous forme de valeur zéro dans l’aperçu du diagramme. Pour changer le niveau de détail, cliquez avec le bouton droit sur l’aperçu du diagramme et créez un diagramme. Vous pouvez survoler des diagrammes à barres et des diagrammes linéaires pour afficher une info-bulle contenant des informations supplémentaires. Dans le cas des diagrammes à barres, l’info-bulle indique les catégories les plus fréquentes et pour les diagrammes linéaires, l’info-bulle décrit le nombre et la durée des intervalles dans le diagramme. Remarque :En ce qui concerne les descriptions des intervalles correspondant à des champs de date, on considère que les mois ont 30 jours. Par exemple, un intervalle de 3,2 mois correspond à 96 jours. | Numérique, texte, date |
|
Minimum (Min) | Plus petite valeur dans le champ. Pour sélectionner des enregistrements qui contiennent la valeur minimale, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Maximum (Max) | Plus grande valeur dans le champ. Pour sélectionner des enregistrements qui contiennent la valeur maximale, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Moyenne | Moyenne de toutes les valeurs dans le champ. Il s’agit de la valeur moyenne dans une distribution, calculée sous forme de somme des valeurs divisée par le nombre total de valeurs dans le champ. La moyenne est la mesure la plus courante de la tendance centrale dans une distribution. Pour calculer la date moyenne des champs de date, chaque date est convertie en nombre en calculant la différence entre la date et une date de référence (par exemple, 1900-01-01), calculée en millisecondes. La somme de toutes les valeurs de millisecondes divisée par le nombre de valeurs de date permet d’obtenir la date moyenne, qui est arrondie à la seconde la plus proche à des fins d’affichage. Pour les champs de type de données Date uniquement, l’heure est censée être minuit à des fins de calcul. Remarque :La date moyenne n’est peut-être pas dans la même résolution temporelle (minutes, secondes, millisecondes) que les valeurs du champ. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures à la moyenne, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Standard Deviation (Écart type) | Écart type des valeurs dans le champ. L’écart type est une mesure de la dispersion de la distribution. Il est calculé sous forme de racine carré de la variance, où la variance est la moyenne de la différence au carré de chaque valeur par rapport à la moyenne du champ. | Numérique |
|
Médiane | Médiane toutes les valeurs dans le champ. La médiane est la valeur du milieu dans la liste triée des valeurs. Si le nombre de valeurs est égal, la médiane est la moyenne entre les deux valeurs du milieu dans la distribution. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures à la médiane, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Effectif | Nombre et pourcentage du nombre total des valeurs non nulles dans le champ. | Numérique, texte, date |
|
Number of Unique Values (Nombre de valeurs uniques) (Unique) | Nombre de valeurs uniques dans le champ. | Numérique, texte, date | Aucune action unique |
Mode | Mode de toutes les valeurs dans le champ. Le mode est la valeur qui se produit le plus fréquemment dans le champ. Dans le cas des rattachements, lorsque la valeur qui survient le plus fréquemment dans un champ correspond à plusieurs valeurs, la cellule affiche [Multiple Values] ([Plusieurs valeurs]) et vous pouvez survoler la cellule pour afficher les valeurs du mode et leur fréquence. Lorsque toutes les valeurs du champ sont uniques la cellule affiche [All Unique Values] ([Toutes les valeurs uniques]). Pour sélectionner des enregistrements qui contiennent le mode, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, texte, date |
|
Le moins courant | Valeur la moins courante dans le champ. Dans le cas des rattachements, lorsque la valeur la moins courante dans un champ correspond à plusieurs valeurs, la cellule affiche [Multiple Values] ([Plusieurs valeurs]) et vous pouvez survoler la cellule pour afficher les valeurs les moins courantes et leur fréquence. Lorsque toutes les valeurs du champ sont uniques la cellule affiche [All Unique Values] ([Toutes les valeurs uniques]). Pour sélectionner des enregistrements qui contiennent la valeur la moins courante, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, texte, date |
|
Points aberrants | Nombre d’enregistrements avec des valeurs de points aberrants dans le champ. Les points aberrants sont des valeurs plus de 1,5 fois supérieures à l’écart interquartile au-dessus du troisième quartile ou au-dessous du premier quartile du champ sélectionné. Pour sélectionner des enregistrements qui contiennent les points aberrants (ou toutes les valeurs à l’exception des points aberrants), cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique |
|
Somme | Somme de toutes les valeurs dans le champ. | Numérique | Aucune action unique |
Plage | Différence entre les valeurs les plus petites et les plus grandes dans le champ. Pour les champs de date, la plage définit l’intervalle entre la date la plus ancienne et la date la plus récente trouvées dans le champ. Remarque :En ce qui concerne les plages des champs de date, on considère que les mois ont 30 jours. Par exemple, un intervalle de 3,2 mois correspond à 96 jours. | Numérique, date | Aucune action unique |
Interquartile Range (Écart interquartile) (IQR) | Plage entre les valeurs du premier quartile et du troisième quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. La valeur du premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant et le troisième quartile correspond à la limite supérieure du troisième groupe. Pour sélectionner des enregistrements qui contiennent des valeurs dans cette plage, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique |
|
First Quartile (Premier quartile) (Q1) | Valeur du premier quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. La valeur du premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant. Dans le cas des rattachements, la moyenne de toutes les valeurs correspondantes s’affiche. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures au premier quartile, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Third Quartile (Troisième quartile) (Q3) | Valeur du troisième quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le troisième quartile correspond à la limite supérieure du troisième groupe. Dans le cas des rattachements, la moyenne de toutes les valeurs correspondantes s’affiche. Pour sélectionner des enregistrements qui contiennent des valeurs supérieures et inférieures au troisième quartile, cliquez avec le bouton droit sur les cellules dans cette colonne. | Numérique, date |
|
Coefficient of Variation (Coefficient de variation) (CV) | Coefficient de variation des valeurs dans le champ. Le coefficient de variation est une mesure de la dispersion relative des valeurs. Il est calculé comme l’écart type, divisé par la moyenne du champ. Contrairement à l’écart type, qui doit toujours être pris en compte dans le contexte de la plage de données, le coefficient de variation offre deux façons de comparer les séries de données avec différentes plages et moyennes. Le coefficient de variation ne peut pas être calculé si la valeur moyenne est égale à zéro. Si la valeur moyenne est proche de zéro et que le jeu de données contient à la fois des valeurs positives et négatives, l’interprétation du coefficient de variation risque de ne pas présenter d’intérêt. | Numérique | |
Inclinaison | Déformation des valeurs dans le champ. La déformation mesure la symétrie de la distribution. La déformation est égale à zéro (ou proche de zéro) si la distribution est symétrique des deux côtés, comme dans le cas d’une distribution normale. Les distributions avec des extrémités plus longues sur la gauche présentent une déformation négative et les distributions avec des extrémités plus longues sur la droite présentent une déformation positive. La déformation est calculée comme étant le troisième moment (la moyenne des valeurs de données à la puissance trois) divisé par l’écart type à la puissance trois. | Numérique | |
Kurtosis | Aplatissement des valeurs dans le champ. L’aplatissement décrit le poids des extrémités dans une distribution par rapport aux extrémités d’une distribution normale, ce qui aide à identifier la fréquence des valeurs extrêmes. Les distributions dont l’aplatissement est inférieur à trois présentent des extrémités plus légères et moins de valeurs extrêmes que la distribution normale. Les distributions dont l’aplatissement est supérieur à trois présentent des extrémités plus lourdes et davantage de valeurs extrêmes que la distribution normale. L’aplatissement est calculé comme étant le quatrième moment (la valeur attendue des données à la puissance quatre) divisé par la puissance quatre de l’écart type. | Numérique |
Table des statistiques interactive
La table des statistiques est interactive. Cliquez avec le bouton droit sur les cellules et en-têtes et utilisez la barre d’outils pour accéder aux fonctions.
Interagir avec des champs
Cliquez avec le bouton droit sur un en-tête de ligne pour accéder aux fonctions applicables au champ sélectionné, par exemple :
- Create Chart (Créer un diagramme) : créez des diagrammes à l’aide du champ sélectionné. Les recommandations sont fournies en fonction du type de données.
- Fields (Champs) : ouvrez la vue des champs et définissez le champ actuel comme le champ actif dans la vue.
- Attribute Table (Table attributaire) : ouvrez la table attributaire et définissez le champ actuel comme le champ actif dans la table attributaire.
- Clean (Nettoyer), Construct (Construire), Integrate (Intégrer) et Format : accédez aux outils de géotraitement pour préparer les données. Reportez-vous à Préparer les données pour en savoir plus sur ces options.
- Remove Field (Supprimer un champ) : supprimez le champ et effacez ses statistiques de la table des statistiques.
Remarque :
La plupart des opérations de géotraitement qui modifient les données en entrée ne peuvent pas être annulées.
Interagir avec les cellules
Cliquez avec le bouton droit sur une cellule pour accéder à la fonctionnalité applicable à la cellule sélectionnée. Toutes les cellules permettent d’utiliser l’option Copy (Copier) pour copier la valeur de la cellule dans le Presse-papiers. Pour les cellules de la colonne Chart Preview (Aperçu du diagramme), vous pouvez ouvrir le diagramme par défaut de la cellule ou créer un diagramme applicable au type de données de la cellule. Pour toutes les autres colonnes, vous avez accès aux options de sélection contextuelle et de l’outil de géotraitement. Par exemple, la colonne Standard Deviation (Écart type) permet de sélectionner des enregistrements dans un, deux ou trois écarts types de la valeur moyenne. Elle contient des liens vers les outils Standardiser un champ et Transformer un champ. Pour obtenir une liste des options et fonctions applicables à chaque colonne, reportez-vous à la table décrite à la section Types de statistiques présentée ci-avant.
Remarque :
La sélection contextuelle est désactivée dans les deux cas suivants :
- Lorsque les statistiques calculées concernent une sélection. Pour effectuer des sélections sur des statistiques calculées à partir d’une sélection dans une couche, vous pouvez créer une couche de sélection.
- Lorsque le champ d’une cellule sélectionnée correspond à un type de données flottant ou double.
Afficher des types de données spécifiques
La barre d’outils de la table des statistiques comprend des options pour désigner les champs et colonnes de statistiques qui doivent s’afficher en fonction du type de données.
Vous pouvez par exemple cliquer sur l’option Text (Texte) pour supprimer les champs dont le type de données est Texte. Le bouton Numeric (Numérique) masque et affiche les champs de type de données court, long, entier très grand, flottant et double. Le bouton Date masque et affiche les champs de type de données date, date uniquement, heure uniquement et décalage de l’horodatage.
Lorsque vous supprimez des types de données de la table des statistiques, les colonnes qui sont propres au type de données supprimé sont également supprimées. Cela permet de simplifier l’examen des éléments d’intérêt dans la table. Par exemple, si vous n’affichez que les champs dont le type de données est Date, les colonnes qui décrivent les distributions (par exemple la déformation et l’aplatissement) sont ignorées. Le nombre de colonnes est ainsi réduit à seulement celles qui présentent un intérêt.
Trier, masquer, figer et réorganiser les colonnes
Par défaut, les champs s’affichent dans le même ordre qu’ils apparaissent dans la table attributaire. Les options des en-têtes de colonnes vous permettent de trier, masquer et figer les colonnes dans la table.
Le tri vous permet de réorganiser les lignes en fonction de la valeur dans les statistiques calculées. Par exemple, vous pouvez trier les champs en fonction de la colonne Nulls (Valeurs nulles) pour découvrir quels champs peuvent avoir des données manquantes.
Remarque :
Le tri n’est possible que si la table contient des champs avec un type de données unique. Utilisez les options d’affichage de la barre d’outils pour filtrer sur un type de données spécifique, puis triez. L’ordre de tri est réinitialisé à la valeur par défaut chaque fois qu’un nouveau champ est ajouté à la table des statistiques.
Cliquez sur Freeze/Unfreeze (Figer/libérer) pour déplacer la colonne au début de la table des statistiques et la verrouiller en place afin qu’elle s’affiche toujours lorsque vous faites défiler la table horizontalement. Pour réorganiser les colonnes, cliquez sur un en-tête de colonne et faites-le glisser vers la nouvelle position.
Pour masquer des colonnes, cliquez sur Hide Column (Masquer la colonne). La colonne est ainsi retirée de la vue. Pour afficher toutes les colonnes masquées, cliquez sur Show All Columns (Afficher toutes les colonnes).
Pour supprimer tous les champs et leurs statistiques de la table des statistiques, cliquez sur Remove All Fields (Supprimer tous les champs). Si un champ supprimé est ajouté à la table des statistiques, vous devez cliquer sur le bouton Calculate (Calculer) à nouveau pour afficher ses statistiques.
Exporter les statistiques
Pour utiliser les statistiques dans d’autres parties de ArcGIS AllSource, conservez les statistiques comme table autonome. Cliquez sur Export Statistics As Table (Exporter les statistiques comme table) pour ouvrir l’outil Field Statistics To Table (Statistiques zonales en tant que table). Cette option vous permet d’exporter les statistiques sous forme d’une seule table ou de plusieurs tables pour chaque type de données. Cet outil ne prend pas en charge les statistiques pour les champs de type de données entier très grand, date uniquement, heure uniquement et décalage de l’horodatage.
Bibliographie
- Sheskin, D.J. (2000). « Handbook of Parametric and Nonparametric Statistical Procedures. » Second Edition. Boca Raton, Florida: Chapman & Hall/CRC. ISBN : 978-1-58488-814-7.
- UCLA : Statistical Consulting Group.
« IEEE Standard for Floating-Point Arithmetic. » IEEE Std 754-2019 (Revision of IEEE 754-2008), vol., no., pp.1-84, 22 juillet 2019. https://ieeexplore.ieee.org/document/8766229.
Vous avez un commentaire à formuler concernant cette rubrique ?