Statistiques de champ vers table (Gestion des données)

Synthèse

Crée une table de statistiques descriptives d’un ou de plusieurs champs en entrée d’une table ou d’une classe d’entités.

Illustration

Illustration de l’outil Statistiques de champ vers table

Utilisation

  • L’outil accepte une classe d’entités ou une table autonome en entrée.

  • Dans le paramètre Champs en entrée, vous pouvez indiquer plusieurs champs pour lesquels les statistiques peuvent être calculées. Le paramètre accepte les champs de type numérique (Court, Long, Entier très grand, Flottant et Double), texte et date (Date, Date uniquement, Heure uniquement et Décalage de l’horodatage).

  • L’ordre des champs spécifiés par le paramètre Champs en entrée est l’ordre des lignes dans la table en sortie.

  • Le paramètre Grouper par champ permet de calculer les statistiques des champs en entrée séparément pour chaque valeur unique dans le champ spécifié. Les statistiques de chaque champ en entrée sont calculées et signalées une seule fois par valeur unique dans le groupe par champ.

  • Le paramètre Tables en sortie comporte quatre options pour la colonne Types de champ :

    • Tout : la totalité des champs en entrée et des statistiques en sortie, quel que soit le type de champ, sont exportés vers une unique table en sortie.
    • Numérique : seuls les champs en entrée de type numérique (Court, Long, Entier très grand, Flottant et Double) sont exportés et seules les statistiques applicables aux champs de type numérique sont exportées dans la table en sortie.
    • Text (Texte) : seuls les champs en entrée de type Texte sont exportés et seules les statistiques applicables aux champs de type Texte sont exportées vers la table en sortie.
    • Date : seuls les champs en entrée de type date (Date, Date uniquement, Heure uniquement, Décalage de l’horodatage) sont exportés et seules les statistiques applicables aux champs de type date sont exportées dans la table en sortie.

    Pour chaque table en sortie, le nom de la table est spécifiée dans la colonne Nom en sortie du paramètre Tables en sortie et la table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

  • Il est possible de configurer les statistiques en sortie et leurs noms de champ à l’aide du paramètre Statistiques en sortie. Si aucune valeur n’est indiquée pour ce paramètre, toutes les statistiques en sortie applicables sont incluses dans les tables en sortie. La table suivante répertorie toutes les statistiques disponibles et le type de champ correspondant pour chaque option de la colonne Types de champ du paramètre Tables en sortie :

    Statistique en sortieToutNumériqueTexteDate

    Nom de champ

    Texte

    Texte

    Texte

    Texte

    Alias

    Texte

    Texte

    Texte

    Texte

    Type de champ

    Texte

    Texte

    Texte

    Texte

    Valeurs nulles

    Long

    Long

    Long

    Long

    Minimum

    Texte

    Double

    -

    Date

    Maximum

    Texte

    Double

    -

    Date

    Moyenne

    Texte

    Double

    -

    Date

    Écart type

    Double

    Double

    -

    -

    Médiane

    Texte

    Double

    -

    Date

    Total

    Long

    Long

    Long

    Long

    Nombre de valeurs uniques

    Long

    Long

    Long

    Long

    Mode

    Texte

    Double

    Texte

    Date

    Le moins courant

    Texte

    Double

    Texte

    Date

    Points aberrants

    Long

    Long

    -

    -

    Somme

    Double

    Double

    -

    -

    Plage

    Texte

    Double

    -

    Texte

    Ecart interquartile

    Double

    Double

    -

    -

    Premier quartile

    Texte

    Double

    -

    Date

    Troisième quartile

    Texte

    Double

    -

    Date

    Coefficient de variation

    Double

    Double

    -

    -

    Inclinaison

    Double

    Double

    -

    -

    Kurtosis

    Double

    Double

    -

    -

  • Les statistiques disponibles sont identiques aux statistiques de la vue Data Engineering. Pour plus de détails sur le mode de calcul de chaque statistique, reportez-vous à la section Interagir avec les statistiques.

  • Si vous sélectionnez Tout pour la colonne Types de champ du paramètre Tables en sortie, tous les types de champ sont exportés dans une seule table. Cela peut vous aider à visualiser simultanément tous les champs en entrée ainsi que leurs statistiques. Cela présente des avantages pour certaines applications ; par exemple, lors de l’utilisation des statistiques dans une mise en page ou un rapport. Vous devez cependant connaître certaines mises en garde lors de l’exportation de différents types de champ vers une seule table. Certaines options de statistiques communes à plusieurs types de champ, comme Mode, Le moins courant, Minimum et Maximum, sont stockées sous forme de champs de type texte dans la table en sortie. Cela peut générer des problèmes, par exemple, lors du tri de ces valeurs dans les colonnes de statistiques ou de l’enchaînement des statistiques en sortie dans un modèle. La table comporte également des cellules vides car certaines statistiques ne s’appliquent pas aux champs de type texte ou date.

  • Si vous sélectionnez Numérique, Texte ou Date pour la colonne Types de champ du paramètre Tables en sortie, chaque type de champ est exporté dans une table distincte et les tables en sortie incluent uniquement les statistiques applicables à ce type de champ. Certaines statistiques qui s’appliquent à plusieurs types de champ sont stockées dans un format qui correspond au type de champ en entrée. Par exemple, dans la table des valeurs numériques, le champ Minimum est de type Double alors que dans la table des dates, il est de type Date. Il est recommandé d’utiliser différentes tables en sortie. Par exemple, pour enregistrer les statistiques avec le même type que celui des champs en entrée, triez les statistiques dans la table en sortie ou utilisez leurs valeurs dans un modèle.

  • Les options Mode et Le moins courant pour la colonne Statistique du paramètre Statistiques en sortie peuvent correspondre à plusieurs valeurs dans un champ en entrée en cas d’égalité. Plusieurs valeurs sont alors indiquées comme <Null> pour les tables en sortie Numérique, Texte et Date. Pour l’option Tout, la cellule en sortie contient le texte Valeurs multiples.

Paramètres

ÉtiquetteExplicationType de données
Table en entrée

Table en entrée contenant les champs utilisés pour créer la table des statistiques.

Table View
Champs en entrée

Champs contenant les valeurs utilisées pour le calcul des statistiques.

Field
Emplacement en sortie

Emplacement dans lequel les tables en sortie sont créées. Cet emplacement peut être une géodatabase, un dossier ou un jeu de classes d’entités.

Workspace
Tables en sortie

Tables en sortie contenant les statistiques. La colonne Types de champ spécifie les types de champ inclus dans chaque table en sortie, ainsi que le nom de chaque table en sortie dans la colonne Nom en sortie. Vous pouvez, par exemple, créer une seule table avec des résumés de tous les types de champ ou créer des tables distinctes pour les résumés des types de champs Numérique, Texte et Date.

Les options suivantes sont disponibles pour la colonne Types de champ :

  • Numérique : une table synthétisant les champs numériques de l’entrée (types Court, Long, Entier très grand, Flottant et Double) est créée.
  • Texte : une table récapitulant les champs de type texte de l’entrée (Texte) est créée.
  • Date : une table synthétisant les champs de date de l’entrée (type Date, Date uniquement, Heure uniquement et Décalage de l’horodatage) est créée.
  • Tout : une table récapitulant tous les champs de type numérique, texte et date de l’entrée est créée. Les champs en sortie contenant des statistiques qui s’appliquent à plusieurs types de champ sont enregistrés en tant que type Texte. Les statistiques en sortie qui ne s’appliquent pas aux champs de type Texte et Date sont vides.

Value Table
Champ de regroupement
(Facultatif)

Champ utilisé pour regrouper les lignes en catégories. Si un champ Regrouper par est indiqué, chaque champ de l’entrée apparaît en tant que ligne dans la table en sortie une fois par valeur unique du champ Regrouper par.

Field
Statistiques en sortie
(Facultatif)

Indique les statistiques qui seront synthétisées ainsi que les noms des champs en sortie contenant les statistiques. La statistique est fournie dans la colonne Statistique et le nom du champ en sortie est indiqué dans la colonne Nom de champ en sortie. Si aucune valeur n’est indiquée, toutes les statistiques applicables sont calculées pour tous les champs en entrée.

Les options suivantes sont disponibles pour la colonne Statistique (seules les statistiques applicables aux champs en entrée sont disponibles) :

  • Nom du champ : nom du champ.
  • Alias : alias du champ.
  • Type de champ : type du champ (Court, Long, Double, Flottant, Texte ou Date).
  • Valeurs Null : nombre d’enregistrements contenant les valeurs null du champ.
  • Minimum : valeur la plus faible du champ.
  • Maximum : valeur la plus élevée du champ.
  • Moyenne : moyenne (somme divisée par le nombre total) de toutes les valeurs du champ. Pour calculer la date moyenne des champs de date, chaque date est convertie en nombre en calculant la différence entre la date et une date de référence (par exemple, 1900-01-01), calculée en millisecondes.
  • Écart type : écart type des valeurs du champ. Il est calculé sous forme de racine carré de la variance, où la variance est la différence au carré moyenne de chaque valeur par rapport à la moyenne du champ.
  • Médiane : médiane toutes les valeurs dans le champ. La médiane est la valeur du milieu dans la liste triée des valeurs. Si le nombre de valeurs est égal, la médiane est la moyenne des deux valeurs du milieu dans la distribution.
  • Total : nombre de valeurs non nulles du champ.
  • Nombre de valeurs uniques : nombre de valeurs uniques dans le champ.
  • Mode : valeur qui se produit le plus fréquemment dans le champ.
  • Le moins courant : valeur la moins courante dans le champ.
  • Points aberrants : nombre d’enregistrements avec des valeurs de points aberrants dans le champ. Les points aberrants sont des valeurs plus de 1,5 fois supérieures à l’écart interquartile au-dessus du troisième quartile ou au-dessous du premier quartile des valeurs du champ.
  • Somme : somme de toutes les valeurs du champ.
  • Plage : différence entre la valeur la plus faible et la valeur la plus élevée dans le champ.
  • Écart interquartile : plage entre les valeurs du premier quartile et du troisième quartile dans le champ. Cela représente la plage de la moitié médiane des données.
  • Premier quartile : valeur du premier quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant.
  • Troisième quartile : valeur du troisième quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le troisième quartile correspond à la limite supérieure du troisième groupe dans l’ordre croissant.
  • Coefficient de variation : coefficient de variation des valeurs dans le champ. Le coefficient de variation est une mesure de la dispersion relative des valeurs. Il est calculé comme l’écart type, divisé par la moyenne du champ.
  • Asymétrie : asymétrie des valeurs dans le champ. La déformation mesure la symétrie de la distribution. La déformation est calculée comme étant le troisième moment (la moyenne des valeurs de données à la puissance trois) divisé par l’écart type à la puissance trois.
  • Kurtosis : aplatissement des valeurs dans le champ. L’aplatissement décrit le poids des extrémités dans une distribution par rapport à la distribution normale, ce qui aide à identifier la fréquence des valeurs extrêmes. L’aplatissement est calculé comme étant le quatrième moment (la moyenne des valeurs de données à la puissance quatre) divisé par la puissance quatre de l’écart type.

Value Table

Sortie obtenue

ÉtiquetteExplicationType de données
Table en sortie pour les champs de type Numérique

Tables en sortie pour les données de type Numérique. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table
Table en sortie pour les champs de type Texte

Tables en sortie pour les données de type Texte. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table
Table en sortie pour les champs de type Date

Tables en sortie pour les données de type Date. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table
Table en sortie pour tous les champs

Tables en sortie pour tous les types de données. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table

arcpy.management.FieldStatisticsToTable(in_table, in_fields, out_location, out_tables, {group_by_field}, {out_statistics})
NomExplicationType de données
in_table

Table en entrée contenant les champs utilisés pour créer la table des statistiques.

Table View
in_fields
[in_fields,...]

Champs contenant les valeurs utilisées pour le calcul des statistiques.

Field
out_location

Emplacement dans lequel les tables en sortie sont créées. Cet emplacement peut être une géodatabase, un dossier ou un jeu de classes d’entités.

Workspace
out_tables
[[field_type, output_name],...]

Tables en sortie contenant les statistiques. La colonne field_type indique les types de champ inclus dans chaque table en sortie, ainsi que le nom de chaque table en sortie dans la colonne output_name. Vous pouvez, par exemple, créer une seule table avec des résumés de tous les types de champ ou créer des tables distinctes pour les résumés des types de champs Numérique, Texte et Date.

Les options suivantes sont disponibles pour la colonne field_type :

  • NUMERIC : une table synthétisant les champs numériques de l’entrée (types Court, Long, Entier très grand, Flottant et Double) est créée.
  • TEXT : une table récapitulant les champs de type texte de l’entrée (Texte) est créée.
  • DATE : une table synthétisant les champs de date de l’entrée (type Date, Date uniquement, Heure uniquement et Décalage de l’horodatage) est créée.
  • ALL : une table récapitulant tous les champs de type numérique, texte et date de l’entrée est créée. Les champs en sortie contenant des statistiques qui s’appliquent à plusieurs types de champ sont enregistrés en tant que type Texte. Les statistiques en sortie qui ne s’appliquent pas aux champs de type Texte et Date sont vides.

Value Table
group_by_field
(Facultatif)

Champ utilisé pour regrouper les lignes en catégories. Si un champ Regrouper par est indiqué, chaque champ de l’entrée apparaît en tant que ligne dans la table en sortie une fois par valeur unique du champ Regrouper par.

Field
out_statistics
[[out_statistic, output_name],...]
(Facultatif)

Indique les statistiques qui seront synthétisées ainsi que les noms des champs en sortie contenant les statistiques. La statistique est fournie dans la colonne out_statistic et le nom du champ en sortie est indiqué dans la colonne output_name. Si aucune valeur n’est indiquée, toutes les statistiques applicables sont calculées pour tous les champs en entrée.

Les options suivantes sont disponibles pour la colonne out_statistic (seules les statistiques applicables aux champs en entrée sont disponibles) :

  • FIELDNAME : nom du champ.
  • ALIAS : alias du champ.
  • FIELDTYPE : type du champ (Court, Long, Double, Flottant, Texte ou Date).
  • NULLS : nombre d’enregistrements contenant les valeurs nulles du champ.
  • MINIMUM : plus petite valeur dans le champ.
  • MAXIMUM : plus grande valeur dans le champ.
  • MEAN : moyenne (somme divisée par le nombre total) de toutes les valeurs du champ. Pour calculer la date moyenne des champs de date, chaque date est convertie en nombre en calculant la différence entre la date et une date de référence (par exemple, 1900-01-01), calculée en millisecondes.
  • STANDARDDEVIATION : écart type des valeurs du champ. Il est calculé sous forme de racine carré de la variance, où la variance est la différence au carré moyenne de chaque valeur par rapport à la moyenne du champ.
  • MEDIAN : médiane toutes les valeurs dans le champ. La médiane est la valeur du milieu dans la liste triée des valeurs. Si le nombre de valeurs est égal, la médiane est la moyenne des deux valeurs du milieu dans la distribution.
  • COUNT : nombre de valeurs non nulles du champ.
  • NUMBEROFUNIQUEVALUES : nombre de valeurs uniques dans le champ.
  • MODE : valeur qui se produit le plus fréquemment dans le champ.
  • LEASTCOMMON : valeur la moins courante dans le champ.
  • OUTLIERS : nombre d’enregistrements avec des valeurs de points aberrants dans le champ. Les points aberrants sont des valeurs plus de 1,5 fois supérieures à l’écart interquartile au-dessus du troisième quartile ou au-dessous du premier quartile des valeurs du champ.
  • SUM : somme de toutes les valeurs dans le champ.
  • RANGE : différence entre la valeur la plus faible et la valeur la plus élevée dans le champ.
  • INTERQUARTILERANGE : plage entre les valeurs du premier quartile et du troisième quartile dans le champ. Cela représente la plage de la moitié médiane des données.
  • FIRSTQUARTILE : valeur du premier quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le premier quartile correspond à la limite supérieure du premier groupe dans l’ordre croissant.
  • THIRDQUARTILE : valeur du troisième quartile dans le champ. Les quartiles divisent la liste triée de valeurs en quatre groupes contenant des nombres égaux de valeurs. Le troisième quartile correspond à la limite supérieure du troisième groupe dans l’ordre croissant.
  • COEFFICIENTOFVARIATION : coefficient de variation des valeurs dans le champ. Le coefficient de variation est une mesure de la dispersion relative des valeurs. Il est calculé comme l’écart type, divisé par la moyenne du champ.
  • SKEWNESS : asymétrie des valeurs dans le champ. La déformation mesure la symétrie de la distribution. La déformation est calculée comme étant le troisième moment (la moyenne des valeurs de données à la puissance trois) divisé par l’écart type à la puissance trois.
  • KURTOSIS : aplatissement des valeurs dans le champ. L’aplatissement décrit le poids des extrémités dans une distribution par rapport à la distribution normale, ce qui aide à identifier la fréquence des valeurs extrêmes. L’aplatissement est calculé comme étant le quatrième moment (la moyenne des valeurs de données à la puissance quatre) divisé par la puissance quatre de l’écart type.

Value Table

Sortie obtenue

NomExplicationType de données
out_numeric

Tables en sortie pour les données de type Numérique. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table
out_text

Tables en sortie pour les données de type Texte. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table
out_date

Tables en sortie pour les données de type Date. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table
out_all

Tables en sortie pour tous les types de données. La table est enregistrée dans l’espace de travail spécifié par le paramètre Emplacement en sortie.

Table

Exemple de code

Exemple 1 d’utilisation de la fonction FieldStatisticsToTable (fenêtre Python)

Le script ci-dessous pour la fenêtre Python illustre l’utilisation de la fonction FieldStatisticsToTable.

import arcpy
arcpy.management.FieldStatisticsToTable("SNAP_County_Rates", 
      "LocId;Program_Name;Participants;SNAP_Rate;TimeofYear", r"C:\Output.gdb", 
      "ALL All_Table;DATE Date_Table;NUMERIC Num_Table;TEXT Text_Table")
Exemple 2 d’utilisation de l’outil FieldStatisticsToTable (script autonome)

Le script autonome Python ci-dessous illustre l’utilisation de la fonction FieldStatisticsToTable.

# Import system modules.
import arcpy

try:
    # Set the workspace and input features. 
    arcpy.env.workspace = r"C:\\Statistics\\MyData.gdb" 
    in_table = "County_Data" 
 
    # Set the input fields that will be used to calculate statistics. 
    in_fields = "population_total;unemployment_rate;income;county_name;sample_date" 
 
    # Set the output location.
    out_location = r"C:\\Statistics\\MyData.gdb"

    # Set the output table field type and name.
    out_tables = "ALL AllStats_Table;DATE DateStats_Table;NUMERIC NumStats_Table;TEXT TextStats_Table"
 
    # Run the Field Statistics To Table tool 
    arcpy.management.FieldStatisticsToTable (in_table, in_fields, out_location, out_tables) 
 
except arcpy.ExecuteError: 
    # If an error occurred when running the tool, print the error message. 
    print(arcpy.GetMessages())

Environnements

Cet outil n’utilise pas d’environnement de géotraitement.

Rubriques connexes