Standardiser un champ (Gestion des données)

Synthèse

Standardise les valeurs des champs en les convertissant en valeurs conformes à une échelle spécifiée. Parmi les méthodes de standardisation figurent les suivantes : score z, minimum-maximum, maximum absolu et standardisation robuste.

Illustration

Standardiser les valeurs d’un champ.
Standardiser les valeurs d’un champ à l’aide d’une méthode parmi les quatre disponibles.

Utilisation

  • Il existe quatre méthodes de standardisation : Z-Score (Score z), Minimum-maximum, Absolute maximum (Maximum absolu) et Robust standardization (Standardisation robuste).

    • La méthode Z-Score (Score z) mesure la différence entre une valeur et la moyenne de toutes les valeurs du champ à l’aide d’écarts types, ou score standard.
      • Application potentielle : évaluer l’importance d’une valeur par rapport à la distribution des valeurs dans un champ. Par exemple, la participation des votants d’un comté peut être évaluée par rapport à celle d’autres comtés du pays, ce qui révèle des modèles de participation types et permet d’identifier les comtés où la participation est très élevée et très faible.
      • Remarque : cette méthode s’applique lorsque la distribution est normale. Par conséquent, elle est déconseillée si la distribution des données est significativement faussée.
      • Équation :Équation de la méthode Score z, où x' est la valeur standardisée, x est la valeur initiale, x̄ est la moyenne et σx est l’écart type.
    • La méthode Minimum-maximum préserve les relations entre les valeurs de données initiales lors de la conversion des valeurs dans une échelle comprise entre des valeurs minimum et maximum spécifiées par l’utilisateur.
      • Application potentielle : un évaluateur de biens immobilier peut mettre à l’échelle les caractéristiques des biens, telles que le nombre de pièces d’une maison ou l’âge d’une maison en années, avant d’utiliser ces caractéristiques dans un modèle, par exemple l’outil Classification et régression basées sur une forêt.
      • Remarque : cette approche est influencée par les points aberrants, ou valeurs extrêmes, présents dans les données.
      • Équation :Équation de la méthode Minimum-maximum, où x' est la valeur standardisée, x est la valeur initiale, min(x) est le minimum des données, max(x) est le maximum des données, a est le minimum spécifié par l’utilisateur et b est le maximum spécifié par l’utilisateur.
    • La méthode Maximum absolu compare la différence entre une valeur et la valeur maximum absolue d’une répartition en divisant chaque valeur par la valeur maximum absolue dans le champ.

      • Application potentielle : cette méthode est utile lorsque le maximum de vos données est stable et logique, et que vous souhaitez comparer chaque valeur à ce maximum. Par exemple, le nombre de votes pour un comté ne peut pas être supérieur au nombre de personnes en âge de voter dans le comté. Le comté présentant la proportion de votes la plus élevée devient le maximum et tous les autres comtés sont évalués en fonction de ce maximum absolu de participation.
      • Remarque : l’échelle en sortie est comprise entre -1 et 1. Les valeurs positives les plus élevées correspondent aux valeurs proches de 1 et les valeurs négatives les plus élevées, aux valeurs proches de -1.
      • Équation :Équation de la méthode Maximum absolu, où x' est la valeur standardisée, x est la valeur initiale et max(|x|) est le maximum des valeurs absolues dans les données.

    • La méthode Standardisation robuste standardise les valeurs des champs spécifiés à l’aide d’une variante robuste de la méthode Score z. Cette variante utilise la médiane et l’intervalle interquartile au lieu de la moyenne et de l’écart type.

      • Application potentielle : un évaluateur de biens immobiliers tente d’estimer la valeurs des biens dans une ville, mais un quartier dans lequel les prix sont particulièrement élevés produit des points aberrants dans les données. L’évaluateur utilise la standardisation robuste pour limiter l’impact de ces points aberrants dans la distribution des valeurs des biens immobiliers pour la ville.
      • Remarque : l’utilisation de la médiane et de l’intervalle interquartile peut permettre de limiter efficacement l’impact des points aberrants dans la distribution.
      • Équation :Équation de la méthode Standardisation robuste, où x' est la valeur standardisée, x est la valeur initiale, median(x) est la médiane des données et IQR(x) est l’intervalle interquartile des données.

  • Si plusieurs champs sont fournis, la méthode de standardisation spécifiée est appliquée à tous les champs.

  • Cet outil modifie les données en entrée et ajoute les nouveaux champs standardisés à la table ou la classe d’entités en entrée.

  • Pour chaque champ sélectionné, des statistiques résumées sont présentées dans les messages de géotraitement générés. Celles-ci incluent le maximum, le minimum, la somme, la moyenne, l’écart type, la médiane, l’asymétrie et l’aplatissement.

Paramètres

ÉtiquetteExplicationType de données
Table en entrée

Table qui contient les champs dont les valeurs doivent être standardisées.

Table View; Raster Layer; Mosaic Layer
Champ à standardiser

Champs contenant les valeurs à standardiser. Pour chaque champ, un nom de champ en sortie peut être spécifié. Si aucun nom de champ en sortie n’est spécifié, l’outil en crée un, basé sur le nom du champ et la méthode sélectionnée.

Value Table
Méthode de standardisation
(Facultatif)

Spécifie la méthode à utiliser pour standardiser les valeurs présentes dans les champs spécifiés.

  • Score ZLe score standard, à savoir le nombre d’écarts types au-dessus ou en dessous de la moyenne, est utilisé. Le calcul utilise la formule de la méthode Score z, qui calcule la différence entre la valeur et la moyenne des valeurs de la colonne, divisée par l’écart type des valeurs de la colonne. Il s’agit de l’option par défaut.
  • Minimum-maximumLes valeurs sont converties dans une échelle comprise entre les valeurs minimum et maximum spécifiées par l’utilisateur.
  • Maximum absoluChaque valeur de la colonne est divisée par la valeur maximum absolue de la colonne.
  • Standardisation robuste Une variante robuste de la formule utilisée pour la méthode Score z est utilisée pour standardiser les valeurs des champs spécifiés. Cette variante utilise la médiane et l’intervalle interquartile au lieu de la moyenne et de l’écart type.
String
Valeur minimale
(Facultatif)

Valeur utilisée par la méthode Minimum-maximum du paramètre Standardization Method (Méthode de standardisation) pour spécifier la valeur minimale dans l’échelle des valeurs en sortie spécifiées.

Double
Valeur maximale
(Facultatif)

Valeur utilisée par la méthode Minimum-maximum du paramètre Standardization Method (Méthode de standardisation) pour spécifier la valeur maximale dans l’échelle des valeurs en sortie spécifiées.

Double

Sortie obtenue

ÉtiquetteExplicationType de données
Table en entrée actualisée

Tableau contenant les nouveaux champs standardisés.

Vue tabulaire

arcpy.management.StandardizeField(in_table, fields, {method}, {min_value}, {max_value})
NomExplicationType de données
in_table

Table qui contient les champs dont les valeurs doivent être standardisées.

Table View; Raster Layer; Mosaic Layer
fields
[[input_field, output_field],...]

Champs contenant les valeurs à standardiser. Pour chaque champ, un nom de champ en sortie peut être spécifié. Si aucun nom de champ en sortie n’est spécifié, l’outil en crée un, basé sur le nom du champ et la méthode sélectionnée.

Value Table
method
(Facultatif)

Spécifie la méthode à utiliser pour standardiser les valeurs présentes dans les champs spécifiés.

  • Z-SCORELe score standard, à savoir le nombre d’écarts types au-dessus ou en dessous de la moyenne, est utilisé. Le calcul utilise la formule de la méthode Score z, qui calcule la différence entre la valeur et la moyenne des valeurs de la colonne, divisée par l’écart type des valeurs de la colonne. Il s’agit de l’option par défaut.
  • MIN-MAXLes valeurs sont converties dans une échelle comprise entre les valeurs minimum et maximum spécifiées par l’utilisateur.
  • MAXABSChaque valeur de la colonne est divisée par la valeur maximum absolue de la colonne.
  • ROBUST Une variante robuste de la formule utilisée pour la méthode Score z est utilisée pour standardiser les valeurs des champs spécifiés. Cette variante utilise la médiane et l’intervalle interquartile au lieu de la moyenne et de l’écart type.
String
min_value
(Facultatif)

Valeur utilisée par la méthode MIN-MAX du paramètre method pour spécifier la valeur minimale dans l’échelle des valeurs en sortie spécifiées.

Double
max_value
(Facultatif)

Valeur utilisée par la méthode MIN-MAX du paramètre method pour spécifier la valeur maximale dans l’échelle des valeurs en sortie spécifiées.

Double

Sortie obtenue

NomExplicationType de données
updated_table

Tableau contenant les nouveaux champs standardisés.

Vue tabulaire

Exemple de code

Exemple 1 d’utilisation de l’outil StandardizeField (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil StandardizeField.


arcpy.management.StandardizeField("County_VoterTurnout", 
       "voter_turnout voter_turnout_Z_SCORE", "Z-SCORE")
Exemple 2 d’utilisation de l’outil StandardizeField (script autonome)

Le script autonome suivant illustre l'utilisation de l'outil StandardizeField.


# Import system modules
import arcpy
try:
    # Set the workspace and input features.
    arcpy.env.workspace = r"C:\\Standardize\\MyData.gdb"
    inputFeatures = ”County_VoterTurnout”
    # Set the input fields that will be standardized
    fields = "votes_total;rawdiff_dem_vs_gop;pctdiff_dem_vs_gop"
    # Set the standardization method.
    method = "ROBUST"
    # Run the Standardize Field tool
    arcpy.management.StandardizeField(inputFeatures, fields, method)
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Environnements