Histogramme

Les histogrammes synthétisent visuellement la distribution d’une variable numérique continue en mesurant la fréquence à laquelle certaines valeurs apparaissent dans le jeu de données. L’axe des x dans un histogramme est une ligne de nombres qui a été fractionnée en plages de nombres, ou groupes. Pour chaque groupe, une barre est dessinée. La largeur de la barre représente la plage du groupe et la hauteur de la barre représente le nombre de points de données compris dans cette plage. Comprendre la distribution des données est une étape importante dans le processus d’exploration des données.

Variable

Les histogrammes nécessitent une variable Nombre unique sur l’axe des x.

Série multiple

La vidéo ci-après montre comment créer des histogrammes à plusieurs séries à l’aide du champ Split by (Fractionner par) :

Play Video

  • Durée de la vidéo : 57 secondes
  • Cette vidéo a été créée avec ArcGIS Pro 3.2.

Vous pouvez créer des histogrammes à plusieurs séries en définissant la commande Split by (Fractionner par). Lorsque la commande Split by (Fractionner par) est définie, l’histogramme est fractionné en plusieurs séries en fonction du nombre de catégories uniques dans le champ. Par exemple, lorsque vous affichez un histogramme pour un jeu de données relatif aux prix des logements, le contrôle Number (Nombre) est associé à SoldPrice pour afficher la distribution des prix des logements dans une ville. Si vous associez la commande Split by (Fractionner par) à Neighborhood, l’histogramme sera fractionné en N séries, où N est le nombre de valeurs voisines uniques. L’histogramme à plusieurs séries affichera N mini-diagrammes, un pour chaque valeur Neighborhood unique, pour que la répartition des prix des logements puisse être comparée entre les valeurs Split by (Fractionner par).

Remarque :

Les champs de catégorie dotés de plusieurs valeurs uniques ne conviennent pas au fractionnement d’un champ en plusieurs séries.

Les histogrammes à plusieurs séries ne peuvent être affichés que dans une mise en page de grille, que vous pouvez personnaliser dans l’onglet Series (Série) de la fenêtre Chart Properties (Propriétés du diagramme). Vous pouvez personnaliser les dimensions d’une mise en page de diagramme en quadrillage en définissant la valeur Mini charts per row (Mini-diagrammes par ligne). Par exemple, définir Mini charts per row (Mini-diagrammes par ligne) sur 3 permet d’afficher un maximum de 3 diagrammes par ligne ; le nombre total de lignes dans le quadrillage est déterminé par le nombre de séries dans le diagramme. Cochez la case Show preview chart (Afficher l’aperçu du diagramme) pour explorer plus en détails chaque mini-diagramme de manière dynamique en les choisissant dans l’aperçu plus général du diagramme.

Histogramme à plusieurs séries

Transformation

Certaines méthodes analytiques exigent que les données soient réparties normalement. Lorsque les données sont inclinées (la distribution est déséquilibrée), vous pouvez les transformer afin de les normaliser. Les histogrammes vous permettent de découvrir les effets des transformations logarithmiques et de racine carrée sur la distribution des données. Pour référence, vous pouvez ajouter une superposition de type distribution normale à un histogramme en cochant la case Show Normal distribution (Afficher la distribution normale) dans la fenêtre Chart properties (Propriétés du diagramme).

Transformation logarithmique

La transformation logarithmique est souvent utilisée lorsque les données ont une distribution positivement asymétrique et que les valeurs importantes sont peu nombreuses. Si ces valeurs se trouvent dans le jeu de données, la transformation logarithmique facilite l’établissement de variances plus constantes et normalise les données.

Par exemple, la distribution inclinée de manière positive dans le premier diagramme de gauche est transformée en une distribution normale par transformation logarithmique dans le second diagramme :

Deux diagrammes de population

Remarque :

Les transformations logarithmiques ne peuvent être appliquées qu’aux nombres supérieurs à zéro.

Transformation de racine carrée

Une transformation de racine carrée est similaire à une transformation logarithmique dans le sens où elle réduit l’inclinaison vers la droite d’un jeu de données. A la différence des transformations logarithmiques, les transformations de racine carrée peuvent s’appliquer à zéro.

Remarque :

Les transformations de racine carrée ne peuvent être appliquées qu’aux nombres supérieurs ou égaux à zéro.

Transformation inverse

Une transformation inverse utilise la réciproque (1/x) de chaque valeur (x) dans le champ.

Remarque :

Les transformations inverses ne peuvent pas être appliquées aux valeurs zéro. Si le champ comporte des valeurs zéro, elles sont évalués comme nulles.

Transformation Box-Cox

Une transformation Box-Cox applique la fonction puissance suivante pour distribuer normalement les valeurs :

Transformation Box-Cox

x’ est la valeur transformée, x est la valeur initiale, λ1 est la valeur du paramètre Power (Puissance) et λ2 est la valeur du paramètre Shift (Translation).

Remarque :

Les transformations Box-Cox ne peuvent être appliquées qu’aux valeurs positives. S’il existe des valeurs négatives ou égales à zéro, utilisez le paramètre Shift (Translation) pour vous assurer que toutes les valeurs sont positives.

Nombre de groupes

La valeur par défaut du nombre de groupes correspond à la racine carrée du nombre d’enregistrements dans le jeu de données. Vous pouvez l’ajuster en modifiant la valeur Bins (Groupes) dans l’onglet Data (Données) de la fenêtre Chart Properties (Propriétés du diagramme). Modifier le nombre de groupes vous permet de voir davantage ou moins de détails dans la structure des données.

Remarque :

Les histogrammes peuvent comporter jusqu’à 64 groupes. L’imposition de cette limite permet d’éviter l’utilisation d’un trop grand nombre de groupes ce qui encombre généralement l’histogramme et rend les caractéristiques de distribution difficiles à interpréter.

Statistiques

Plusieurs statistiques descriptives sont calculées et affichées comme lignes verticales sur les histogrammes. La moyenne et la médiane s’affichent sur une ligne chacune et chaque écart type au-dessus et au-dessous de la moyenne apparaissent sur deux lignes. Vous pouvez cliquer sur ces éléments dans la légende du diagramme pour les activer ou les désactiver.

Une table de statistiques est affichée dans l’onglet Data (Données) de la fenêtre Chart Properties (Propriétés du diagramme) contenant les statistiques suivantes pour le champ numérique sélectionné :

  • Moyenne
  • Médiane
  • Écart type
  • Effectif
  • Min
  • Max.
  • Somme
  • Valeurs nulles
  • Inclinaison
  • Kurtosis

Si la couche source du diagramme possède un ensemble de sélection, la table statistiques comportera une colonne affichant les statistiques de l’intégralité du jeu de données et une colonne affichant uniquement les statistiques de l’ensemble de sélection.

La table de statistiques inclut également les commandes permettant d’activer et de désactiver les lignes de moyenne, médiane et écart type de l’histogramme et de modifier leurs couleurs.

Pour copier les statistiques depuis la fenêtre Chart Properties (Propriétés du diagramme) pour les utiliser dans d’autres fenêtres ou applications, cliquez avec le bouton droit de la souris dans la table des statistiques et sélectionnez Copy Table (Copier la table), Copy Row (Copier la ligne) ou Copy Value (Copier la valeur).

Axes

Plusieurs options contrôlent les axes et les paramètres associés.

Limites de l’axe des Y

Les limites par défaut de l’axe des Y sont basées sur la plage des valeurs de date représentées sur l’axe des Y. Vous pouvez personnaliser ces valeurs en fournissant une nouvelle valeur limite des axes. Il est possible de définir des limites d’axe de façon à conserver une échelle cohérente du diagramme pour la comparaison. Cliquez sur le bouton de réinitialisation pour rétablir la valeur par défaut de la limite de l’axe.

Intervalles de grille

Configurez les intervalles de grille pour l’axe y avec le contrôle Intervalle. L’intervalle de grille par défaut est calculé automatiquement.

Format numérique

Vous pouvez indiquer le format dans lequel un axe affiche les valeurs numériques en précisant une catégorie de format numérique ou en définissant une chaîne de format personnalisé. Vous pouvez par exemple utiliser $#,### comme chaîne de format personnalisé pour afficher les valeurs de devises.

Apparence

Titres et description

Des titres par défaut sont attribués aux diagrammes et axes en fonction du nom des variables et du type de diagramme. Ces valeurs peuvent être mises à jour sur l’onglet General (Général) dans la fenêtre Properties (Propriétés). Vous pouvez également attribuer une Description (Description) au diagramme. Il s'agit d'un bloc de texte qui apparaît au bas de la fenêtre du diagramme.

Couleur

Vous pouvez changer la couleur des groupes d’un histogramme à l’aide du sélecteur de couleur situé à côté du champ Bins (Groupes) dans l’onglet Data (Données) de la fenêtre Chart Properties (Propriétés du diagramme).

Repères

Les lignes ou plages des guides peuvent être ajoutées aux diagrammes pour servir de référence ou mettre en évidence des valeurs importantes. Pour ajouter un nouveau guide, cliquez sur Add guide (Ajouter un guide) sous l’onglet Guides de la fenêtre Chart Properties (Propriétés du diagramme). Pour tracer une ligne, entrez une Value (Valeur) à l’endroit où vous souhaitez que la ligne soit tracée. Pour créer une plage, saisissez une valeur to (Jusqu’à) value. Vous avez également la possibilité d’ajouter du texte à votre guide en spécifiant une Label (Étiquette).

Exemple

L’histogramme ci-dessous permet de visualiser la distribution de la densité de population dans les groupes d’îlots de recensement de Washington, D.C.

  • Number (Nombre) :Population Density

Histogramme de densité de population