Histogramme

Les histogrammes synthétisent visuellement la distribution d'une variable numérique continue en mesurant la fréquence à laquelle certaines valeurs apparaissent dans le jeu de données. L'axe des x dans un histogramme est une ligne de nombres qui a été fractionnée en plages de nombres, ou groupes. Pour chaque groupe, une barre est dessinée. La largeur de la barre représente la plage du groupe et la hauteur de la barre représente le nombre de points de données compris dans cette plage. Comprendre la distribution de vos données est une étape importante dans le processus d'exploration des données.

Variable

Les histogrammes nécessitent une variable Nombre unique sur l'axe des x.

Série multiple

Vous pouvez créer des histogrammes à plusieurs séries en définissant un champ Split by (Fractionner par). Lorsqu’un champ Split by (Fractionner par) est défini, l’histogramme est fractionné en plusieurs séries en fonction du nombre de catégories uniques dans le champ. Par exemple, lorsque vous affichez un histogramme pour un jeu de données relatif aux prix des logements, le contrôle Number (Nombre) est associé à SoldPrice pour afficher la distribution des prix des logements dans une ville. Si vous associez le contrôle Split by (Fractionner par) à Neighborhood, l’histogramme sera fractionné en N séries, où N est le nombre de valeurs voisines uniques. L’histogramme à plusieurs séries affichera N mini-diagrammes, un pour chaque valeur Neighborhood unique, pour que la distribution des prix des logements puisse être comparée entre les valeurs Split by (Fractionner par).

Remarque :

Les champs de catégorie dotés de plusieurs valeurs uniques ne conviennent pas au fractionnement d'un champ en plusieurs séries.

Afficher plusieurs séries

Les histogrammes à plusieurs séries ne peuvent être affichés que dans une mise en page de grille, que vous pouvez personnaliser dans l’onglet Series (Série) de la fenêtre Chart Properties (Propriétés du diagramme). Vous pouvez personnaliser les dimensions d’une mise en page de diagramme en quadrillage en définissant l’entrée numérique Mini charts per row (Mini-diagrammes par ligne). Par exemple, définir Mini charts per row (Mini-diagrammes par ligne) sur 3 permet d’afficher un maximum de 3 diagrammes par ligne ; le nombre total de lignes dans le quadrillage est déterminé par le nombre de séries dans votre diagramme. Cochez la case Show preview chart (Afficher l’aperçu du diagramme) pour pouvoir explorer plus en détails chaque mini-diagramme de manière dynamique en les choisissant dans l’aperçu plus général du diagramme.Histogramme à plusieurs séries

Transformation

Certaines méthodes analytiques exigent que les données soient réparties normalement. Lorsque les données sont inclinées (la distribution est déséquilibrée), vous pouvez les transformer afin de les normaliser. Les histogrammes vous permettent de découvrir les effets des transformations logarithmiques et de racine carrée sur la distribution des données. Pour référence, vous pouvez ajouter une superposition de type distribution normale à votre histogramme en cochant la case Show Normal distribution (Afficher la distribution normale) dans la fenêtre Chart properties (Propriétés du diagramme).

Transformation logarithmique

La transformation logarithmique est souvent utilisée lorsque les données ont une distribution corrigée positivement et que les valeurs très élevées sont peu nombreuses. Si ces valeurs se trouvent dans votre jeu de données, la transformation logarithmique facilite l’établissement de variances plus constantes et normalise les données.

Par exemple, la distribution inclinée de manière positive dans le diagramme de gauche est transformée en une distribution normale via une transformation logarithmique dans le diagramme de droite :

Diagramme de la distribution des données brutes sur la gauche, comparé à la transformation logarithmique sur la droite.

Remarque :

Les transformations logarithmiques ne peuvent être appliquées qu’aux nombres supérieurs à zéro.

Transformation de racine carrée

Une transformation de racine carrée est similaire à une transformation logarithmique dans le sens où elle réduit l’inclinaison vers la droite d’un jeu de données. A la différence des transformations logarithmiques, les transformations de racine carrée peuvent s’appliquer à zéro.

Remarque :

Les transformations de racine carrée ne peuvent être appliquées qu’aux nombres supérieurs ou égaux à zéro.

Transformation inverse

Une transformation inverse utilise la réciproque (1/x) de chaque valeur (x) dans le champ.

Remarque :

Les transformations inverses ne peuvent pas être appliquées aux valeurs zéro. Si le champ comporte des valeurs zéro, elles sont évalués comme nulles.

Transformation Box-Cox

Une transformation Box-Cox applique la fonction puissance suivante pour distribuer normalement les valeurs :

Transformation Box-Cox

x' est la valeur transformée, x est la valeur initiale, λ1 est le paramètre Power (Puissance) et λ2 est le paramètre Shift (Translation).

Remarque :

Les transformations Box-Cox ne peuvent être appliquées qu’aux valeurs positives. S’il existe des valeurs négatives ou égales à zéro, utilisez le paramètre Shift (Translation) pour vous assurer que toutes les valeurs sont positives.

Nombre de groupes

Le nombre de groupes correspond par défaut à la racine carrée du nombre d'enregistrements dans votre jeu de données. Vous pouvez l’ajuster en modifiant la valeur Bins (Groupes) dans l’onglet Data (Données) de la fenêtre Chart Properties (Propriétés du diagramme). La modification du nombre de groupes vous permet de voir davantage ou moins de détails dans la structure de vos données.

Statistiques

Plusieurs statistiques descriptives sont calculées et affichées comme lignes verticales sur les histogrammes. La moyenne et la médiane s'affichent sur une ligne chacune et chaque écart type au-dessus et au-dessous de la moyenne apparaissent sur deux lignes. Vous pouvez cliquer sur ces éléments dans la légende du diagramme pour les activer ou les désactiver.

Une table Statistics (Statistiques) est affichée dans l’onglet Data (Données) de la fenêtre Chart Properties (Propriétés du diagramme) et contient les statistiques suivantes pour le champ numérique sélectionné :

  • Moyenne
  • Médiane
  • Écart type
  • Effectif
  • Min
  • Max.
  • Somme
  • Valeurs nulles
  • Inclinaison
  • Kurtosis

Si la couche source du diagramme possède un ensemble de sélection, la table statistiques comportera une colonne affichant les statistiques de l’intégralité du jeu de données et une colonne affichant uniquement les statistiques de l’ensemble de sélection.

La table des statistiques inclut également des contrôles vous permettant d’activer ou de désactiver les lignes de la moyenne, de la médiane et de l’écart type de l’histogramme et d’en modifier la couleur.

Vous pouvez cliquer avec le bouton droit de la souris dans la table des statistiques et sélectionner Copy Table (Copier la table), Copy Row (Copier la ligne) ou Copy Value (Copier la valeur). Cela vous permet de copier et de coller des statistiques de la fenêtre Charts Properties (Propriétés du diagramme) dans d’autres fenêtres ou applications.

Axes

Plusieurs options contrôlent les axes et les paramètres associés.

Limites de l'axe des Y

Les limites par défaut de l’axe des Y sont basées sur la plage des valeurs de date représentées sur l’axe des Y. Vous pouvez personnaliser ces valeurs en indiquant une nouvelle valeur limite pour l’axe. Il est possible de définir des limites d’axe de façon à conserver une échelle cohérente de votre diagramme pour la comparaison. Cliquez sur le bouton de réinitialisation pour rétablir la valeur par défaut de la limite de l’axe.

Format numérique

Vous pouvez indiquer le format dans lequel un axe affiche les valeurs numériques en précisant une catégorie de format numérique ou en définissant une chaîne de format personnalisé. Par exemple, $#,### peut être utilisé comme chaîne de format personnalisé pour afficher les valeurs de devises.

Apparence

Titres et description

Des titres par défaut sont attribués aux diagrammes et axes en fonction du nom des variables et du type de diagramme. Ces valeurs peuvent être mises à jour sur l’onglet General (Général) dans la fenêtre Properties (Propriétés). Vous pouvez également attribuer une Description (Description) au diagramme. Il s'agit d'un bloc de texte qui apparaît au bas de la fenêtre du diagramme.

Couleur

Vous pouvez changer la couleur des groupes d’un histogramme à l’aide du sélecteur de couleur situé à côté du champ Bins (Groupes) dans l’onglet Data (Données) de la fenêtre Chart Properties (Propriétés du diagramme).

Repères

Les lignes ou plages des guides peuvent être ajoutées aux diagrammes pour servir de référence ou mettre en évidence des valeurs importantes. Pour ajouter un nouveau guide, cliquez sur Add guide (Ajouter un guide) sous l’onglet Guides de la fenêtre Chart Properties (Propriétés du diagramme). Pour tracer une ligne, entrez une Value (Valeur) à l’endroit où vous souhaitez que la ligne soit tracée. Pour créer une plage, saisissez une valeur to (Jusqu’à) value. Vous avez également la possibilité d’ajouter du texte à votre guide en spécifiant une Label (Étiquette).

Exemple

Créez un histogramme pour visualiser la distribution de la densité de population dans les groupes d’îlots de recensement de Washington, D.C.

  • Number (Nombre) :Population Density

Histogramme représentant la distribution de la densité de population dans les groupes d’îlots de recensement de Washington, D.C.