Informations de référence sur les comparaisons avec une référence—Aide d’ArcGIS Business Analyst

Le processus des comparaisons avec une référence compare les sites à l’aide des critères et valeurs de référence que vous définissez. Tout d’abord, sélectionnez les sites à inclure dans l’analyse, puis choisissez les variables et définissez une référence pour la comparaison. Le processus compare vos sites (affichés comme symboles avec code couleur sur la carte) et ajuste l’analyse lorsque vous changez de méthode de comparaison ou modifiez la valeur de référence. Les résultats de cette analyse s’affichent dans la fenêtre Results (Résultats) et peuvent être enregistrés dans une nouvelle couche de votre projet ou exportés dans une feuille de calcul Excel.

Exemple

Une agence marketing B2C effectue des recherches sur des localisations à Pittsburgh, Pennsylvanie, en vue d’une campagne publicitaire télévisée. Elle utilise le processus de comparaisons avec une référence pour comparer les codes postaux de la zone de marché désignée de Pittsburgh à la liste de variables Population and income (Population et revenus) et à la médiane comme valeur de référence. La carte implémente un codage couleur avec la méthode de comparaison Above and below benchmark (Supérieur et inférieur à la référence) pour représenter un code postal dont la couleur varie selon qu’il se situe en dessus ou en dessous de la médiane.

L’agence peut utiliser cette analyse pour savoir où cibler sa campagne publicitaire selon comment se situent les sites par rapport à la valeur de référence. Par exemple, les codes postaux situés en dessus de la médiane représentent les zones à hauts revenus et les plus peuplées, idéales pour la publicité de produits de luxe, tandis que les codes postaux situés en dessous de la médiane peuvent être une cible pour les produits économiques. Si l’agence avait besoin d’effectuer une analyse supplémentaire, elle pourrait utiliser l’écart type pour identifier un éventuel écart de revenu au sein d’une même zone, qui pourrait ainsi devenir une cible pour différents types de produits ou services.

Exemple de comparaisons avec une référence

Résultats

Vous pouvez afficher les résultats de l’analyse sous forme de couche de carte et dans la fenêtre Results (Résultats), qui comprend les éléments Summary (Récapitulatif) Résumé , Histogram (Histogramme) , Bubble chart (Diagramme à bulles) Nuage de points et Table Tableau . Pour en savoir plus sur la fenêtre Results (Résultats) des comparaisons avec une référence, reportez-vous à la rubrique Référence pour la fenêtre des résultats. Chaque site sur la carte est codé en couleur pour représenter les comparaisons avec une référence.

Pour définir des préférences, comme des couleurs par défaut, sélectionner des listes par défaut et choisir une méthode de comparaison, consultez la section Exécuter des comparaisons avec une référence.

Calculs

Les comparaisons avec une référence utilisent la distribution de données pour comparer les performances par rapport à une référence. Cette analyse utilise les mesures de la tendance centrale, de la dispersion des données ainsi que la forme de la distribution de données. Ces informations aident les utilisateurs à déterminer si les données sont concentrées ou très dispersées, ou s’il existe des valeurs extrêmes.

Mesures de tendance centrale

Les mesures de tendance centrale sont utilisées pour résumer les tendances des données. Dans le cadre du processus de comparaisons avec une référence, les valeurs de moyenne et de médiane sont disponibles pour établir des points de référence.

Moyenne

La moyenne est calculée en faisant la somme de toutes les valeurs et en divisant cette somme par le nombre de valeurs. Elle indique le point central des données. Dans les comparaisons avec une référence, la moyenne des données peut être comparée à la référence pour évaluer si les données tendent, en moyenne, à être supérieures ou inférieures à la référence.

Médiane

La médiane correspond à la valeur centrale lorsque les données sont classées de la plus basse à la plus élevée. Si le jeu de données est asymétrique, la médiane peut donner une meilleure indication de la tendance centrale que la moyenne, car elle est moins affectée par les valeurs extrêmes ou les points aberrants, qui peuvent fausser la moyenne. Dans les comparaisons avec une référence, la médiane est souvent utilisée pour comprendre la valeur type, surtout en présence de données asymétriques.

Dispersion des données

La dispersion des données peut être mesurée à l’aide de l’écart interquartile ou de l’écart type. L’écart interquartile est mieux adapté à l’analyse avec des données asymétriques ou non normales, tandis que l’écart type convient mieux à l’analyse de distributions normales de données. L’analyse de la dispersion des données permet d’identifier les valeurs inhabituelles ou les points aberrants. Les points aberrants représentent des points de données ou des valeurs qui se trouvent dans une plage anormale et ne suivent pas la tendance du reste des données. Plus précisément, les points aberrants se définissent généralement comme des valeurs qui se trouvent à plus de 1,5 fois l’écart interquartile en dessus du troisième quartile (Q3) ou en dessous du premier quartile (Q1), ou à plus de 3 écarts types de la moyenne dans une distribution normale.

Les valeurs minimale et maximale définissent la plage à l’intérieur de laquelle se trouvent toutes les données. Dans les comparaisons avec une référence, les valeurs minimale et maximale permettent d’identifier la plage ou la dispersion des données (c’est-à-dire, l’étendue de la distribution des valeurs de données) par rapport aux données de référence, qui servent de base de comparaison. La valeur minimale correspond à la valeur la plus petite dans les données. La valeur maximale correspond à la valeur la plus grande dans les données.

Écart interquartile

L’écart interquartile mesure la dispersion des 50 % centraux des données. Il s’agit de la plage située entre le 1er quartile (Q1) et le 3è quartile (Q3).

Premier quartile (Q1) : 25e centile, ou point en dessous duquel se trouvent 25 % des données.
Deuxième quartile (Q2) : 50e centile, ou médiane des données.
Troisième quartile (Q3) : 75e centile, ou point en dessous duquel se trouvent 75 % des données.

L’écart interquartile est utile pour identifier la dispersion centrale des données et est souvent visualisée dans des boîtes à moustaches. En se concentrant sur la plage dans laquelle se trouvent les 50 % centraux des données, l’écart interquartile fournit des informations sur la variabilité des données autour de la médiane, à l’exclusion des valeurs extrêmes ou des points aberrants.

Écart type

L’écart type mesure l’étendue de la variation ou de la dispersion au sein d’un jeu de données. Dans une distribution normale, environ 68,1 % des points de données se trouvent à ±1 écart type de la moyenne ; près de 95,4 % d’entre eux se trouvent à ±2 écarts types et quelque 99,7 % se situent à ±3 écarts types. Un faible écart type signifie que la plupart des points de données sont proches de la moyenne, tandis qu’un écart type élevé est le signe d’une grande dispersion des données. L’évaluation de l’écart type permet d’estimer l’étendue de la dispersion des données par rapport à la référence.

Forme de distribution des données

La forme de la distribution des données peut être mesurée à l’aide de l’asymétrie et de la kurtosis. L’asymétrie évalue le caractère non symétrique d’une distribution de données. Elle permet de déterminer si les données penchent plutôt vers des valeurs plus élevées ou vers des valeurs plus basses par rapport à la référence. Le Kurtosis est une mesure statistique qui décrit la forme et les extrémités d’une distribution des probabilités. Il permet d’indiquer si les données sont à queue lourde ou légère par rapport à une distribution normale.

Inclinaison

L’asymétrie peut être calculée à l’aide du coefficient d’asymétrie de Pearson, comme suit :

Cette formule évalue le caractère asymétrique d’un jeu de données par rapport à la moyenne et à la médiane. La valeur 3 est une constante empirique destinée à ajuster la relation type dans les distributions asymétriques, où la différence entre la moyenne et la médiane est environ trois fois supérieure dans les données asymétriques. Elle permet de quantifier dans quelle mesure les données s’écartent de la symétrie, en indiquant si elles contiennent davantage de valeurs extrêmes, basses et élevées, par rapport à la référence.

À l’issue du calcul, il existe trois types d’asymétrie.


Type d’asymétrie	Description	Calcul
Distribution symétrique	Absence d’asymétrie, les données sont dispersées uniformément autour de la moyenne.	`Asymétrie = 0`
Asymétrie positive (asymétrie vers la droite)	Davantage de valeurs se situent en dessous de la moyenne, avec une longue queue à droite.	`Asymétrie > 0`
Asymétrie négative (asymétrie vers la gauche)	Davantage de valeurs se situent en dessus de la moyenne, avec une longue queue à gauche.	`Asymétrie < 0`

Kurtosis

La kurtosis est calculée selon la formule suivante :

Dans cette formule, n représente le nombre d’observations, μ la moyenne de la population et σ l’écart type de la population. Une kurtosis positive indique une distribution en pic plus prononcée que la normale, tandis qu’une valeur négative indique une distribution plus plate. Une distribution normale a une kurtosis de 0.

À l’issue du calcul, il existe trois types de kurtosis.


Type de kurtosis	Description	Calcul
Mésokurtique	Similaire à une distribution normale, indiquant des points aberrants modérés.	`Kurtosis = 3`
Leptokurtique	Distribution en pic avec des queues plus lourdes, indiquant davantage de points aberrants.	`Kurtosis > 3`
Platykurtique	Distribution plus plate avec des queues plus légères, indiquant moins de points aberrants.	`Kurtosis < 3`

Limitations

Dans l’onglet Table de la fenêtre Results (Résultats), vous pouvez cliquer sur Compare with geographies (Comparer aux géographies). Pour comparer des géographies, des entités de vos localisations doivent se superposer. Si un niveau géographique sélectionné n’est superposé à aucune de vos localisations, il est exclus de la table Geography comparison (Comparaison géographique).

Crédits

Ce processus consomme des crédits. L’exportation des résultats dans Excel coûte environ 10 crédits par millier d’enregistrements.

Pour plus d’informations sur la consommation de crédits, reportez-vous à la table Crédits dans Business Analyst Web App.

Ressources

Pour en savoir plus sur les comparaisons avec une référence, reportez-vous à la rubrique Exécuter des comparaisons avec une référence.

Vous avez un commentaire à formuler concernant cette rubrique ?