Rechercher les points chauds

Icône d’outil Disponible dans les analyses de Big Data.

L’outil Find Hot Spots (Rechercher les points chauds) outil Rechercher les points chauds identifie les points chauds et les points froids statistiquement significatifs dans le modèle spatial des données à l’aide de la statistique Getis-Ord Gi*.

Diagramme de workflow

Diagramme de workflow Trouver des points chauds

Exemples

  • Un commissariat de police réalise une analyse afin de déterminer s’il existe une relation entre les crimes violents et le taux de chômage. Un programme d’emplois saisonniers sera mis en place à destination des lycéens ans les zones où les taux de crimes violents et de chômage sont élevés. L’outil Find Hot Spots (Rechercher les points chauds) permet de trouver des zones présentant des points chauds de crimes et chômage statistiquement significatifs.
  • Un agent des services de protection de l’environnement étudie les maladies des arbres pour accorder les priorités aux zones forestières à traiter et pour en savoir plus sur les zones qui montrent une certaine résistance. L’outil Find Hot Spots (Rechercher les points chauds) permet de localiser les groupes d’arbres malades (points chauds) et d’arbres sains (points froids).

Remarques sur l'utilisation

  • Les entités en entrée doivent être des points. Les points sont analysés par entités agrégées au sein d’une grille de carrés (groupes).
  • La couche en sortie comportera des champs supplémentaires contenant des informations telles que la signification statistique de chaque entité, la valeur de p et le score z.
  • Pendant l’analyse, les points en entrée sont agrégés dans des groupes d’une taille spécifiée. Puis ils sont analysés pour déterminer les points chauds. Les groupes agrégés doivent contenir diverses valeurs (le nombre de points figurant dans un groupe doit être très variable).
  • Les scores z et les valeurs p sont des mesures de la signification statistique qui indiquent si l’agrégation spatiale observée des valeurs élevées ou faibles est plus prononcée qu’elle ne devrait l’être dans le cadre d’une répartition aléatoire de ces mêmes valeurs. Vous pouvez ensuite déterminer d’accepter ou de rejeter l’hypothèse nulle en utilisant des groupes agrégés. Les champs des scores z et des valeurs p ne reflètent aucune sorte de correction FDR (False Discovery Rate).
  • Un score z élevé et une valeur p faible pour une entité indiquent une forte présence d’incidents de points. Un score z négatif faible et une valeur p faible indiquent l’absence de points d’incidents. Plus le score z est élevé (ou faible), plus l’intensité de l’agrégation est importante. Un score z proche de zéro indique qu’il n’y a aucune agrégation apparente.
  • Le score z repose sur le calcul de l’hypothèse nulle aléatoire. Pour plus d’informations sur les scores z, reportez-vous à la rubrique Qu’est-ce qu’un score z ? Qu'est-ce qu'une valeur de p ?
  • L’outil Find Hot Spots (Rechercher les points chauds) vous permet d’effectuer des analyses à l’aide d’intervalles temporels. Chaque intervalle temporel est analysé indépendamment des entités en dehors de l’intervalle temporel. Pour que vous puissiez utiliser la discrétisation temporelle, les données en entrée doivent être temporelles et représenter un instant dans le temps. Lorsque la discrétisation temporelle est appliquée, les entités en sortie sont des intervalles temporels représentés par les champs StartTime et EndTime.
  • Le paramètre Time Step Reference (Référence de l’intervalle temporel) peut être une valeur de date et d’heure ou simplement une valeur de date, mais pas uniquement une valeur d’heure.

Paramètres

ParamètreDescriptionType de données

Couche en entrée

Entités ponctuelles pour lesquelles les points chauds seront calculés.

Entités

Type de groupe

La forme de groupe qui sera utilisée pour créer les groupes réguliers. La valeur par défaut est Square (Carré).

Chaîne

Taille du groupe

Intervalle de distance qui représente la taille du groupe dans lequel les entités en entrée seront analysées.

Chaîne

Neighborhood Size (Taille du voisinage) (facultatif)

Etendue spatiale du voisinage d’analyse. Cette valeur désigne les entités qui sont analysées ensemble en vue d’évaluer l’agrégation locale.

Chaîne

Time Step Interval (Intervalle temporel) (facultatif)

La durée de l’intervalle temporel. Ce paramètre n’est utilisé que si la structure des points en entrée comporte un champ identifié avec la balise du champ clé Start Time (Heure de début).

Chaîne

Time Step Alignment (Alignement d’intervalle temporel) (facultatif)

Spécifie de quelle façon les intervalles temporels seront alignés. Ce paramètre n’est disponible que si les points en entrée sont temporels et représentent un instant dans le temps.

  • Start Time (Heure de début) : les intervalles temporels s’alignent sur le premier événement temporel et s’agrègent dans le temps.
  • End Time (Heure de fin) : les intervalles temporels s’alignent sur le dernier événement temporel et s’agrègent en remontant dans le temps.
  • Reference Time (Heure de référence) : les intervalles temporels s’alignent sur la date et l’heure spécifiée. Si la valeur d’horodatage de tous les points des entités en entrée est supérieure à la référence temporelle que vous avez spécifiée (ou si elle correspond exactement à l’heure de début des entités en entrée), l’intervalle temporel commence par cette référence temporelle et procède à une agrégation dans le temps (comme avec un alignement de type Heure de début). Si la valeur d’horodatage de tous les points des entités en entrée est inférieure à la référence temporelle que vous avez spécifiée (ou si elle correspond exactement à l’heure de fin des entités en entrée), l’intervalle temporel termine par cette référence temporelle et procède à une agrégation à rebours (comme avec un alignement de type Heure de fin). Si la référence temporelle que vous indiquez se trouve au milieu de l’étendue temporelle des données, un intervalle temporel est créé qui se termine par la référence temporelle que vous indiquez (comme avec un alignement de type Heure de fin). Des intervalles supplémentaires seront créés avant et après la référence temporelle jusqu’à ce que l’étendue temporelle complète des données soit couverte.

Chaîne

Time Step Reference (Référence de l’intervalle temporel) (facultatif)

Référence temporelle pour l’alignement des phases et des intervalles temporels. Ce paramètre apparaît uniquement si Reference Time (Référence temporelle) est utilisé pour le paramètre Time Step Alignment (Alignement d’intervalle temporel).

Date

Couche en sortie

Couche en sortie qui contiendra les champs suivants à la place des champs d’origine :

Nom du champDescriptionType de champ

value

Nombre d’entités dans ce groupe.

Flottant 64 bits

GiZScore

Score z des entités dans ce groupe.

Flottant 64 bits

GiPValue

Valeur p des entités dans ce groupe.

Flottant 64 bits

Gi_Bin

Niveau de confiance utilisé pour identifier les points chauds et froids statistiquement significatifs. Les entités dont la valeur Gi_Bin est de +/-3 reflètent la signification statistique avec un niveau de confiance de 99 pour cent, les entités dont la valeur Gi_Bin est de +/-2 reflètent un niveau de confiance de 95 pour cent, les entités avec une valeur Gi_Bin de +/-1 reflètent un niveau de confiance de 90 pour cent et l’agrégation des entités avec une valeur Gi_Bin de 0 n’est pas significative statistiquement.

Flottant 64 bits

Considérations et limitations

Les entrées doivent contenir une couche de points ; elles sont agrégées dans des groupes d’une taille donnée avant l’analyse.