Disponible dans les analyses de Big Data.
L’outil Find Hot Spots (Rechercher les points chauds) identifie les points chauds et les points froids statistiquement significatifs dans le modèle spatial des données à l’aide de la statistique Getis-Ord Gi*.
Diagramme de workflow
Exemples
Vous trouverez ci-dessous des exemples d’utilisation de l’outil Rechercher les points chauds :
- Un commissariat de police réalise une analyse afin de déterminer s’il existe une relation entre les crimes violents et le taux de chômage. Un programme d’emplois saisonniers sera mis en place à destination des lycéens ans les zones où les taux de crimes violents et de chômage sont élevés. L’outil Find Hot Spots (Rechercher les points chauds) permet de trouver des zones présentant des points chauds de crimes et chômage statistiquement significatifs.
- Un agent des services de protection de l’environnement étudie les maladies des arbres pour accorder les priorités aux zones forestières à traiter et pour en savoir plus sur les zones qui montrent une certaine résistance. L’outil Find Hot Spots (Rechercher les points chauds) permet de localiser les groupes d’arbres malades (points chauds) et d’arbres sains (points froids).
Remarques sur l’utilisation
Gardez les points suivants à l’esprit lorsque vous utilisez l’outil Rechercher les points chauds :
- Les entités en entrée doivent correspondre à une couche ponctuelle. Les points sont agrégés en une grille de carrés (groupes) d’une taille spécifiée avant l’analyse.
- La couche en sortie comportera des champs supplémentaires contenant des informations telles que la signification statistique de chaque entité, la valeur de p et le score z.
- Pendant l’analyse, les points en entrée sont agrégés dans des groupes d’une taille spécifiée. Puis ils sont analysés pour déterminer les points chauds. Les groupes agrégés doivent contenir diverses valeurs (le nombre de points figurant dans un groupe doit être très variable).
- Les scores z et les valeurs p sont des mesures de la signification statistique qui indiquent si l’agrégation spatiale observée des valeurs élevées ou faibles est plus prononcée qu’elle ne devrait l’être dans le cadre d’une répartition aléatoire de ces mêmes valeurs. Vous pouvez ensuite déterminer d’accepter ou de rejeter l’hypothèse nulle en utilisant des groupes agrégés. Les champs des scores z et des valeurs p ne reflètent aucune sorte de correction FDR (False Discovery Rate).
- Un score z élevé et une valeur p faible pour une entité indiquent une forte présence d’incidents de points. Un score z négatif faible et une valeur p faible indiquent l’absence de points d’incidents. Plus le score z est élevé (ou faible), plus l’intensité de l’agrégation est importante. Un score z proche de zéro indique qu’il n’y a aucune agrégation apparente.
- Le score z repose sur le calcul de l’hypothèse nulle aléatoire. Pour plus d’informations sur les scores z, reportez-vous à la rubrique Qu’est-ce qu’un score z ? Qu'est-ce qu'une valeur de p ?
- L’outil Find Hot Spots (Rechercher les points chauds) vous permet d’effectuer des analyses à l’aide d’intervalles temporels. Chaque intervalle temporel est analysé indépendamment des entités en dehors de l’intervalle temporel. Pour que vous puissiez utiliser la discrétisation temporelle, les données en entrée doivent être temporelles et représenter un instant dans le temps. Lorsque la discrétisation temporelle est appliquée, les entités en sortie sont des intervalles temporels représentés par les champs StartTime et EndTime.
- Le paramètre Time Step Reference (Référence de l’intervalle temporel) peut être une valeur de date et d’heure ou simplement une valeur de date, mais pas uniquement une valeur d’heure.
Paramètres
Les paramètres de l’outil Rechercher les points chauds sont les suivants :
Paramètre | Description | Type de données |
---|---|---|
Couche en entrée | Entités ponctuelles pour lesquelles les points chauds seront calculés. | Entités |
Type de groupe | La forme de groupe qui sera utilisée pour créer les groupes réguliers. La valeur par défaut est Square (Carré). | Chaîne |
Taille du groupe | Intervalle de distance qui représente la taille du groupe dans lequel les entités en entrée seront analysées. | Chaîne |
Neighborhood Size (Taille du voisinage) (facultatif) | Etendue spatiale du voisinage d’analyse. Cette valeur désigne les entités qui sont analysées ensemble en vue d’évaluer l’agrégation locale. | Chaîne |
Time Step Interval (Intervalle temporel) (facultatif) | La durée de l’intervalle temporel. Ce paramètre n’est utilisé que si la structure des points en entrée comporte un champ identifié avec la balise du champ clé Start Time (Heure de début). | Chaîne |
Time Step Alignment (Alignement d’intervalle temporel) (facultatif) | Spécifie de quelle façon les intervalles temporels seront alignés. Ce paramètre n’est disponible que si les points en entrée sont temporels et représentent un instant dans le temps.
| Chaîne |
Time Step Reference (Référence de l’intervalle temporel) (facultatif) | Référence temporelle pour l’alignement des phases et des intervalles temporels. Ce paramètre apparaît uniquement si Reference Time (Référence temporelle) est utilisé pour le paramètre Time Step Alignment (Alignement d’intervalle temporel). | Date |
Couche en sortie
Couche en sortie qui contiendra les champs suivants à la place des champs d’origine :
Nom du champ | Description | Type de champ |
---|---|---|
value | Nombre d’entités dans ce groupe. | Flottant 64 bits |
GiZScore | Score z des entités dans ce groupe. | Flottant 64 bits |
GiPValue | Valeur p des entités dans ce groupe. | Flottant 64 bits |
Gi_Bin | Niveau de confiance utilisé pour identifier les points chauds et froids statistiquement significatifs. Les entités dont la valeur Gi_Bin est de +/-3 reflètent la signification statistique avec un niveau de confiance de 99 pour cent, les entités dont la valeur Gi_Bin est de +/-2 reflètent un niveau de confiance de 95 pour cent, les entités avec une valeur Gi_Bin de +/-1 reflètent un niveau de confiance de 90 pour cent et l’agrégation des entités avec une valeur Gi_Bin de 0 n’est pas significative statistiquement. | Flottant 64 bits |
Vous avez un commentaire à formuler concernant cette rubrique ?