Rechercher des agrégats de points

Icône d’outil Disponible dans les analyses de Big Data.

L'outil Find Point Clusters (Rechercher des agrégats de points) Outil Rechercher des agrégats de points recherche des agrégats d’entités ponctuelles dans le bruit environnant en fonction de leur répartition spatiale ou spatio-temporelle.

Diagramme de workflow

Diagramme du processus Rechercher des agrégats de points

Exemple

Une organisation non gouvernementale étudie une maladie parasitaire et dispose d’un jeu de données représentant les habitations dans une zone d’étude, certains d’entre eux étant touchés, et d’autres non. À l’aide de l’outil Find Point Clusters (Rechercher des agrégats de points), un analyste peut déterminer les grappes de ménages infestés pour l’aider à localiser une zone où commencer le traitement et exterminer les parasites.

Remarques sur l'utilisation

  • L’entrée de cet outil est une couche ponctuelles unique.
  • Tous les résultats incluront un champ appelé CLUSTER_ID, qui indique à quel agrégat appartient chaque entité et un champ nommé COLOR_ID, qui est une étiquette utilisée pour dessiner les résultats de telle sorte que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu'une entité est considérée comme bruit.
  • Le paramètre Clustering method (Méthode d’agrégation) détermine si une distance définie ou un algorithme d’agrégation à ajustement automatique sera utilisé. La méthode DBSCAN identifie les agrégats de points à proximité selon une plage de recherche spécifique. La méthode HDBSCAN recherche des agrégats de points similaires à la distance définie DBSCAN, mais utilise des plages de recherche variées autorisant des agrégats de densités variables selon la probabilité (ou stabilité) des agrégats.
    • Si la distance DBSCAN est sélectionnée, les agrégats peuvent être recherchés dans l’espace bi-dimensionnel uniquement ou à la fois dans l’espace et dans le temps. Si vous choisissez d’utiliser le temps pour rechercher des agrégats et si la couche en entrée est activée en termes temporels et est de type Instantané, DBSCAN identifiera les agrégats de points spatio-temporels à proximité selon la distance et la durée de recherche spécifiées.
    • HDBSCAN ne prend actuellement en charge que l’agrégation spatiale et n’utilisera pas le concept temporel pour découvrir les agrégats.
  • Si la méthode d’agrégation DBSCAN est utilisée avec le temps pour découvrir les agrégats spatio-temporels, les résultats incluront également les champs suivants :
    • FEAT_TIME- Temps de type Instantané de l’origine de chaque entité.
    • START_DATETIMEDébut de la durée de l’agrégat dont relève une entité.
    • END_DATETIMEFin de la durée de l’agrégat dont relève une entité. Le temps de la couche obtenue sera défini comme intervalle dans les champs START_DATETIME et END_DATETIME, garantissant que dans la plupart des cas, tous les membres de l’agrégat sont tracés ensemble lors de la visualisation des agrégats spatio-temporels avec un curseur temporel. Pour les entités de bruit, START_DATETIME et END_DATETIME seront égaux à FEAT_TIME.
  • Si la méthode d’agrégation HDBSCAN est utilisée, les résultats incluront également les champs suivants :
    • PROB- Probabilité qu’une entité appartienne à son agrégat attribué.
    • OUTLIER- Probabilité qu’une entité soit un point aberrant dans son propre agrégat. Une valeur plus grande indique que l’entité est plus susceptible d’être un point aberrant.
    • EXEMPLAR- Indique quelles entités sont les plus représentatives de chaque agrégat. Ces fonctionnalités sont indiquées par une valeur définie sur 1.
    • STABILITY- Persistance de chaque agrégat dans une plage d’échelles. Un score supérieur indique qu’un agrégat persiste sur une plage plus vaste d’échelles de distance.
  • Le paramètre Minimum features per cluster (Nombre minimum d’entités par agrégat) est utilisé différemment selon la méthode d’agrégation choisie :
    • Defined distance (DBSCAN) [Distance définie (DBSCAN)] : spécifie le nombre d’entités devant figurer à une certaine distance d’un point pour que ce point commence à former un agrégat. Les résultats peuvent inclure des agrégats avec moins d’entités que cette valeur. La distance de plage de recherche est définie à l’aide du paramètre Search distance (Distance de recherche). Lors de l’utilisation du temps pour rechercher les agrégats, une durée de recherche supplémentaire est requise et définie à l’aide du paramètre Search duration (Durée de recherche). Lors de la recherche de membres d’agrégat, le nombre minimum d’entités par agrégat spécifié doit se trouver dans la distance et la durée de recherche spécifiées pour former un agrégat. Notez que la distance et la durée de recherche ne sont pas relatives au diamètre ni à la portée temporelle des agrégats de points découverts.
    • Self-adjusting (HDBSCAN) [Ajustement automatique (HDBSCAN)] : spécifie le nombre d’entités au voisinage de chaque point (point y compris) à considérer lors de l’estimation de la densité. Ce nombre correspond également à la taille minimale autorisée pour un agrégat lors de l’extraction des agrégats.

Paramètres

ParamètreDescriptionType de données

Couche en entrée

Entités ponctuelles à partir desquelles rechercher des agrégats de points.

Entités

Clustering method (Méthode d’agrégation)

Méthode d’agrégation utilisée par l’outil pour déterminer les agrégats de points. Les deux options sont les suivantes :

  • DBSCAN : utilise une distance spécifiée pour séparer les agrégats denses du bruit plus clairsemé. DBSCAN est la méthode d’agrégation la plus rapide, mais elle ne convient que si la distance est clairement définie et correspond bien à tous les agrégats susceptibles d’être présents. Cette méthode génère des agrégats dont les densités sont similaires. Il s’agit de l’option par défaut.
  • HDBSCAN : utilise des distances variables pour séparer les agrégats de diverses densités du bruit plus clairsemé. HDBSCAN est la méthode d’agrégation la plus axée sur les données et nécessite de ce fait le moins d’informations saisies par l’utilisateur.

Chaîne

Minimum features per cluster (Nombre minimum d’entités par agrégat)

Ce paramètre est utilisé différemment selon la méthode d’agrégation choisie :

  • Defined distance (DBSCAN) [Distance définie (DBSCAN)] : spécifie le nombre d’entités devant figurer à une certaine distance d’un point pour que ce point commence à former un agrégat. La distance est définie à l’aide du paramètre Search distance (Distance de recherche).
  • Self-adjusting (HDBSCAN) [Ajustement automatique (HDBSCAN)] : spécifie le nombre d’entités au voisinage de chaque point (point y compris) à considérer lors de l’estimation de la densité. Ce nombre correspond également à la taille minimale autorisée pour un agrégat lors de l’extraction des agrégats.

Entier 64 bits

Utiliser le temps

Indique si le temps doit être utilisé dans l’identification des agrégats de points. Cette option est uniquement disponible avec la méthode d’agrégation DBSCAN.

Booléen

Distance de recherche

La distance maximale à considérer.

L’option Minimum features per cluster (Nombre minimum d’entités par agrégat) spécifiée doit se trouver dans cette distance pour appartenir à l’agrégat. Les agrégats sont, au minimum, à cette distance les uns des autres. Si une entité est située au-delà de cette distance par rapport à la prochaine entité la plus proche dans l’agrégat, elle ne sera pas incluse dans l’agrégat.

Flottant 64 bits

Search duration (Durée de recherche)

Lorsque vous recherchez les membres d’un agrégat, indique le nombre minimum de points qui doit se trouver dans la durée de recherche indiquée pour former un agrégat.

Chaîne

Couche en sortie

La couche en sortie générée contiendra différents champs en fonction de la méthode d’agrégation sélectionnée et si le temps est utilisé pour l’identification des agrégats de points.

Champs en sortie ajoutés lorsque la méthode d’agrégation DBSCAN est sélectionnée et que le temps est utilisé

Nom du champDescriptionType de champ

Tous les champs en entrée sont conservés

Tous les champs en entrée du jeu de données en entrée sont conservés.

any

CLUSTER_ID

L’ID d’agrégat indique à quel agrégat appartient chaque entité.

Entier 32 bits

COLOR_ID

L’ID de couleur est une étiquette utilisée pour dessiner les résultats, de manière à ce que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu’une entité est considérée comme bruit.

Entier 32 bits

FEAT_TIME

Temps de type Instantané de l’origine de chaque entité.

Date

START_DATETIME

Début de la durée de l’agrégat dont relève une entité.

Date

END_DATETIME

Fin de la durée de l’agrégat dont relève une entité.

Date

Champs en sortie ajoutés lorsque la méthode d’agrégation DBSCAN est sélectionnée et que le temps n’est pas utilisé

Nom du champDescriptionType de champ

Tous les champs en entrée sont conservés

Tous les champs en entrée du jeu de données en entrée sont conservés.

any

CLUSTER_ID

L’ID d’agrégat indique à quel agrégat appartient chaque entité.

Entier 32 bits

COLOR_ID

L’ID de couleur est une étiquette utilisée pour dessiner les résultats, de manière à ce que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu’une entité est considérée comme bruit.

Entier 32 bits

Champs en sortie ajoutés lorsque la méthode d’agrégation HDBSCAN est sélectionnée

Nom du champDescriptionType de champ

Tous les champs en entrée sont conservés

Tous les champs en entrée du jeu de données en entrée sont conservés.

any

CLUSTER_ID

L’ID d’agrégat indique à quel agrégat appartient chaque entité.

Entier 32 bits

COLOR_ID

L’ID de couleur est une étiquette utilisée pour dessiner les résultats, de manière à ce que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu’une entité est considérée comme bruit.

Entier 32 bits

PROB

Probabilité qu’une entité appartienne à son agrégat attribué.

Flottant 64 bits

STABILITY (STABILITÉ)

Persistance de chaque agrégat dans une plage d’échelles. Un score supérieur indique qu’un agrégat persiste sur une plage plus vaste d’échelles de distance.

Flottant 64 bits

OUTLIER (POINT ABERRANT)

Probabilité qu’une entité soit un point aberrant dans son propre agrégat. Une valeur plus grande indique que l’entité est plus susceptible d’être un point aberrant.

Flottant 64 bits

EXEMPLAR (REPRÉSENTATIF)

Indique quelles entités sont les plus représentatives de chaque agrégat. Ces fonctionnalités sont indiquées par une valeur définie sur 1.

Entier 32 bits