Disponible dans les analyses de Big Data.
L'outil Find Point Clusters (Rechercher des agrégats de points) recherche des agrégats d’entités ponctuelles dans le bruit environnant en fonction de leur répartition spatiale ou spatio-temporelle.
Diagramme de workflow
Exemple
Une organisation non gouvernementale étudie une maladie parasitaire et dispose d’un jeu de données représentant les habitations dans une zone d’étude, certains d’entre eux étant touchés, et d’autres non. À l’aide de l’outil Find Point Clusters (Rechercher des agrégats de points), un analyste peut déterminer les grappes de ménages infestés pour l’aider à localiser une zone où commencer le traitement et exterminer les parasites.
Remarques sur l’utilisation
Gardez les points suivants à l’esprit lorsque vous utilisez l’outil Rechercher des agrégats de points :
- L’entrée de cet outil est une couche ponctuelles unique.
- Tous les résultats incluront un champ appelé CLUSTER_ID, qui indique à quel agrégat appartient chaque entité et un champ nommé COLOR_ID, qui est une étiquette utilisée pour dessiner les résultats de telle sorte que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu'une entité est considérée comme bruit.
- Le paramètre Clustering method (Méthode d’agrégation) détermine si une distance définie ou un algorithme d’agrégation à ajustement automatique sera utilisé. La méthode DBSCAN identifie les agrégats de points à proximité selon une plage de recherche spécifique. La méthode HDBSCAN recherche des agrégats de points similaires à la distance définie DBSCAN, mais utilise des plages de recherche variées autorisant des agrégats de densités variables selon la probabilité (ou stabilité) des agrégats.
- Si la distance DBSCAN est sélectionnée, les agrégats peuvent être recherchés dans l’espace bi-dimensionnel uniquement ou à la fois dans l’espace et dans le temps. Si vous choisissez d’utiliser le temps pour rechercher des agrégats et si la couche en entrée est activée en termes temporels et est de type Instantané, DBSCAN identifiera les agrégats de points spatio-temporels à proximité selon la distance et la durée de recherche spécifiées.
- HDBSCAN ne prend actuellement en charge que l’agrégation spatiale et n’utilisera pas le concept temporel pour découvrir les agrégats.
- Si la méthode d’agrégation DBSCAN est utilisée avec le temps pour découvrir les agrégats spatio-temporels, les résultats incluront également les champs suivants :
- FEAT_TIME- Temps de type Instantané de l’origine de chaque entité.
- START_DATETIMEDébut de la durée de l’agrégat dont relève une entité.
- END_DATETIMEFin de la durée de l’agrégat dont relève une entité. Le temps de la couche obtenue sera défini comme intervalle dans les champs START_DATETIME et END_DATETIME, garantissant que dans la plupart des cas, tous les membres de l’agrégat sont tracés ensemble lors de la visualisation des agrégats spatio-temporels avec un curseur temporel. Pour les entités de bruit, START_DATETIME et END_DATETIME seront égaux à FEAT_TIME.
- Si la méthode d’agrégation HDBSCAN est utilisée, les résultats incluront également les champs suivants :
- PROB- Probabilité qu’une entité appartienne à son agrégat attribué.
- OUTLIER- Probabilité qu’une entité soit un point aberrant dans son propre agrégat. Une valeur plus grande indique que l’entité est plus susceptible d’être un point aberrant.
- EXEMPLAR- Indique quelles entités sont les plus représentatives de chaque agrégat. Ces fonctionnalités sont indiquées par une valeur définie sur 1.
- STABILITY- Persistance de chaque agrégat dans une plage d’échelles. Un score supérieur indique qu’un agrégat persiste sur une plage plus vaste d’échelles de distance.
- Le paramètre Minimum features per cluster (Nombre minimum d’entités par agrégat) est utilisé différemment selon la méthode d’agrégation choisie :
- Defined distance (DBSCAN) [Distance définie (DBSCAN)] : spécifie le nombre d’entités devant figurer à une certaine distance d’un point pour que ce point commence à former un agrégat. Les résultats peuvent inclure des agrégats avec moins d’entités que cette valeur. La distance de plage de recherche est définie à l’aide du paramètre Search distance (Distance de recherche). Lors de l’utilisation du temps pour rechercher les agrégats, une durée de recherche supplémentaire est requise et définie à l’aide du paramètre Search duration (Durée de recherche). Lors de la recherche de membres d’agrégat, le nombre minimum d’entités par agrégat spécifié doit se trouver dans la distance et la durée de recherche spécifiées pour former un agrégat. Notez que la distance et la durée de recherche ne sont pas relatives au diamètre ni à la portée temporelle des agrégats de points découverts.
- Self-adjusting (HDBSCAN) [Ajustement automatique (HDBSCAN)] : spécifie le nombre d’entités au voisinage de chaque point (point y compris) à considérer lors de l’estimation de la densité. Ce nombre correspond également à la taille minimale autorisée pour un agrégat lors de l’extraction des agrégats.
Paramètres
Les paramètres de l’outil Rechercher des agrégats de points sont les suivants :
Paramètre | Description | Type de données |
---|---|---|
Couche en entrée | Entités ponctuelles à partir desquelles rechercher des agrégats de points. | Entités |
Clustering method (Méthode d’agrégation) | Méthode d’agrégation utilisée par l’outil pour déterminer les agrégats de points. Les deux options sont les suivantes :
| Chaîne |
Minimum features per cluster (Nombre minimum d’entités par agrégat) | Ce paramètre est utilisé différemment selon la méthode d’agrégation choisie :
| Entier 64 bits |
Utiliser le temps | Indique si le temps doit être utilisé dans l’identification des agrégats de points. Cette option est uniquement disponible avec la méthode d’agrégation DBSCAN. | Booléen |
Distance de recherche | La distance maximale à considérer. L’option Minimum features per cluster (Nombre minimum d’entités par agrégat) spécifiée doit se trouver dans cette distance pour appartenir à l’agrégat. Les agrégats sont, au minimum, à cette distance les uns des autres. Si une entité est située au-delà de cette distance par rapport à la prochaine entité la plus proche dans l’agrégat, elle ne sera pas incluse dans l’agrégat. | Flottant 64 bits |
Search duration (Durée de recherche) | Lorsque vous recherchez les membres d’un agrégat, indique le nombre minimum de points qui doit se trouver dans la durée de recherche indiquée pour former un agrégat. | Chaîne |
Couche en sortie
La couche en sortie générée contiendra différents champs en fonction de la méthode d’agrégation sélectionnée et si le temps est utilisé pour l’identification des agrégats de points.
Champs en sortie ajoutés lorsque la méthode d’agrégation DBSCAN est sélectionnée et que le temps est utilisé
Nom du champ | Description | Type de champ |
---|---|---|
Tous les champs en entrée sont conservés | Tous les champs en entrée du jeu de données en entrée sont conservés. | any |
CLUSTER_ID | L’ID d’agrégat indique à quel agrégat appartient chaque entité. | Entier 32 bits |
COLOR_ID | L’ID de couleur est une étiquette utilisée pour dessiner les résultats, de manière à ce que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu’une entité est considérée comme bruit. | Entier 32 bits |
FEAT_TIME | Temps de type Instantané de l’origine de chaque entité. | Date |
START_DATETIME | Début de la durée de l’agrégat dont relève une entité. | Date |
END_DATETIME | Fin de la durée de l’agrégat dont relève une entité. | Date |
Champs en sortie ajoutés lorsque la méthode d’agrégation DBSCAN est sélectionnée et que le temps n’est pas utilisé
Nom du champ | Description | Type de champ |
---|---|---|
Tous les champs en entrée sont conservés | Tous les champs en entrée du jeu de données en entrée sont conservés. | any |
CLUSTER_ID | L’ID d’agrégat indique à quel agrégat appartient chaque entité. | Entier 32 bits |
COLOR_ID | L’ID de couleur est une étiquette utilisée pour dessiner les résultats, de manière à ce que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu’une entité est considérée comme bruit. | Entier 32 bits |
Champs en sortie ajoutés lorsque la méthode d’agrégation HDBSCAN est sélectionnée
Nom du champ | Description | Type de champ |
---|---|---|
Tous les champs en entrée sont conservés | Tous les champs en entrée du jeu de données en entrée sont conservés. | any |
CLUSTER_ID | L’ID d’agrégat indique à quel agrégat appartient chaque entité. | Entier 32 bits |
COLOR_ID | L’ID de couleur est une étiquette utilisée pour dessiner les résultats, de manière à ce que chaque agrégat soit visuellement distinct des agrégats voisins dans la plupart des cas. Pour les deux champs, une valeur de -1 indique qu’une entité est considérée comme bruit. | Entier 32 bits |
PROB | Probabilité qu’une entité appartienne à son agrégat attribué. | Flottant 64 bits |
STABILITY (STABILITÉ) | Persistance de chaque agrégat dans une plage d’échelles. Un score supérieur indique qu’un agrégat persiste sur une plage plus vaste d’échelles de distance. | Flottant 64 bits |
OUTLIER (POINT ABERRANT) | Probabilité qu’une entité soit un point aberrant dans son propre agrégat. Une valeur plus grande indique que l’entité est plus susceptible d’être un point aberrant. | Flottant 64 bits |
EXEMPLAR (REPRÉSENTATIF) | Indique quelles entités sont les plus représentatives de chaque agrégat. Ces fonctionnalités sont indiquées par une valeur définie sur 1. | Entier 32 bits |
Vous avez un commentaire à formuler concernant cette rubrique ?