Verfügbar in Big-Data-Analysen.
Das Werkzeug "Punkt-Cluster suchen" findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf ihrer räumlichen oder raumzeitlichen Verteilung.
Workflow-Diagramm
Beispiel
Eine gemeinnützige Organisation untersucht eine bestimmte durch Schädlinge übertragene Krankheit und verfügt über ein Punkt-Dataset, das Haushalte in einem Untersuchungsgebiet darstellt, von denen einige betroffen sind und andere nicht. Mithilfe des Werkzeugs "Punkt-Cluster suchen" kann ein Analyst die Cluster betroffener Haushalte ermitteln, um einen Bereich besser aufzeigen und mit der Behandlung und Vernichtung krankheitsübertragender Erreger beginnen zu können.
Verwendungshinweise
Beachten Sie beim Arbeiten mit dem Werkzeug "Punkt-Cluster suchen" Folgendes:
- Als Eingabe für dieses Werkzeug dient ein einzelner Punkt-Layer.
- Alle Ergebnisse enthalten ein Feld namens CLUSTER_ID, das angibt, welchem Cluster das jeweilige Feature angehört, und ein Feld namens COLOR_ID, das eine Beschriftung zum Darstellen der Ergebnisse ist, sodass sich in den meisten Fällen jeder Cluster visuell von seinen benachbarten Clustern unterscheidet. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.
- Mit dem Parameter Methode der Cluster-Bildung wird festgelegt, ob der Algorithmus "Definierte Entfernung" oder der Algorithmus "Automatische Anpassung" für die Cluster-Bildung verwendet wird. DBSCAN ermittelt anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. HDBSCAN findet Cluster aus Punkten ähnlich wie DBSCAN, verwendet aber variierende Suchbereiche, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können.
- Bei Auswahl von DBSCAN werden Cluster entweder nur im zweidimensionalen Raum oder in Raum und Zeit gefunden. Wenn Sie die Option "Zeit" zum Suchen von Clustern verwenden auswählen, im Eingabe-Layer die Zeitoption aktiviert ist und der Zeittyp "Zeitpunkt" lautet, findet DBSCAN Cluster vom Typ "spatiotemporal", die sich, basierend auf einer angegebenen Suchentfernung und einer Suchdauer, in unmittelbarer Nähe befinden.
- HDBSCAN unterstützt aktuell nur räumliches Clustering und ermittelt Cluster nicht anhand der Zeit.
- Wenn die Cluster-Bildungsmethode DBSCAN mit der Option "Zeit" zum Suchen von Clustern vom Typ "spatiotemporal" verwendet wird, beinhalten die Ergebnisse zudem die folgenden Felder:
- FEAT_TIME: Ursprünglicher Zeitpunkt der einzelnen Features.
- START_DATETIME: Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört.
- END_DATETIME: Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört. Die Zeit des Ergebnis-Layers wird in den Feldern START_DATETIME und END_DATETIME als Intervall festgelegt; dadurch wird in den meisten Fällen gewährleistet, dass bei der Visualisierung von Clustern vom Typ "spatiotemporal" mit einem Zeitschieberegler alle Cluster-Bestandteile zusammen dargestellt werden. Bei Rauschen-Features entsprechen die Felder START_DATETIME und END_DATETIME dem Feld FEAT_TIME.
- Wird HDBSCAN als Methode der Cluster-Bildung verwendet, enthalten die Ergebnisse außerdem die folgenden Felder:
- PROB: Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört.
- OUTLIER: Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer.
- EXEMPLAR: Gibt an, welche Features für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet.
- STABILITY: Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet.
- Der Parameter Minimale Anzahl Features pro Cluster wird je nach Auswahl der Methode zur Cluster-Bildung auf unterschiedliche Weise verwendet:
- Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich innerhalb eines Suchbereichs von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Ergebnisse können Cluster enthalten, deren Feature-Anzahl geringer ist als dieser Wert. Die Entfernung des Suchbereichs wird mit dem Parameter Suchentfernung festgelegt. Wenn Cluster anhand der Zeit ermittelt werden, ist eine zusätzliche Suchdauer erforderlich. Sie wird mit dem Parameter Suchdauer festgelegt. Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl der Features pro Cluster innerhalb der angegebenen Suchentfernung und der angegebenen Suchdauer gefunden werden, damit ein Cluster gebildet werden kann. Hinweis: Die Suchentfernung und die -dauer stehen in keiner Beziehung zum Durchmesser oder zum Zeitraum der gefundenen Punkt-Cluster.
- Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes selbst), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.
Parameter
Nachfolgend werden die Parameter für das Werkzeug "Punkt-Cluster suchen" beschrieben:
Parameter | Beschreibung | Datentyp |
---|---|---|
Eingabe-Layer | Die Punkt-Features, in denen nach Punkt-Clustern gesucht werden soll. | Features |
Methode der Cluster-Bildung | Die Methode der Cluster-Bildung, die vom Werkzeug zum Ermitteln von Punkt-Clustern verwendet wird. Die beiden Optionen lauten wie folgt:
| Zeichenfolge |
Minimale Anzahl Features pro Cluster | Dieser Parameter wird je nach ausgewählter Methode der Cluster-Bildung auf unterschiedliche Weise verwendet:
| Int64 |
Zeit verwenden | Gibt an, ob bei der Identifizierung von Punkt-Clustern Zeit verwendet werden soll. Diese Option ist nur bei der Cluster-Bildungsmethode DBSCAN verfügbar. | Boolesch |
Suchentfernung | Die maximal berücksichtigte Entfernung. Für die Cluster-Mitgliedschaft muss die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen. | Float64 |
Suchdauer | Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl Punkte innerhalb dieser Zeitdauer gefunden werden, damit ein Cluster gebildet werden kann. | Zeichenfolge |
Ausgabe-Layer
Der generierte Ausgabe-Layer enthält unterschiedliche Felder, je nachdem, welche Methode der Cluster-Bildung ausgewählt wurde, und je nachdem, ob bei der Identifizierung von Punkt-Clustern Zeit verwendet wird.
Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung DBSCAN ausgewählt und Zeit verwendet wird
Feldname | Beschreibung | Feldtyp |
---|---|---|
Alle Eingabefelder werden beibehalten | Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten. | Beliebig |
CLUSTER_ID | Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören. | Int32 |
COLOR_ID | Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist. | Int32 |
FEAT_TIME | Ursprünglicher Zeitpunkt der einzelnen Features. | Datum |
START_DATETIME | Die Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört. | Datum |
END_DATETIME | Die Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört. | Datum |
Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung DBSCAN ausgewählt und keine Zeit verwendet wird
Feldname | Beschreibung | Feldtyp |
---|---|---|
Alle Eingabefelder werden beibehalten | Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten. | Beliebig |
CLUSTER_ID | Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören. | Int32 |
COLOR_ID | Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist. | Int32 |
Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung HDBSCAN ausgewählt wird
Feldname | Beschreibung | Feldtyp |
---|---|---|
Alle Eingabefelder werden beibehalten | Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten. | Beliebig |
CLUSTER_ID | Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören. | Int32 |
COLOR_ID | Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist. | Int32 |
PROB | Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört. | Float64 |
STABILITY | Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet. | Float64 |
OUTLIER | Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer. | Float64 |
EXEMPLAR | Gibt an, welche Features für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet. | Int32 |