Punkt-Cluster suchen

Werkzeugsymbol Verfügbar in Big-Data-Analysen.

Das Werkzeug "Punkt-Cluster suchen" Werkzeug "Punkt-Cluster suchen" findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf ihrer räumlichen oder raumzeitlichen Verteilung.

Workflow-Diagramm

Workflow-Diagramm des Werkzeugs "Punkt-Cluster suchen"

Beispiel

Eine gemeinnützige Organisation untersucht eine bestimmte durch Schädlinge übertragene Krankheit und verfügt über ein Punkt-Dataset, das Haushalte in einem Untersuchungsgebiet darstellt, von denen einige betroffen sind und andere nicht. Mithilfe des Werkzeugs "Punkt-Cluster suchen" kann ein Analyst die Cluster betroffener Haushalte ermitteln, um einen Bereich besser aufzeigen und mit der Behandlung und Vernichtung krankheitsübertragender Erreger beginnen zu können.

Verwendungshinweise

  • Als Eingabe für dieses Werkzeug dient ein einzelner Punkt-Layer.
  • Alle Ergebnisse enthalten ein Feld namens CLUSTER_ID, das angibt, welchem Cluster das jeweilige Feature angehört, und ein Feld namens COLOR_ID, das eine Beschriftung zum Darstellen der Ergebnisse ist, sodass sich in den meisten Fällen jeder Cluster visuell von seinen benachbarten Clustern unterscheidet. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.
  • Mit dem Parameter Methode der Cluster-Bildung wird festgelegt, ob der Algorithmus "Definierte Entfernung" oder der Algorithmus "Automatische Anpassung" für die Cluster-Bildung verwendet wird. DBSCAN ermittelt anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. HDBSCAN findet Cluster aus Punkten ähnlich wie DBSCAN, verwendet aber variierende Suchbereiche, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können.
    • Bei Auswahl von DBSCAN werden Cluster entweder nur im zweidimensionalen Raum oder in Raum und Zeit gefunden. Wenn Sie die Option "Zeit" zum Suchen von Clustern verwenden auswählen, im Eingabe-Layer die Zeitoption aktiviert ist und der Zeittyp "Zeitpunkt" lautet, findet DBSCAN Cluster vom Typ "spatiotemporal", die sich, basierend auf einer angegebenen Suchentfernung und einer Suchdauer, in unmittelbarer Nähe befinden.
    • HDBSCAN unterstützt aktuell nur räumliches Clustering und ermittelt Cluster nicht anhand der Zeit.
  • Wenn die Cluster-Bildungsmethode DBSCAN mit der Option "Zeit" zum Suchen von Clustern vom Typ "spatiotemporal" verwendet wird, beinhalten die Ergebnisse zudem die folgenden Felder:
    • FEAT_TIME: Ursprünglicher Zeitpunkt der einzelnen Features.
    • START_DATETIME: Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört.
    • END_DATETIME: Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört. Die Zeit des Ergebnis-Layers wird in den Feldern START_DATETIME und END_DATETIME als Intervall festgelegt; dadurch wird in den meisten Fällen gewährleistet, dass bei der Visualisierung von Clustern vom Typ "spatiotemporal" mit einem Zeitschieberegler alle Cluster-Bestandteile zusammen dargestellt werden. Bei Rauschen-Features entsprechen die Felder START_DATETIME und END_DATETIME dem Feld FEAT_TIME.
  • Wird HDBSCAN als Methode der Cluster-Bildung verwendet, enthalten die Ergebnisse außerdem die folgenden Felder:
    • PROB: Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört.
    • OUTLIER: Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer.
    • EXEMPLAR: Gibt an, welche Features für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet.
    • STABILITY: Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet.
  • Der Parameter Minimale Anzahl Features pro Cluster wird je nach Auswahl der Methode zur Cluster-Bildung auf unterschiedliche Weise verwendet:
    • Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich innerhalb eines Suchbereichs von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Ergebnisse können Cluster enthalten, deren Feature-Anzahl geringer ist als dieser Wert. Die Entfernung des Suchbereichs wird mit dem Parameter Suchentfernung festgelegt. Wenn Cluster anhand der Zeit ermittelt werden, ist eine zusätzliche Suchdauer erforderlich. Sie wird mit dem Parameter Suchdauer festgelegt. Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl der Features pro Cluster innerhalb der angegebenen Suchentfernung und der angegebenen Suchdauer gefunden werden, damit ein Cluster gebildet werden kann. Hinweis: Die Suchentfernung und die -dauer stehen in keiner Beziehung zum Durchmesser oder zum Zeitraum der gefundenen Punkt-Cluster.
    • Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes selbst), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.

Parameter

ParameterBeschreibungDatentyp

Eingabe-Layer

Die Punkt-Features, in denen nach Punkt-Clustern gesucht werden soll.

Features

Methode der Cluster-Bildung

Die Methode der Cluster-Bildung, die vom Werkzeug zum Ermitteln von Punkt-Clustern verwendet wird. Die beiden Optionen lauten wie folgt:

  • DBSCAN: Verwendet eine angegebene Entfernung, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer klaren Entfernung gearbeitet werden kann, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen. Diese Methode führt zu Clustern mit ähnlichen Dichten. Dies ist die Standardeinstellung.
  • HDBSCAN: Verwendet variierende Entfernungen, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.

Zeichenfolge

Minimale Anzahl Features pro Cluster

Dieser Parameter wird je nach ausgewählter Methode der Cluster-Bildung auf unterschiedliche Weise verwendet:

  • Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich in einer bestimmten Entfernung von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Entfernung wird mit dem Parameter Suchentfernung definiert.
  • Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.

Int64

Zeit verwenden

Gibt an, ob bei der Identifizierung von Punkt-Clustern Zeit verwendet werden soll. Diese Option ist nur bei der Cluster-Bildungsmethode DBSCAN verfügbar.

Boolesch

Suchentfernung

Die maximal berücksichtigte Entfernung.

Für die Cluster-Mitgliedschaft muss die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen.

Float64

Suchdauer

Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl Punkte innerhalb dieser Zeitdauer gefunden werden, damit ein Cluster gebildet werden kann.

Zeichenfolge

Ausgabe-Layer

Der generierte Ausgabe-Layer enthält unterschiedliche Felder, je nachdem, welche Methode der Cluster-Bildung ausgewählt wurde, und je nachdem, ob bei der Identifizierung von Punkt-Clustern Zeit verwendet wird.

Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung DBSCAN ausgewählt und Zeit verwendet wird

FeldnameBeschreibungFeldtyp

Alle Eingabefelder werden beibehalten

Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten.

Beliebig

CLUSTER_ID

Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören.

Int32

COLOR_ID

Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.

Int32

FEAT_TIME

Ursprünglicher Zeitpunkt der einzelnen Features.

Datum

START_DATETIME

Die Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört.

Datum

END_DATETIME

Die Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört.

Datum

Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung DBSCAN ausgewählt und keine Zeit verwendet wird

FeldnameBeschreibungFeldtyp

Alle Eingabefelder werden beibehalten

Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten.

Beliebig

CLUSTER_ID

Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören.

Int32

COLOR_ID

Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.

Int32

Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung HDBSCAN ausgewählt wird

FeldnameBeschreibungFeldtyp

Alle Eingabefelder werden beibehalten

Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten.

Beliebig

CLUSTER_ID

Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören.

Int32

COLOR_ID

Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.

Int32

PROB

Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört.

Float64

STABILITY

Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet.

Float64

OUTLIER

Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer.

Float64

EXEMPLAR

Gibt an, welche Features für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet.

Int32