Punkt-Cluster suchen—ArcGIS Velocity

Werkzeugsymbol Verfügbar in Big-Data-Analysen.

Das Werkzeug "Punkt-Cluster suchen" findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf ihrer räumlichen oder raumzeitlichen Verteilung.

Workflow-Diagramm

Beispiel

Eine gemeinnützige Organisation untersucht eine bestimmte durch Schädlinge übertragene Krankheit und verfügt über ein Punkt-Dataset, das Haushalte in einem Untersuchungsgebiet darstellt, von denen einige betroffen sind und andere nicht. Mithilfe des Werkzeugs "Punkt-Cluster suchen" kann ein Analyst die Cluster betroffener Haushalte ermitteln, um einen Bereich besser aufzeigen und mit der Behandlung und Vernichtung krankheitsübertragender Erreger beginnen zu können.

Verwendungshinweise

Beachten Sie beim Arbeiten mit dem Werkzeug "Punkt-Cluster suchen" Folgendes:

Als Eingabe für dieses Werkzeug dient ein einzelner Punkt-Layer.
Alle Ergebnisse enthalten ein Feld namens CLUSTER_ID, das angibt, welchem Cluster das jeweilige Feature angehört, und ein Feld namens COLOR_ID, das eine Beschriftung zum Darstellen der Ergebnisse ist, sodass sich in den meisten Fällen jeder Cluster visuell von seinen benachbarten Clustern unterscheidet. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.
Mit dem Parameter Methode der Cluster-Bildung wird festgelegt, ob der Algorithmus "Definierte Entfernung" oder der Algorithmus "Automatische Anpassung" für die Cluster-Bildung verwendet wird. DBSCAN ermittelt anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. HDBSCAN findet Cluster aus Punkten ähnlich wie DBSCAN, verwendet aber variierende Suchbereiche, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können.
- Bei Auswahl von DBSCAN werden Cluster entweder nur im zweidimensionalen Raum oder in Raum und Zeit gefunden. Wenn Sie die Option "Zeit" zum Suchen von Clustern verwenden auswählen, im Eingabe-Layer die Zeitoption aktiviert ist und der Zeittyp "Zeitpunkt" lautet, findet DBSCAN Cluster vom Typ "spatiotemporal", die sich, basierend auf einer angegebenen Suchentfernung und einer Suchdauer, in unmittelbarer Nähe befinden.
- HDBSCAN unterstützt aktuell nur räumliches Clustering und ermittelt Cluster nicht anhand der Zeit.
Wenn die Cluster-Bildungsmethode DBSCAN mit der Option "Zeit" zum Suchen von Clustern vom Typ "spatiotemporal" verwendet wird, beinhalten die Ergebnisse zudem die folgenden Felder:
- FEAT_TIME: Ursprünglicher Zeitpunkt der einzelnen Features.
- START_DATETIME: Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört.
- END_DATETIME: Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört. Die Zeit des Ergebnis-Layers wird in den Feldern START_DATETIME und END_DATETIME als Intervall festgelegt; dadurch wird in den meisten Fällen gewährleistet, dass bei der Visualisierung von Clustern vom Typ "spatiotemporal" mit einem Zeitschieberegler alle Cluster-Bestandteile zusammen dargestellt werden. Bei Rauschen-Features entsprechen die Felder START_DATETIME und END_DATETIME dem Feld FEAT_TIME.
Wird HDBSCAN als Methode der Cluster-Bildung verwendet, enthalten die Ergebnisse außerdem die folgenden Felder:
- PROB: Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört.
- OUTLIER: Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer.
- EXEMPLAR: Gibt an, welche Features für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet.
- STABILITY: Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet.
Der Parameter Minimale Anzahl Features pro Cluster wird je nach Auswahl der Methode zur Cluster-Bildung auf unterschiedliche Weise verwendet:
- Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich innerhalb eines Suchbereichs von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Ergebnisse können Cluster enthalten, deren Feature-Anzahl geringer ist als dieser Wert. Die Entfernung des Suchbereichs wird mit dem Parameter Suchentfernung festgelegt. Wenn Cluster anhand der Zeit ermittelt werden, ist eine zusätzliche Suchdauer erforderlich. Sie wird mit dem Parameter Suchdauer festgelegt. Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl der Features pro Cluster innerhalb der angegebenen Suchentfernung und der angegebenen Suchdauer gefunden werden, damit ein Cluster gebildet werden kann. Hinweis: Die Suchentfernung und die -dauer stehen in keiner Beziehung zum Durchmesser oder zum Zeitraum der gefundenen Punkt-Cluster.
- Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes selbst), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.

Parameter

Nachfolgend werden die Parameter für das Werkzeug "Punkt-Cluster suchen" beschrieben:


Parameter	Beschreibung	Datentyp
Eingabe-Layer	Die Punkt-Features, in denen nach Punkt-Clustern gesucht werden soll.	Features
Methode der Cluster-Bildung	Die Methode der Cluster-Bildung, die vom Werkzeug zum Ermitteln von Punkt-Clustern verwendet wird. Die beiden Optionen lauten wie folgt: DBSCAN: Verwendet eine angegebene Entfernung, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer klaren Entfernung gearbeitet werden kann, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen. Diese Methode führt zu Clustern mit ähnlichen Dichten. Dies ist die Standardeinstellung. HDBSCAN: Verwendet variierende Entfernungen, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.	Zeichenfolge
Minimale Anzahl Features pro Cluster	Dieser Parameter wird je nach ausgewählter Methode der Cluster-Bildung auf unterschiedliche Weise verwendet: Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich in einer bestimmten Entfernung von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Entfernung wird mit dem Parameter Suchentfernung definiert. Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.	Int64
Zeit verwenden	Gibt an, ob bei der Identifizierung von Punkt-Clustern Zeit verwendet werden soll. Diese Option ist nur bei der Cluster-Bildungsmethode DBSCAN verfügbar.	Boolesch
Suchentfernung	Die maximal berücksichtigte Entfernung. Für die Cluster-Mitgliedschaft muss die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen.	Float64
Suchdauer	Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl Punkte innerhalb dieser Zeitdauer gefunden werden, damit ein Cluster gebildet werden kann.	Zeichenfolge

Ausgabe-Layer

Der generierte Ausgabe-Layer enthält unterschiedliche Felder, je nachdem, welche Methode der Cluster-Bildung ausgewählt wurde, und je nachdem, ob bei der Identifizierung von Punkt-Clustern Zeit verwendet wird.

Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung DBSCAN ausgewählt und Zeit verwendet wird


Feldname	Beschreibung	Feldtyp
Alle Eingabefelder werden beibehalten	Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten.	Beliebig
CLUSTER_ID	Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören.	Int32
COLOR_ID	Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.	Int32
FEAT_TIME	Ursprünglicher Zeitpunkt der einzelnen Features.	Datum
START_DATETIME	Die Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört.	Datum
END_DATETIME	Die Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört.	Datum

Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung DBSCAN ausgewählt und keine Zeit verwendet wird


Feldname	Beschreibung	Feldtyp
Alle Eingabefelder werden beibehalten	Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten.	Beliebig
CLUSTER_ID	Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören.	Int32
COLOR_ID	Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.	Int32

Ausgabefelder, die hinzugefügt werden, wenn als Methode der Cluster-Bildung HDBSCAN ausgewählt wird


Feldname	Beschreibung	Feldtyp
Alle Eingabefelder werden beibehalten	Alle Eingabefelder aus dem Eingabe-Dataset werden beibehalten.	Beliebig
CLUSTER_ID	Die Cluster-ID gibt an, welchem Cluster die einzelnen Features angehören.	Int32
COLOR_ID	Die Farb-ID ist eine Beschriftung, mit der Ergebnisse so dargestellt werden, dass sich die einzelnen Cluster in den meisten Fällen visuell von ihren benachbarten Clustern unterscheiden. Bei beiden Feldern gibt der Wert "-1" an, dass ein Feature als Rauschen gekennzeichnet ist.	Int32
PROB	Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört.	Float64
STABILITY	Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet.	Float64
OUTLIER	Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer.	Float64
EXEMPLAR	Gibt an, welche Features für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet.	Int32

Feedback zu diesem Thema?