Hot-Spots suchen

Werkzeugsymbol Verfügbar in Big-Data-Analysen.

Mit dem Werkzeug "Hot-Spots suchen" Werkzeug "Hot-Spots suchen" werden mithilfe der Getis-Ord Gi*-Statistik statistisch signifikante Hot-Spots und Cold-Spots im räumlichen Muster der Daten identifiziert.

Workflow-Diagramm

Workflow-Diagramm des Werkzeugs "Hot-Spots suchen"

Beispiele

  • Die Polizeistation führt eine Analyse durch, um zu ermitteln, ob eine Beziehung zwischen Gewaltverbrechen und Arbeitslosenraten besteht. Für weiterführende Schulen wird ein ausgedehntes Job-Programm für die Sommermonate in Gebieten mit einer hohen Rate von Gewaltverbrechen und Arbeitslosigkeit umgesetzt. Das Werkzeug "Hot-Spots suchen" kann verwendet werden, um Gebiete mit statistisch signifikanten Kriminalitäts- und Arbeitslosigkeits-Hot-Spots zu ermitteln.
  • Ein Naturschutzbeamter untersucht Baumkrankheiten, um zu priorisieren, welche Waldgebiete entsprechend behandelt werden müssen, und um Informationen zu Gebieten zu erhalten, die teilweise Resistenzen zeigen. Mit dem Werkzeug "Hot-Spots suchen" können Cluster von kranken (Hot-Spots) und gesunden (Cold-Spots) Bäumen ermittelt werden.

Verwendungshinweise

  • Eingabe-Features müssen Punkte sein. Punkte werden durch aggregierte Features in einem Quadratnetz (Abschnitte) analysiert.
  • Der Ausgabe-Layer verfügt über zusätzliche Felder, die Informationen wie etwa die statistische Signifikanz jedes Features, den p-Wert und den Z-Wert enthalten.
  • Während der Analyse werden die Eingabepunkte in Abschnitte einer bestimmten Größe aggregiert. Anschließend werden Sie analysiert, um Hot-Spots zu ermitteln. Die aggregierten Abschnitte müssen eine Reihe von Werten enthalten (die Anzahl der Punkte in einem Abschnitt sollte sehr variabel sein).
  • Die Z-Werte und p-Werte sind Messwerte von statistischer Bedeutung, die angeben, ob die beobachtete räumliche Cluster-Bildung von hohen oder niedrigen Werten auffälliger ist als bei einer zufälligen Verteilung der gleichen Werte. Anschließend können Sie mithilfe der aggregierten Abschnitte festlegen, ob die Nullhypothese akzeptiert oder abgelehnt wird. Die Z-Wert- und p-Wert-Felder spiegeln keine FDR-Korrektur (False Discovery Rate) wider.
  • Ein hoher Z-Wert und ein kleiner p-Wert für ein Feature geben an, dass viele Punktereignisse vorhanden sind. Ein niedriger negativer Z-Wert und ein kleiner p-Wert geben an, dass keine Punktereignisse vorhanden sind. Je größer (oder kleiner) der Z-Wert, desto höher die Intensität der Cluster-Bildung. Ein Z-Wert nahe 0 gibt an, dass anscheinend keine räumliche Cluster-Bildung zu verzeichnen ist.
  • Das Z-Ergebnis basiert auf der Berechnung per Zufalls-NULL-Hypothese. Weitere Informationen zu Z-Ergebnissen finden Sie unter Was ist ein Z-Ergebnis? Was ist ein p-Wert?.
  • Mit dem Werkzeug "Hot-Spots suchen" können Sie Analysen mithilfe von Zeitschritten durchführen. Jeder Zeitschritt wird unabhängig von den Features außerhalb des Zeitschrittes analysiert. Für die Verwendung von Zeitintervallen müssen Zeiteigenschaften für die Eingabedaten aktiviert sein und ein Zeitintervall darstellen. Bei Anwendung von Zeitschritten sind Ausgabe-Features Zeitintervalle, die durch die Felder StartTime und EndTime dargestellt werden.
  • Der Parameter Zeitintervallbezug kann einen Datums- und Uhrzeitwert oder nur einen Datumswert aufweisen, jedoch nicht nur einen Uhrzeitwert.

Parameter

ParameterBeschreibungDatentyp

Eingabe-Layer

Die Punkt-Features, für die Hot-Spots berechnet werden.

Features

Abschnittstyp

Die Abschnittsform, die zum Erstellen der regelmäßigen Abschnitte verwendet wird. Der Standardwert lautet Quadrat.

Zeichenfolge

Abschnittsgröße

Das Entfernungsintervall, das die Abschnittsgröße darstellt, auf die die Eingabe-Punkte analysiert werden.

Zeichenfolge

Nachbarschaftsgröße (optional)

Die räumliche Ausdehnung der Analysenachbarschaft. Anhand dieses Wertes wird bestimmt, welche Features zusammen analysiert werden, um lokale Cluster-Bildung zu bewerten.

Zeichenfolge

Zeitschrittintervall (optional)

Das Intervall für den Zeitschritt. Dieser Parameter wird nur verwendet, wenn das Schema der Eingabepunkte ein Feld mit dem Tagging des Schlüsselfeldes Startzeit enthält.

Zeichenfolge

Zeitschrittausrichtung (optional)

Gibt die Ausrichtung der Zeitschritte an. Dieser Parameter ist nur verfügbar, wenn Eingabepunkte mit aktivierten Zeiteigenschaften vorliegen und einen bestimmten Zeitpunkt darstellen.

  • Startzeit: Zeitschritte werden auf das erste Zeitereignis ausgerichtet und in der Zeit vorwärts aggregiert.
  • Endzeit: Zeitschritte werden auf das letzte Zeitereignis ausgerichtet und in der Zeit zurück aggregiert.
  • Bezugszeit: Zeitschritte werden auf ein bestimmtes Datum/eine bestimmte Uhrzeit ausgerichtet. Wenn alle Punkte in den Eingabe-Features über einen Zeitstempel verfügen, der größer ist als die angegebene Bezugszeit (oder genau auf die Startzeit der Eingabe-Features fällt), beginnt das Zeitschrittintervall mit dieser Bezugszeit und aggregiert vorwärts in der Zeit (wie dies bei einer Startzeit-Ausrichtung der Fall ist). Wenn alle Punkte in den Eingabe-Features über einen Zeitstempel verfügen, der kleiner ist als die angegebene Bezugszeit (oder genau auf die Endzeit der Eingabe-Features fällt), endet das Zeitschrittintervall mit dieser Bezugszeit und aggregiert rückwärts in der Zeit (wie dies bei einer Endzeit-Ausrichtung der Fall ist). Wenn die angegebene Bezugszeit sich in der Mitte des Zeitraums der Daten befindet, wird ein Zeitintervall erstellt, das mit der angegebenen Bezugszeit endet (wie dies bei einer Endzeit-Ausrichtung der Fall ist). Zusätzliche Intervalle werden sowohl vor als auch nach der Bezugszeit erstellt, bis der Zeitraum der Daten vollständig abgedeckt ist.

Zeichenfolge

Zeitschrittbezug (optional)

Die Bezugszeit zum Ausrichten von Zeitschritten und Zeitintervallen. Dieser Parameter wird nur angezeigt, wenn für den Parameter Zeitschrittausrichtung die Option Bezugszeit verwendet wird.

Datum

Ausgabe-Layer

Der Ausgabe-Layer enthält anstelle der ursprünglichen Felder die folgenden Felder:

FeldnameBeschreibungFeldtyp

Wert

Die Anzahl der Features in diesem Abschnitt

Float64

GiZScore

Der Z-Wert der Features in diesem Abschnitt

Float64

GiPValue

Der p-Wert der Features in diesem Abschnitt

Float64

Gi_Bin

Das Konfidenzniveau, das zum Identifizieren von statistisch signifikanten Hot- und Cold-Spots verwendet wird. Features, die einen Gi_Bin-Wert von +/-3 aufweisen, geben die statistische Signifikanz mit einem Konfidenzniveau von 99 Prozent an. Features die einen Gi_Bin-Wert von +/-2 aufweisen, geben ein Konfidenzniveau von 95 Prozent an. Features, die einen Gi_Bin-Wert von +/-1 aufweisen, geben ein Konfidenzniveau von 90 Prozent an. Und die Cluster-Bildung für Features mit dem Gi_Bin-Wert 0 sind statistisch nicht signifikant.

Float64

Überlegungen und Beschränkungen

Eingaben müssen einen Punkt-Layer enthalten. Vor der Analyse werden sie dann in Abschnitte einer angegebenen Größe aggregiert.