Dieses Werkzeug führt eine geographisch gewichtete Regression (GWR) durch, eine lokale Form von Regression zur Modellierung räumlich variierender Beziehungen. Das GWR-Werkzeug erstellt ein lokales Modell der Variable oder des Prozesses, die bzw. den Sie verstehen vorhersagen möchten, indem eine Regressionsgleichung an jedes Feature im Dataset angepasst wird. Das Werkzeug GWR erstellt diese separaten Gleichungen durch Einbeziehung der abhängigen und erklärenden Variablen von Features in der Nachbarschaft der einzelnen Ziel-Features. Form und Ausdehnung der einzelnen analysierten Nachbarschaften hängen von den Eingaben für die Parameter Nachbarschaftstyp und Auswahlmethode für Nachbarschaften ab. Ausnahme: Wenn die Anzahl der benachbarten Features 1000 überschreitet, werden nur die nächsten 1000 in jede lokale Gleichung aufgenommen.
Verwenden Sie dieses Werkzeug für Datasets mit mehreren hundert Features, um optimale Ergebnisse zu erzielen. Für kleine Datasets ist dieses Werkzeug nicht geeignet. Das Werkzeug funktioniert nicht mit Multipoint-Daten.
Verwenden Sie den Parameter Eingabe-Features mit einem Feld, das das Phänomen darstellt, das Sie modellieren (Wert für Abhängige Variable), und einem oder mehreren Feldern, die den Wert für Erklärende Variable(n) darstellen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, bei denen Werte in der abhängigen oder erklärenden Variablen fehlen, werden von der Analyse ausgeschlossen. Sie können jedoch mit dem Werkzeug Fehlende Werte ausfüllen das Dataset vervollständigen, bevor Sie das Werkzeug GWR ausführen.
Das GWR-Werkzeug erzeugt verschiedene Ausgaben. Während der Verwendung des Werkzeugs wird unten im Bereich Geoverarbeitung eine Zusammenfassung des Modells einer geographisch gewichteten Regression in Form einer Meldung angezeigt. Um auf die Meldung zuzugreifen, zeigen Sie mit der Maus auf die Fortschrittsleiste, klicken Sie auf die Pop-out-Schaltfläche, oder erweitern Sie den Abschnitt "Meldungen" im Bereich Geoverarbeitung. Sie können auch über den Geoverarbeitungsverlauf auf die Meldungen für ein zuvor ausgeführtes GWR-Werkzeug zugreifen.
Das GWR-Werkzeug erzeugt zudem Werte vom Typ Ausgabe-Feature und fügt Felder hinzu, die lokale Diagnosewerte angeben. Die Werte vom Typ Ausgabe-Features und verknüpfte Diagramme werden automatisch dem Inhaltsverzeichnis hinzugefügt, wobei ein Hot/Cold-Rendering-Schema zur Modellierung von Residuen angewendet wird. Eine vollständige Erläuterung der einzelnen Ausgaben und Diagramme finden Sie im Thema Funktionsweise des Werkzeugs "Geographisch gewichtete Regression".Das Werkzeug akzeptiert Punkte und Polygone als Eingabe. Für Polygone werden alle Entfernungen und Nachbarn anhand der Entfernung zwischen den Polygon-Schwerpunkten (Punkte) definiert. Insbesondere bei großen, gestreckten oder Multipart-Polygonen stellt ein Einzelpunkt jedoch möglicherweise keine gute Repräsentation des Polygons dar. In diesen Fällen können die Nachbarschaften und die Entfernungen zwischen Polygonen zweifelhaft oder irreführend sein. Zwei Polygone mit einer gemeinsamen Grenze werden beispielsweise ggf. nicht als Nachbarn betrachtet, wenn ihre Schwerpunkte weit auseinander liegen. Um die von diesem Werkzeug verwendeten Schwerpunkte anzuzeigen, verwenden Sie das Werkzeug Feature in Punkt mit deaktiviertem Parameter Innerhalb, um die Polygone in Schwerpunktpunkte zu konvertieren. Sie können auch Nachbarschafts-Explorer verwenden, um die Nachbarschaften der Polygone oder Punktschwerpunkte zu visualisieren.
Im Allgemeinen wird nicht empfohlen, eine geographisch gewichtete Regression bei Linien durchzuführen, da ein Schwerpunkt nur selten eine geeignete Repräsentation einer Linie ist. Um Linien in dem Werkzeug zu verwenden, können Sie jedoch das Werkzeug Feature in Punkt verwenden, um die Linien in Schwerpunktpunkte zu konvertieren und die Schwerpunkte in dem Werkzeug zu verwenden. Die Ergebnisse können anschließend wieder mit den ursprünglichen Linien verbunden werden.
Der angegebene Parameterwert Modelltyp hängt von den Daten ab, die Sie modellieren. Es ist wichtig, das richtige Modell für die Analyse zu verwenden, um mit der Regressionsanalyse genaue Ergebnisse zu erhalten.
Es wird empfohlen, projizierte Daten zu verwenden. Dies ist besonders wichtig, wenn die Entfernung eine Komponente der Analyse ist, z. B. wenn Sie für die geographisch gewichtete Regression Entfernungsband für den Parameter Nachbarschaftstyp angeben. Es wird empfohlen, dass die Daten in einem projizierten Koordinatensystem (und nicht in einem geographischen Koordinatensystem) vorliegen.
Zur Verbesserung der Performance können für einen Teil der Berechnungen mehrere CPUs verwendet werden. Zur Verarbeitung werden automatisch bis zu acht Threads/CPUs genutzt.
Es ist üblich, die Daten global mit dem Werkzeug Generalisierte lineare Regression zu erkunden, bevor Sie die Daten lokal mit diesem Werkzeug erkunden.
Die Parameterwerte Abhängige Variable und Erklärende Variable(n) sollten numerische Felder sein, die eine Vielzahl von Werten enthalten. Es sollte global und lokal eine Variation in diesen Werten geben. Verwenden Sie deshalb keine erklärenden "Dummy"-Variablen, um die verschiedenen räumlichen Ordnungen im Modell einer geographisch gewichteten Regression darzustellen (z. B. Zuweisen des Wertes 1 zu Zählbezirken außerhalb des Stadtkerns, wenn allen anderen der Wert 0 zugewiesen wird). Da beim GWR-Werkzeug die erklärenden Variablenkoeffizienten variieren können, sind diese erklärenden Variablen für räumliche Ordnungen unnötig. Wenn sie einbezogen werden, können sie Probleme aufgrund von lokaler Multikollinearität verursachen.
In globalen Regressionsmodellen wie Generalisierte lineare Regression sind die Ergebnisse unzuverlässig, wenn zwei oder mehr Variablen Multikollinearität aufweisen (wenn zwei oder mehr Variablen redundant sind oder das Gleiche aussagen). Das GWR-Werkzeug erstellt eine lokale Regressionsgleichung für jedes Feature im Dataset. Wenn die Werte für eine bestimmte erklärende Variable zur räumlichen Cluster-Bildung neigen, liegen wahrscheinlich Probleme mit lokaler Multikollinearität vor. Das Bedingungswert-Feld (COND) in der Ausgabe-Feature-Class gibt an, wann Ergebnisse aufgrund von lokaler Multikollinearität instabil sind. Betrachten Sie im Allgemeinen Ergebnisse für Features mit einem Bedingungswert größer als 30, gleich null oder (für Shapefiles) gleich -1.7976931348623158e+308 skeptisch. Der Bedingungswert ist an den Maßstab angepasst, um die Anzahl der erklärenden Variablen im Modell zu korrigieren. Dies ermöglicht einen direkten Vergleich des Bedingungswertes zwischen Modellen mit einer unterschiedlichen Anzahl von erklärenden Variablen.
Bei Verwendung von Nominal- oder Kategoriedaten im Modell einer geographisch gewichteten Regression ist Vorsicht angebracht. Wenn Kategorien zur Bildung von räumlichen Clustern neigen, treten u. U. Probleme aufgrund von lokaler Multikollinearität auf. Der in der Ausgabe der geographisch gewichteten Regression enthaltene Bedingungswert gibt an, wann lokale Kollinearität ein Problem darstellt (ein Bedingungswert kleiner als 0, größer als 30 oder gleich NULL). Bei einer starken lokalen Multikollinearität sind die Ergebnisse instabil.
Um die regionale Variation unter den Koeffizienten der erklärenden Variablen besser zu verstehen, untersuchen Sie die vom GWR-Werkzeug erstellten optionalen Koeffizienten-Raster-Oberflächen. Diese Raster-Oberflächen werden im Parameter Koeffizienten-Raster-Workspace unter Zusätzliche Optionen erstellt (falls angegeben). Für Polygondaten können Sie auf jedes Koeffizientenfeld in dem Wert vom Typ Ausgabe-Features Cold-to-Hot-Rendering oder Rendering mit abgestuften Farben anwenden, um die Änderungen im Untersuchungsgebiet nachzuvollziehen.
Sie können das GWR-Werkzeug auch für Vorhersagen verwenden, indem Sie einen Wert vom Typ Vorhergesagte Positionen (diese Feature-Class stimmt meist mit dem Wert vom Typ Eingabe-Features überein) angeben, die erklärenden Variablen anpassen und einen Wert vom Typ Vorhergesagte Ausgabe-Features angeben. Wenn die Felder Abzugleichende erklärende Variablen von dem Wert vom Typ Eingabe-Features mit den Feldern Felder der vorherzusagenden Positionen übereinstimmen, werden sie automatisch gefüllt. Geben Sie andernfalls die richtigen Felder an.
Bei einem falsch angegebenen Regressionsmodell handelt es sich um ein Modell, in dem eine wichtige erklärende Variable fehlt. Die statistisch signifikante räumliche Autokorrelation in den Regressionsresiduen oder die unerwartete räumliche Variation unter den Koeffizienten einer oder mehrerer erklärender Variablen weist darauf hin, dass das Modell falsch angegeben ist. Ermitteln Sie mit allen verfügbaren Analysemethoden (zum Beispiel Untersuchung von Residuen der generalisierten linearen Regression und Analyse der Koeffizientenvariationen der geographisch gewichteten Regression), welche wichtigen Variablen fehlen, damit sie in das Modell aufgenommen werden können.
Bestimmen Sie stets, ob es sinnvoll ist, dass eine erklärende Variable nicht stationär ist. Nehmen Sie beispielsweise an, Sie modellieren die Verbreitung einer bestimmten Pflanzenart als Funktion mehrerer Variablen einschließlich ASPECT. Wenn Sie feststellen, dass sich der Koeffizient für die Variable ASPECT über das Untersuchungsgebiet hinweg ändert, weist dies darauf hin, dass eine wichtige erklärende Variable fehlt (zum Beispiel die Verbreitung einer konkurrierenden Vegetationsart). Treffen Sie alle möglichen Maßnahmen, damit alle wichtigen erklärenden Variablen im Regressionsmodell enthalten sind.
Wenn das Ergebnis einer Berechnung unendlich oder nicht definiert ist, lautet das Ergebnis für Nicht-Shapefiles NULL und für Shapefiles -DBL_MAX = -1.7976931348623158e+308.
Vorsicht:
In Shapefiles können keine NULL-Werte gespeichert werden. Werkzeuge oder andere Verfahren zur Erstellung von Shapefiles aus Nicht-Shapefile-Eingaben speichern NULL-Werte ggf. als Wert 0 oder als sehr kleinen negativen Wert (-DBL_MAX = -1,7976931348623158e+308). Dies kann zu unerwarteten Ergebnissen führen. Weitere Informationen finden Sie unter Überlegungen zur Geoverarbeitung für die Shapefile-Ausgabe.
Es gibt drei Optionen für den Parameter Auswahlmethode für Nachbarschaften. Wenn Sie Golden Search angeben, sucht das Werkzeug mit dem Suchverfahren Golden Section Search nach den besten Werten für die Parameter Entfernungsband oder Anzahl der Nachbarn. Mit der Option Manuelle Intervalle werden Nachbarschaften in Inkrementen zwischen den angegebenen Entfernungen getestet. In jedem Fall wird die Nachbarschaftsgröße verwendet, die den AICc-Wert (Akaike Information Criterion) minimiert. Durch Probleme mit lokaler Multikollinearität wird jedoch verhindert, dass mit diesen Methoden die optimale Entfernung bzw. die optimale Anzahl von Nachbarn berechnet wird. Bei einem Fehler oder schwerwiegenden Problemen beim Modellentwurf könnten Sie versuchen, eine genaue Entfernung oder Anzahl von Nachbarn mit der Option Benutzerdefiniert anzugeben. Untersuchen Sie dann die Bedingungswerte in der Ausgabe-Feature-Class, um zu ermitteln, welche Features mit den Problemen mit lokaler Multikollinearität verknüpft sind.
Schwerwiegende Probleme beim Modellentwurf oder Fehler mit der Meldung, dass die Anzahl an Nachbarn in lokalen Gleichungen nicht ausreicht, weisen oft auf globale oder lokale Multikollinearität hin. Um die Problemursache zu ermitteln, führen Sie ein globales Modell unter Verwendung des Werkzeugs Generalisierte lineare Regression aus, und untersuchen Sie den VIF-Wert für jede erklärende Variable. Wenn einige der VIF-Werte sehr groß sind (z. B. größer als 7,5), verhindert die globale Multikollinearität die Ausführung der geographisch gewichteten Regression. Jedoch ist wahrscheinlich eher eine lokale Multikollinearität das Hauptproblem. Versuchen Sie, eine thematische Karte für jede erklärende Variable zu erstellen. Wenn die Karte räumliche Cluster-Bildung von identischen Werten erkennen lässt, entfernen Sie diese Variablen aus dem Modell oder kombinieren Sie diese Variablen mit anderen erklärenden Variablen, um die Wertvariation zu erhöhen. Wenn Sie beispielsweise Immobilienwerte modellieren und für Schlafzimmer wie auch Badezimmer über Variablen verfügen, ist es möglicherweise sinnvoll, diese zu kombinieren, um die Wertvariation zu erhöhen oder sie als kombinierte Größe darzustellen. Vermeiden Sie beim Erstellen von Modellen einer geographisch gewichteten Regression die Verwendung der folgenden Variablen: Dummy-Variablen für räumliche Ordnungen, Kategorievariablen bzw. nominale Variablen für räumliche Cluster-Bildung oder Variablen mit sehr wenigen möglichen Werten.
"Geographisch gewichtete Regression" ist ein lineares Modell, für das die gleichen Anforderungen wie für "Generalisierte lineare Regression" gelten. Prüfen Sie die in Funktionsweise der geographisch gewichteten Regression erläuterte Diagnose, um sicherzustellen, dass das Modell der geographisch gewichteten Regression ordnungsgemäß festgelegt wurde. Der Abschnitt Wie Regressionsmodelle ungültig werden im Thema "Grundlagen zur Regressionsanalyse" bietet ebenfalls Informationen, um die Richtigkeit des Modells sicherzustellen.