Automatische räumliche Regression (Spatial Statistics)

Zusammenfassung

Schätzt ein globales räumliches Regressionsmodell für eine Punkt- oder Polygon-Feature-Class.

Die Voraussetzungen für herkömmliche lineare Regressionsmodelle werden bei Verwendung von Geodaten häufig nicht erfüllt. Wenn in einem Dataset eine räumliche Autokorrelation vorhanden ist, können Koeffizientenschätzungen verzerrt sein und zu einer überkonfidenten Schlussfolgerung führen. Mit diesem Werkzeug kann ein Regressionsmodell geschätzt werden, das auch bei einer räumlichen Abhängigkeit und Heteroskedastizität robust ist. Zudem können mit diesem Werkzeug räumliche Übertragungen angegeben werden. Das Werkzeug verwendet Lagrange-Multiplikator-Diagnosetests (LM), auch als Rao Score bezeichnet, um das am besten geeignete Modell zu ermitteln. Anhand der LM-Diagnose kann ein OLS-Modell (kleinste Quadrate), ein räumliches Verzögerungsmodell (SLM), ein räumliches Fehlermodell (SEM) oder ein räumlich autoregressives kombiniertes Modell geschätzt werden.

Weitere Informationen zur Funktionsweise von "Automatische räumliche Regression"

Abbildung

Abbildung des Werkzeugs "Automatische räumliche Regression"

Verwendung

  • Das Werkzeug akzeptiert nur Punkt- und Polygon-Eingaben.

  • Die abhängige Variable muss kontinuierlich (nicht binär oder kategorial) sein.

  • Erklärende Variablen müssen kontinuierlich (nicht binär oder kategorial) sein. Verwenden Sie keine binären Variablen (die nur die Werte 0 und 1 enthalten), da sie möglicherweise Modellannahmen verletzen und einen Fehler verursachen.

  • Die Ausgabe des Werkzeugs enthält ein Morans Scatterplot der Residuen, das verwendet werden kann, um festzustellen, ob in den Residuen des Modells eine Autokorrelation vorliegt.

  • Die verwendete räumliche Gewichtungsmatrix darf nicht mehr als 30 Prozent Konnektivität aufweisen. Wenn dieser Schwellenwert erreicht wird, wird zur Vermeidung von verzerrten Schätzungen ein Fehler angezeigt.

  • Wenn "Nächste Nachbarn (K)" mit einem lokalen Gewichtungsschema verwendet wird, wird eine adaptive Bandbreite verwendet, sofern keine Bandweite angegeben wird.

  • Ein räumliches Durbin-Modell kann durch Anpassung eines SLM und Einbeziehung der einzelnen erklärenden Variablen und der jeweiligen räumlichen Verzögerungen geschätzt werden. Verwenden Sie das Werkzeug Nachbarschaftssummenstatistik zum Berechnen von räumlichen Verzögerungen.

  • Die Modelle werden mithilfe der folgenden Methoden geschätzt, die mit Heteroskedastizität und Normalität in Zusammenhang stehen:

    • Beim SLM wird die räumliche zweistufige Regressionsmethode der kleinsten Quadrate (Spatial Two Stage Least Squares, S2SLS) verwendet.
    • Beim SEM wird die verallgemeinerte Momentenmethode (Generalized Method of Moments, GMM) verwendet.
    • Beim SAC-Modell wird die verallgemeinerte räumliche zweistufige Regressionsmethode der kleinsten Quadrate (Generalized S2SLS, GS2SLS) verwendet.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Features

Die Eingabe-Features, die die abhängigen und erklärenden Variablen enthalten.

Feature Layer
Abhängige Variable

Das numerische Feld, das im Regressionsmodell vorhergesagt wird.

Field
Erklärende Variablen

Eine Liste mit Feldern, die verwendet wird, um die abhängige Variable im Regressionsmodell vorherzusagen.

Field
Ausgabe-Features

Die Ausgabe-Feature-Class, die die vorhergesagten Werte der abhängigen Variable und der Residuen enthält.

Feature Class
Modelltyp

Der Modelltyp, der für die Schätzung verwendet wird. Standardmäßig werden LM-Diagnosetests verwendet, um das für die Eingabedaten am besten geeignete Modell zu ermitteln.

  • Automatisch erkennenLM-Diagnosetests werden verwendet, um festzulegen, ob ein OLS-Modell, ein SLM, ein SEM oder ein SAC-Modell verwendet werden soll. Dies ist die Standardeinstellung.
  • Räumliches Fehlermodell (SEM)Ein SEM wird unabhängig von der LM-Diagnose geschätzt.
  • Räumliches Verzögerungsmodell (SLM)Ein SLM wird unabhängig von der LM-Diagnose geschätzt.
  • Räumlich autoregressives kombiniertes Modell (SAC)Ein SAC-Modell wird unabhängig von der LM-Diagnose geschätzt.
String
Nachbarschaftstyp
(optional)

Gibt an, wie Nachbarn für die einzelnen Eingabe-Features ausgewählt werden. Zur Erkennung von lokalen räumlichen Mustern müssen für jedes Eingabe-Feature benachbarte Features ermittelt werden.

  • Festes EntfernungsbandFeatures, die sich in einer bestimmten Entfernung zu einem Feature befinden, gelten als Nachbarn.
  • Nächste Nachbarn (K)Die nächstgelegenen k-Features gelten als Nachbarn. Die Anzahl der Nachbarn wird mithilfe des Parameters Anzahl der Nachbarn angegeben.
  • Nur benachbarte KantenPolygon-Features, die eine Kante gemeinsam haben, werden als Nachbarn einbezogen.
  • Benachbarte Kanten/EckenPolygon-Features, die eine gemeinsame Kante oder Ecke aufweisen, werden als Nachbarn einbezogen. Hierbei handelt es sich um den Standard für Polygon-Features.
  • Delaunay-TriangulationFeatures, deren Delaunay-Triangulationen eine gemeinsame Kante oder Ecke haben, werden als Nachbarn einbezogen. Hierbei handelt es sich um den Standard für Punkt-Features.
  • Räumliche Gewichtungen aus Datei abrufenNachbarn und Gewichtungen werden durch eine angegebene Datei mit räumlichen Gewichtungen definiert. Die Datei wird mithilfe des Parameters Gewichtungsmatrix-Datei angegeben.
String
Entfernungsband
(optional)

Die Entfernung, innerhalb derer Features als Nachbarn einbezogen werden. Wird kein Wert bereitgestellt, wird er während der Verarbeitung geschätzt und als Geoverarbeitungsmeldung einbezogen.

Linear Unit
Anzahl der Nachbarn
(optional)

Die Anzahl der Nachbarn, die als Nachbarn miteinbezogen werden. Die Anzahl enthält nicht das fokale Feature. Der Standardwert ist 8.

Long
Gewichtungsmatrix-Datei
(optional)

Der Pfad und Dateiname der Datei mit räumlicher Gewichtungsmatrix, die räumliche Beziehungen zwischen Features definiert.

File
Lokales Gewichtungsschema
(optional)

Gibt das Gewichtungsschema an, das auf Nachbarn angewendet wird. Wenn keine Datei mit räumlicher Gewichtungsmatrix bereitgestellt wird, sind Gewichtungen immer reihenstandardisiert.

  • UngewichtetNachbarn wird die Gewichtung 1 zugewiesen. Dies ist die Standardeinstellung.
  • BiquadratNachbarn werden mit einem Quartic-Kernel (Biquadrat) gewichtet.
  • GaußNachbarn werden mit einem Gauß'schen Kernel (Normalverteilung) gewichtet.
String
Kernel-Bandbreite
(optional)

Die Bandbreite des Gewichtungs-Kernels. Wenn kein Wert angegeben wird, wird ein adaptiver Kernel verwendet. Bei einem adaptiven Kernel wird die maximale Entfernung zwischen einem Nachbarn und einem fokalen Feature als Bandbreite verwendet.

Linear Unit

arcpy.stats.SAR(in_features, dependent_variable, explanatory_variables, out_features, model_type, {neighborhood_type}, {distance_band}, {number_of_neighbors}, {weights_matrix_file}, {local_weighting_scheme}, {kernel_bandwidth})
NameErläuterungDatentyp
in_features

Die Eingabe-Features, die die abhängigen und erklärenden Variablen enthalten.

Feature Layer
dependent_variable

Das numerische Feld, das im Regressionsmodell vorhergesagt wird.

Field
explanatory_variables
[explanatory_variables,...]

Eine Liste mit Feldern, die verwendet wird, um die abhängige Variable im Regressionsmodell vorherzusagen.

Field
out_features

Die Ausgabe-Feature-Class, die die vorhergesagten Werte der abhängigen Variable und der Residuen enthält.

Feature Class
model_type

Der Modelltyp, der für die Schätzung verwendet wird. Standardmäßig werden LM-Diagnosetests verwendet, um das für die Eingabedaten am besten geeignete Modell zu ermitteln.

  • AUTOLM-Diagnosetests werden verwendet, um festzulegen, ob ein OLS-Modell, ein SLM, ein SEM oder ein SAC-Modell verwendet werden soll. Dies ist die Standardeinstellung.
  • ERROREin SEM wird unabhängig von der LM-Diagnose geschätzt.
  • LAGEin SLM wird unabhängig von der LM-Diagnose geschätzt.
  • COMBINEDEin SAC-Modell wird unabhängig von der LM-Diagnose geschätzt.
String
neighborhood_type
(optional)

Gibt an, wie Nachbarn für die einzelnen Eingabe-Features ausgewählt werden. Zur Erkennung von lokalen räumlichen Mustern müssen für jedes Eingabe-Feature benachbarte Features ermittelt werden.

  • DISTANCE_BANDFeatures, die sich in einer bestimmten Entfernung zu einem Feature befinden, gelten als Nachbarn.
  • K_NEAREST_NEIGHBORSDie nächstgelegenen k-Features gelten als Nachbarn. Die Anzahl der Nachbarn wird mithilfe des Parameters number_of_neighbors angegeben.
  • CONTIGUITY_EDGES_ONLYPolygon-Features, die eine Kante gemeinsam haben, werden als Nachbarn einbezogen.
  • CONTIGUITY_EDGES_CORNERSPolygon-Features, die eine gemeinsame Kante oder Ecke aufweisen, werden als Nachbarn einbezogen. Hierbei handelt es sich um den Standard für Polygon-Features.
  • DELAUNAY_TRIANGULATIONFeatures, deren Delaunay-Triangulationen eine gemeinsame Kante oder Ecke haben, werden als Nachbarn einbezogen. Hierbei handelt es sich um den Standard für Punkt-Features.
  • GET_SPATIAL_WEIGHTS_FROM_FILENachbarn und Gewichtungen werden durch eine angegebene Datei mit räumlichen Gewichtungen definiert. Die Datei wird mithilfe des Parameters weights_matrix_file angegeben.
String
distance_band
(optional)

Die Entfernung, innerhalb derer Features als Nachbarn einbezogen werden. Wird kein Wert bereitgestellt, wird er während der Verarbeitung geschätzt und als Geoverarbeitungsmeldung einbezogen.

Linear Unit
number_of_neighbors
(optional)

Die Anzahl der Nachbarn, die als Nachbarn miteinbezogen werden. Die Anzahl enthält nicht das fokale Feature. Der Standardwert ist 8.

Long
weights_matrix_file
(optional)

Der Pfad und Dateiname der Datei mit räumlicher Gewichtungsmatrix, die räumliche Beziehungen zwischen Features definiert.

File
local_weighting_scheme
(optional)

Gibt das Gewichtungsschema an, das auf Nachbarn angewendet wird. Wenn keine Datei mit räumlicher Gewichtungsmatrix bereitgestellt wird, sind Gewichtungen immer reihenstandardisiert.

  • UNWEIGHTEDNachbarn wird die Gewichtung 1 zugewiesen. Dies ist die Standardeinstellung.
  • BISQUARENachbarn werden mit einem Quartic-Kernel (Biquadrat) gewichtet.
  • GAUSSIANNachbarn werden mit einem Gauß'schen Kernel (Normalverteilung) gewichtet.
String
kernel_bandwidth
(optional)

Die Bandbreite des Gewichtungs-Kernels. Wenn kein Wert angegeben wird, wird ein adaptiver Kernel verwendet. Bei einem adaptiven Kernel wird die maximale Entfernung zwischen einem Nachbarn und einem fokalen Feature als Bandbreite verwendet.

Linear Unit

Codebeispiel

SAR: Beispiel 1 (Python-Fenster)

Das folgende Skript im Python-Fenster veranschaulicht, wie Sie die Funktion SAR verwenden.

# Fit SAR model and auto-detect the regression model.
arcpy.stats.SAR(
    in_features=r"C:\data\data.gdb\house_price",
    dependent_variable="price",
    explanatory_variables=["crime", "income", "school_rate"],
    out_features=r"C:\data\data.gdb\house_price_SAR",
    model_type="AUTO",
    neighborhood_type="DELAUNAY_TRIANGULATION",
    distance_band=None,
    number_of_neighbors=None,
    weights_matrix_file=None,
    local_weighting_scheme="UNWEIGHTED",
    kernel_bandwidth=None
)
SAR: Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Skript veranschaulicht, wie die Funktion SAR verwendet wird.

# Fit SAR model using SLM.  

# Import modules
import arcpy

# Set the current workspace
arcpy.env.workspace = r"C:\data\data.gdb"


# Run SAR tool with Spatial Lag model
arcpy.stats.SAR(
    in_features=r"health_factors_CA",
    dependent_variable="Diabetes",
    explanatory_variables=["Drink", "Inactivity"],
    out_features=r"Diabetes_SAR",
    model_type="LAG",
    neighborhood_type="CONTIGUITY_EDGES_CORNERS",
    distance_band=None,
    number_of_neighbors=None,
    weights_matrix_file=None,
    local_weighting_scheme="UNWEIGHTED",
    kernel_bandwidth=None
)

Verwandte Themen