Generalisierte lineare Regression

Werkzeugsymbol Verfügbar in Big-Data-Analysen.

Das Werkzeug "Generalisierte lineare Regression" Werkzeug "Generalisierte lineare Regression" führt eine generalisierte lineare Regression (GLR) aus, um Vorhersagen zu generieren oder eine abhängige Variable in Hinsicht auf ihre Beziehung zu einem Satz erklärender Variablen zu modellieren. Dieses Werkzeug kann für kontinuierliche Modelle (Gauß), Anzahlmodelle (Poisson) und binäre (logistische) Modelle verwendet werden.

Workflow-Diagramm

Generalisierte lineare Regression – Workflow-Diagramm

Beispiel

Wenn Sie als Analyst in einer Großstadt tätig sind, haben Sie Zugriff auf die Datensätze vergangener Notrufe und demografische Daten. Beantworten Sie folgende Fragen: Mit welchen Variablen lässt sich das Notrufaufkommen effektiv vorhersagen? Wie sieht angesichts der Vorhersagen für die Zukunft die erwartete Nachfrage für Notdienste aus?

Verwendungshinweise

Beachten Sie beim Arbeiten mit dem Werkzeug "Generalisierte lineare Regression" Folgendes:

  • Dieses Werkzeug kann für zwei Operationsmethoden konfiguriert werden:
    • Methode 1: Wenn nur Zieldaten (Trainingsdaten) bereitgestellt wurden, passt das Werkzeug ein Modell an, um die Modell-Performance zu bewerten. Danach können Sie mit dem Werkzeug die Performance verschiedener Modelle beim Erkunden unterschiedlicher erklärender Variablen und Werkzeugeinstellungen auswerten.
    • Methode 2: Wenn Sie ein gutes Modell und erklärende Variablen gefunden haben, dann konfigurieren Sie das Modell so, dass auch Verbindungsdaten (Vorhersagedaten) bereitgestellt werden. Wenn Verbindungsdaten konfiguriert wurden, dann sagt das Werkzeug Werte für die abhängige Variable für Features in Ihren Verbindungsdaten (Vorhersagedaten) basierend auf den zugeordneten erklärenden Variablen vorher.
  • Verwenden Sie den Parameter Abhängige Variable, um im Ziel-Eingabe-Layer (Trainingsdaten) ein Feld zur Darstellung des Phänomens, das Sie modellieren, auszuwählen. Verwenden Sie den Parameter Erklärende Variablen, um im Ziel-Eingabe-Layer (Trainingsdaten) die Felder zur Darstellung der erklärenden Variablen auszuwählen. Diese Felder müssen numerisch sein und einen Wertebereich aufweisen. Features, in deren abhängiger oder erklärender Variable Werte fehlen, werden aus der Analyse ausgeschlossen. Um NULL-Werte zu ändern, müssen Sie vor dem Aktualisieren der Werte das Werkzeug Feld berechnen verwenden.
  • Das Werkzeug "Generalisierte lineare Regression" erzeugt darüber hinaus Ausgabe-Features und Diagnosen. In den Ausgabe-Feature-Layern wird automatisch ein Rendering-Schema auf Modellresiduen angewendet. Eine vollständige Erklärung jeder Ausgabe wird nachfolgend bereitgestellt.
  • Es ist wichtig, den richtigen Modelltyp – Kontinuierlich (Gauß), Anzahl (Poisson) oder Binär (Logistisch) – für die Analyse zu verwenden, damit die Regressionsanalyse möglichst genaue Ergebnisse liefert.
  • Ergebnisse der Modellzusammenfassung und Diagnosen werden in die Analyseprotokolle sowie an die Seite mit den Elementdetails für den Ausgabe-Feature-Layer ausgegeben. Diese Diagnosen enthalten eine Zusammenfassung des Modells für die generalisierte lineare Regression sowie statistische Zusammenfassungen, anhand derer beurteilt werden kann, ob ein Modell für die Daten gut geeignet ist. Die gemeldeten Diagnosen sind abhängig vom gewählten Modelltyp. Es stehen drei Modelltypen zur Auswahl:
    • Kontinuierlich (Gauß): Verwenden Sie diesen Modelltyp, wenn die abhängige Variable einen großen Wertebereich haben kann, z. B. Temperaturen oder Umsätze. Im Idealfall ist die abhängige Variable normal verteilt.
    • Anzahl (Poisson): Verwenden Sie diesen Modelltyp, wenn die abhängige Variable diskontinuierlich ist und die Anzahl eines bestimmten Ereignisses darstellt, z. B. die Anzahl von Straftaten. Anzahlmodelle können auch verwendet werden, wenn die abhängige Variable ein Verhältnis darstellt und es sich bei dem Nenner des Verhältnisses um einen Festwert handelt, z. B. Umsatz pro Monat oder die Anzahl der krebskranken Personen pro 10.000 Einwohner. Der Modelltyp Anzahl (Poisson) geht davon aus, dass der Mittelwert und die Abweichung der abhängigen Variablen gleich sind und die Werte der abhängigen Variablen weder negativ sind noch Dezimalstellen enthalten.
    • Binär (Logistisch): Verwenden Sie diesen Modelltyp, wenn die abhängige Variable einen von zwei möglichen Werten annehmen kann, z. B. Erfolg oder Misserfolg, Anwesenheit oder Abwesenheit. Bei dem Feld mit der abhängigen Variable muss es sich um ein numerisches Feld handeln, das nur Einsen und Nullen enthält. Die Daten müssen Variationen von Einsen und Nullen aufweisen.
  • Die Parameter Abhängige Variable und Erklärende Variable(n) sollten numerische Felder sein, die eine Vielzahl von Werten enthalten. Dieses Werkzeug kann keine Berechnung vornehmen, wenn die Variablen alle dieselben Werte aufweisen (wenn beispielsweise alle Werte für ein Feld 9,0 betragen).
  • Features mit Vorhersage- oder erklärenden Feldern, die mindestens einen NULL-Wert oder eine leere Zeichenfolge aufweisen, werden von der Ausgabe ausgeschlossen. Bei Bedarf können Sie Werte mit dem Werkzeug Feld berechnen ändern.
  • Sichten Sie die in Ihren Regressionsresiduen vorhandenen zu hohen und zu niedrigen Vorhersagen, um festzustellen, ob sie Aufschluss über potenzielle fehlende Variablen im Regressionsmodell geben.
  • Verwenden Sie das erstellte Regressionsmodell, um Vorhersagen für andere Features zu treffen. Für diese Vorhersagen ist es erforderlich, dass alle Vorhersage-Features (Verbindungs-Dataset) Werte für jede der angegebenen erklärenden Variablen enthalten. Eine Konfiguration zum Zuordnen von erklärenden Variablen wurde bereitgestellt, um Feldnamen für erklärende Variablen der Ziel-Features (Trainings-Features) und Verbindungs-Features (Vorhersage-Features) zuzuordnen. Beim Abgleich der Felder der erklärenden Variablen muss der Typ der Felder in den Ziel-Features (Trainingsdaten) mit dem Typ der Felder in den Verbindungs-Features (Vorhersagedaten) identisch sein (z. B. müssen Double-Felder mit Double-Feldern abgeglichen werden).

Parameter

Nachfolgend werden die Parameter für das Werkzeug "Generalisierte lineare Regression" beschrieben:

ParameterBeschreibungDatentyp

Ziel-Eingabe-Layer (Trainingsdaten)

Die Trainings-Features, die zum Generieren eines Modells verwendet werden.

Features

Join-Eingabe-Layer (Vorhersagedaten)

(optional)

Die Vorhersage-Features, für die die abhängige Variable basierend auf den angegebenen erklärenden Variablen und dem angegebenen Modelltyp vorhergesagt werden soll.

Dieser Parameter ist optional. Wenn dieser Parameter nicht angegeben wurde, dann passt das Werkzeug "Generalisierte lineare Regression" ein Modell an, um die Modell-Performance basierend auf den Trainingsdaten zu bewerten.

Features

Modelltyp

Gibt den zu verwendenden Modelltyp an. Der gewählte Modelltyp hängt vom Typ der Daten im Feld für die abhängige Variable ab. Zu den Modelltyp-Optionen zählen die folgenden:

  • Kontinuierlich (Gauß): Wählen Sie diesen Modelltyp, wenn die abhängige Variable einen großen Wertebereich haben kann, z. B. Temperaturen oder Umsätze.
  • Anzahl (Poisson): Verwenden Sie diesen Modelltyp, wenn die abhängige Variable diskontinuierlich ist und die Anzahl eines bestimmten Ereignisses darstellt, z. B. die Anzahl von Straftaten, oder auch einen Anteil, wobei der Nenner ein festgelegter Wert ist.
  • Binär (Logistisch): Wählen Sie diesen Modelltyp, wenn die abhängige Variable einen von zwei möglichen Werten annehmen kann, z. B. Erfolg oder Misserfolg, Anwesenheit oder Abwesenheit.

Zeichenfolge

Abhängige Variable

Gibt das Feld an, das das zu modellierende Phänomen darstellt.

FieldName

Text-zu-Null-Zuordnung

Wenn beim Modelltyp Binär (Logistisch) ein Zeichenfolgefeld für die Abhängige Variable angegeben wurde, kann dieser Parameter verwendet werden, um die Zeichenfolge in der abhängigen Variablen anzugeben, die in eine Null umgewandelt werden soll.

Zeichenfolge

Text-zu-Eins-Zuordnung

Wenn beim Modelltyp Binär (Logistisch) ein Zeichenfolgefeld für die Abhängige Variable angegeben wurde, kann dieser Parameter verwendet werden, um die Zeichenfolge in der abhängigen Variablen anzugeben, die in eine Eins umgewandelt werden soll.

Zeichenfolge

Erklärende Variable(n)

Ein oder mehrere Felder aus dem Zielschema, die unabhängige erklärende Variablen im Regressionsmodell darstellen sollen.

FieldNames

Zuordnung von erklärenden Variablen (nur Vorhersage)

Ordnet die ausgewählten Feldnamen für erklärende Variablen im Zielschema (Trainingsschema) den entsprechenden Feldnamen im Join-Schema (Vorhersageschema) zu.

Dieser Parameter ist optional. Die Zuordnungen der erklärenden Variablen müssen nur dann angegeben werden, wenn Verbindungsdaten (Vorhersagedaten) angegeben wurden.

ExplanatoryVariableMappings

Ausgabe-Layer

Das Werkzeug "Generalisierte lineare Regression" erzeugt verschiedene Ausgaben. Eine Zusammenfassung des Modells für die generalisierte lineare Regression ist neben statistischen Zusammenfassungen auf der Seite mit den Elementdetails des Ausgabe-Feature-Layers oder in den Analyseprotokollen verfügbar.

Bei Implementierung von Methode 1 dieses Werkzeugs zur einfachen Anpassung eines Modells für die Bewertung der Performance werden die Trainingsdaten sowie Meldungen und Diagnosen in den Elementdetails des Ausgabe-Feature-Layers zusätzlich zu den Ergebnissen in den Analyseprotokollen ausgegeben.

Bei Implementierung von Methode 2 dieses Werkzeugs zur Anpassung eines Modells und Vorhersage von Werten werden die Vorhersagedaten mit angehängten vorhergesagten Werten sowie Meldungen und Diagnosen in den Elementdetails des Ausgabe-Feature-Layers ausgegeben. Zusätzlich dazu werden die Ergebnisse in den Analyseprotokollen ausgegeben.

Die generierten Diagnosen hängen vom Modelltyp der Eingabe-Features ab und werden nachfolgend beschrieben.

Kontinuierlich (Gauß)

Interpretieren von Meldungen und Diagnosen

  • AIC: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AIC-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AIC ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AIC-Werte für zwei Modelle um mehr als 3 unterscheiden, gilt das Modell mit dem niedrigeren AIC-Wert als genauer.
  • AICc: AICc wendet bei kleineren Stichproben eine Verzerrungskorrektur auf AIC-Werte an. Der AICc-Wert nähert sich mit zunehmender Anzahl der Features in der Eingabe dem AIC-Wert an. Siehe AIC oben.
  • Multiple R-Squared: Der R-Squared-Wert ist ein Messwert für die Qualität der Übereinstimmung. Der Wert variiert von 0.0 bis 1.0, wobei höhere Werte vorzuziehen sind. Er kann als Anteil der abhängigen Variablenvarianz durch das Regressionsmodell interpretiert werden. Der Nenner für die Berechnung von R-Squared ist die Summe von abhängigen Variablenwerten im Quadrat. Durch Hinzufügen einer zusätzlichen erklärenden Variable zum Modell wird nicht der Nenner, sondern der Zähler geändert; dadurch entsteht der Eindruck, dass die Modelleignung verbessert wird, was aber möglicherweise nicht der Fall ist. Siehe Adjusted R-Squared unten.
  • Adjusted R-Squared: Aufgrund des oben beschriebenen Problems mit dem R-Squared-Wert werden durch Berechnungen des angepassten R-Squared-Wertes der Zähler und der Nenner nach ihren Freiheitsgraden normalisiert. Dadurch wird die Anzahl der Variablen in einem Modell ausgeglichen, und folglich ist der Adjusted R-Squared-Wert fast immer kleiner als der R-Squared-Wert. Indem Sie diese Anpassung vornehmen, geht jedoch die Interpretation des Werts als Anteil der erläuterten Varianz verloren. Bei der Geographisch gewichteten Regression (GWR) ist die effektive Anzahl von Freiheitsgraden eine Funktion der verwendeten Nachbarschaft, sodass die Anpassung im Vergleich zu einem globalen Modell wie der GLR möglicherweise stark ausgeprägt ist. Aus diesem Grund wird AICc zum Vergleichen von Modellen vorgezogen.

Anzahl (Poisson)

Interpretieren von Meldungen und Diagnosen

  • AIC: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AIC-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AIC ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AIC-Werte für zwei Modelle um mehr als 3 unterscheiden, gilt das Modell mit dem niedrigeren AIC-Wert als genauer.
  • AICc: AICc wendet bei kleineren Stichproben eine Verzerrungskorrektur auf AIC-Werte an. Der AICc-Wert nähert sich mit zunehmender Anzahl der Features in der Eingabe dem AIC-Wert an. Siehe AIC oben.

Binär (Logistisch)

Interpretieren von Meldungen und Diagnosen

  • AIC: Hierbei handelt es sich um einen Messwert für die Modell-Performance, der verwendet werden kann, um Regressionsmodelle zu vergleichen. Unter Berücksichtigung der Modellkomplexität bietet das Modell mit dem niedrigeren AIC-Wert eine bessere Übereinstimmung mit den beobachteten Daten. AIC ist kein absoluter Messwert für die Qualität der Übereinstimmung, ist aber hilfreich für das Vergleichen von Modellen mit unterschiedlichen erklärenden Variablen, solange sie die gleiche abhängige Variable betreffen. Wenn sich die AIC-Werte für zwei Modelle um mehr als 3 unterscheiden, gilt das Modell mit dem niedrigeren AIC-Wert als genauer.
  • AICc: AICc wendet bei kleineren Stichproben eine Verzerrungskorrektur auf AIC-Werte an. Der AICc-Wert nähert sich mit zunehmender Anzahl der Features in der Eingabe dem AIC-Wert an. Siehe AIC oben.

Überlegungen und Beschränkungen

Die ArcGIS Velocity-Implementierung des Werkzeugs "Generalisierte lineare Regression" unterliegt folgenden Beschränkungen:

  • Es handelt sich um ein globales Regressionsmodell, in dem die räumliche Verteilung der Daten unberücksichtigt bleibt.
  • Bei der Analyse wird der Morans I-Test nicht auf die Residuen angewendet.
  • Als Ziel-Dataset-Geometrie (Trainingsdaten) werden Punkte, Linien, Polygone und Tabellen unterstützt.
  • Eine Klassifizierung von Werten ist nicht möglich.