Mit "Regressionsmodell erstellen" wird die Beziehung zwischen mindestens zwei erklärenden Variablen und einer Reaktionsvariablen modelliert, indem eine lineare Gleichung an Beobachtungsdaten angepasst wird. Jeder Wert der unabhängigen Variablen (x) wird mit einem Wert der abhängigen Variablen (y) verknüpft.
Der für "Regressionsmodell erstellen" verwendete Regressionstyp lautet "Kleinste Quadrate (Ordinary Least Squares, OLS)"
Beispiel
Eine Umweltorganisation untersucht die Ursache von Treibhausgasemissionen zwischen 1990 und 2015 nach einzelnen Ländern. Mit "Regressionsmodell erstellen" lässt sich eine Gleichung erzeugen, um anhand erklärender Variablen, z. B. Bevölkerung und Bruttoinlandsprodukt, die Menge der Treibhausgasemissionen nach Land zu schätzen.
Ausführen von "Regressionsmodell erstellen"
Führen Sie zum Erstellen eines Regressionsmodells die folgenden Schritte aus:
- Erstellen Sie eine Karte, ein Diagramm oder eine Tabelle anhand des Datasets, mit dem Sie ein Regressionsmodell erstellen möchten.
- Klicken Sie auf die Schaltfläche Aktion .
- Führen Sie einen der folgenden Vorgänge aus:
- Klicken Sie für Diagramm- und Tabellenkacheln auf Womit steht es in Beziehung? im Bereich Analyse.
- Für eine Karten-Kachel klicken Sie auf die Registerkarte Antworten suchen und dann auf Womit steht es in Beziehung?.
- Klicken Sie auf Regressionsmodell erstellen.
- Wählen Sie für Layer auswählen das Dataset aus, das zum Erstellen eines Regressionsmodells verwendet werden soll.
- Wählen Sie für Eine abhängige Variable auswählen das Feld aus, das Sie mit dem Modell erklären möchten.
Bei dem Feld muss es sich um ein Zahlen- oder ein Anteil/Verhältnis-Feld handeln.
- Klicken Sie auf Erklärende Variablen auswählen, um ein Menü der verfügbaren Felder anzuzeigen.
- Wählen Sie die Felder aus, die als erklärende Variablen (auch unabhängige Variablen genannt) verwendet werden sollen.
- Klicken Sie auf Auswählen, um die erklärenden Variablen anzuwenden.
- Klicken Sie auf die Schaltfläche Visualisieren, um einen Scatterplot oder eine Scatterplotmatrix der abhängigen und erklärenden Variablen anzuzeigen, sofern vorhanden.Die Scatterplots können als Teil der explorativen Analyse für das Modell verwendet werden.
Hinweis:
Die Schaltfläche Visualisieren ist nicht verfügbar, wenn fünf oder mehr erklärende Variablen ausgewählt werden.
- Klicken Sie auf Ausführen.
Das Regressionsmodell wird für die angegebenen abhängigen und erklärenden Variablen erstellt. Sie können jetzt die Ausgaben und Statistiken verwenden, um mit der Überprüfung der Modellgültigkeit durch die erklärende und konfirmatorische Analyse fortzufahren.
Verwendungshinweise
Um auf "Regressionsmodell erstellen" zuzugreifen, klicken Sie auf die Schaltfläche Aktion unter Womit steht es in Beziehung? auf der Registerkarte Antworten suchen.
Als abhängige Variable kann ein Zahlenfeld oder Anteil/Verhältnis-Feld angegeben werden. Die abhängige Variable ist das Zahlenfeld, dessen Inhalt Sie mit dem Regressionsmodell zu erklären versuchen. Wenn Sie z. B. ein Regressionsmodell erstellen, um die Ursachen von Kindersterblichkeit zu bestimmen, ist die Rate der Kindersterblichkeit die abhängige Variable.
Es können bis zu 20 Zahlenfelder oder Anteil/Verhältnis-Felder als erklärende Variablen angegeben werden. Erklärende Variablen sind unabhängige Variablen, die als Teil des Regressionsmodells angegeben werden können, um die abhängige Variable zu erklären. Wenn Sie z. B. ein Regressionsmodell erstellen, um die Ursachen von Kindersterblichkeit zu bestimmen, können die erklärenden Variablen Armutsraten, Krankheitsraten und Impfraten umfassen. Wenn die Anzahl der erklärenden Variablen nicht größer als vier ist, kann durch Klicken auf Visualisieren ein Scatterplot oder eine Scatterplotmatrix erstellt werden.
Unter Modellstatistiken sind die folgenden Ausgabewerte verfügbar:
- Regressionsgleichung
- R2
- Adjusted R2
- Durbin-Watson-Test
- p-Wert
- Residualstandardfehler
- F-Statistik
Mit Hilfe der Ausgaben und Statistiken lässt sich die Genauigkeit des Modells analysieren.
Nach der Erstellung des Modells wird dem Datenbereich ein neues Funktions-Dataset hinzugefügt. Das Funktions-Dataset kann in der Funktion Variable vorhersagen verwendet werden. Durch "Regressionsmodell erstellen" wird auch ein Ergebnis-Dataset erstellt, das alle Felder aus der Eingabe sowie die Felder estimated, residual und standardized_residual enthält. Die Felder enthalten die folgenden Informationen:
- estimated: Der durch das Regressionsmodell geschätzte Wert der abhängigen Variablen
- residual: Die Differenz zwischen dem ursprünglichen Feldwert und dem Schätzwert der abhängigen Variablen (Residuum)
- standardized_residual: Das Verhältnis zwischen dem Residuum und der Standardabweichung des Residuums
Funktionsweise von "Regressionsmodell erstellen"
Ein OLS-Regressionsmodell kann erstellt werden, wenn die folgenden Annahmen erfüllt sind:
- Die Parameter des Modells sind linear.
- Die Daten sind eine Zufallsstichprobe der Bevölkerung.
- Die unabhängigen Variablen sind nicht stark kollinear.
- Die unabhängigen Variablen sind so genau gemessen, dass Messfehler vernachlässigbar sind.
- Der erwartete Wert der Residuen ist immer Null.
- Die Residuen weisen eine konstante Varianz (homogene Varianz) auf.
- Die Residuen sind normalverteilt.
"Regressionsmodell erstellen" wird häufig erfolgreich ausgeführt, obwohl sich eine oder mehrere Annahmen nicht bewahrheiten. Die Annahmen für OLS sollten getestet werden, bevor "Regressionsmodell erstellen" verwendet wird. Bestätigen sich die Annahmen nicht, ist das Modell möglicherweise ungültig.
Es kann kein Modell erstellt werden, wenn sich die dritte Annahme – der Verlauf der unabhängigen Variablen ist nicht stark kollinear – nicht bestätigt. In diesem Fall wird die Meldung Mindestens zwei erklärende Variablen stehen miteinander in Beziehung. Entfernen Sie eine der kollinearen Variablen, und versuchen Sie es erneut. angezeigt. Mithilfe eines Scatterplot oder einer Scatterplotmatrix können Sie die kollinearen Variablen bestimmen. Die kollinearen Variablen weisen eine lineare Beziehung auf, wobei eine der Variablen eine starke Abhängigkeit von der anderen Variablen zeigt. Entfernen Sie die abhängige kollineare Variable aus dem Modell.
Weitere Informationen zu den Annahmen für OLS-Modelle finden Sie unter Regressionsanalyse.