Regressionsanalyse

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights Desktop

Die Regressionsanalyse ist ein Analyseverfahren, mit dem Schätzwerte für die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren erklärenden Variablen berechnet werden. Sie können mit der Regressionsanalyse die Beziehung zwischen den ausgewählten Variablen modellieren und Werte auf Grundlage des Modells vorhersagen.

Überblick über die Regressionsanalyse

Bei der Regressionsanalyse wird mit einer ausgewählten Schätzmethode, einer abhängigen Variablen und einer oder mehreren erklärenden Variablen eine Gleichung erstellt, mit der Schätzwerte für die abhängige Variable berechnet werden.

Das Regressionsmodell liefert Ausgaben, z. B R2- und p-Werte, Informationen darüber, wie genau die abhängige Variable durch das Modell geschätzt wird.

In der Regressionsanalyse können auch Diagramme, z. B. Scatterplotmatrizen, Histogramme und Punktdiagramme, verwendet werden, um Beziehungen zu analysieren und Annahmen zu testen.

Mit der Regressionsanalyse können die folgenden Typen von Problemen gelöst werden:

  • Bestimmen, welche erklärenden Variablen mit der abhängigen Variablen zusammenhängen.
  • Ermitteln der Beziehung zwischen der abhängigen Variablen und den erklärenden Variablen.
  • Vorhersagen unbekannter Werte der abhängigen Variablen.

Beispiele

Ein Analyst für eine kleine Einzelhandelskette untersucht die Performance unterschiedlicher Filialstandorte. Der Analyst möchte ermitteln, warum in einigen Filialen der Umsatz unerwartet gering ist. Er erstellt ein Regressionsmodell mit erklärenden Variablen, z. B. mittleres Alter und Einkommen in den angrenzenden Wohngebieten sowie Entfernung zu Einzelhandelszentren und öffentlichem Verkehr, um zu bestimmen, welche Variablen den Umsatz beeinflussen.

Ein Analyst für ein Bildungsministerium untersucht die Auswirkungen von Schulfrühstückprogrammen. Er erstellt ein Regressionsmodell von Bildungsabschlussergebnissen, z. B. Abschlussanteile, mit erklärenden Variablen wie Klassengröße, Haushaltseinkommen, Schulbudget pro Kopf und Anteil der Schüler, die täglich ein Frühstück zu sich nehmen. Mit der Gleichung des Modells kann die relative Auswirkung jeder Variablen auf die Bildungsabschlussergebnisse bestimmt werden.

Ein Analyst für eine Nichtregierungsorganisation untersucht die globalen Treibhausgasemissionen. Er erstellt ein Regressionsmodell der neuesten Emissionen für jedes Land, mit erklärenden Variablen wie Bruttoinlandsprodukt (BIP), Population, Stromerzeugung mit fossilen Brennstoffen und Fahrzeugnutzung. Anschließend kann das Modell für die Vorhersage zukünftiger Treibhausgasemissionen mithilfe vorhergesagter BIP- und Populationswerte verwendet werden.

Kleinste Quadrate (Ordinary Least Squares)

Die Regressionsanalyse in ArcGIS Insights wird mit der Methode "Kleinste Quadrate (Ordinary Least Squares, (OLS))" modelliert.

Die Methode "Kleinste Quadrate (Ordinary Least Squares, (OLS))" ist eine Form der multiplen linearen Regression, das heißt, die Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen muss durch das Anpassen einer linearen Gleichung an die Beobachtungsdaten modelliert werden.

In einem OLS-Modell wird die folgende Gleichung verwendet:

yi01x12x2+...+βnxn

Dabei gilt:

  • yi = der beobachtete Wert der abhängigen Variablen an Punkt i
  • β0 = der Y-Schnittpunkt (konstanter Wert)
  • βn = der Regressionskoeffizient oder die Neigung für die erklärende Variable N an Punkt i
  • xn = der Wert der Variablen N an Punkt i
  • ε = der Fehler der Regressionsgleichung

Voraussetzungen

Für jede Regressionsmethode gibt es mehrere Annahmen, die zutreffen müssen, damit die Gleichung als zuverlässig gilt. Beim Erstellen eines Regressionsmodells müssen die OLS-Annahmen getestet werden.

Bei Verwendung der OLS-Methode müssen die folgenden Annahmen getestet werden und zutreffen:

Das Modell muss linear sein

Mit der OLS-Regression kann nur ein lineares Modell erstellt werden. Die Linearität zwischen der abhängigen Variablen und den erklärenden Variablen kann mit einem Scatterplot getestet werden. Mit einer Scatterplotmatrix lassen sich alle Variablen testen, sofern nicht mehr als insgesamt fünf Variablen vorhanden sind.

Die Daten müssen nach dem Zufallsprinzip gesammelt werden

Die in der Regressionsanalyse verwendeten Daten müssen so gesammelt werden, dass die Stichproben von keinem externen Faktor abhängen. Ob es sich bei den Daten um Zufallsstichproben handelt, kann mit den Residuen aus dem Regressionsmodell getestet werden. Die Residuen, bei denen es sich um Ausgaben des Regressionsmodells handelt, dürfen keine Korrelation aufweisen, wenn sie in einem Scatterplot oder in einer Scatterplotmatrix den erklärenden Variablen gegenübergestellt werden.

Die erklärenden Variablen dürfen nicht parallel verlaufen

Kollinearität bezeichnet eine lineare Beziehung zwischen erklärenden Variablen, die Redundanz im Modell erzeugt. In manchen Fällen kann das Modell mit Kollinearität erstellt werden. Wenn jedoch eine der parallel verlaufenden Variablen von der anderen abhängig zu sein scheint, empfiehlt es sich, diese Variable aus dem Modell zu entfernen. Die Kollinearität kann mit einem Scatterplot oder einer Scatterplotmatrix der erklärenden Variablen getestet werden.

Der Messfehler der erklärenden Variablen muss vernachlässigbar sein

Ein Regressionsmodell ist nur so genau wie seine Eingabedaten. Wenn die erklärenden Variablen große Fehlerspannen aufweisen, kann das Modell nicht als genaues Modell akzeptiert werden. Es ist wichtig, bei der Regressionsanalyse nur Datasets aus bekannten und vertrauenswürdigen Quellen zu verwenden, um sicherzustellen, dass der Fehler vernachlässigbar ist.

Die erwartete Summe der Residuen muss Null sein

Residuen sind die Differenz zwischen den beobachteten und geschätzten Werten in einer Regressionsanalyse. Beobachtete Werte, die über der Regressionskurve liegen, haben einen positiven Residuumswert, und beobachtete Werte unter der Regressionskurve haben einen negativen Residuumswert. Die Regressionskurve sollte entlang der Mitte der Datenpunkte verlaufen; somit sollte die Summe der Residuen Null ein. Die Summe eines Feldes kann in einer Summentabelle berechnet werden.

Die Residuen weisen eine homogene Varianz auf

Alle Residuen sollten die gleiche Varianz aufweisen. Diese Annahme kann mit einem Scatterplot der Residuen (Y-Achse) und der Schätzwerte getestet werden. Der resultierende Scatterplot sollte als horizontales Band von nach dem Zufallsprinzip verteilten Punkten im Plot dargestellt werden.

Die Residuen sind normalverteilt

Eine Normalverteilung, auch als Glockenkurve bezeichnet, ist eine natürlich auftretende Verteilung, bei der die Häufigkeit eines Phänomens in der Nähe des Mittelwerts hoch ist und mit dem Abstand vom Mittelwert abnimmt. In der statistischen Analyse wird die Normalverteilung häufig als Nullhypothese verwendet. Die Residuen müssen normalverteilt sein, um zu zeigen, dass die am besten passende Linie innerhalb der beobachteten Datenpunkte zentral optimiert und nicht zu einigen Datenpunkten hin und von anderen Datenpunkten weg verzerrt ist. Diese Annahme kann durch das Erstellen eines Histogramms mit den Residuen getestet werden. Die Kurve der Normalverteilung kann überlagert werden, und auf der Rückseite der Kachel mit dem Histogramm werden die Maße Schiefe und Wölbung angegeben.

Benachbarte Residuen dürfen keine Autokorrelation aufweisen

Diese Annahme basiert auf nach Zeit sortierten Daten. Wenn die Daten nach Zeit sortiert sind, muss jeder Datenpunkt unabhängig vom vorherigen oder nachfolgenden Datenpunkt sein. Deshalb ist es wichtig sicherzustellen, dass die nach Zeit sortierten Daten beim Durchführen einer Regressionsanalyse die richtige Reihenfolge aufweisen. Diese Annahme kann mit einem Durbin-Watson-Test berechnet werden.

Der Durbin-Watson-Test ist ein Maß für die Autokorrelation in einem Regressionsmodell. Im Durbin-Watson-Test wird eine Skala von 0 bis 4 verwendet. Die Werte von 0 bis 2 geben eine positive Autokorrelation an, der Wert 2 bedeutet, dass keine Autokorrelation vorliegt, und 2 bis 4 geben eine negative Autokorrelation an. Somit sind Werte nahe 2 erforderlich, damit die Annahme zutrifft, dass die Residuen keine Autokorrelation aufweisen. In der Regel werden Werte zwischen 1,5 und 2,5 als akzeptabel angesehen, wohingegen Werte unter 1,5 oder über 2,5 angeben, dass das Modell nicht der Annahme entspricht, dass keine Autokorrelation vorliegt.

Gültigkeit des Modells

Die Genauigkeit der Regressionsgleichung ist bei der Regressionsanalyse von großer Bedeutung. Alle Modelle enthalten einen Fehlerbetrag, das Verständnis der Statistik hilft Ihnen jedoch zu bestimmen, ob das Modell in der Analyse verwendet werden kann oder ob Korrekturen vorgenommen werden müssen.

Die Gültigkeit eines Regressionsmodells kann mit zwei Techniken ermittelt werden: mit der explorativen Analyse und der konfirmatorischen Analyse.

Explorative Analyse

Die explorative Analyse ist eine Methode zur Untersuchung von Daten mit einer Vielzahl von visuellen und statistischen Techniken. Im Verlauf des Kurses zur explorativen Analyse testen Sie die Annahmen der OLS-Regression und vergleichen die Effektivität der verschiedenen erklärenden Variablen. Die explorative Analyse ermöglicht es Ihnen, die Effektivität und die Genauigkeit verschiedener Modelle zu vergleichen. Es wird jedoch nicht festgestellt, ob Sie das Modell verwenden oder ablehnen sollten. Die explorative Analyse sollte vor der konfirmatorischen Analyse für jedes Regressionsmodell durchgeführt werden und wiederholt werden, um Vergleiche zwischen Modellen anzustellen.

Die folgenden Diagramme und Statistiken können im Rahmen der explorativen Analyse verwendet werden:

  • Scatterplot und Scatterplotmatrix
  • Histogramm und Normalverteilung
  • Regressionsgleichung und Vorhersage neuer Beobachtungen
  • Bestimmtheitsmaß, "R2" und "Adjusted R2"
  • Residualstandardfehler
  • Punktdiagramm

Die explorative Analyse sollte beginnen, während Sie erklärende Variablen auswählen und bevor Sie ein Regressionsmodell erstellen. Da OLS eine Methode der linearen Regression ist, besagt eine der Hauptannahmen, dass das Modell linear sein muss. Ein Scatterplot oder eine Scatterplotmatrix kann verwendet werden, um die Linearität zwischen der abhängigen Variablen und den erklärenden Variablen zu bewerten. In einer Scatterplotmatrix können bis zu vier erklärende Variablen zusammen mit der abhängigen Variablen dargestellt werden. Daher ist sie ein wichtiges Werkzeug für umfangreiche Vergleiche zwischen allen Variablen. In einem einzelnen Scatterplot werden nur zwei Variablen dargestellt: eine abhängige und eine unabhängige oder erklärende Variable. Die Anzeige eines Scatterplots der abhängigen Variablen und einer einzelnen erklärenden Variablen ermöglicht eine genauere Bewertung der Beziehung zwischen den Variablen. Die Linearität kann getestet werden, bevor Sie ein Regressionsmodell erstellen, um festzustellen, welche erklärenden Variablen ein akzeptables Modell erstellen.

Nach Erstellung eines Regressionsmodells sind mehrere statistische Ausgaben verfügbar, darunter die Regressionsgleichung, der R2-Wert und der Durbin-Watson-Test. Wenn Sie ein Regressionsmodell erstellt haben, sollten Sie die Ausgaben sowie die erforderlichen Diagramme und Tabellen verwenden, um die verbleibenden Annahmen der OLS-Regression zu testen. Wenn Ihr Modell den Annahmen entspricht, können Sie mit der restlichen explorativen Analyse fortfahren.

Die Regressionsgleichung liefert wertvolle Informationen über den Einfluss der einzelnen erklärenden Variablen auf die vorhergesagten Werte, einschließlich des Regressionskoeffizienten für jede erklärende Variable. Die Neigungswerte können verglichen werden, um den relativen Einfluss jeder erklärenden Variablen auf die abhängige Variable zu ermitteln. Je weiter der Neigungswert von Null entfernt ist (positiv oder negativ), desto größer der Einfluss. Mit der Regressionsgleichung können auch Werte für die abhängige Variable vorhergesagt werden, indem Werte für jede erklärende Variable eingegeben werden.

Das mit R2 bezeichnete Bestimmtheitsmaß misst, wie genau die tatsächlichen Datenpunkte durch die Regressionsgleichung modelliert werden. Der Wert von R2 ist eine Zahl zwischen 0 und 1, und je näher der Wert bei 1 liegt, desto genauer ist das Modell. Der R2-Wert 1 gibt ein perfektes Modell an. In der Realität ist ein solches Modell aufgrund der Komplexität der Wechselwirkungen zwischen verschiedenen Faktoren und unbekannten Variablen äußerst unwahrscheinlich. Deshalb sollten Sie versuchen, ein Regressionsmodell mit dem höchstmöglichen R2-Wert zu erstellen, und sich bewusst sein, dass der Wert möglicherweise nicht nahe bei 1 liegt.

Beim Durchführen einer Regressionsanalyse besteht das Risiko, ein Regressionsmodell mit einem akzeptablen R2-Wert zu erstellen, indem erklärende Variablen hinzugefügt werden, die ausschließlich durch Zufall eine bessere Anpassung bewirken. Der Adjusted R2-Wert, der ebenfalls ein Wert zwischen 0 und 1 ist, berücksichtigt zusätzliche erklärende Variablen und verringert somit den Einfluss des Zufalls bei der Berechnung. Adjusted R2 sollte für Modelle verwendet werden, die viele erklärende Variablen enthalten, oder beim Vergleichen von Modellen, die eine jeweils unterschiedliche Anzahl erklärender Variablen enthalten.

Der Residualstandardfehler misst die Genauigkeit, mit der das Regressionsmodell Werte mit neuen Daten vorhersagen kann. Kleinere Werte weisen auf ein genaueres Modell hin. Werden mehrere Modelle verglichen, ist das Modell mit dem kleinsten Wert das Modell, welches den Residualstandardfehler minimiert.

Punktdiagramme können verwendet werden, um die erklärenden Variablen auf Muster wie Cluster-Bildung und Ausreißer hin zu analysieren, welche die Genauigkeit des Modells beeinträchtigen können.

Konfirmatorische Analyse

Bei der konfirmatorischen Analyse handelt es sich um einen Prozess, mit dem das Modell im Hinblick auf eine Nullhypothese getestet wird. In der Regressionsanalyse besteht die Nullhypothese darin, dass es keine Beziehung zwischen der abhängigen Variablen und den erklärenden Variablen gibt. Ein Modell ohne Beziehung hat die Neigungswerte 0. Wenn die Elemente der konfirmatorischen Analyse statistisch signifikant sind, können Sie die Nullhypothese ablehnen. (Anders ausgedrückt: Die statistische Signifikanz gibt an, dass eine Beziehung zwischen der abhängigen Variablen und den erklärenden Variablen besteht.)

Die folgenden statistischen Ausgaben werden verwendet, um die Signifikanz im Rahmen der konfirmatorischen Analyse zu ermitteln:

  • F-Statistik und der zugehörige p-Wert
  • t-Statistiken und die zugehörigen p-Werte
  • Konfidenzintervalle

Die F-Statistik ist eine globale Statistik, die von einem F-Test zurückgegeben wird, der die Vorhersagefähigkeit des Regressionsmodells angibt, indem ermittelt wird, ob alle Regressionskoeffizienten im Modell sich deutlich von 0 unterscheiden. Der F-Test analysiert den kombinierten Einfluss der erklärenden Variablen, statt die erklärenden Variablen einzeln zu testen. Die F-Statistik weist einen zugehörigen p-Wert auf, der die Wahrscheinlichkeit angibt, dass die Beziehungen in den Daten zufällig entstehen. Da p-Werte auf Wahrscheinlichkeiten basieren, werden die Werte auf einer Skala von 0,0 bis 1,0 angegeben. Ein kleiner p-Wert – in der Regel 0,05 oder weniger – ist erforderlich, um festzustellen, dass die Beziehungen im Modell echt sind (also nicht zufällig entstehen), und um die Nullhypothese abzulehnen. In diesem Fall ist die Wahrscheinlichkeit, dass die Beziehungen im Modell zufällig entstehen 0,05 oder 1 von 20. Alternativ ist die Wahrscheinlichkeit, dass die Beziehungen echt sind, 0,95 oder 19 von 20.

Die t-Statistik ist eine lokale Statistik, die von einem t-Test zurückgegeben wird, der die Vorhersagefähigkeit jeder erklärenden Variablen einzeln angibt. Wie der F-Test analysiert der t-Test, ob die Regressionskoeffizienten im Modell sich deutlich von Null unterscheiden. Da ein t-Test jedoch für jede erklärende Variable durchgeführt wird, gibt das Modell nicht einen statistischen t-Wert pro Modell, sondern einen für jede erklärende Variable zurück. Jede t-Statistik weist einen zugehörigen p-Wert auf, der die Signifikanz der erklärenden Variablen angibt. Wie die p-Werte für den F-Test sollte auch der p-Wert für jeden t-Test 0,05 oder niedriger sein, damit die Nullhypothese abgelehnt wird. Wenn eine erklärende Variable einen höheren p-Wert als 0,05 aufweist, sollte die Variable verworfen werden, und es sollte ein neues Modell erstellt werden, auch wenn der globale p-Wert signifikant war.

Konfidenzintervalle zeigen den Regressionskoeffizienten für jede erklärende Variable sowie die zugehörigen Konfidenzintervalle von 90, 95 und 99 Prozent. Daher können die Konfidenzintervalle neben den p-Werten aus den t-Tests verwendet werden, um die Nullhypothese für einzelne erklärende Variablen zu bewerten. Die Regressionskoeffizienten dürfen nicht gleich 0 sein, wenn Sie die Nullhypothese ablehnen und das Modell weiterhin verwenden möchten. Daher sollten der Regressionskoeffizient und die zugehörigen Konfidenzintervalle für jede erklärende Variable 0 nicht überlappen. Wenn ein Konfidenzintervall von 99 oder 95 Prozent für eine bestimmte erklärende Variable 0 überlappt, konnte die Nullhypothese durch die erklärende Variable nicht abgelehnt werden. Die Aufnahme einer solchen Variablen in das Modell kann Auswirkungen auf die allgemeine Signifikanz des Modells haben. Wenn nur das Konfidenzintervall von 90 Prozent 0 überlappt, kann die erklärende Variable in das Modell aufgenommen werden, vorausgesetzt, die anderen globalen Statistiken sind signifikant. Idealerweise sollten die Konfidenzintervalle für alle erklärenden Variablen weit von 0 entfernt sein.

Andere Ausgaben

Andere Ausgaben, z. B. Schätzwerte und Residuen, sind wichtig, um die Annahmen der OLS-Regression zu testen. In diesem Abschnitt erfahren Sie mehr darüber, wie diese Werte berechnet werden.

Geschätzte Werte

Die Schätzwerte werden mithilfe der Regressionsgleichung und der Werte für jede erklärende Variable berechnet. Idealerweise entsprechen die Schätzwerte den beobachteten Werten (also den tatsächlichen Werten der abhängigen Variablen).

Schätzwerte werden mit den beobachteten Werten verwendet, um die Residuen zu berechnen.

Residuen

Die Residualwerte in einer Regressionsanalyse sind die Differenzen zwischen den beobachteten Werten im Dataset und den Schätzwerten, die mit der Regressionsgleichung berechnet werden.

Scatterplot mit Residualwerten und der am besten passenden Linie

Die Residuen A und B für die oben dargestellte Beziehung werden wie folgt berechnet:

residualsA = observedA - estimatedA residualsA = 595 - 487.62 residualsA = 107.38
residualsB = observedB - estimatedB residualsB = 392 - 527.27 residualsB = -135.27

Residuen können zum Berechnen des Fehlers in einer Regressionsgleichung sowie zum Testen verschiedener Annahmen verwendet werden.