Funktionsweise der Regressionsanalyse

Es ist gar nicht so einfach, ein korrekt spezifiziertes OLS-Modell zu finden, vor allem dann, wenn es sehr viele potenzielle erklärende Variablen gibt, die Ihrer Meinung nach für die Variable, die Sie modellieren möchten (Ihre abhängige Variable), wichtige Einflussfaktoren sein könnten. Dabei kann das Werkzeug Regressionsanalyse helfen. Dieses Data-Mining-Werkzeug probiert alle möglichen Kombinationen der erklärenden Variablen aus, um zu ermitteln, welche Modelle alle erforderlichen OLS-Diagnosen erfüllen. Durch die Auswertung aller Kombinationen der erklärenden Variablenkandidaten steigen Ihre Chancen, das beste Modell zum Lösen Ihres Problems oder Beantworten Ihrer Frage zu finden, erheblich. Obwohl die Regressionsanalyse der schrittweisen Regression (die in vielen Statistiksoftwarepaketen enthalten ist) ähnelt, sucht die Regressionsanalyse nicht nur nach Modellen mit hohen Adjusted-R2-Werten, sondern nach Modellen, die alle Anforderungen und Annahmen der OLS-Methode erfüllen.

Verwenden des Werkzeugs "Regressionsanalyse"

Wenn Sie das Werkzeug Regressionsanalyse ausführen, geben Sie eine minimale und eine maximale Anzahl erklärender Variablen, die jedes Modell enthalten soll, sowie Schwellenwertkriterien für Adjusted R2, Koeffizienten-p-Werte, Varianzinflationsfaktor-Werte (VIF-Werte), Jarque-Bera-p-Werte und p-Werte für die räumliche Autokorrelation an. Die Regressionsanalyse führt OLS an jeder möglichen Kombination der Werte des Parameters Erklärende Variablenkandidaten für Modelle aus, die mindestens die im entsprechenden Parameter festgelegte Minimale Anzahl erklärender Variablen und nicht mehr als die im entsprechenden Parameter festgelegte Maximale Anzahl erklärender Variablen enthalten. Jedes ausprobierte Modell wird anhand des von Ihnen im Parameter Suchkriterien festgelegten Wertes bewertet. Wenn ein Modell gefunden wurde:

  • Das Ihren angegebenen Adjusted-R2-Schwellenwert überschreitet
  • Mit Koeffizienten-p-Werten für alle erklärenden Variablen, die kleiner als der angegebene Schwellenwert sind
  • Mit Koeffizienten-VIF-Werten für alle erklärenden Variablen, die kleiner als der angegebene Schwellenwert sind
  • Die einen Jarque-Bera-p-Wert zurückgeben, der größer als der angegebene Schwellenwert ist

Dann wird das Werkzeug Räumliche Autokorrelation (Global Moran’s I) an den Residuen dieses Modells ausgeführt. Wenn der p-Wert für die räumliche Autokorrelation auch größer als der Wert ist, den Sie in den Suchkriterien des Werkzeugs (als Wert des Parameters Minimaler annehmbarer p-Wert für räumliche Autokorrelation) angegeben haben, wird dieses Modell in die Liste der bestandenen Modelle aufgenommen. Das Werkzeug Regressionsanalyse testet auch mit dem Werkzeug "Räumliche Autokorrelation" die Regressionsresiduen der Modelle mit den drei höchsten Adjusted-R2-Ergebniswerten.

Die Modelle, die im Abschnitt mit der Liste der bestandenen Modelle aufgeführt sind, erfüllen die von Ihnen angegebenen Suchkriterien. Wenn Sie die Standardwerte für die Parameter Maximaler p-Wert für Koeffizient - Grenzwert, Maximaler VIF-Wert - Grenzwert, Minimaler annehmbarer p-Wert Jarque Bera und Minimaler annehmbarer p-Wert für räumliche Autokorrelation verwendet haben, sind Ihre Modelle in der Liste der bestandenen Modelle auch ordnungsgemäß spezifizierte OLS-Modelle. Ein ordnungsgemäß spezifiziertes OLS-Modell hat die folgenden Eigenschaften:

  • Erklärende Variablen, in denen alle Koeffizienten statistisch signifikant sind
  • Koeffizienten, die die erwartete oder zumindest eine gerechtfertigte Beziehung zwischen der erklärenden Variable und der abhängigen Variable abbilden
  • Erklärende Variablen, die verschiedene Aspekte dessen, was Sie modellieren möchten, darstellen (keine redundanten erklärenden Variablen und VIF-Werte kleiner als 7,5)
  • Normal verteilte Residuen, was darauf hinweist, dass Ihr Modell keine Verzerrung aufweist (der Jarque-Bera-p-Wert ist nicht statistisch signifikant)
  • Zufällig verteilte zu hohe und zu niedrige Vorhersagen, was darauf hinweist, dass die Modellresiduen normalverteilt sind (der p-Wert für die räumliche Autokorrelation ist nicht statistisch signifikant)

Wenn Sie für den Parameter Ausgabeergebnistabelle einen Wert angegeben haben, werden die Modelle, die Ihren Wert für den Parameter Maximaler VIF-Wert - Grenzwert erfüllen und für die alle erklärenden Variablen den Wert für den Parameter Maximaler p-Wert für Koeffizient - Grenzwert erfüllen, in eine Tabelle geschrieben. Diese Tabelle ist hilfreich, wenn Sie mehr als nur die Modelle in der Textberichtsdatei untersuchen möchten.

Einige Vorsichtshinweise

Seien Sie sich bei der Verwendung ähnlicher Methoden, wie zum Beispiel der schrittweisen Regression, dessen bewusst, dass die Verwendung des Werkzeugs Regressionsanalyse umstritten ist. Zugespitzt formuliert gibt es zu diesem Thema grundsätzlich zwei Denkschulen: Die Sichtweise als wissenschaftliche Methode und die Sichtweise des Data-Mining-Experten.

Sichtweise als wissenschaftliche Methode

Ein starker Befürworter der wissenschaftlichen Methode könnte Einwände gegen Regressionsanalysemethoden erheben. Aus seiner Perspektive sollten Sie Ihre Hypothesen formalisieren, bevor Sie Ihre Daten analysieren, um zu vermeiden, dass Modelle erstellt werden, die nur zu Ihren Daten passen, aber weiter gefasste Prozesse nicht abbilden. Konstruierte Modelle, die übermäßig an ein bestimmtes Dataset angepasst sind, könnten für andere Datasets nicht relevant sein. Tatsächlich kann das Hinzufügen neuer Beobachtungen sogar dazu führen, dass ein übermäßig angepasstes Modell instabil wird (die Performance könnte beeinträchtigt werden oder die Signifikanz der Koeffizienten erklärender Variablen könnte schwinden). Wenn Ihr Modell nicht robust ist, auch gegenüber neuen Beobachtungen, dann kann es die Schlüsselprozesse, die Sie modellieren möchten, mit Sicherheit nicht abbilden.

Außerdem sollten Sie immer berücksichtigen, dass Regressionsstatistiken auf der Wahrscheinlichkeitstheorie basieren. Wenn Sie dann Tausende von Modellen ausführen, steigt für Sie die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise abgelehnt wird, stark an (ein statistischer Fehler des Typs 1). Wenn Sie zum Beispiel ein Konfidenzniveau von 95 Prozent auswählen, nehmen Sie ein bestimmtes Risiko in Kauf. Wenn Sie 100 Male eine Stichprobe Ihrer Daten nehmen könnten, dann zeigt diese Wahrscheinlichkeit an, dass bei 5 dieser 100 Stichproben falsch positive Ergebnisse generiert werden. Für jeden Koeffizienten werden p-Werte berechnet. Die Nullhypothese besagt, dass der Koeffizient tatsächlich null ist und demzufolge die mit diesem Koeffizienten verknüpfte erklärende Variable für Ihr Modell nicht hilfreich ist. Laut Wahrscheinlichkeitstheorie wäre in 5 von 100 Stichproben der p-Wert nur deshalb statistisch signifikant, weil Sie zufällig Beobachtungen ausgewählt haben, die diese Schlussfolgerung fälschlicherweise stützen. Wenn Sie nur ein Modell ausführen, erscheint ein Konfidenzniveau von 95 Prozent als konservativ. Je mehr Modelle Sie ausführen, desto geringer wird für Sie die Möglichkeit, Schlussfolgerungen aus Ihren Ergebnissen zu ziehen. Das Werkzeug Regressionsanalyse kann Tausende von Modellen in wenigen Minuten ausprobieren. Die Anzahl der ausprobierten Modelle wird im Abschnitt mit der globalen Zusammenfassung der im Parameter Ausgabeberichtsdatei festgelegten Datei erfasst.

Sichtweise des Data-Mining-Experten

Die Experten der Data-Mining-Denkschule würden ihrerseits argumentieren, dass es grundsätzlich unmöglich sei, alle Faktoren zu kennen, die zu einem bestimmten Ergebnis in der Realität beitragen. Häufig sind die Fragen, die wir zu beantworten versuchen, komplex, und eine Theorie für Ihr jeweiliges Thema ist möglicherweise noch nicht vorhanden oder bereits veraltet. Data-Mining-Experten sind starke Befürworter induktiver Analysen, wie sie zum Beispiel in der Regressionsanalyse erfolgen. Sie ermutigen dazu, bei der Entwicklung von Hypothesen über den Tellerrand hinaus zu denken und Regressionsanalysemethoden zu verwenden.

Empfehlungen

Das Werkzeug Regressionsanalyse kann ein wertvolles Data-Mining-Werkzeug sein, dass Ihnen helfen kann, ein korrekt spezifiziertes OLS-Modell zu finden. Sie sollten für die Regressionsanalyse immer erklärende Variablenkandidaten auswählen, die von der Theorie, von Experten und vom gesunden Menschenverstand gestützt werden. Kalibrieren Sie Ihr Regressionsmodell mit einem Teil Ihrer Daten, und überprüfen Sie es mit dem Rest, oder überprüfen Sie Ihr Modell an zusätzlichen Datasets. Wenn Sie vorhaben, Schlussfolgerungen aus Ihren Ergebnissen zu ziehen, dann sollten Sie auch Sensitivitätsanalysen durchführen, wie zum Beispiel das Bootstrapping.

Bei der Verwendung des Werkzeugs Regressionsanalyse zeigen sich gegenüber der Verwendung anderer Methoden der explorativen Analyse, bei denen die Modell-Performance nur unter dem Aspekt der Adjusted-R2-Werte bewertet wird, einige Vorteile. Das Werkzeug Regressionsanalyse sucht nach Modellen, die alle oben beschriebenen OLS-Diagnosen erfüllen.