000639: Modell kann aufgrund von Multikollinearität nicht geschätzt werden (Datenredundanz).

Beschreibung

Das Regressionsmodell kann bei Vorhandensein der Multikollinearität nicht gelöst werden (die Entwurfsmatrix kann nicht umgekehrt werden). Multikollinearität tritt auf, wenn zwei oder mehr Variablen redundant sind (das bedeutet, dass sie das gleiche oder fast das gleiche aussagen). Ein effektives Modell verfügt über erklärende Variablen, wobei jede auf eine andere Facette der abhängigen Variable abzielt, die Sie versuchen vorherzusagen/zu verstehen.

Lösung

  1. Entfernen Sie alle redundanten Felder aus dem Satz erklärender Variablen.
  2. Identifizieren und entfernen Sie alle erklärenden Variablen, die über den gleichen Wert für alle Features verfügen (z. B. ein Feld, das alle Nullen enthält).
  3. Erstellen Sie eine Scatterplotmatrix für die erklärenden Variablen und bewerten Sie, ob es nahezu perfekte Korrelationen gibt. Sollte dies der Fall sein, sollten Sie in Erwägung ziehen, eine der entsprechenden Variablen aus dem Modell zu entfernen.