120199: Modell kann aufgrund von Multikollinearität nicht geschätzt werden (Datenredundanz).

Beschreibung

Das Regressionsmodell kann bei Vorhandensein der Multikollinearität nicht gelöst werden (die Entwurfsmatrix kann nicht umgekehrt werden). Multikollinearität tritt auf, wenn zwei oder mehr Variablen redundant sind. Jede Variable sollte unabhängig von jeder anderen Variable sein. Ein effektives Modell verfügt über erklärende Variablen, die jeweils auf eine andere Facette der abhängigen Variable abzielen, die Sie vorhersagen oder verstehen möchten.

Lösung

  1. Entfernen Sie alle redundanten Felder aus dem Satz erklärender Variablen.
  2. Identifizieren und entfernen Sie alle erklärenden Variablen, die über den gleichen Wert für alle Features verfügen (z. B. ein Feld, das alle Nullen enthält).
  3. Erstellen Sie eine Scatterplotmatrix für die erklärenden Variablen (oder für eine Stichprobe dieser), und prüfen Sie, ob es nahezu perfekte Korrelationen gibt. In diesem Fall sollten Sie in Erwägung ziehen, eine der entsprechenden Variablen aus dem Modell zu entfernen.