Inferenzstatistik

Multiple Regression

Herleitung

  • Betrachtet man sich die Formel des Allgemeinen Linearen Modells (ALM) einmal genauer, stößt man auf ein recht großes Problem:
  • Y = a + b1X1 + b2X2 + ...+ e
  • In jeder Messung treten Fehler auf, für diese Fehler können wir jedoch keinen Wert einsetzen, da er uns nicht bekannt ist.
  • Um die Formel des ALM trotzdem nutzen zu können müssen wir deshalb den Fehlerterm e aus der Gleichung entfernen.
  • Durch diese Entfernung des Fehlers ist die Vorhersage von Y jedoch nicht mehr exakt, sondern sie kann nur noch geschätzt werden.
  • Dadurch kommen wir direkt zum Verfahren der Multiplen Regression, welche beschreibt, wie der Wert einer Person aufgrund verschiedener Prädiktorvariablen  geschätzt werden kann.
  • Anhand der Multiplen Regression  soll demnach der konkrete Wert von Personen auf bestimmten Variablen durch die Ausprägung auf anderen Variablen vorhergesagt werden.
  • Die Auflistung von mehreren Prädiktoren nennt man Modell.

Formel

  • Die Formel zeigt, dass je mehr relevante Prädiktoren hinzugefügt werden, desto besser ist die Schätzung von Y.

Grundidee

  • Ein grundliegendes Prinzip der Multiplen Regression ist die Varianzaufklärung, d.h. wir gehen davon aus, dass verschiedene Personen unterschiedliche Ausprägungen auf bestimmten Merkmalen aufweisen.
  • Gibt es in unserem Experiment nur eine einzige unabhängige Variable dann verwenden wir die einfache lineare Regression.
  • Gibt es jedoch mehrere unabhängige Variablen dann müssen wir eine Multiple Regression verwenden.
  • Die Grundfrage der Multiplen Regression lautet: Wie gut sagt das gesamte Modell das jeweilige Merkmal vorher?

Regressionsgewichte

  • Bei der multiplen Regression erhält jeder Prädiktor sein eigenes Regressionsgewicht, welches eine Aussage darüber trifft, wie stark der jeweilige Prädiktor mit dem Kriterium (Y) zusammenhängt.
  • Dadurch soll der isolierte Einfluss des Prädiktors auf Y beurteilt werden.
  • das ist deshalb notwendig, weil im Regelfall die einzelnen Prädiktoren miteinander in Beziehung stehen (korrelieren).
  • Grafisch sichtbar gemacht werden können solche Beziehungen anhand von sogenannten Venn-Diagrammen.
  • Die Korrelation der Variablen ist umso größer, je mehr sich die einzelnen Kreise überdecken. Die sich überdeckenden Flächen entsprechen dem gemeinsamen Varianzanteil.
  • C wäre in unserem Beispiel das Kriterium Y (z.B. Berufserfolg),
  • A der Prädiktor Intelligenz,
  • und B der Prädiktor Sozialkompetenz.
  • Die Regressionsgewichte bereinigen demnach den Einfluss des jeweiligen Prädiktors von anderen Einflüssen.
  • Je größer das Regressionsgewicht ist, desto mehr Einfluss hat der Prädiktor auf das Kriterium (Y).

Güte der Vorhersage

  • Es gibt insgesamt zwei Möglichkeiten die Güte der Vorhersage des Modells zu bestimmen:
  1. der multiple Determinationskoeffizient
  2. der Standardschätzfehler.


Multipler Determinationskoeffizient:

  • Dieser gibt an wie hoch das Ausmaß der aufgeklärten Varianz ist.
  • Berechnet wird er, indem wir die Varianz der vorhergesagten Werte durch die Varianz der tatsächlichen Werte dividieren.
  • Er kann Werte zwischen 0 und 1 annehmen, wobei 1 einer Varianzaufklärung von 100% entspricht.

 

Standardschätzfehler:

  • Der Standardschätzfehler gibt an, wie stark die vorhergesagten Werte durchschnittlich abweichen von den tatsächlichen Werten des Kriteriums Y.

Meine Literaturempfehlungen und Quellen: