Deskriptive Statistik

Lineare Regression

Korrelation vs. Regression

Korrelation:

  • Mittels der Korrelation berechnen wir die Stärke des Zusammenhangs zwischen zwei verschiedenen Variablen.
  • Die Aussage die bei der Korrelation getroffen werden kann ist also, dass bestimmte Werte auf der einen Variable mit bestimmten Werten auf der anderen Variable zusammenhängen.
  • Dadurch wird es möglich, eine Vorhersage zu treffen, ohne jedoch eine Kausalbeziehung herzustellen.

 

Regression:

  • Die Regression basiert auf der Korrelation und ermöglicht uns die bestmögliche Vorhersage für eine Variable.
  • Im Gegensatz zur Korrelation muss hierbei festgelegt werden, welche Variable durch eine andere Variable vorhergesagt werden soll.
  • Die Variable die vorhergesagt werden soll nennt man bei der Regression Kriterium.
  • Die Variable die für die Vorhersage eingesetzt wird bezeichnet man als Prädiktor.
  • Anhand des Prädiktors wird demzufolge das Kriterium vorhergesagt.

 

Regressionsgerade bei stochastischen Zusammenhängen

  • In der Psychologie begegnen uns so gut wie nie deterministische Zusammenhänge, sondern vorrangig probabilistische (stochastische) Zusammenhänge.
  • Die Punktewolke ist in so einem Fall also mehr oder weniger breit.
  • Das führt dazu, dass es uns nicht möglich ist, aus einem x-Wert fehlerfrei einen y-Wert vorherzusagen.
  • Ziel ist es daher eine Vorhersage zu treffen, die möglichst geringe Fehler aufweist.
  • Das wiederum führt dazu, dass wir eine Gerade finden müssen, die die Daten innerhalb der Punktewolke am besten repräsentiert.
  • Diese Gerade wird Regressionsgerade genannt.

allgemeine Formel der Regressionsgleichung

Was beinhaltet die Formel:

  • Das Dach über dem y gibt an, dass es sich um vorhergesagte oder geschätzte Werte handelt.
  • b ist die Steigung der Regressionsgeraden.
  • a ist der Achsenabschnitt und gibt an, welchen Wert die Y-Variable am Punkt x=0 annimmt.

Faustregel

  • Allgemein gilt, dass alle Punkte oberhalb der Regressionsgeraden (im Streudiagramm) einen positiven Fehler aufweisen und
  • alle Punkte unterhalb der Regressionsgeraden einen negativen Fehler.
  • Diese Vorhersagefehler sollen bei der Bestimmung der Regressionsgeraden über alle Daten hinweg so gering wie möglich gehalten werden.
  • Das führt dazu, dass wir noch ein Maß für die Gesamtheit der Vorhersagefehler benötigen.

Kriterium der kleinsten Quadrate

  • Es macht wenig Sinn die Fehler der einzelnen Daten einfach aufzuaddieren, da sich hierbei die positiven und negativen Fehler ausgleichen können.
  • Ein geeigneteres Maß für die Gesamtheit der Fehler bildet hingegen die Summe der quadrierten Vorhersagefehler.
  • Man spricht in diesem Fall auch vom Kriterium der kleinsten Quadrate.
  • Ein Vorteil dieses Vorgehens ist, dass durch die Quadrierung große Vorhersagefehler auch stärker gewichtet werden als kleine Vorhersagefehler.

Bestimmung der Regressionsgeraden

Um die Regressionsgerade bestimmen zu können, benötigen wir 2 Formeln:

Was beinhaltet die Formel:

  • Wie erhalten den Achsenabschnitt a, indem wir vom Mittelwert der Variable Y das Produkt der Steigung und des Mittelwerts der Variable X abziehen.

Was beinhaltet die Formel:

  • Die Steigung b der Regressionsgeraden erhalten wir indem wir die Kovarianz der beiden Variablen (X und Y) durch die Varianz der Variable X dividieren.
  • Die Formel zur Berechnung der Kovarianz ist in der oberen Zeile zu finden.
  • Die Formel zur Berechung der Varianz befindet sich im Nenner.

Gütemaße der Regressionsanalyse

  • Ziel der Regressionsanalyse ist es, Unterschiede zwischen Personen auf der Y-Variable vorherzusagen.
  • Die Frage die sich nun stellt ist, wie präzise diese Vorhersagen überhaupt sind. Um das zu klären schaut man sich die Maße für die Güte der Vorhersage an.
  • Es werden 2 Maße für die Güte der Vorhersage unterschieden:
  1. der Determinationskoeffizient
  2. der Standardschätzfehler.

 

Determinationskoeffizient:

  • Der Determinationskoeffizient beruht auf der Zerlegung der Varianz des Kriteriums Y.
  • Er gibt an wie viel Prozent der Varianz aufgeklärt werden können.
  • Demzufolge entspricht er dem Anteil der vorhergesagten Varianz (Regressionsvarianz) an der Gesamtvarianz in Y.

Was beinhaltet die Formel:

  • Die Formel zeigt den Zusammenhang zwischen Korrelation und Regression.
  • Wenn man den Korrelationskoeffizient quadriert ist das identisch mit dem Determinationskoeffizient.
  • Bei einem perfekten Zusammenhang zwischen zwei Variablen würde sich demzufolge ein Determinationskoeffizient von 1 finden lassen, und wenn kein Zusammenhang zu finden ist 0.

Standardschätzfehler:

  • Der Standardschätzfehler gibt an, wie stark die tatsächlichen Werte um die vorhergesagten Werte streuen.
  • Das  bedeutet, dass je kleiner der Standardschätzfehler ist, desto genauer ist die Vorhersage.
  • Berechnet wird der Standardschätzfehler indem man die Wurzel aus der Fehlervarianz zieht.

 

 

Quellen:

 

Sedlmeier, P. & Renkewitz, F. (2008). Forschungsmethoden und Statistik in der Psychologie.München: Pearson Studium.