juhuu, es gibt mal wieder was:
der pearson'sche korrelationskoeefizient
das ganze wurde ausgelöst durch diese diskussion.
es soll hier also um ein maß gehen, mit dem man die stärke eines je-desto-zusammenhangs beschreiben kann. also, z.b. je größer ein mensch, desto schwerer sein gewicht. die beiden beteiligten größen müssen metrisch sein, d.h. dass die ausprägungen "gleichabständig" sein müssen. d.h. der abstand zwischen 1,80m und 1,90m ist genau so groß wie zwischen 1,50 und 1,60. bei einer ordinal skalierten größe wie z.b. dem schulabschluss ist das nicht der fall. da könnte man zwar auch je-desto-zusammenhänge formulieren (à la "je höher der schulabschluss, desto höher das berufsprestige"), aber hier ist keine gleichabständigkeit gegeben. der abstand zwischen 1-hauptschule und 2-realschule ist nicht gleich dem abstand zwischen 2-realschule und 3-abitur. für letzteres gibt es auch einen korrelationskoeffizienten, nämlich den spearman'schen rangkorrelationskoeffizienten. aber um den soll es hier nicht gehen.
hier geht es um den pearson'schen korrelationskoeffizienten. er wird auch bravais-pearson-korrelationskoeffizient genannt, oder produkt-moment-korrelationskoeffizient, oder maßkorrelationskoeffizient, und weil das alles viel zu lange wörter sind, heißt er meist ganz einfach korrelationskoeffizient. dieser koeffizient wird mit dem buchstaben r abgekürzt (in der tat ein kleines r, nicht nur weil ich hier klein schreibe).
auf
wiki wird der natürlich auch erklärt, aber dort in mathematischer und einer der allgemeinheit eher unverständlichen art und weise. das ist übrigens nicht arrogant gemeint, ich versteh das selber nicht. die haben da wieder diese unsägliche kovarianz mit drin, ein äh dingsbums, das meiner meinung keiner wirklich braucht. außer er will die korrelation so erklären, dass sie niemand versteht.
das soll nun hier anders sein. ich will die lorbeeren natürlich nicht selber ernten, ich hab das ganze von meinem lieblingsstatistiker walter krämer.
also: zusammenhänge zwischen zwei metrischen variablen kann man wunderbar als streudiagramm darstellen. die einzelnen punkte sind durch die messwertpaare bestimmt. unten auf der achse die körpergröße, links das gewicht.
es entsteht eine art punktwolke. geht sie von links unten nach rechts oben, ist die korrelation positiv (je größer a, desto größer b), geht sie von links oben nach rechts unten, ist sie negativ (je größer a, desto kleiner b).
weiterhin ist wichtig:
pearsons r
- unterstellt einen linearen zusammenhang – vorstellbar als gerade, die durch die punktwolke geht (das ist die regressionsgerade) und
- liegt zwischen –1 (perfekter neg. zus.hang) und +1 (perfekt pos. zus.hang); 0 = kein linearer(!) zusammenhang – nichtlineare (u-förmig) sind möglich!
die stärke wird üblicherweise (also zumindest in den sozialwissenschaften üblicherweise wie folgt interpretiert):
kommen wir endlich zur ersehnten berechnung:
zunächst hat man das bekannte streudiagramm mit der größe als x-achse und dem gewicht als y-achse (es wär dem koeffizienten übrigens auch wurscht, wenn das andersrum wäre), die mittelwerte sind als linien eingezeichnet.
dann wird es etwas (aber auch wirklich nur etwas) kompliziert. man muss die originalwerte z-transformieren.
wiki erklärt das mal wieder mathematisch unverständlich. dazu kann ich gerne in was in einem späteren post ausführlicher werden, hier soll erstmal eine kurzerklärung reichen. nach einer z-transformation sind die original-werte in einer bestimmten weise standardisiert. d.h. es spielt keine rolle mehr, wie groß und wie schwer einer ist, sondern wie stark einer in größe und gewicht vom mittelwert abweicht. das streudiagramm ändert sich dadurch kaum, einzig die einheiten und die maßstäbe der achsen ändern sich (das wird jetzt nicht mehr in kilogramm und zentimetern gemessen, sondern in standardabweichungen. also, wieviel standardabweichungen ist einer vom mittelwert entfernt. that's all). also, das streudiagramm sieht dann wie folgt aus:
man sieht, dass die wolke kaum verändert ist (ok, ich gebs zu, ich hab das mit word selber gemalt, das ist nicht wirklich z-transformiert worden). die linien sind immer noch die mittelwerte, nur betragen die jetzt null. ist ja auch logisch, wer genau auf dem mittelwert liegt, hat zum mittelwert einen abstand von null standardabweichungen.
nun muss man von jedem punkt ein quadrat bilden, zu den mittelwertslinien. hab hier mal beispielhaft zwei quadrate eingezeichnet (die ecken liegen nicht genau in der ecke, word halt).
am ende muss man einfach die durchschnittsfläche von allen quadraten ausrechnen:
und man hat den pearson'schen korrelationskoeffizienten!
je näher die punkte an der regressionsgeraden liegen, desto größer wird der durchschnittswert aller quadrate, desto stärker ist auch der zusammenhang (die quadrate links oben und rechts unten haben ja negative flächen, versauen einem also den in diesem fall positiven zusammenhang).
ja, das war's auch eigentlich... eine ausführlichere erläuterung der z-transformation folgt. und jetzt, wie im seminar:
gibt's fragen dazu?