Marktforschungs-Wiki

Die beiden Prüßgrößen R² und korrigiertes R² geben Auskunft über die Anpassung der Regressionsgeraden an die beobachteten Werte. Es stellt sich aber auch die Frage, ob das Regressionsmodell auch über die Stichprobenwerte hinaus Gültigkeit besitzt. Ein geeignetes Prüfkriterium hierfür bildet die F-Statistik, in die neben der Streuungszerlegung auch der Umfang der Stichprobe eingeht. Die Prüfung der Regressionsfunktion mit der F-Statistik basiert auf gänzlich anderen Überlegungen als die Prüfung mittels , korrigiertem R² und Standardfehler der Schätzung, auch wenn sie inhaltlich das gleiche Ziel verfolgt.

Die Idee hinter der F-Statistik ist die Einführung einer neuen Variablen in die Regressionsfunktion. Diese neue Variable u wird auch als Störgröße bezeichnet. Sie repräsentiert alle zufälligen Einflüsse außerhalb der betrachteten Variablen. Die Störgröße selbst kann nicht beobachtet werden, sie zeigt sich aber in den Residuen.

Durch den Einfluss von u wird Y zu einer Zufallsvariablen, ebenso wie die Schätzwerte der Regressionsparameter. Würde man eine neue Stichprobe ziehen, würden sich jeweils andere Regressionsparameter ergeben. Bei wiederholten Stichproben schwanken diese Parameter um die „wahren“ Regressionsparameter in der Grundgesamtheit, also die Regressionskoeffizienten, die sich bei einer Vollerhebung zeigen würden.

Nun ist die Grundannahme der Regressionsanalyse ja, dass es einen kausalen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt. Besteht ein solcher Zusammenhang tatsächlich, können diese „wahren“ Regressionsparameter unmöglich Null sein.

Zur Überprüfung dieser Annahme wird das Regressionsmodell mit Hilfe des F-Tests varianzanalytisch untersucht. Die Nullhypothese H0 dieses Tests besagt, dass kein wirklicher Zusammenhang zwischen der abhängigen und den unabhängigen Variablen besteht – alle „wahren“ Regressionskoeffizienten in der Grundgesamtheit sind daher gleich Null. Lässt sich diese Nullhypothese nicht mit einer entsprechend geringen Irrtumswahrscheinlichkeit verwerfen, so ist das Regressionsmodell offensichtlich nutzlos.

Um einen solchen F-Test durchzuführen genügt es, einen empirischen Wert aus der bekannten F-Verteilung zu berechnen und diesen mit einem (tabellierten) kritischen Wert zu vergleichen.

Bei Gültigkeit der H0 ist ein F-Wert von Eins zu erwarten. Je stärker nun der F-Wert von Eins abweicht, desto größer ist die Wahrscheinlichkeit, dass H0 unzutreffend ist. Bei entsprechend deutlichen Abweichungen kann H0 verworfen und die Schlußfolgerung gezogen werden, dass in der Grundgesamtheit mindestens ein „wahrer“ Regressionskoeffizient ungleich Null existiert.

Vorsicht: Es kann nichts darüber ausgesagt werden, welche Regressionskoeffizienten ungleich Null sind, also welche der unabhängigen Variablen tatsächlich in das Modell gehören. Die einzige Aussage, die sich aus dem F-Test ergeben kann, ist dass es mit großer Wahrscheinlichkeit mindestens eine modellrelevante unabhängige Variable geben muss. Die Signifikanz der einzelnen Variablen ist im Anschluss an die Prüfung der Regressionsfunktion noch mittels der Prüfung der Regressionskoeffizienten durchzuführen, vorausgesetzt der F-Test wurde bereits im Vorfeld signifikant.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag.