Bei der Varianzanalyse handelt es sich um ein multivariates Analyseverfahren zur Aufdeckung von Mittelwertsunterschieden.
Zur Hinführung auf die Grundidee hinter der Varianzanalyse soll dieser Beispielversuch dienen: In fünf Schulklassen der gleichen Ausbildungsstufe werden parallel zueinander fünf verschiedene Unterrichtskonzepte eingesetzt, anschließend wird der Lernerfolg in einem gemeinsamen Test gemessen. Die entscheidende Frage lautet: haben sich die Unterrichtskonzepte signifikant auf den Lernerfolg ausgewirkt – lassen sich also Unterschiede zwischen den beiden Gruppen feststellen? Besonders interessant wären hier Unterschiede zwischen den Testergebnis-Mittelwerten der unterschiedlichen, durch die Unterrichtskonzepte gebildeten Schülergruppen.
Die Varianzanalyse untersucht also die Wirkung einer oder mehrerer unabhängiger Variablen, der sogenannten Faktoren, auf eine oder mehrere abhängige Variablen. Abhängige Variablen müssen dabei intervallskaliert sein, für die Faktoren ist das nominale Skalenniveau ausreichend. Sie testet für Fälle mit mehr als zwei Gruppen (bei zwei Gruppen lässt sich vereinfachend auch ein T-Test durchführen), inwiefern signifikante Mittelwertunterschiede vorliegen. Der Varianzanalyse liegen daher die folgenden Hypothesen zugrunde:
- Nullhypothese H0: Alle „wahren“ Mittelwerte der Grundgesamtheit sind gleich
- Alternativhypothese Ha: Mindestens zwei „wahre“ Mittelwerte unterscheiden sich
Die Varianzanalyse ist das bedeutendste Verfahren für die Auswertung von Experimenten, wobei das Wirkungsmodell (welche Variablen sind abhängig, welche unabhängig?) im Voraus bekannt sein muss – was bei Experimenten ja in der Regel auch der Fall ist.
Formen der Varianzanalyse[]
Es sind verschiedene Szenarien aus dem Umfeld der Marktforschung vorstellbar, bei denen eine Varianzanalyse von Nutzen wäre. So könnte man beispielsweise untersuchen, welche Wirkung verschiedene Formen der Werbung (z.B. Anzeigen in Zeitschriften, Plakate, Radiowerbespots etc.) auf die Verkaufszahlen eines bestimmten Produktes haben. Die abhängige Variable ist in diesem Fall die Anzahl der verkauften Einheiten oder der Gesamtumsatz, die unabhängige Variable – der Faktor – die durchgeführten Werbemaßnahmen. Es liegt eine einfaktorielle Varianzanalyse vor.
Von Interesse könnte auch die Untersuchung der Wirkung zweier Faktoren auf den Verkauf sein, nämlich der Verpackung einer Ware und der Plazierung im Supermarktregal und zwar sowohl isoliert als auch gemeinsam. Da hier zwei Faktoren in die Varianzanalyse eingehen, handelt es sich um eine zweifaktorielle Varianzanalyse.
Man erkennt bereits, dass es keine „einheitliche“ Varianzanalyse gibt, sondern verschiedene Formen und zwar in Abhängigkeit von der Anzahl sowohl der abhängigen als auch der unabhängigen Variablen. Insbesondere ist in die ANOVA (= Analysis of Variance) – die Varianzanalyse mit nur einer abhängigen Variablen – und die MANOVA (= Multivariate Analysis of Variance) – die Varianzanalyse mit mehr als einer abhängigen Variablen – zu unterscheiden.
Der T-Test als Alternative[]
Um Mittelwerte (gemeint ist hier natürlich das Standardmittel, also das arithmetische Mittel) miteinander zu vergleichen, kann auch der T-Test eingesetzt werden. Wieso also die wesentlich aufwendigere Varianzanalyse? Grund hierfür ist die sogenannte Alpha-Fehlerinflation. Wie bei jedem statistischen Test wird auch beim T-Test mit einer Irrtumswahrscheinlichkeit Alpha gerechnet. Diese kann durch den Marktforscher frei festgelegt werden, liegt aber üblicherweise entweder bei 0,05 oder auch bei 0,01. Bei der Durchführung einer Reihe von T-Tests kommt es nun zu einer sogenannten Alpha-Fehlerinflation, also einer Potenzierung der ursprünglichen Irrtumswahrscheinlichkeit. Wie ist dies zu erklären?
Angenommen, die Irrtumswahrscheinlichkeit für eine beliebige Reihe von T-Tests wird auf 0,05 festgelegt. Die Wahrscheinlichkeit dafür, dass ein Vergleich nun lediglich zufällig signifikant wird, also die Wahrscheinlichkeit für einen sogenannten Alpha-Fehler, liegt somit bei 0,05 oder 5%. Bei mehreren Vergleichen erhöht sich diese Irrtumswahrscheinlichkeit dramatisch. Nach nur 28 durchgeführten Vergleichen ist sie bereits auf 76,2% gestiegen – die Wahrscheinlichkeit ist also recht gross, schon mindestens einen fehlerhaften Vergleich in der Reihe zu haben. Der Grund dafür wird deutlich, dass eine Irrtumswahrscheinlichkeit von 5% auch aussagt, dass die Nicht-Irrtumswahrscheinlichkeit für einen T-Test bei 95% liegt. Führt man zwei hintereinander durch, liegt die Wahrscheinlichkeit, dass beide fehlerfrei verlaufen sind schon nicht mehr bei 95% sondern bei 95%² = 90,25%. T-Tests werden daher generell für Vergleiche von mehr als zwei Gruppen als ungeeignet eingestuft, daher ist in solchen Fällen auf die Varianzanalyse zurückzugreifen.
Ablauf der Varianzanalyse[]
Die Varianzanalyse lässt sich in drei wesentliche Arbeitsschritte unterteilen.
Im ersten Arbeitsschritt muss dass für den restlichen Analyseverlauf unterstellte Erklärungsmodell aus abhängigen und unabhängigen Variablen formuliert werden. Daneben existiert eine ganze Reihe methodischer Voraussetzungen (z.B. Skalenniveau, Homoskedastizität, Verteilungsform), die vor dem eigentlichen Beginn der Analyse überprüft werden müssen. Im zweiten Arbeitsschritt, dem Hauptschritt der Varianzanalyse, wird die im Modell auftretende Gesamtvarianz in die Varianz innerhalb der Gruppen und die Varianz zwischen den Gruppen zerlegt. Das Verhältnis dieser beiden Werte zueinander liefert Aufschluss bezüglich des Erklärungsgehalts der Faktoren.
Finden sich signifikante Unterschiede zwischen den Gruppenmittelwerten ist im dritten und finalen Arbeitsschritt noch zu überprüfen, ob sich diese Unterschiede auf Zufallseffekte während der Stichprobenziehung zurückführen lassen, oder ob es sich um „echte“ Unterschiede handelt, die auch in der Grundgesamtheit auftreten. Dies geschieht zum einen mit dem aus der Regressionsanalyse bekannten F-Test und zum anderen anhand einer Auswahl aus einer ganzen Reihe möglicher sogenannter Post-Hoc-Tests.
Die Arbeitsschritte der Varianzanalyse nach Ablauf geordnet und im Detail:
- Schritt 1: Erklärungsmodell und Voraussetzungsprüfung
- Schritt 2: Analyse der Abweichungsquadrate
- Schritt 3: Prüfung der statistischen Unabhängigkeit
Quellen[]
C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.
Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.