Test auf Multikollinearität

Grundlagen der Kollinearitätsdiagnostik[]

Der letzte Schritt der Regressionsanalyse vor der fachlichen Interpretation des Modells ist der Test auf Multikollinearität der unabhängigen Variablen, der auch als Kollinearitätsdiagnostik bekannt ist.

Was ist unter Multikollinearität zu verstehen? Multikollinearität liegt dann vor, wenn zwei oder mehr der unabhängigen Variablen in einem Regressionsmodell nicht nur mit der abhängigen Variablen, sondern auch untereinander korrelieren. Würden in unserem Beispielfall die Kosten für Kundenbesuche zu den Werbeausgaben gerechnet werden, dann würden diese beiden unabhängigen Variablen untereinander korrelieren – denn je mehr Kundenbesuche desto höher die Werbeausgaben. Tritt so eine Situation auf, lässt sich nicht mehr feststellen, zu welchen Teilen eine Veränderung der abhängigen Variablen auf die eine oder die andere der beiden korrelierenden unabhängigen Variablen zurückführen ist.

Die Ausnahme bildet eine perfekte Multikollinearität, also einen perfekten Zusammenhang zwischen zwei unabhängigen Variablen. Liegt eine solche perfekte Multikollinearität vor, kann die Regressionsanalyse mathematisch gar nicht erst durchgeführt werden, solange sich beide Variablen noch im Modell befinden. SPSS schließt in solchen Fällen automatisch eine der beiden Variablen aus und weist in der Ausgabe auf die entdeckte Multikollinearität hin. Perfekte Multikollinearitäten sind daher relativ ungefährlich – imperfekte Multikollinearitäten können dagegen zum Problem werden.

Bei Vorliegen einer imperfekten Multikollinearität lässt sich die Regressionsanalyse mathematisch wie gehabt durchführen. Es ergibt sich zwar ein unverzerrtes R², die Berechnung der Regressionskoeffizienten und damit auch der Beta-Koeffizienten liefert jedoch unzuverlässige Ergebnisse. Zu befürchten ist, dass der Koeffizient und auch der Einfluss bei einer der beiden Variablen über- und bei der anderen unterschätzt wird. Der gemeinsame Einfluss beider Variablen auf die abhängigen Variable wird so noch korrekt ausgewiesen, bezüglich der Verteilung dieses Einflusses gelangt der Marktforscher aber zu falschen Schlussfolgerungen.

Unter SPSS bieten sich drei Möglichkeiten an, um unabhängige Variablen auf Multikollinearität zu überprüfen:

Erstellung einer Korrelationmatrix
Berechnung von Toleranz und Varianzinflationsfaktor
Berechnung der Varianzanteile

Erstellung einer Korrelationsmatrix[]

In einer Korrelationsmatrix wird der Bravais-Pearson-Korrelationskoeffizient für jede mögliche Kombination aus abhängiger und unabhängiger sowie unabhängiger Variablen untereinander ausgegeben. Zeigt sich hier ein hoher Korrelationskoeffizient zwischen zwei unabhängigen Variablen, liegt eine Multikollinearität vor und eine der Variablen sollte dann konsequenterweise noch aus dem Modell ausgeschlossen werden.

Denkbar ist aber auch das Auftreten von paarweisen Korrelationen zwischen Variablenkombinationen (multiple Korrelation) anstatt der einfachen linearen Korrelation zwischen zwei Einzelvariablen. Da solche Formen der Multikollinearität nicht in der Korrelationsmatrix erkannt werden können, sind weitere Tests auf Multikollinearität erforderlich.

Berechnung von Toleranz und Varianzinflationsfaktor[]

Die Toleranz ist definiert als die Differenz von Eins und dem multiplen Korrelationskoeffizienten. Fällt sie sehr klein aus, ist dies als Hinweis auf eine Multikollinearität in den Daten zu werten. Als Faustregel für die Interpretation kann gelten: Toleranzen unterhalb von 0,1 legen den Verdacht auf Multikollinearität nahe, Toleranzen unterhalb von 0,01 können als sicherer Beweis für eine Multikollinearität gewertet werden.

SPSS berechnet zusätzlich zur Toleranz auch noch den sogenannten Varianzinflationsfaktor (VIF), der aber lediglich den Kehrwert der Toleranz wiedergibt. Entsprechend der Faustregel für die Interpretation der Toleranz kann bezüglich des Varianzinflationsfaktors festgestellt werden: VIF-Werte oberhalb von 10 legen den Verdacht auf Multikollinearität nahe, VIF-Werte oberhalb von 100 können als sicherer Beweis für eine Multikollinearität gewertet werden.

Berechnung der Varianzanteile[]

Als (etwas umständliche und daher auch weniger verbreitete) Alternative zur Berechnung der Toleranz bzw. des Varianzinflationsfaktors lassen sich noch die Varianzen der jeweiligen Regressionskoeffizienten in Komponenten zerlegen und den Eigenwerten zuordnen. Die Summe aller Komponenten beträgt für jeden Regressionskoeffizienten wieder gleich Eins – es handelt sich also um eine Anteilszerlegung.

Wenn nun derselbe Eigenwert die Varianz mehrerer Regressionskoeffizienten in hohem Maße erklärt, so deutet dies auf einen Zusammenhang der beiden Variablen hin, also auf eine Multikollinearität. Zur Erleichterung der Interpretation berechnet SPSS auch die sogenannten Konditionsindizes der Eigenwerte, wobei Konditionsindizes zwischen 10 und 30 auf eine mittlere und Konditionsindizes über 30 auf eine starke Multikollinearität hindeuten.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS