Marktforschungs-Wiki
Advertisement

Grundlagen[]

Unter fehlenden Werten sind im Datensatz fehlende Werte zu verstehen, die beispielsweise das Ergebnis nicht ausgefüllter Felder in einem Fragebogen sein können. Solche leeren Felder sind bei Personenbefragungen häufig darauf zurückzuführen, dass die betreffende Person die Antwort als zu persönlich oder die Frage als zu intrusiv betrachtet und die Antwort daher verweigert hat. Typischerweise wird es beispielsweise bei Fragen zum Einkommen, zum Körper oder zum Sexualverhalten eine hohe Anzahl fehlender Werte geben.

Fehlende Werte können aber auch auf andere Ursachen zurückzuführen sein. Sie sind generell dann ein Problem für die Integrität der durchgeführten Untersuchung, wenn ein Zusammenhang zwischen der Wahrscheinlichkeit des Fehlens eines Wertes und einem untersuchten Sachverhalt zu vermuten ist, sich die fehlenden Werte also nicht zufällig verteilen. Dies kann beispielsweise bei der Frage nach dem Einkommen der Fall sein, wenn zu vermuten wäre, dass Personen mit niedrigem Einkommen verstärkt die Auskunft verweigern würden. Die Verteilung der fehlenden Werte wäre in diesem Beispiel nicht zufällig, die Masse der fehlenden Angaben hätte nämlich im unteren Einkommensbereich gelegen. In einem solchen Fall würde sich das Durchschnittseinkommen aufgrund der überproportional nicht angegebenen Niedrigeinkommen nach oben verzerren – die Auswertung der Daten würde also durch die fehlenden Werte verfälscht.

Anders verhält es sich, wenn die Werte beliebig fehlen, daher ist bei der Untersuchung fehlender Werte in erster Linie zu klären, inwiefern die fehlenden Werte zufällig auftreten oder ob ein Muster erkennbar ist. Desweiteren stellt sich die Frage, wie viele Werte überhaupt fehlen dürfen, damit eine sinnvolle Auswertung der Daten noch möglich erscheint. Bezüglich des Umgangs mit fehlenden Werten bieten sich drei Möglichkeiten an: Entweder es werden ausschließlich vollständige Werte zur weiteren Auswertung zugelassen, es erfolgt ein variablenweiser bzw. fallweiser Ausschluss oder aber die fehlenden Werte werden induktiv oder statistisch ersetzt. Für eine dieser Möglichkeiten wird sich der Marktforscher auf jeden Fall entscheiden müssen, denn mit fehlenden Werten ist bei jeder marktforscherischen Untersuchung in der Praxis zu rechnen – und das Problem der fehlenden Daten kann nicht einfach ignoriert werden. Entscheidend ist hierfür insbesondere die Bestimmung des Zufälligkeitsgrads des Auftretens der fehlenden Werte.

Umgang mit fehlenden Werten[]

In Abhängigkeit vom Zufälligkeitsgrad lassen sich drei Methoden zum Umgang mit fehlenden Werten anwenden: Der sogenannte complete case approach, der Ausschluss von Fällen oder Variablen (Ausschlussverfahren) oder das induktive bzw. statistische Ersetzen von Werten (Ersatzwertverfahren).

Beim complete case approach (CCA) werden ausschließlich die vollständigen Fälle für die weitere Analyse verwendet – alle Fälle mit mindestens einem einzigen fehlenden Datensatz werden aus dem Datensatz entfernt. Diese Methode kann nur zum Einsatz kommen, wenn zufällig fehlende Daten (MCAR) vorliegen. Außerdem ist darauf zu achten, dass die Stichprobe durch die Entfernung der Fälle nicht zu klein ausfällt und damit die Interpretation der Daten unmöglich wird. Bei entsprechend großen Stichproben und Vorliegen von MCAR ist der complete case approach zu empfehlen.

Das Ziel des Ausschlusses von Fällen oder Variablen ist die Verringerung des Gesamtanteils fehlender Werte. Der Marktforscher muss hier zwischen dem Datenverlust durch den Verlust von Daten und den Vorteilen aus der Reduktion fehlender Werte abwägen. Diese Vorgehensweise ist vor allem bei nicht zufällig auftretenden Werten (MAR, NRM) zu empfehlen, wobei der Ausschluss fallweise oder paarweise erfolgen kann.

Liegen metrische Daten vor, so besteht unter bestimmten Voraussetzungen auch noch die Möglichkeit, fehlende Werte über verschiedene induktive und statistische Verfahren zu ersetzen. Eine solche Ersetzung lässt sich nur durchführen, wenn klare Regelmäßigkeiten in den vorhandenen Daten erkennbar sind. Sie bringt stets die Gefahr mit sich, dass vorhandene Regelmäßigkeiten verstärkt werden und dass der Marktforscher die Daten in späteren Analysen so behandelt, als seien sie vollständig – die Angabe, inwiefern Daten durch welche Methode ersetzt wurden, hat daher Bestandteil jedes Untersuchungsberichts zu sein

Ausschlussverfahren[]

Bei den Ausschlussverfahren ist in den fallweisen Ausschluss und den paarweisen Ausschluss zu unterscheiden.

Entscheidet sich der Marktforscher für den **fallweisen Ausschluss**, so kann er einzelne Fälle aus dem Datensatz entfernen, die besonders viele fehlende Werte aufweisen. Ausgeschlossen wird jeweils der komplette Datensatz – dadurch werden bestimmte Asymmetrien ausgeschlossen, die beim paarweisen Ausschluss entstehen können, es geht aber auch relevantes Datenmaterial verloren (gültige Werte aus den jeweiligen Fällen) und der Stichprobenumfang nimmt ab.

Alternativ kann auch ein **paarweiser Ausschluss** durchgeführt werden. Dabei wird mit den gültigen Werten eines Falls weitergearbeitet, auch wenn dieser fehlende Werte aufweist. Hier bleiben also alle Fälle erhalten und auch der Stichprobenumfang sinkt nicht. Bei multivariaten Analysen kann sich allerdings von Variable zu Variable die Berechnungsgrundlage ändern, was zu Asymmetrien führt. Ein Beispiel: Angenommen, 90 von 100 Befragten hätten ihr erstes Gehalt angegeben, aber nur 45 von 100 ihr jetziges Gehalt. Sollen nun die Durchschnittsgehälter zu Karrierebeginn und aktuell miteinander vergleichen werden, würden die beiden Werte beim paarweisen Ausschluss auf unterschiedlicher Basis berechnet – die direkte Vergleichbarkeit ist damit zu bezweifeln. Um solche Probleme zu vermeiden, ist der fallweise Ausschluss das weitaus häufiger angewandte Ausschlussverfahren.

Ersatzwertverfahren[]

Bei den Ersatzwertverfahren ist in die nichtmathematischen, iterativen und die mathematischen, statistischen Verfahren zu unterscheiden.

Werden die fehlenden Werte ohne Rechnungen und auf der Basis von Informationen ersetzt, die über die Stichprobe vorliegen, so spricht man von **induktiven Ersatzwertverfahren**. Dazu zählen beispielsweise Nachfassaktionen oder auch Nachbeobachtungen, wobei letztere aber bei Zufallsstichproben nicht machbar sind, ohne die Repräsentativität zu gefährden. Alternativ lassen sich auch Konstanten, beispielsweise aus einer externen Quelle oder einer früheren Studie als Ersatzwerte für fehlende Werte verwenden.

Treten fehlende metrische Werte komplett zufällig auf (MCAR), lassen sie sich auch statistisch ersetzen. Ein einfaches Verfahren zum **statistischen Ersatz** ist beispielsweise der Mittelwertersatz: Ein fehlender Wert wird durch den Mittelwert der entsprechenden Variablen ersetzt. Dabei sind unterschiedliche Variationen möglich, zum Beispiel der Einsatz des arithmetischen Mittels oder des Medians der Nachbarpunkte, die Berechnung eines Zeitreihen-Mittelwerts (wo Zeitreihen-Daten vorliegen) oder die lineare Interpolation. Solche Formen des Mittelwertersatzes sind leicht anzuwenden, können aber die Verteilung der Daten, die Varianz der Variablen und eventuell auftretende Korrelationen in den Daten verzerren.

Lässt sich für die gültigen Werte ein deutlicher linearer Trend ermitteln, können die fehlenden Werte auch durch die entsprechenden Werte aus einem **linearen Trendmodell** ersetzt werden. Hierbei handelt es sich um eine Sonderform des statistischen Werteersatzes, welches zwei wesentliche Nachteile aufweist: Die Varianz der Variablen verringert sich in jedem Fall und lineare Trends werden erheblich verstärkt – unabhängig davon, wie stark sie in der Grundgesamtheit tatsächlich ausgeprägt sind. Sämtliche weiterführenden Analyseverfahren, die auf linearen Trends aufbauen oder diese untersuchen (wie beispielsweise die multiple Regressionsanalyse) können mit derartig aufbereiteten Daten keinesfalls mehr durchgeführt werden.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Brosius, F. (2002). SPSS 11. Bonn: mitp-Verlag

Advertisement