Marktforschungs-Wiki
Advertisement

Grundlagen[]

Das Fehlen von Werten kann im Wesentlichen auf drei Ursachen zurückgeführt werden: Zunächst einmal können einfache Fehler für das Fehlen verantwortlich sein, wie sie in jeder Erhebung auftreten können. Vorstellbar sind beispielsweise Eingabefehler, bei denen etwa Buchstaben in einem Zahlenfeld eingegeben werden. Aber auch Codierungs- und Übertragungsfehler bei der Eingabe oder Speicherung der Daten können zu leeren Feldern im Datensatz führen.

Bedenklicher sind da schon fehlende Werte, die auf ungenaue Fragen bei der Personenerhebung zurückzuführen sind. Ein Nicht-Akademiker wird kaum in der Lage sein, die Frage nach der Studienrichtung zu beantworten, ebenso wenig wie ein Arbeitsloser die Zufriedenheit mit seiner Arbeitsstelle auf einer Skala von 1 bis 10 beantworten kann. Sind viele fehlende Werte im Datensatz auf solche Probleme zurückzuführen, so ist der Fragebogen für weitere Befragungen unbedingt zu überarbeiten. Für statistische Einheiten nicht relevante Daten, wie eben die besagte Studienrichtung beim Nicht-Akademiker, können als benutzerdefiniert fehlende Werte deklariert werden.

Die dritte der möglichen Ursachen verdient die besondere Aufmerksamkeit des Marktforschers. Gemeint sind die bereits oben angesprochenen Aktionen des Befragten, beispielsweise das Vergessen von Angaben, widersinnige Angaben wie beispielsweise die Eintragung einer Studienrichtung bei gleichzeitiger Angabe, nie studiert zu haben, die Nichtauskunftsfähigkeit oder aber das direkte Verweigern einer Antwort – beispielsweise bei Fragen zu Einkommen, Körper oder Sexualverhalten.

Insbesondere aufgrund der letzten Ursache stellt sich natürlich stets die Frage, ob fehlende Werte zufällig auftreten oder ob sich bestimmte Muster und Zusammenhänge erkennen lassen. Dabei wird in drei Zufälligkeitsgrade unterschieden: MCAR, MAR und NRM. Der Zufälligkeitsgrad ist wiederum entscheidend für die Frage, ob fehlende Werte ausgeschlossen oder ersetzt werden können.

MCAR = Missing Completely At Random[]

Auf dieser Stufe tritt das Fehlen von Werten vollkommen zufällig auf, d.h. die Wahrscheinlichkeit des Fehlens einzelner Werte steht in keinerlei Zusammenhang mit irgendwelchen anderen Größen. Es ist somit kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y mit der Variable Y selbst (Beispiel: niedrige Einkommen werden häufig nicht angegeben) oder mit einer anderen Variablen X (Beispiel: Frauen verweigern tendenziell häufiger Angaben zu ihrem Körpergewicht) feststellbar.

MAR = Missing At Random[]

Das Auftreten von fehlenden Werten steht auf dieser Stufe zumindest teilweise im Zusammenhang mit einer anderen erhobenen Variablen. Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variablen Y mit der Variable Y selbst feststellbar, wohl aber ein Teilzusammenhang mit einer anderen Variablen X.

NRM = Non-Random Missing[]

Hier folgt das Auftreten von fehlenden Werten ganz klaren Gesetzmäßigkeiten, eine Zufälligkeit ist vollkommen auszuschließen. Es kann entweder ein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variablen Y und der Variablen Y selbst oder auch einer anderen Variablen X oder auch beides vorliegen, d.h. das Auftreten eines fehlenden Wertes ist vollständig durch eine andere Variable oder die Variable selbst vorhersagbar.

Quellen[]

C. Reinboth: Multivariate Analyseverfahren in der Marktforschung, LuLu-Verlagsgruppe, Morrisville, 2006.

Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (1999). Statistik. Der Weg zur Datenanalyse (2. Aufl.). Berlin: Springer.

Advertisement