Benutzer:Zulu55/Fehlender Wert
Als Fehlende Werte, Fehlender Wert, Ausfall/Ausfälle, Fehlende Daten, Missing Data, Missing Value bezeichnet man in der Statistischen Datenanalyse das Fehlen von Werten einer Variablen. Siehe auch Antwortausfall, Schweigeverzerrung und Selbstselektion.
Typen
[Bearbeiten | Quelltext bearbeiten]Unit Nonresponse und Item Nonresponse
Zufälligkeitsgrade fehlender Daten in Regressionsmodellen[1][2]
Bevölkerungsumfragen
[Bearbeiten | Quelltext bearbeiten]Stichprobenneutrale Ausfälle
- Adresse falsch, umbewohnt, niemanden angetroffen
Stichprobenspezifische Ausfälle
- Verweigerung
Ursachen
[Bearbeiten | Quelltext bearbeiten]In Bevölkerungsumfragen gibt es unterschiedliche Gründe für das Fehlen einer Antwort:
- Frage wurde nicht wahrgenommen
- Frage wurde nicht verstanden
- Beschaffung der benötigten Information zu aufwendig oder Information nicht bereitstellbat (Weiß nicht)
- Frage oder Antwortmöglichkeiten treffen nicht zu ("trifft nicht zu") (Missing Data/ Missing Values) im engeren Sinne, system definiert fehlend, gefilterte Fragen aufgrund von Filterführung
- Verweigerung der Antwort ("keine Angabe")
- bei der Datenerfassung: Erfassungsfehler, Übertragungsfehler, unleserlich geschrieben, beim automatischen Einlesen nicht erkannt
- gelöschte Daten (Datenbereinigung): Außreißer, Datenfehler (z.B. falsche Angaben, Messfehler), Filterführung (Fragefilter),
Weitere:
- Bei Zeitreihen Brüche (nicht erfasste Jahre)
Umgang mit fehlenden Werten
[Bearbeiten | Quelltext bearbeiten]- Listenweiser Ausschluss (listwise)
- Fallweiser Ausschluss (casewise)
- Imputation fehlender Werte
Unterscheidung in Statistik-Software systemdefinierte vs. benutzerdefinierte fehlende Werte
Folgen
[Bearbeiten | Quelltext bearbeiten]Systematischer Fehler Zufällige Abweichung
Schweigeverzerrung (non-response bias), z.B. insbesondere bei Sensitiven Fragen, Selektivität siehe auch Störfaktor
Siehe auch
[Bearbeiten | Quelltext bearbeiten]- NaN: Weiterhin werden NaNs eingesetzt, um fehlende Werte in Berechnungen darzustellen.
- Zensierte Daten: die Datensätze werden weggelassen und als fehlende Werte behandelt
- SYSTAT: erlaubt Analyse fehlender Werte