Moderne Methoden der Ersetzung fehlender Daten in medizinischen und sozialwissenschaftlichen Datensätzen
Laufzeit: 01.01.2011 - 31.12.2013
Kurzfassung
Methoden, fehlende Werte in Datensätzen zu ersetzen, sind nicht neu. Singuläre Methoden wie Mittelwertsersetzung führen dabei in der Regel zu Verringerungen der Varianzen und wenn standardmäßig statistische Verfahren angewendet werden sind oft falsch signifikante Ergebnisse die Folge. Bei der multiple Imputation werden die fehlenden Werte nicht nur einmal im Datensatz ersetzt, sondern es werden mehrere Datensätze angelegt (in der Regel zwischen 3 und 100), in denen Ersetzungen mit einem...Methoden, fehlende Werte in Datensätzen zu ersetzen, sind nicht neu. Singuläre Methoden wie Mittelwertsersetzung führen dabei in der Regel zu Verringerungen der Varianzen und wenn standardmäßig statistische Verfahren angewendet werden sind oft falsch signifikante Ergebnisse die Folge. Bei der multiple Imputation werden die fehlenden Werte nicht nur einmal im Datensatz ersetzt, sondern es werden mehrere Datensätze angelegt (in der Regel zwischen 3 und 100), in denen Ersetzungen mit einem Zufallsanteil durchgeführt werden. Der Zufallsanteil spiegelt die Unsicherheit aufgrund der statistischen Schätzung der Daten wider. Schließlich werden die statistischen Berechnungen separat in jedem Datensatz durchgeführt, die Ergebnisse kombiniert, und die Freiheitsgrade geschätzt. Es wurden verschiedene Simulationen durchgeführt, in denen unterschiedliche Anteile Werte in Datensätzen gelöscht und mittels multipler Imputation wieder eingefügt wurden. Im Anschluss wurden verschiedene statistische Parameter berechnet und mit den Ursprungsdaten verglichen.» weiterlesen» einklappen