Eine Studentin sollte Daten für eine Semesterarbeit auswerten. Die Daten bekam sie von ihrem Dozenten. In den Daten enthalten waren Untersuchungsflächen, Pflanzenarten sowie Artnamen und Häufigkeit von Tieren, die auf diesen Pflanzen gefunden worden waren. Zu diesen Tierarten ergänzte die Studentin dann noch Angaben aus der Literatur zum Spezialisierungsgrad und weiteren Arteigenschaften. Bei der Auswertung stellte sich heraus, dass keine der erwarteten Zusammenhänge zu finden waren – die Spezialisten waren offenbar nicht besonders spezialisiert, und manche üblicherweise häufigen Arten waren sehr selten. Trotz verschiedener Analysemethoden blieb es dabei - weder verschiedenen Pflanzenarten noch die Untersuchungsgebiete unterschieden sich in der Zusammensetzung der Tierarten.
Kurz bevor die Arbeit abgegeben werden musste, stellte sich dann heraus, dass die Artnamen in der Tabelle um zwei Zeilen verrutscht waren. Der Zusammenhang zwischen Arten, und ihren Fundorten und Häufigkeiten war also aufgebrochen worden. Wie und wann der Fehler genau passiert war, ließ sich nicht mehr rekonstruieren, aber die Studentin hatte die Daten in bereits korrumpiertem Zustand bekommen und von Anfang an mit dem fehlerhaften Datensatz gearbeitet. Bis zur Abgabe war keine neue Analyse möglich und so wurde ihre Arbeit trotz der fehlerhaften Datengrundlage akzeptiert. Schließlich hatte sie alle geforderten Analysen durchgeführt und die (sehr unbefriedigenden) Ergebnisse tapfer diskutiert.
Solche Fehler sind leider recht häufig, gerade wenn Daten ausschließlich in Tabellenkalkulationsprogrammen wie Excel oder LibreOffice gespeichert und bearbeitet werden. Deshalb ist es sehr wichtig, ausschließlich mit Kopien der Rohdaten zu arbeiten, aber niemals in den Rohdaten selbst. Wenn Daten neu sortiert, ausgewählt oder aggregiert werden sollen, empfehlen sich Programme wie OpenRefine, Abfragen in relationalen Datenbanken (z.B. MariaDB, SQLite) oder die Verwendung von R oder Python-Skripten.
Quelle: Persönliche Kommunikation