Wie reproduzierbar sind sozialwissenschaftliche Studien?

In der Wissenschaft gelten Reproduzierbarkeit und Replizierbarkeit als wichtige Kriterien für die Glaubwürdigkeit der Ergebnisse: Kommt bei der Überprüfung einer Studie oder eines Experiments dasselbe heraus, sind die Resultate wahrscheinlich korrekt. Doch jetzt enthüllt ein internationales Projekt, dass es genau damit in den Sozialwissenschaften hapert: Von den rund 3900 analysierten Studien aus Soziologie, Psychologie, Politik, Ökonomie und Bildung ließen sich nur bei rund der Hälfte die Resultate erfolgreich nachvollziehen. Bei vielen fehlten zudem Rohdaten und genaue Angaben zur computergestützten Auswertung. Wurden dieselben Daten mit alternativen Analysemethoden überprüft, kam bei einem Teil der Studien sogar das Gegenteil der ursprünglich veröffentlichten Kernaussage heraus. Was bedeutet dies für die wissenschaftliche Praxis?

Die Glaubwürdigkeit der Forschung beruht auf drei Kriterien, die auch als „die drei Rs“ zusammengefasst werden. Das erste Kriterium ist die Reproduzierbarkeit: Wenn dieselben Rohdaten mit denselben Analysemethoden erneut ausgewertet werden, sollte das gleiche Resultat herauskommen. Das zweite Kriterium ist die Replizierbarkeit: Wird das Experiment von anderen Forschungsteams auf die gleiche Weise wiederholt, sollten sie ebenfalls auf ein übereinstimmendes Ergebnis kommen. Das dritte Kriterium ist die Robustheit: Wertet man dieselben Rohdaten mit alternativen Analysemethoden aus, sollte man trotzdem auf die gleiche Kernaussage kommen. Soweit die Theorie. In der Praxis hat sich jedoch schon oft gezeigt, dass Versuche einer solchen Überprüfung scheitern. Immer wieder kommt es vor, dass sich Ergebnisse bestimmter Veröffentlichungen nicht nachvollziehen lassen.

Die drei R-Kriterien der Wissenschaft

Wie es mit den drei R-Kriterien in den Sozialwissenschaften aussieht, hat das großangelegte internationale Projekt SCORE (Systematizing Confidence in Open Research and Evidence) in den letzten Jahren näher untersucht. Dafür testeten mehr als 850 Forschende aus aller Welt die Reproduzierbarkeit, Replizierbarkeit und Robustheit von rund 3900 zwischen 2009 und 2018 in Fachjournalen veröffentlichten Studien. Diese stammten aus verschiedenen Fachgebieten der Soziologie, Psychologie und Bildungsforschung, aber auch aus Ökonomie, Business und den Politikwissenschaften. Jetzt haben SCORE-Beteiligten ihre Ergebnisse in drei Fachartikeln veröffentlicht. „Die Tatsache, dass diese Artikel in einem großen, renommierten Fachjournal wie Nature veröffentlicht wurden, zeigt, dass jetzt viel Fokus darauf gelegt wird, Wissenschaft richtig zu betreiben“, sagt die am Projekt beteiligte Forscherin Cristina Greculescu von der Bremen International Graduate School of Social Sciences (BIGSSS). „Dies ist ein positives Signal, dass diese Arbeit wichtig ist, dass wissenschaftliche Integrität wichtig ist.“

Für die Prüfung des ersten Kriteriums, die Reproduzierbarkeit, wiederholte ein Team um Olivia Miske vom Center for Open Science in Charlottesville, USA, die Analysen von 600 Studien aus den verschiedenen Bereichen der Sozial und Wirtschaftswissenschaften. Dabei zeigte sich, dass nur knapp ein Viertel der Publikationen genügend Rohdaten und Informationen zu den verwendeten Analysemethoden und Computercodes enthielten, um sie nachzuvollziehen. Von diesen erwiesen sich 53 Prozent als reproduzierbar, ein weiteres Viertel als zumindest annähernd reproduzier. „Für Publikationen aus der Politikwissenschaft und Ökonomie waren die Rohdaten häufiger verfügbar und sie ließen sich häufiger erfolgreich reproduzieren als in anderen Fachgebieten“, berichten Miske und ihre Kollegen. „Dies liegt wahrscheinlich an den Richtlinien der Fachjournale in diesen Disziplinen, die das Teilen der Rohdaten und Codes für eine Veröffentlichung vorschreiben.“

Nur die Hälfte ist robust und replizierbar

Die Robustheit von Studienergebnissen untersuchte ein Team um Balazs Aczel von der Eötvös Loránd Universität in Budapest anhand von 100 Studien. Dabei nutzten sie dieselben Rohdaten, aber alternative Analysemethoden. Ihr Ergebnis: „34 Prozent der unabhängigen Reanalysen lieferten das gleiche Resultat wie die Originalstudie“, schreiben sie. „Erweitert man den Toleranzbereich, erfüllen rund 57 Prozent der Studien das Kriterium.“ Bei 24 Prozent der Neuanalysen kamen die Forschenden allerdings auf keine signifikanten Ergebnisse oder sogar gegenteilige Kernaussagen. Dem dritten und aufwendigsten Kriterium, der Replizierbarkeit, widmete sich ein Team um Andrew Tyner vom Center for Open Science in Washington DC. Sie wiederholten die Experimente und Tests von 164 Studien. Dabei erwiesen sich die Resultate von 55 Prozent der Studien als replizierbar.

„Diese Erkenntnisse sollten als Weckruf dienen“, kommentiert der Soziologe Robb Miller von der Stanford University in „Nature“. „Wenn sie ernst genommen werden, könnten sie dabei helfen, in den Sozialwissenschaften Wissen aufzubauen, das beständig genug ist, um dem Test der Zeit standzuhalten.“ Ähnlich sehen es auch die Beteiligten des SCORE-Projekts: „Dies sollte nicht als grundsätzliche Kritik an den Sozialwissenschaften als unzuverlässiges Forschungsfeld gesehen werden, das wäre schlichtweg falsch“, betont Ulrich Kühnen von der Constructor University in Bremen. Denn die Ergebnisse des Projekts lieferten wertvolle Hinweise für eine Verbesserung. „Dies ist ein selbstkritischer Moment für die Sozial- und Verhaltenswissenschaften im Allgemeinen, aber im positiven Sinne“, ergänzt Greculescu. „Es ebnet den Weg zu mehr Integrität und mehr Offenheit im wissenschaftlichen Unterfangen.“

Quelle: SCORE-Projekt, Nature

Quelle:

www.wissenschaft.de