In der empirischen Forschung wird oftmals behauptet, dass Unterschiede zwischen Gruppen oder Merkmalen bestehen, die auf eine systematische Variation oder auf Grundlage quasiexperimenteller Designs zurückzuführen sind. Demgegenüber versucht man in klinischen Studien nachzuweisen, dass eine spezifische Behandlung einer konventionellen Methode nicht unbedingt überlegen, aber zumindest gleichwertig ist. Vorteile des neuen Medikaments könnten geringere Herstellungskosten sein oder ein besseres Nebenwirkungsprofil aufweisen. In diesem Design wird einer Gruppe das alte Medikament verabreicht und einer weiteren Gruppe das neue, vermeintlich gleichwertige, Medikament gegeben. Optional kann eine dritte Gruppe als Kontrollgruppe fungieren, die mit einem Placebo behandelt wird. In der anschließenden statistischen Auswertung hofft der Forscher seine Hypothese, dass keine Unterschiede zwischen den Gruppen bezüglich der Symptomatik bestehen, belegen zu können. Die Hypothese, dass Unterschiede bestehen, formuliert er aufgrund des Designs fälschlicherweise als Alternativhypothese. Die das keine Unterschiede bestehen, als Nullhypothese. Die Nullhypothese kann hier also als Wunschhypothese des Forschers angesehen werden. Die statistische Prüfung auf signifikante Unterschiede soll nun möglichst ein nicht signifikantes Ergebnis zeigen, um die Gleichwertigkeit der beiden Behandlungen zu belegen.

In unserem kleinen Beispiel handelt es sich bei der Messung der Symptomatik um intervallskalierte und normalverteilte Daten, damit wäre in diesem Fall der t-Test für unabhängige Stichproben das indizierte statistische Verfahren der Wahl. Es sei angemerkt, dass eine einfaktorielle ANOVA hier zum gleichen Ergebnis kommen würde und in der Praxis das Studiendesign auch komplexer wäre. Die konkrete Auswertung ergebe nun bei einem α-Niveau von .05 (entspricht 5% Irrtumswahrscheinlichkeit oder Fehler 1. Art) einen empirischen p-Wert von .062. Der Forscher kann nun – der methodischen Konvention folgend – die Alternativhypothese nicht annehmen und muss die Nullhypothese beibehalten, da der p-Wert von .062 über dem Wert von .05 liegt, der ja a priori festgelegt worden war. Somit kann unser Forscher sich nun entspannt zurücklehnen und freut sich über die Bestätigung seiner Hypothese. Leider ist seine Schlussfolgerung methodisch falsch und mit diesem Fehler steht er nicht allein da, denn er wird in der empirischen Arbeit immer wieder gemacht.

Warum falsch? Nun, das Ablehnen der Alternativhypothese, die ja Unterschiede postuliert, zieht nach sich, dass die Nullhypothese beibehalten werden muss. Hier greift nun der klassische Fehlschluss, nämlich der, dass die Nullhypothese richtig sein muss, wenn die Alternativhypothese abgelehnt wurde. Die Äquivalenz beider Gruppen – in unserem Beispiel die Gleichwertigkeit der Wirkung beider Behandlungen – ist damit aber noch nicht nachgewiesen. Unser p-Wert von .062 sagt uns lediglich, dass unser oder ein extremeres Ergebnis mit einer Wahrscheinlichkeit von 6,2% unter Annahme der Nullhypothese auftreten würde – nicht gerade viel. Auf der anderen Seite sagen wir, dass wir die Alternativhypothese mit einer Irrtumswahrscheinlichkeit von maximal 5% akzeptieren, demnach wären die empirisch ermittelten 6,2% noch zu viel. Wir haben ein Ergebnis, das auf Unterschiede hindeutet, aber statistisch nicht signifikant wird. Und um es unwissenschaftlich, aber dafür vielleicht ein wenig verständlicher auszudrücken: Wir befinden uns in einer Grauzone. In der Praxis trifft man dieses Problem sehr häufig an. Gruppen werden auf Unterschiede hin untersucht, die Ergebnisse zeigen sich als statistisch nicht signifikant und man schlussfolgert, es gäbe keine Unterschiede. Wie kann man diese Problematik nun methodisch korrekt angehen? Wichtig ist, die Wunschhypothese möglichst immer als Alternativhypothese zu formulieren. In unserem Beispiel würde dies heißen, dass die Alternativhypothese besagt, dass zwischen den Behandlungen nur kleine oder unbedeutende Unterschiede bestehen, aber dass weder das konventionelle noch das neue Medikament besser oder schlechter ist. Die Nullhypothese würde demnach lauten, dass Unterschiede bestehen. Für den Bereich der Akzeptanz der Äquivalenz beider Behandlungen wird dann ein Konfidenzintervall konstruiert, das auf sachlogischen klinischen Überlegungen beruht. Wir sehen also, dass die Nullhypothese keinesfalls für Gleichheit oder Unabhängigkeit stehen muss, sondern auch dann gelten kann, wenn Unterschiede bestehen. Analog dazu kann die Alternativhypothese durchaus auch die Äquivalenz oder Gleichheit von Gruppen oder Merkmalen behaupten – so dies denn unsere Forschungshypothese ist.

Wie lautet nun die Interpretation in unserem ursprünglichen Design? Korrekterweise müssten wir sagen, dass auf Grundlage unserer Untersuchung keine Unterschiede statistisch nachzuweisen sind. Zur möglichen Homogenität der Gruppen bezüglich der untersuchten Symptomatik der Behandlung ist Schweigen Gold wert.

Über den Autor


Erik Kirst hat Psychologie mit Schwerpunkt Statistik und quantitative Methoden studiert. Er berät Wissenschaft, Forschung und Unternehmen bei der Planung, Auswertung und Interpretation von Studien und veranstaltet Coachings und Seminare zu statistischen Fachthemen.

Kommentieren

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *