Immer wieder gibt es Verwirrung um das Testen gerichteter und ungerichteter Hypothesen im Zusammenhang mit ein- und zweiseitigen Signifikanztests. Viele Statistik-Foren sind gefüllt mit Fragen zu diesem Thema und es ist erstaunlich, wie oft falsch geantwortet wird.

Lassen Sie uns ein wenig Licht in die Dunkelheit bringen. Zunächst muss man unterscheiden, wodurch sich gerichtete Hypothesen von ungerichteten Hypothesen unterscheiden. Mit gerichteteten Fragestellungen haben wir es immer dann zu tun, wenn wir zum Beispiel die Richtung eines Zusammenhangs (positiv oder negativ) klar formulieren. Wir vermuten beispielsweise, dass Einkommen und Bildung positiv miteinander korrelieren und formulieren unsere Hypothese dementsprechend. Würden wir nur behaupten, es besteht irgendein Zusammenhang zwischen den beiden Merkmalen, geben die Richtung aber nicht vor, so haben wir es mit einer ungerichteten Fragestellung zu tun. Gerichtete Hypothesen, so sie denn sachlogisch richtig und wissenschaftlich fundiert sind, haben den Vorteil einer höheren Teststärke und werden mit einem einseitigen Signifikanztest überprüft. Im Gegensatz dazu werden Hypothesen, die ungerichtet aufgestellt wurden, immer zweiseitig getestet. Vom methodischen Standpunkt aus ist man mit einer ungerichteten Fragestellung immer auf der sicheren Seite, sollte sich aber nicht scheuen, auch gerichtete Hypothesen a priori aufzustellen.

Woher kommt nun aber die Verwirrung, die im Zusammenhang mit dem Signifikanztest steht, um unsere Hypothese zu überprüfen? Der Grund dafür liegt vor allem in der weitverbreiteten Meinung, dass nur die Signifikanztests einseitig testen können, deren entsprechende Prüfgröße symmetrisch ist, wie z. B. beim T-Test oder z-Test. Andere Verteilungen von Prüfgrößen wie die Chi-Quadrat oder F-Verteilung, die nur positive Werte aufweisen sind nicht symmetrisch, wenn wir uns die zugehörigen Dichtefunktionen anschauen. Das eine hat allerdings mit dem anderen nichts zu tun, da der einseitige bzw. zweiseitige Test und die Symmetrie der Prüfverteilung zwei verschiedene Konzepte sind. Im englischen fällt diese inhaltliche Unterscheidung leichter, da man hier von one or two-sided bzw. von one or two-tailed spricht. Es ist daher sinnvoll, diese Terminologie auch im deutschen zu verwenden, um etwas mehr Klarheit in die Thematik zu bringen. Symmetrische Prüfgrößen können immer one oder two-tailed geprüft werden, nicht symmetrische immer nur one-tailed (am rechten Ende der Verteilung). Generell gilt, dass nicht symmetrische Tests wie der Chi-Quadrat oder F-Test immer zweiseitige Fragestellungen testen, obwohl sie nur one-tailed prüfen können. Bei symmetrischen Tests wie T oder z-Test korrespondiert hingegen der einseitige Test direkt mit der one-tailed Prüfung und der zweiseitige Test mit der two-tailed Prüfung. Möchten wir einen einseitigen Test durchführen und benötigen einen Chi-Quadrat-Test, so ist das alpha-Niveau zu verdoppeln oder der empirisch ermittelte p-Wert zu halbieren, um die gerichtete Hypothese auf statistische Signifikanz zu testen.

Lassen Sie uns gemeinsam ein Beispiel betrachten: Bei der Unterschiedsprüfung zwischen 2 Gruppen möge das Ergebnis eines T-Tests für unabhängige Stichproben einen p-Wert von p=0.042 ergeben haben und wäre somit statistisch signifikant. Da die Hypothese ungerichtet formuliert war, also nur behauptet wurde, dass überhaupt ein Unterschied besteht, haben wir es mit dem Ergebnis eines zweiseitigen Tests zu tun. Berechnen wir nun eine einfaktorielle Varianzanalyse mit denselben Daten, erhalten wir einen F-Wert und die entsprechende Signifikanz, die exakt die gleiche ist, nämlich p=0.042. Beide Verfahren kommen zum gleichen Ergebnis, obwohl unterschiedliche Prüfgrößen eingesetzt werden. Das Ergebnis des F-Tests der Varianzanalyse ist also auch das Ergebnis eines zweiseitigen T-Tests, obwohl die Signifikanz beim F-Test nur one-tailed geprüft wurde! Nehmen wir nun an, wie hätten unsere Hypothese gerichtet formuliert und behauptet, dass die erste Gruppe höhere Werte aufweist als sie zweite Gruppe, so müssten wir einseitig testen. Viele Statistikprogramme geben nur den p-Wert des zweiseitigen Tests aus, für den einseitigen Test müssen wir den empirischen p-Wert halbieren. Für den einseitigen Test ergibt sich somit ein p-Wert von p=0.021, wir haben es wieder mit einem statistisch signifikanten Ergebnis zu tun. Das gleiche Konzept könnten wir auch auf den F-Test anwenden und würden zum gleichen Ergebnis kommen.

chi-quadrat-test-f-test

Als zweites Beispiel möge eine klassische 4-Felder-Tafel dienen, bei der die Häufigkeiten zweier dichotomer Merkmale abgetragen werden. Der Chi-Quadrat Test prüft nun die Unabhängigkeit der beiden Merkmale zweiseitig, obwohl wir es mit einer Prüfverteilung zu tun haben, bei der die Signifikanz nur one-tailed berechnet wird. Die zweiseitige Signifikanz des Chi-Quadrat-Tests korrespondiert auch mit der zweiseitigen Signifikanz der Korrelation der beiden Merkmale. Gehen wir aber davon aus, dass beispielsweise ein positiver Zusammenhang zwischen den Merkmalen besteht und somit die Hypothese gerichtet formuliert wurde, müssen wir einseitig testen. Berechnen wir den p-Wert für die einseitige Korrelation, so entspricht sie wieder dem halbierten p-Wert des zweiseitigen Tests. Wollen wir also das Ergebnis eines einseitigen Chi-Quadrat-Tests interpretieren, müssen wir auch hier den empirisch ermittelten p-Wert des zweiseitigen Tests halbieren.
Es sei angemerkt, dass der einseitige Chi-Quadrat und F-Test nur sinnvoll eingesetzt werden kann, wenn die Verteilung einen Freiheitsgrad aufweist (beim F-Test einen Zählerfreiheitsgrad), da ansonsten keine eindeutige Richtung mehr vorgegeben werden kann. Ein F-Test der die Gleichheit von Varianzen prüft und keine Mittelwertsunterschiede wie in der Varianzanalyse, ist stets ein einseitiger Test, da die größere Varianz immer im Zähler steht.

Lassen Sie sich also nie durch die Vermischung der beiden Konzepte aus der Ruhe bringen und bedenken Sie, dass der ein- oder zweiseitige Test unabhängig davon ist, welche Prüfgröße bzw. Prüfverteilung eingesetzt wird. Die Berechnung des empirischen p-Wertes auf Grundlage der Daten kann one-tailed oder two-tailed erfolgen, einen direkten Zusammenhang zwischen einseitig und one-tailed bzw. zweiseitig und two-tailed besteht nur bei symmetrischen Prüfverteilungen.

Und nun viel Erfolg beim Testen Ihrer Hypothesen mit hoffentlich signifikanten Ergebnissen – unabhängig davon, welchen Test Sie eingesetzt haben!

Sind Sie Studierender, Doktorand oder wissenschaftlicher Angestellter und interessieren sich für eine individuelle Statistik-Beratung zur Beantwortung Ihrer Fragen, erhalten Sie dort weitere Infos zu unseren Angeboten und Leistungen.

Über den Autor


Erik Kirst hat Psychologie mit Schwerpunkt Statistik und quantitative Methoden studiert. Er berät Wissenschaft, Forschung und Unternehmen bei der Planung, Auswertung und Interpretation von Studien und veranstaltet Coachings und Seminare zu statistischen Fachthemen.

One Response to Sind Chi-Quadrat-Test und F-Test ein- oder zweiseitige Tests oder beides?
  1. Dankeschön für diese Erläuterung! Sie hilft mir in der Menge der So-ist-es-halt-Beschreibungen von Tests, die mir bei solchen Fragen nicht weiterhelfen, sehr. Ich habe mich schon länger gefragt, wie diese Konzepte zusammenhängen und es nie ordentlich begriffen. (Ich bin natürlich wieder zu sehr von der deutschsprachigen Literatur beeinflusst, die hier tatsächlich Verwirrung stiftet. Zumindest bei mir.) Das Problem ist allerdings, dass einem die Hypothesentests immer anhand der Normalverteilung (bzw. t-Verteilung) erklärt werden und diese die allgemeine Parallelität zwischen Gerichtetheit des Test und den kritischen Bereichen/Ablehnbereichen der Verteilung suggerieren. Allerdings verstehe ich trotzdem nicht, was (mathematisch) dahintersteckt, dass zum Beispiel ein zweiseitiger McNemar-Test an der Chi-Quadrat-Verteilung one-tailed und nicht two-tailed geprüft wird.
    Schöne Grüße – Johannes


[nach oben]

Kommentieren

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *