FAQ


Im Folgenden finden Sie Fragen, die immer wieder im Laufe einer statistischen Beratung oder Analyse auftauchen.
Wir hoffen, Ihnen für Ihre statistische Auswertung einige nützliche Tipps zu geben und offene Fragen zu beantworten.
  1. Müssen meine Daten wirklich normalverteilt sein, um eine Varianzanalyse durchzuführen?

    Nein. Im Gegenteil, wenn ich davon ausgehe, dass Unterschiede zwischen Gruppen bestehen, die ich mit der Varianzanalyse nachweisen möchte, so kann ich keine Normalverteilung der abhängigen Variablen erwarten. Vergleicht man beispielsweise 3 Gruppen, die sich hinsichtlich eines Merkmals stark unterscheiden, so ist eher eine trimodale Verteilung zu erwarten, also eine Häufigkeitsverteilung, die 3 Gipfel aufweist – im Gegensatz zur Normalverteilung, die unimodal und symmetrisch ist. Entscheidend ist hingegen, dass die Residuen in den einzelnen Zellen bzw. bei mehrfaktoriellen Designs den einzelnen Faktorstufenkombinationen annähernd normalverteilt sind. Je größer die Stichprobe und damit auch die Häufigkeiten in den Zellen, desto mehr verliert jedoch diese Modellprämisse ihre Bedeutung durch die Wirkung des zentralen Grenzwerttheorems.
    Weitere Voraussetzungen der Varianzanalyse sind die Unabhängigkeit der Messungen sowie die Homogenität der Fehlervarianzen. Letztere Prämisse wird häufig mit dem Levene-Test überprüft. Insgesamt gilt: Je höher die Fallzahlen und je balancierter das Design, desto robuster die Ergebnisse der Varianzanalyse.
  2. Was sind die Voraussetzungen für die lineare Regression?

    1. Additivität und Linearität:
    Das Modell ist linear in den Parametern und setzt sich additiv aus den Effekten zusammen. Die Prädiktoren (=unabhängige Variablen) bilden eine Linearkombination, um das Kriterium (=abhängige Variable) zu prädizieren.
    2. Unabhängige Residuen:
    Die Fälle dürfen nicht voneinander abhängig sein, wie dies oft bei Cluster-Daten der Fall ist. Jeder Fall trägt im gleichen Maße zum Modell bei. Verletzungen der Annahme führen zu verzerrten Standardfehlern und somit zu falschen Inferenzstatistiken.
    3. Varianzhomogene Residuen:
    Diese Prämisse wird auch als Homoskedastizität bezeichnet und meint, dass die Varianzen der Residuen über alle Ausprägungen der geschätzten Werte (y) gleich sein sollten. Zur Überprüfung kann ein Streudiagramm eingesetzt werden, dass die geschätzten Werte gegen die Residuen abträgt.
    4. Normalverteilte Residuen:
    Diese Voraussetzung kann umso mehr vernachlässigt werden, desto größer die Fallzahlen sind. Die Verteilung der Residuen sollte symmetrisch und nicht zu schief sein. In der Empirie wird man immer Abweichungen von der Normalverteilung finden, diese sollten jedoch nicht zu gravierend sein. Die Modellprämisse kann mittels eines Histogramms überprüft werden. Tests auf Normalverteilung, wie zum Beispiel der Kolmogorov-Smirnov oder Shapiro-Wilk-Test sind nicht zu empfehlen, da sie auf Verletzungen zu sensitiv reagieren.
    5. Keine zu starke Multikollinearität der unabhängigen Variablen:
    Wenn die Prädiktoren zu stark untereinander korrelieren, können die Regressionsgewichte (=feste Effekte) nicht mehr stabil geschätzt werden, da der Anteil an uniquer Varianz, die der Prädiktor aufklärt, nur minimal ist. Zur Prüfung der Prämisse sollte eine Korrelationsmatrix der UVs erstellt werden, als weitere Kollinearitätsstatistik kann man den Variance Inflation Factor (VIF) heranziehen. Dieser wird bei den meisten Analysepaketen (z. B. SPSS) auf Wunsch mit ausgegeben, unkritisch sind Werte <5. Je geringer der VIF, desto besser.Alle Voraussetzungen werden auch ausführlich in diesem Video-Tutorial zur Linearen Regression besprochen.
  3. Unser Unternehmen möchte eine Mitarbeiterbefragung durchführen. Was ist bei der Fragebogenerstellung besonders zu beachten?

    Zunächst ist wichtig, die Befragung anonym durchzuführen, um ein hohes Commitment und eine hohe Rücklaufquote zu generieren. Außerdem sollte in der Ansprache herausgestellt werden, dass die Mitarbeiterbefragung nicht nur für das Unternehmen selbst, sondern vor allem für die Mitarbeiter einen hohen Nutzen mit sich bringt.
    Bei den Formulierungen sollten Sie darauf achten, dass die Fragen eindeutig gestellt werden, Negationen vermieden werden und alle Bereiche, die für die Mitarbeiter wichtig sind, abgefragt werden. Zudem sollten Blöcke, die inhaltlich ähnlich sind, gebildet werden (z. B. Betriebsklima, Umgang und Zusammenarbeit mit Kollegen usw.). Ein weiterer Punkt betrifft die Skalenbildung, diese sollten möglichst bipolar sein und ausreichende Antwortoptionen (mindestens 5 Stufen) bereitstellen. Mehrfachantworten sind nicht empfehlenswert, da sie statistisch nicht optimal ausgewertet werden können. Zusätzlich zu den Items sollten Sie Aufbruchvariablen definieren und diese mit erheben, um bei den späteren Analysen Unterschiede zwischen Gruppen (z. B. Abteilungen, jungen und älteren Mitarbeitern) aufdecken zu können. Mehr zum Thema erfahren Sie auf der Seite Mitarbeiterbefragungen.
  4. Was bedeutet Homoskedastizität bzw. Heteroskedastizität?

    Homoskedastizität steht für die Gleichheit von Varianzen, die bei den Anwendungen des Allgemeinen Linearen Modells (ANOVA, lineare Regression) besondere Bedeutung erlangt. Varianzen sind homoskedastisch, wenn die Streuung der abhängigen Variablen über die Werte der unabhängigen Variablen nahezu gleich bleibt. Demzufolge sind dann auch die Residuen homoskedastisch. Streuen die Werte sehr unterschiedlich und sind eventuell abhängig von der Ausprägung der UV, so spricht man von Heteroskedastizität.
    Möchte man beispielsweise die monatlichen Ausgaben eines Haushaltes anhand des Nettoeinkommens vorhersagen, so kann man davon ausgehen, dass die Ausgaben bei geringen Einkommen nur wenig streuen, da wenig finanzieller Spielraum zur Verfügung steht. Liegt hingegen ein hohes Einkommen vor, so kann derjenige wenig ausgeben (er ist sehr sparsam) oder sehr viel (lebt in Saus und Braus). Die Varianz der AV – und somit auch der Residuen – ist deswegen unterschiedlich und abhängig vom Einkommen. Diagnostiziert wird Heteroskedastizität häufig mit dem Levene-Test, wobei die Alternativhypothese für Heteroskedastizität steht, die normalerweise nicht erwünscht ist. Daher sollte der Test ein möglichst nicht signifikantes Ergebnis zeigen, damit man von ausreichender (nicht vollständiger!) Varianzhomogenität ausgehen kann. Liegt Heteroskedastizität vor, so kann im Rahmen varianzanalytischer Verfahren häufig die WLS-Methode eingesetzt werden (Weighted Least Squares).
  5. Was versteht man unter der BLUE Eigenschaft?

    BLUE steht für Best Linear Unbiased Estimator und bedeutet, dass wenn alle Voraussetzungen der linearen Regression erfüllt sind, die Kleinst-Quadrate-Methode (engl. OLS) den besten linearen unverzerrten Schätzer liefert. Die Schätzungen für die wahren Parameter einer linearen Regression – meist als b bzw. standardisiert β bezeichnet – haben dann minimale Varianz. Den Beweis für BLUE liefert der Satz von Gauss und Markov. Zu unterscheiden ist BLUE von BLUP, die sich der Vorhersage von Modellen mit zufälligen Effekten widmet. Der Buchstabe P steht dann für Prediction.
  6. Ich habe eine ANOVA mit SPSS durchgeführt. Im Output der Zwischensubjekteffekte finde ich als Quelle die Zeile „Korrigiertes Modell“, was ist damit gemeint?

    Das korrigierte Modell zeigt, ob die gemeinsame Aufnahme aller Haupteffekte und Interaktionen signifikant ist. Normalerweise beziehen sich die Hypothesen immer auf Unterschiede bezüglich einzelner Faktoren und deren Interaktionen, daher ist die Signifikanzprüfung des korrigierten Modells meist nicht von näherem Interesse, wird aber standardmäßig von SPSS mit ausgegeben.
  7. Als Zahnarzt vergleiche ich mehrere Messmethoden im Rahmen einer kieferorthopädischen Studie und stoße dabei immer wieder auf die Begriffe Richtigkeit, Genauigkeit und Präzision. Was hat es damit auf sich?

    Diese Begriffe werden hin und wieder synonym verwendet, obwohl sie in Wahrheit eindeutig zugeordnet werden können. Die Genauigkeit einer Messmethode oder mehrerer Messungen hängt von der Richtigkeit als auch der Präzision ab.
    Fangen wir mit der Präzision an: Hier geht es darum, dass wiederholte Messungen – zum Beispiel eines Raters oder die Einzelmessungen verschiedener Rater – nur sehr wenig streuen. Würden mehrere Untersucher in kurzer Abfolge einen klinischen Parameter erheben, so sollten die Messungen alle auf einem ähnlichen Niveau liegen und die Abweichungen sollten zudem klinisch irrelevant sein. Die Präzision ist mit dem zufälligen Fehler assoziiert: Ist die Präzision hoch, so ist der zufällige Fehler gering und ebenso die Streuung der Messungen. Die Richtigkeit hingegen besagt, dass der Mittelwert mehrerer Einzelmessungen den wahren Wert möglichst gut widerspiegeln sollte. Tatsächlich ist es in der Praxis häufig der Fall, dass der wahre Wert unbekannt ist, da kein valides Kriterium zur Verfügung steht. Ist beispielsweise eine Waage nur ungenügend geeicht und zeigt – unabhängig von der Messung – immer 2 kg Körpergewicht zu viel an, so ist die Richtigkeit ungenügend ausgeprägt. Dieser Bias wird daher auch mit einem systematischen Fehler in Verbindung gebracht. Meine Messungen können also noch so präzise sein, was in diesem Beispiel bedeuten würde, dass mehrere Messungen auf der Waage nur um einige Gramm streuen, so wird dennoch das wahre Körpergewicht nicht von der Waage angezeigt. Erst wenn Präzision und Richtigkeit hoch ausgeprägt sind, kann von einer ausreichenden Genauigkeit ausgegangen werden, sie sind daher notwendige Bedingungen. In der Statistik trennt man daher bei Reliabilitätsstudien den Fehlerterm auch in einen zufälligen und einen systematischen Anteil auf.
  8. Was heißt einseitiger und zweiseitiger Signifikanztest?

    Einen einseitigen Test führen wir dann durch, wenn wir eine gerichtete Fragestellung oder Hypothese testen möchten. Zweiseitig hingegen muss getestet werden, wenn keine Richtung vorgegeben wird und nur behauptet wird, dass irgendein Zusammenhang, Einfluss oder Unterschied besteht. Wenn ich eine gerichtete Hypothese sachlogisch und theoriegeleitet begründen kann, so sollte auch einseitig getestet werden, da die Teststärke erhöht wird. Es ist dann darauf zu achten, dass die Richtung der Hypothese mit den Ergebnissen übereinstimmt. Wenn beispielsweise ein Zusammenhang als positiv in der Hypothese formuliert wurde und sich ein signifikanter negativer Zusammenhang zeigt, kann die Hypothese nicht angenommen werden. Die Teststärke gibt an, wie wahrscheinlich es ist, eine Alternativhypothese zu bestätigen, wenn diese auch in Wahrheit gilt. Näheres dazu finden Sie auch in diesem Beitrag: https://www.phimea.de/fachbeitraege/chi-quadrat-test-f-test-einseitig-zweiseitig
  9. Ich studiere Soziologie und muss für meine Master-Thesis einen Fragebogen zur Familientherapie validieren. Dabei verwende ich die Faktorenanalyse, die mir eine Hauptachsenanalyse und eine Hauptkomponentenanalyse anbietet, worin besteht der Unterschied?

    Streng genommen gehört nur die die Hauptachsenanalyse (engl. Principal Axis Factoring, PAF) zu den Faktorenanalysen. Bei dieser Methode werden nur die Kovarianzen aller Variablen – meist sind es die Items eines Fragebogens – analysiert, es ist also nicht unbedingt das Ziel, die vollständige Varianz der Variablen aufzuklären, sondern nur ihre gemeinsame Varianz. Das Verfahren wird in erster Linie dann eingesetzt, wenn es darum geht, latente Konstrukte oder Strukturen hinter den Variablen zu entdecken und diese „sichtbar“ zu machen. Der Anteil an Varianz einer Variablen, der nicht mit anderen Variablen kovariiert, wird also nicht berücksichtigt. Bei der Hauptkomponentenanalyse (engl. Principal Component Analysis, PCA) wird hingegen versucht, die vollständige Varianz aller Variablen mit wenigen Komponenten zu erklären. Sie wird dann eingesetzt, wenn das Ziel darin besteht, die Datenstruktur zu reduzieren. Kurz zusammengefasst kann man formulieren, dass die Hauptachsenanalyse kovarianz- und die Hauptkomponentenanalyse varianzorientiert ist. Oft kommen jedoch beide Verfahren zu ähnlichen Ergebnissen. Die Hauptkomponentenanalyse wird häufiger eingesetzt, was vor allem daran liegt, dass sie in den gängigen statistischen Softwarepaketen die Standardeinstellung belegt, obwohl eher eine Hauptachsenanalyse angezeigt wäre. Hinzu kommt, dass oftmals eine orthogonale Rotationsmethode gewählt wird, ohne die Ergebnisse einer obliquen Rotation zu betrachten. Letztere bietet meist eine deutlich bessere Lösung und ist mit den theoretischen Überlegungen vereinbar, in diesem Fall, dass die Faktoren untereinander korrelieren dürfen. Sind Sie unsicher, welches Verfahren Sie genau einsetzen sollten und sind mit der Materie nur wenig vertraut, empfiehlt es sich, einen Experten zu Rate zu ziehen.
  10. Was sind geschätzte Randmittel?

    Geschätzte Randmittel werden oft als zusätzliche Mittelwerte neben den deskriptiven Werten bei linearen Modellen mit ausgegeben. Auf Grundlage der geschätzten Randmittel werden beispielsweise auch bei der Varianzanalyse die Effekte auf Signifikanz geprüft. Die Randmittel können teilweise erheblich von den beobachteten Mittelwerten der Stichprobe abweichen, wenn mehrfaktorielle unbalancierte Designs eingesetzt werden, sie sind aber dann die besseren Schätzer für die Mittelwerte in der Population. Auch im einfaktoriellen Fall kann es zu Abweichungen des Gesamtmittelwertes kommen.
    Hierzu ein kleines Beispiel: Nehmen wir an, wir wollen überprüfen, ob zwischen Frauen und Männern Unterschiede bezüglich eines fiktiven Scores bestehen. Wir haben für unser sehr kleines und ausschließlich für didaktische Zwecke gedachtes Sample 3 Männer aber nur eine Frau rekrutiert. Die Männer mögen die Werte 95, 100 und 105 aufweisen, damit liegt der Mittelwert der Männer bei 100. Die einzelne Frau weist einen Wert von 60 auf. Lassen wir uns nun die deskriptiven Statistiken ausgeben, inklusive des Gesamtmittelwertes, so erhalten wir (95+100+105+60)/4 = 90. Dieser Wert würde den wahren Wert in der Population nur sehr ungenau wiedergeben, da das tatsächliche Verhältnis zwischen Männern und Frauen in der Population bei 50:50 liegt und nicht bei 3:1 wie in unserem Sample. Lassen wir uns hingegen die geschätzten Randmittel ausgeben, so wird erst der Mittelwert der Männer und dann der der Frauen berechnet (100 bzw. 60) und dann aus diesen beiden Mittelwerten der Gesamtmittelwert berechnet. Dieser liegt dann bei (100+60)/2 = 80 und ist der deutlich bessere Schätzer, da er die unterschiedlichen Fallzahlen in den Gruppen berücksichtigt. Gleiches gilt für den mehrfaktoriellen Fall, auch hier werden die Mittelwerte angepasst. Arbeiten Sie mit SPSS ist darauf zu achten, dass die konventionellen Post-Hoc Tests, welche auf den beobachteten Werten basieren, von den Tests der Haupteffekte der geschätzten Randmittel abweichen können.
  11. Als Personalleiterin möchte ich im Rahmen einer Mitarbeiterbefragung besonders auf die Mitarbeiterzufriedenheit und die psychische Gefährdungsbeurteilung eingehen. Was ist dabei zu beachten?

    Die Mitarbeiterzufriedenheit ist elementarer Teil einer jeden Mitarbeiterbefragung. Sie sollten daher ausreichend Items einsetzen, um diese für alle relevanten Bereiche zu erheben, zusätzlich sollte auch die Gesamtzufriedenheit mit erfragt werden. Diese Skala sollte mindestens 7 Stufen (besser 10) aufweisen, um ausreichend differenzieren zu können. Es ist dann bei der späteren Analyse auch leichter, Variabilität statistisch aufzuklären und Gründe für Unterschiede zwischen Gruppen aufzudecken. Auch empfiehlt sich eine turnusmäßige Befragung, bei der die Werte verglichen werden können und somit ein Instrument zur Verfügung gestellt wird, das schwierige Entwicklungen rechtzeitig erkennen kann oder in der Lage ist, den Erfolg einer personalpolitischen Maßnahme zu evaluieren. Zur psychischen Gefährdungsbeurteilung existieren bereits einige Fragebogenkataloge, die in Ihren individuellen Fragebogen implementiert werden können. Hier ist darauf zu achten diese – je nach Größe, Art und Branche des Unternehmens – spezifisch anzupassen. Der Grund dafür ist, dass Stressfaktoren zwischen Organisationen deutlich variieren können, es gilt also, die relevanten Faktoren zu identifizieren und mittels spezieller Fragetechniken zu erheben. Mehr zum Thema können Sie auf der Seite Mitarbeiterbefragungen nachlesen.
  12. Als Mediziner und Nicht-Statistiker bin ich mir nicht sicher, ob ich Mittelwert oder Median angeben soll. Gibt es eine statistische Regel dafür?

    Beides sind Maße der zentralen Tendenz, die die Lage einer Verteilung beschreiben. Beide verlangen mindestens ordinales Messniveau der Variablen, bei nominalem Niveau kann nur der Modus angegeben werden. Der Mittelwert ist das genauere aber auch sensiblere Maß, der Median ist robuster, da er gegenüber Ausreißern unempfindlich ist. Streng genommen, darf der Mittelwert erst ab Intervallskalenniveau berechnet werden, er kann sich aber auch bei Rangdaten als nützlich erweisen, wenn man davon ausgehen kann, dass die Abstände zwischen den Rängen nicht zu heterogen sind. Dies ist beispielsweise bei mehrstufigen Itemskalen in Fragebögen der Fall, die ein bestimmtes Kontinuum abbilden (z.B. sehr unzufrieden bis sehr zufrieden). Im Gegensatz dazu kann der Median bei intervallskalierten Daten sinnvoll sein, wenn die Verteilung schief ist und Ausreißer vorhanden sind. Nicht unüblich ist es daher in der Praxis, beide Werte mit anzugeben.
  13. Als angehender Arzt möchte ich gern meine Dissertation schreiben, weiß aber wenig über die Statistik? Welche Bücher sind zu empfehlen?

    Es gibt inzwischen eine gute Auswahl an deutschsprachiger Fachliteratur, die sich explizit der medizinischen Statistik widmen. Sehr zu empfehlen ist das 2014 in der ersten Auflage bei Schattauer erschienene Buch von Gaus und Muche, dass alle Themen der medizinischen Statistik ausführlich behandelt und darüber hinaus ansprechend geschrieben ist. Seine Vorteile liegen im Aufbau des Buches, das sich zunächst mit der Planung und Durchführung von Studien beschäftigt und erst anschließend einzelne statistische Verfahren beleuchtet. Übungsaufgaben am Ende eines Kapitels helfen bei der Überprüfung des gelernten Wissens.
    Nicht ganz so umfangreich, aber dennoch gründlich ist auch das 2013 bei Pearson unter dem gleichen Titel „Medizinische Statistik“ veröffentlichte Werk von Rufibach et al. Wenn Ihr Untersuchungsdesign steht und die Datenerhebung bereits abgeschlossen ist, so finden Sie hier schnell Einblick in die wichtigsten Konzepte und Analysemethoden.
    Ohne zu sehr in die Tiefe zu gehen, sondern nur einen kurzen Überblick über den Bereich zu geben und dabei dennoch anspruchsvoll zu sein, ist das Buch von Weiß „Basiswissen Medizinische Statistik“, welches inzwischen mehrfach aufgelegt wurde und nach wie vor zu Recht sehr populär ist.
    Möchten Sie Ihre Analysen mit SPSS durchführen und haben keine Probleme mit englischen Texten, so ist als Einsteiger das Buch von Field (2013) nunmehr in der vierten Auflage „Discovering Statistics Using SPSS“ wärmstens zu empfehlen, da es einerseits didaktisch und durch die Präsentation der Inhalte überzeugen kann und damit so manches staubtrockene Lehrbuch in den Schatten stellt. Darüber hinaus werden die Anwendungen Schritt für Schritt erklärt, der Stil des Autors ist sehr leger und gespickt mit interessanten Fallbeispielen und kleinen nützlichen Anekdoten.
  14. Worin besteht der Unterschied zwischen der Pearson-Korrelation und Spearman’s Rho?

    Die Pearson-Korrelation, synonym auch als Produkt-Moment-Korrelation oder r bezeichnet, ist ein parametrisches Verfahren und setzt für die Variablen mindestens Intervallskalenniveau voraus. Darüber hinaus ist sie nur für lineare Zusammenhänge geeignet. Die Korrelation nach Spearman transformiert die Originaldaten in Ränge, daher wird dieses Zusammenhangsmaß auch als Rangkorrelation bezeichnet. Spearman’s Rho ist daher auch für ordinales Skalenniveau geeignet und erwartet nur einen monotonen und nicht unbedingt linearen Zusammenhang. Beide Korrelationskoeffizienten kommen häufig zu einem ähnlichen Ergebnis, im Zweifelsfall sollte man Spearman’s Rho den Vorzug geben.
  15. Ich habe gelesen, dass für die Korrelation nach Pearson die Variablen bivariat normalverteilt sein müssen, stimmt das?

    Nein, für den Korrelationskoeffizienten r ist es unerheblich, welche Gestalt die Verteilungen der Variablen haben. Eine bivariate Normalverteilung ist streng genommen die Voraussetzung zum Testen der Korrelation auf Signifikanz, da diese auf der T-Verteilung als Teststatistik beruht. Sind die Fallzahlen jedoch ausreichend groß (n>30) und alle Prämissen erfüllt, kann man sich dennoch auf den Signifikanztest verlassen. Darüber hinaus ist auch das Vorhandensein univariater Normalverteilungen der einzelnen Variablen kein Nachweis für eine bivariate Normalverteilung, sondern lediglich eine notwendige Bedingung.
  16. Für meine Bachelorarbeit im Fach BWL führe ich eine lineare Regression durch und habe mit der Multikollinearität zu kämpfen. Welche Folgen hat Multikollinearität und warum muss sie vermieden werden?

    Multikollinearität bezeichnet den Umstand hoher Korrelationen zwischen den Prädiktoren in der linearen Regression. Sie hat keine Auswirkungen auf das Bestimmtheitsmaß, wohl aber auf die Signifikanztests der Prädiktoren, da die Standardfehler verzerrt sind. Das Modell ist nicht mehr in der Lage, aufgeklärte Varianz einem bestimmten Prädiktor zuzuordnen, sondern berücksichtigt nur den uniquen Anteil eines Prädiktors. Abhilfe schafft das Zusammenfassen mehrerer Prädiktoren zu einem Faktor, auch wenn damit ein gewisser Informationsverlust verbunden ist, das Modell insgesamt aber stabiler wird. Zur Diagnose der Multikollinearität wird die Toleranz oder der VIF (Variance Inflation Factor) eingesetzt. Für alle statistischen Modelle sollte generell gelten: Simplicity first! Ein ausführliches Video zur linearen Regression inklusive der Demonstration eines Fallbeispiels finden Sie hier.
  17. In letzter Zeit lese ich immer wieder von Mehrebenenmodellen, Multilevel, Mixed und Random Effects Models. Was hat es damit auf sich?

    Multilevel Models, oft auch als Hierarchical Models oder Mixed Models bezeichnet, werden für geclusterte und longitudinale Daten verwendet und stellen eine recht moderne Form der Modellierung dar. Es wird explizit eine mehrere Ebenen umfassende Form des Samplings berücksichtigt, zum Beispiel die Untersuchung von Patienten, die im Rahmen einer multizentrischen Studie aus verschiedenen Kliniken und Stationen rekrutiert wurden. Es ist dann davon auszugehen, dass sich die Patienten einer Station ähnlicher sind als zwischen verschiedenen Stationen. Gleiches gilt für die Kliniken: Messe ich die Compliance der Patienten, so ist es nicht verwunderlich, wenn die Patienten aus ein und derselben Klinik sich ähnlicher sind. Die Patienten sind in den Stationen geclustert, während die Stationen unter den Kliniken geclustert sind. Die Messungen (und infolgedessen auch die Residuen) sind korreliert und voneinander abhängig, was bei diesen Modellen durch die Kovarianzstruktur explizit berücksichtigt wird. Analog trifft dies auch für longitudinale Daten zu: Messungen eines Subjektes über die Zeit sind nicht unabhängig voneinander. Würde man diese Abhängigkeiten ignorieren und die Anwendungen des ALM einsetzen, so sind die Ergebnisse nicht valide, da die Voraussetzung unabhängiger Residuen verletzt wurde. Die Umsetzung als auch die theoretischen Grundlagen von Multilevel Models sind allerdings deutlich komplexer und anspruchsvoller als die klassischen Verfahren des ALM, wie beispielsweise ANOVA oder ANCOVA. Dieser Artikel beschäftigt sich mit der Anwendung von Mehrebenenmodellen bei longitudinalen Daten.