Friedman-Test: Ein umfassender Leitfaden zur nichtparametrischen Analyse wiederholter Messungen

7Sep.

Friedman-Test: Ein umfassender Leitfaden zur nichtparametrischen Analyse wiederholter Messungen

by Beitragsredaktion Digitale Lehrforschung

Der Friedman-Test ist eine zentrale Methode in der statistik-landschaft für versuchspläne mit wiederholten Messungen, bei denen die Annahmen der Normalverteilung verletzt sind. Er liefert eine robuste Alternative zur klassischen Varianzanalyse, wenn Daten ordinal skaliert sind oder die Verteilungsformen der Messwerte nicht bekannt oder ungleich verteilt sind. In diesem Beitrag erfahren Sie, was der Friedman-Test genau macht, wie er funktioniert, wann er sinnvoll eingesetzt wird und wie Sie ihn praktisch anwenden – von der theoretischen Grundlage bis zur Implementierung in gängiger Software.

Was ist der Friedman-Test?

Der Friedman-Test, oft als Friedman-Test bezeichnet, ist ein nichtparametrischer Rangtest für wiederholte Messungen. Er prüft, ob mehrere Behandlungen oder Bedingungen in einer Blockstruktur (etwa Probanden oder Messzeitpunkte) dieselbe zentrale Tendenz teilen. Anders als der klassische ein- oder mehrfache Varianz-ANOVA setzt der Friedman-Test keine Normalverteilungsannahmen voraus und arbeitet mit Rangzahlen statt Rohdaten. Dadurch eignet er sich besonders gut, wenn die Messwerte ordinal skaliert sind oder Ausreißer die Verteilung stark verzerren.

Grundidee des Friedman-Tests

In einer typischen Studie mit k Behandlungen (z. B. Behandlungen A, B, C, D) und n Blöcken (z. B. n Probanden) wird innerhalb jeder Blockstruktur jeder Behandlung eine Rangordnung zugewiesen. Die Behandlung mit dem höchsten Messwert erhält Rang 1, die niedrigste Rang k. Anschließend werden die Rangsummen je Behandlung berechnet und daraus eine Teststatistik abgeleitet, die der chi-Quadrat-Verteilung unter der Nullhypothese folgt: Alle Behandlungen haben denselben Effekt bzw. dieselbe zentrale Tendenz.

Anwendungsbeispiele

Der Friedman-Test findet Einsatz in vielen Bereichen der Angewandten Statistik: Psychologische Studien mit mehreren Tests pro Proband, medizinische Studien mit verschiedenen Therapieversuchen am gleichen Patientenkollektiv, oder maschinelles Lernen, wenn verschiedene Preprocessing-Strategien innerhalb derselben Dataset-Teilnehmer getestet werden. Er bietet eine robuste Grundlage, um festzustellen, ob Unterschiede zwischen Behandlungen systematisch vorhanden sind.

Voraussetzungen und Design des Friedman-Tests

Wie alle statistischen Verfahren kommt auch der Friedman-Test mit bestimmten Design- und Datenbedingungen besser zurecht als andere Tests. Die wichtigsten Voraussetzungen sind:

Blockdesign: Die Daten sollten in Blöcken vorliegen, wobei jeder Block alle Behandlungen erfährt. Typische Beispiele sind Messungen pro Proband oder pro Objekt unter verschiedenen Bedingungen.
Feste Behandlungsanzahl: Die Anzahl der Behandlungen k sollte in der Regel fest sein. Varianten mit fehlenden Werten erfordern spezielle Anpassungen oder alternative Tests.
Ordinal- oder Intervallskala: Die Messwerte sollten zumindest ordinal skaliert sein; der Test orientiert sich an Rangordnungen innerhalb der Blöcke.
Unabhängigkeit der Blöcke: Die Blöcke sollten unabhängig voneinander sein, innerhalb eines Blocks sind die Messwerte jedoch abhängig durch die Behandlungen.

Bei fehlenden Daten in einzelnen Zellen des Block-Behandlungsschemas gibt es verschiedene Ansätze. Man kann entweder die betroffenen Blöcke ausschließen, eine Imputation vornehmen oder alternative nichtparametrische Verfahren wie den Quade-Test in Erwägung ziehen. Die Wahl hängt von der Datenmenge, dem Missing-Data-Mechanismus und der Forschungsfrage ab.

Statistische Grundlagen des Friedman-Tests

Die Kernidee des Friedman-Tests ist die Rangordnung innerhalb jedes Blocks. Nach der Rangzuweisung werden die Rangsummen für jede Behandlung gebildet. Aus diesen Summen wird eine Teststatistik abgeleitet, die unter der Nullhypothese, dass alle Behandlungen gleichwertig sind, folgt. Im Folgenden die wesentlichen mathematischen Schritte in vereinfachter Form.

Berechnung der Teststatistik

Gegeben seien n Blöcke (Probanden) und k Behandlungen. Innerhalb jedes Blocks wird jeder Behandlung ein Rang von 1 bis k zugeordnet, wobei 1 den größten Messwert bedeutet (je nach Beleg des Studiendesigns kann auch umgekehrt gerankt werden). Die Rangsumme jeder Behandlung j wird mit R_j bezeichnet.

Die Friedman-Teststatistik Q wird wie folgt berechnet (ohne Korrektur für Fälle mit vielen Bindungen und ohne Berücksichtigung von Bindungen):

Q = (12 / (n (k + 1))) * sum_{j=1}^{k} (R_j^2) – 3 n (k + 1).

Unter der Nullhypothese folgt Q näherungsweise einer Chi-Quadrat-Verteilung mit (k – 1) Freiheitsgraden, insbesondere für größere n. Bei vielen Bindungen oder vielen Ties muss eine Korrektur für Bindungen (ties) vorgenommen werden, die den Test leicht verändert, damit die Verteilung besser zu approximation bleibt.

Anpassungen bei Bindungen (ties)

Wenn in vielen Blöcken mehrere Behandlungen denselben Rang erhalten, minimiert dies die Informativität der Rangordnung. In solchen Fällen wird eine Korrekturfaktor verwendet, der in der Praxis von Softwarepaketen implementiert wird. Die korrigierte Teststatistik bleibt im Wesentlichen chi-quadrat-ähnlich, aber mit angepasstem Freiheitsgrad und Skalierung.

Alternativen bei kleinen Stichproben

Bei kleinen n kann die asymptotische Chi-Quadrat-Verteilung unzuverlässig sein. In solchen Fällen empfehlen sich exakte Berechnungen oder Monte-Carlo-Tests, die die Verteilung des Friedman-Statistikwertes genauer abbilden. Moderne Statistikpakete bieten entsprechende Optionen, um die Genauigkeit auch bei wenigen Probanden zu erhöhen.

Schritte zur Durchführung des Friedman-Tests

Die Durchführung des Friedman-Tests lässt sich in mehrere klare Schritte gliedern. Hier ist eine praxisnahe Checkliste, die Sie durch den Prozess führt – vom Rohdatensatz bis zur Interpretation der Ergebnisse.

Daten strukturieren: Organisieren Sie Ihre Daten als Block-Behandlung-Tabelle. Jeder Block enthält alle Behandlungen. Notieren Sie n Blocks und k Behandlungen.
Ränge innerhalb der Blöcke vergeben: Für jeden Block ordnen Sie den Behandlungen Rangnummern von 1 bis k zu. Dabei gilt: Höherer Messwert erhält tendenziell einen kleineren Rangwert (je nach Interpretationsrichtung).
Rangsummen berechnen: Addieren Sie die Ränge jeder Behandlung j über alle Blöcke hinweg, erhalten Sie R_j.
Teststatistik berechnen: Verwenden Sie die Formel Q = (12 / (n (k + 1))) * sum_j(R_j^2) – 3 n (k + 1).
P-Wert bestimmen: Vergleichen Sie Q mit der Chi-Quadrat-Verteilung mit k-1 Freiheitsgraden bzw. verwenden Sie eine Korrektur je nach Bindungen. Der resultierende p-Wert gibt an, ob die Nullhypothese abgelehnt werden kann.
Post-hoc-Analysen planen (falls signifikant): Wenn der Friedman-Test signifikant ist, führen Sie post-hoc-Vergleiche durch, um zu erkennen, welche Behandlungen sich unterscheiden. Geeignete Optionen sind der Nemenyi-Test oder der Wilcoxon-ordinale Vergleich unter Korrektur der Multiplen Tests.

Beispielhafte Berechnung in der Praxis

Stellen Sie sich vor, Sie testen vier Behandlungen (A, B, C, D) an fünf Probanden. Nach dem Ranggenerator sehen die Rangsummen pro Behandlung so aus: R_A = 9, R_B = 12, R_C = 8, R_D = 11. Mit k = 4 Behandlungen und n = 5 Blöcken berechnet sich Q folgendermaßen:

Q = (12 / (5 * (4 + 1))) * (9^2 + 12^2 + 8^2 + 11^2) – 3 * 5 * (4 + 1)

Q = (12 / 25) * (81 + 144 + 64 + 121) – 15 * 5

Q = 0.48 * 410 – 75 = 196.8 – 75 = 121.8

Verglichen mit der Chi-Quadrat-Verteilung mit 3 Freiheitsgraden ergibt sich ein sehr kleiner p-Wert, was auf Unterschiede zwischen den Behandlungen hindeutet. Beachten Sie, dass dieses Beispiel rein illustrativ ist; in realen Anwendungen würden die konkreten Rangsummen aus den Blockdaten stammen und ggf. Bindungskorrekturen Anwendung finden.

Vergleich mit anderen Verfahren

Der Friedman-Test wird oft mit anderen Ansätzen verglichen, um die beste Passform für eine konkrete Fragestellung zu finden. Hier einige zentrale Unterschiede:

Friedman-Test vs. wiederholte Messungen-ANOVA: Die ANOVA setzt Normalverteilung der Residuen voraus und arbeitet mit Rohdaten statt Rängen. Wenn diese Voraussetzungen nicht erfüllt sind oder Ausreißer dominieren, ist der Friedman-Test robuster.
Friedman-Test vs. Quade-Test: Der Quade-Test ist ebenfalls ein nichtparametrischer Test für Blockdesigns, verwendet aber andere Rangtransformationen und kann unter bestimmten Bedingungen leistungsstärker sein. Die Wahl hängt von der Verteilung, dem Skalenniveau und der gewünschten Robustheit ab.
Friedman-Test und post-hoc Analysen: Nach einem signifikanten Friedman-Test sind post-hoc-Vergleiche nötig, um detaillierte Unterschiede aufzudecken. Hier kommen Nemenyi, Wilcoxon mit Bonferroni-Korrektur oder andere angepasstes Verfahren zum Einsatz.

Post-hoc-Analysen beim Friedman-Test

Wenn der Friedman-Test signifikant ist, bedeutet dies, dass mindestens eine Behandlung sich von den anderen unterscheidet. Um herauszufinden, welche Behandlungen sich unterscheiden, sind Post-hoc-Analysen erforderlich. Gängige Optionen sind:

Nemenyi-Test: Nichtparametrischer Paarvergleich, der speziell für rangbasierte Designs entwickelt wurde. Er kontrolliert die familiare Fehlerquote über alle Paare hinweg.
Wilcoxon-gespaltet (Post-hoc) mit Bonferroni-/Holm-Korrektur: Paareweise Vergleiche zwischen Behandlungen; die p-Werte werden angepasst, um das Risiko von Fehlentscheidungen durch Mehrfachtests zu verringern.
Quade-Test als Alternative: Als eigene nichtparametrische Alternative zu Nachtests kann der Quade-Test zusätzliche Einsichten liefern, vor allem wenn die Blockstrukturen komplexer sind.

Bei der Planung von Post-hoc-Analysen sollten Sie die Anzahl der Vergleiche berücksichtigen, um eine angemessene Fehlerkontrolle sicherzustellen. In der Praxis empfiehlt es sich, im Vorfeld das gewünschte Korrekturverfahren festzulegen und dieses konsistent anzuwenden.

Praktische Hinweise und Stolpersteine

Wie bei jeder statistischen Methode gibt es Fallstricke, auf die Sie achten sollten, damit der Friedman-Test zuverlässig interpretierbar bleibt:

Unvollständige Blöcke: Fehlende Behandlungen in Blöcken stören das Rangverfahren. Entfernen Sie unvollständige Blöcke oder verwenden Sie geeignete Alternativen, um Verzerrungen zu vermeiden.
Ausreißer: Nichtparametrische Tests sind robuster gegenüber Ausreißern, dennoch sollten extreme Werte überprüft werden, um sicherzustellen, dass sie authentisch sind und nicht Messfehler darstellen.
Lineare Trends über die Zeit: Der Friedman-Test testet prinzipiell Unterschiede zwischen Behandlungen, nicht zeitliche Trends. Falls ein zeitlicher Trend besteht, sollten Sie zusätzliche Analysen in Betracht ziehen.
Stichprobengröße: Bei sehr kleinen n kann die Exaktheit wichtiger werden. In solchen Fällen bevorzugen Sie exakte Berechnungen oder Monte-Carlo-Simulationen.
Zusammenhang mit Effektgrößen: Der Friedman-Test liefert p-Werte, aber nicht direkt Effektgrößen. Ergänzen Sie die Analyse um geeignete Kennwerte (z. B. differenzierte Rang- oder Größenmaße), um die Praxisrelevanz zu verdeutlichen.

Praktische Beispiele aus der Praxis

Stellen Sie sich vor, Sie vergleichen in einer klinischen Studie vier verschiedene Therapieschemata bei 12 Patienten. Jeder Patient erhält alle vier Therapien nacheinander, und der Outcome wird ordinal bewertet. Die Friedman-Analyse ergibt eine signifikante Abweichung zwischen den Therapien. Daraufhin führen Sie post-hoc-Vergleiche mit dem Nemenyi-Test durch. Die Ergebnisse zeigen, dass Therapie 2 und 3 signifikant besser abschneiden als Therapie 4, während Therapie 1 im Mittelfeld liegt. Diese Erkenntnisse helfen, Behandlungen gezielt auszurichten, ohne auf Annahmen über Normalverteilung angewiesen zu sein.

Rund um Implementierung und Software

Der Friedman-Test lässt sich in nahezu allen gängigen Statistiksoftwares durchführen. Die Implementierung ist gut dokumentiert und in vielen Fällen in wenigen Zeilen Code realisierbar. Hier einige typische Optionen:

R: Die Funktion friedman.test() im Paket stats ermöglicht die Grundanalyse. Beispiel für eine Matrix der Messwerte mit n Zeilen (Blöcke) und k Spalten (Behandlungen):

data <- matrix(c(...), nrow = n, byrow = TRUE)
friedman.test(data)

R mit Long-Format und dplyr/rstatix: Das Paket rstatix bietet Funktionen wie friedman_test() für lange Datenformate, ideal wenn Sie Daten aus Umfragestrukturen oder Experimentaufbauten importieren.
Python (statsmodels, scipy): In Python lassen sich nichtparametrische Tests über ähnliche Funktionen abbilden; oft werden R-Pakete via rpy2 genutzt oder alternative nichtparametrische Verfahren implementiert.
SPSS/STATA: Viele kommerzielle Statistik-Tools unterstützen den Friedman-Test direkt über Menüs oder Skripte; die Ergebnisse enthalten p-Werte, Rangsummen und ggf. Post-hoc-Optionen.

Friedman-Test in der Praxis sinnvoll einsetzen

Wann lohnt sich der Einsatz des Friedman-Tests besonders? Hier einige typische Szenarien:

Sie haben wiederholte Messungen derselben Probandengruppe unter mehreren Behandlungen, die sich nicht normal verteilen.
Die abhängige Variable ist ordinal skaliert (Likert-Skala, Ränge, Rankings).
Sie möchten robuste Ergebnisse ohne starke Verteilungsannahmen erzielen, insbesondere in explorativen Studien oder im Frühstadium von Projekten.

Häufige Missverständnisse rund um den Friedman-Test

Um falsche Interpretationen zu vermeiden, hier einige Klarstellungen:

Der Friedman-Test beweist, dass alle Behandlungen gleich sind? Nein. Der Test prüft die Nullhypothese, dass alle Behandlungen dieselben zentrale Tendenzen haben. Bei einer Signifikanz besteht Hinweis auf Unterschiede, aber nicht welche genau sich unterscheiden. Post-hoc-Analysen sind nötig.
Ist der Friedman-Test robust gegen Ausreißer? Ja, aufgrund der Rangbildung ist er robuster als parametrische Methoden, aber extreme Ausreißer können dennoch Verzerrungen verursachen. Prüfen Sie Datenqualität sorgfältig.
Kann man den Friedman-Test mit fehlenden Werten verwenden? Nicht direkt. Fehlende Werte in Blöcken verhindern eine vollständige Rangordnung. Es gibt Ansätze, aber in der Praxis empfiehlt sich oft, Blöcke mit fehlenden Werten zu eliminieren oder auf alternative Verfahren auszuweichen.

Friedman-Test – Tipps für Publikation und Berichte

Bei der Berichterstattung helfen klare Beschreibungen der Designparameter, der Anzahl der Blöcke, der Behandlungen und der Handling-Strategien bei fehlenden Werten. Nennen Sie außerdem die Software-Version, die Sie verwendet haben, die gewählten Post-hoc-Tests und die Korrektur für Mehrfachvergleiche. So gewährleisten Sie Reproduzierbarkeit und Transparenz Ihrer Ergebnisse.

Friedman-Test in der Theorie und Praxis zusammengefasst

Der Friedman-Test ist eine leistungsfähige, nichtparametrische Methode, die sich speziell für Blockdesigns mit wiederholten Messungen eignet. Er liefert eine robuste Einschätzung, ob Behandlungen signifikante Unterschiede aufweisen, ohne strenge Normalverteilungsannahmen zu erfordern. Durch seine Rangbasierte Natur minimiert er die Auswirkungen von Ausreißern und Verteilungsschwankungen. In der Praxis lässt sich der Friedman-Test nahtlos in moderne Analyseworkflows integrieren, unterstützt durch umfangreiche Software-Optionen und klare Post-hoc-Strategien, um detaillierte Unterschiede zwischen Behandlungen aufzudecken.

Zusammenfassung der Kernpunkte

Friedman-Test ist der zentrale nichtparametrische Test für wiederholte Messungen in Blocks-Designs.
Er basiert auf Rangordnungen innerhalb jeder Blockgruppe und verwendet die Rangsummen zur Bestimmung der Signifikanz.
Die Nullhypothese lautet: Alle Behandlungen haben dieselbe zentrale Tendenz; eine Abweichung deutet auf Unterschiede hin.
Bei signifikantem Ergebnis folgen Post-hoc-Analysen, um herauszufinden, welche Behandlungen sich unterscheiden.
Die Praxis erfordert korrekte Handhabung von Bindungen, fehlenden Werten und Mehrfachvergleichen.

Weiterführende Ressourcen zur Vertiefung

Wenn Sie Ihre Fähigkeiten im Umgang mit dem Friedman-Test vertiefen möchten, empfiehlt es sich, Standardwerke zur nichtparametrischen Statistik zu konsultieren, Praxisbeispiele in Fachartikeln zu studieren und sich mit gängigen Statistikpaketen auseinanderzusetzen. Eine solide Grundlage in Rangstatistiken, Blockdesigns und der Interpretation von p-Werten hilft, die Ergebnisse des Friedman-Tests sinnvoll einzuordnen und für Ihre Forschungsfrage nutzbringend zu interpretieren.

Hinweis zu Referenzen und Lernern

Dieser Leitfaden konzentriert sich auf die praktische Anwendung des Friedman-Tests sowie dessen theoretische Hintergründe, ohne sich auf einzelne Softwarepakete festzulegen. Die Kernprinzipien bleiben unabhängig von der gewählten Implementierung gültig: Blockdesign, Rangbildung innerhalb der Blöcke, Berechnung der Teststatistik und sinnvolle Nachfolgeranalysen bei Signifikanz.