physio.dephysio.de
  • Jobs
  • Kleinanzeigen
  • Ausbildung
    • Ausbildung
    • Schulen
    • Studium
    • Skripte
  • Selbstständig
    • Preislisten
    • Fortbildungen
    • Terminplan
    • Firmen und Produkte
    • Praxisbörse
  • Infothek
    • Infothek
    • Datenschutz (DSGVO)
    • News
    • Heilmittelrichtlinie
    • Skripte
    • Bücher
    • Praxisverzeichnis
  • Foren
    • Neue Beiträge
    • Physiotherapie
    • Blankoverordnung
    • Heilmittelrichtlinie
    • Selbstständig
    • Ergotherapie
    • Logopädie
    • Arbeit
    • Schüler
    • Therapiemethoden
    • Freie Mitarbeit
    • Recht & Steuern
    • Sonstiges
  • Anmelden

München/ Schwabing

Für unsere schöne Altbaupraxis in
München Schwabing suchen wir zum
nächstmöglichen Zeitpunkt ein
neues Teammitglied in Vollzeit oder
Teilzeit.
Die Praxis liegt öffentlich
perfekt zu erreichen direkt an der
Münchner Freiheit. Die Praxis hat
ausschließlich großzügig
bemessene Einzelbehandlungsräume
und bietet ein hervorragendes
Ambiente für entspanntes Arbeiten
am und mit den Patienten. Einen
ersten Eindruck kannst Du unter
www.physio-schwabing.de gewinnen.
Die meisten Patienten, die...
0
Wissenschaft
Lässt sich Kritik an Physio-Studien entkräften?
Eine kleine Unterstützung im Lesen von Studien – Oder: "Was ist bei der Anzahl von TeilnehmerInnen in Studien wichtig?"
01.07.2025 • 1 Kommentar
Lizenz: CC-BY •
Immer wieder wird über die Limitationen von wissenschaftlichen Veröffentlichungen berichtet, diskutiert und diese auch kritisiert. In den Sozialwissenschaften werden viele „kleine“ Studien veröffentlicht (Und die Physiotherapie zählt eben grob gesagt laut der Systematik nach Luhmann zu den Sozialwissenschaften). Die geringe Anzahl an TeilnehmerInnen ist dann hierbei meist das Hauptziel der Kritik. Doch stimmt das überhaupt? Sind kleine Studien per se wirklich schlechter?

Wir meinen: Nicht unbedingt. Und dies möchten wir Ihnen mit diesem Artikel erklären.

Die Größe macht nicht immer den Unterschied
Die Anzahl der TeilnehmerInnen einer Untersuchung macht viel aus. Das ist nicht abzustreiten. Aber dies gilt sowohl im positiven als auch negativen Sinne. So ist eine kleine Stichprobengröße nicht immer von Nachteil. Denn je größer die Anzahl (n) der TeilnehmerInnen an einer Studie ist, desto wahrscheinlicher werden selbst kleinste Unterschiede statistisch signifikant. Das hat die Statistik so an sich.

Das Ganze an einem Beispiel erklärt
Stellen wir uns vor, wir haben eine randomisiert kontrollierte Studie (RCT) mit zwei Gruppen à 16 TeilnehmerInnen. Diese soll prüfen, ob eine Behandlung nach Konzept A (wie z. B. Affolter) andere/bessere Ergebnisse liefert als die Behandlung nach Konzept B (wie z. B. Bobath). Die Beurteilung der Verbesserung/Veränderung wird mit dem Barthel Index (BI / 0-100) gemessen:

  • • Gruppe Affolter erreicht am Ende der Therapie 50 Punkte auf dem Barthel Index.
    • Und die Gruppe Bobath erreicht dagegen lediglich 49 Punkte.
Die Mittelwerte in beiden Gruppen schwanken wie üblich leicht mit jeweils 2 Punkten.

Somit ergibt sich ein Unterschied von gerade einmal 1 Punkt (+/-2). Beziehungsweise beim Barthel Index würden wir hier von 1 Prozent sprechen (+/-2). Um klinische Relevanz (MCID) zu erreichen, müssten bei akuten Schlaganfall-Patientinnen jedoch eine Differenz von mindestens ca. 2 Punkten und bei älteren/geriatrischen ProbandInnen mit Schenkelhalsfraktur eine Differenz von ca. 10 Punkte vorliegen. Erst dann würde man von einer für die Praxis ausreichenden Überlegenheit der einen Therapieform gegenüber der anderen Therapieform sprechen.

Zu den Größen der Stichproben
Nun zu den Stichprobengrößen. Das Ziel bestimmter statistischer Tests ist es auch, zu ermitteln, wie groß die Rolle des Zufalls war. Hierfür stellt man sich folgende Frage:

    „Mit welcher Wahrscheinlichkeit würde – bei mehrfacher Wiederholung der Studie mit immer neuen ProbandInnen – stets derselbe gemessene Unterschied wieder entstehen?“
In der Veröffentlichung einer Studie wird diese Zufallswahrscheinlichkeit in Prozent als sogenannter p-Wert angegeben. Je niedriger dieser p-Wert ist, desto geringer die „Gefahr“, dass die Überlegenheit reiner Zufall war. Oder anders ausgedrückt: Desto sicherer kann man sein, dass das überlegene Abschneiden einer Therapieform an dem Therapiekonzept selbst liegt.

In den Sozialwissenschaften (wie der Physiotherapie) muss der p-Wert kleiner als 0,05 sein. Ab dann spricht man von statistischer Signifikanz.

    „p=0,05 bedeutet: Die Wahrscheinlichkeit, dass die Unterschiede zwischen den Gruppen durch Zufall entstanden sind und nicht der Behandlung zuzuschreiben sind, ist 5 Prozent. Das heißt, dass sie zu 95 Prozent nicht durch den Zufall, sondern durch die Behandlung entstanden sind.“
Nun zurück zu unserem Affolter/Bobath-Beispiel. Um den p-Wert hier zu ermitteln, verwendet man den sog. „t-Test bei unabhängigen Stichproben“ . In diesen fließen Werte wie:

  • • Stichprobengröße,
    • aber auch Mittelwert und
    • Standardabweichung
mit ein.

Und in der oben beschriebenen Studie mit jeweils 16 TeilnehmerInnen pro Gruppe würde der t-Test bei diesem minimalen Unterschied (1 Punkt) einen P-Wert von 0,16 ermitteln. Auf Deutsch: Die Wahrscheinlichkeit, dass die Überlegenheit/der Effekt auf Zufall basiert, liegt bei 16 Prozent. Dies ist deutlich höher als die „erlaubten“ 5 Prozent.

Nimmt man hingegen doppelt so viele (32) Menschen pro Gruppe auf – was oftmals immer noch als „kleine Stichprobengröße“ bezeichnet wird – führt derselbe Zwischengruppenunterschied von 1 Punkt laut t-Test plötzlich zu einem P-Wert von 0,046. Dies liegt unter dem „erlaubten“ Wert von 0,05. Oder anders ausgedrückt: Die Gefahr, dass es sich bei der gemessenen Überlegenheit von Affolter um Zufall handelt, liegt bei 4,6 Prozent. Der Statistiker würde sagen: „Die statistische Signifikanz ist hier aufgrund von p = 0,046 gegeben.“

Das Ganze auf die Spitze getrieben
Überspitzen wir das Beispiel noch weiter. Bei einer Stichprobengröße von 3.100 ProbandInnen pro Gruppe würde uns der t-Test sagen: Selbst ein minimaler Unterschied im Barthel Index von 0,1 Punkten ist plötzlich statistisch signifikant (unter dem erlaubten P-Wert von 0,05).

Was heißt das in der Praxis?
Der p-Wert an sich sagt noch nichts über die Überlegenheit des einen Konzeptes (A wie Affolter) gegenüber dem anderen Konzept (B wie Bobath) aus (klinische Relevanz). Er sagt lediglich, wie „belastbar“ die gemessenen Unterschiede sind (statistische Signifikanz).

Das heißt in der Praxis: Ich schaue mir den P-Wert an. Ist dieser oberhalb des „erlaubten“ Maßes, bedeutet das: „Ok, es sind Unterschiede in der gemessenen Überlegenheit. Diese basieren aber leider zu einem zu großen Teil auf Zufall. Selbst wenn der Unterschied groß genug für eine klinische Relevanz sein mag, darf ich dennoch umgehend schlussfolgern: Keines der beiden Konzepte ist dem anderen überlegen.“

Man sieht aber anhand unseres „Auf-die-Spitze-getrieben-Beispiels“ (und unter Beachtung, welche Größen alles in den t-Test einfließen) auch: Ist die Stichprobengröße nur groß genug, hat plötzlich selbst ein kleiner Unterschied in den Konzepten (von 0,1 Punkten) eine statistische Aussagekraft. Nun muss im nächsten Schritt bei einem p-Wert, der kleiner als das „erlaubte“ Maß ist, betrachtet werden, ob der gemessene und statistisch signifikante Unterschied auch groß genug für eine klinische Relevanz ist.

Und es gibt noch einen Effekt
Wer sich mit der „p-Wert produzierenden Maschine“ t-Test noch ein wenig intensiver beschäftigt, wird feststellen, dass diese auch „erlaubte“ p-Werte für sehr kleine Testgruppen „ausspucken“ kann. Zwingende Voraussetzung hierfür ist allerdings, dass die Unterschiede in der gemessenen Überlegenheit/den gemessenen Effekten groß genug sind. Oder anders ausgedrückt: Je größer der gemessene Unterschied zwischen den Gruppen ist, desto kleiner darf die Stichprobe sein.

Und jetzt kommt die klinische Relevanz ins Spiel
Um in der Praxis überhaupt eine „Rolle zu spielen“, muss eine Therapiemethode der andern in einem sog. klinisch relevanten Ausmaß überlegen sein. Dies sind meist hohe Werte (siehe Eingangs: Schlaganfall 2 Punkte, Schenkelhals 10 Punkte). Und wie eben gezeigt, genügen bei großen Unterschieden bereits kleine ProbandInnen-Gruppen, um eine belastbare Aussage zu erhalten, respektive um einen akzeptablen p-Wert von unter 0,05 zu erreichen.

Wir haben das einmal für Sie ausgerechnet: Bei einer Intervention, die so stark überlegen ist, dass sie bei akuten Schlaganfall-PatientInnen mehr als zwei Punkte (klinische relevant) besser als eine Vergleichsbehandlung ist, sind bereits 18 Personen (neun je Gruppe) ausreichend, um statistisch signifikant (belastbar) zu werden. Bei geriatrischer Klientel mit Schenkelhalsfraktur wären es pro Gruppe fünf Personen.

Schlussbemerkungen
Kofaktoren
Wäre jede Studie so einfach, bräuchte man sich – wie man im obigen Absatz sieht – um die Stichprobengröße keine Sorgen mehr machen. Aber Menschen sind eben kein Stück Knochen mit Nervengewebe in einem Reagenzglas an dem alle Umgebungsbedingungen auf null gestellt werden können, um am Ende nur A versus B zu vergleichen. Daher gibt es bei klinischen Studien eine Vielzahl von sogenannten Kofaktoren, die das Ergebnis beeinflussen können. Dazu zählen beispielsweise das Alter, Geschlecht, Dauer der Symptome, Nebenerkrankungen und vieles mehr. Es müssen deshalb die Studienergebnisse immer in ihrem Kontext interpretiert werden. Oder aber eine Vielzahl von „kleineren“ Studien mit immer unterschiedlichen Populationen ergeben dann in Summe eine verallgemeinerbare Aussage.

Um diese Einflussgrößen optimal zu berücksichtigen, wird heutzutage immer empfohlen, eine sogenannte Regressionsrechnung durchzuführen und damit zu prüfen, welchen Anteil die Intervention selbst am „produzierten“ Ergebnis hat und welchen die möglichen Kofaktoren. Hierfür wird dann allerdings eine größere Anzahl an TeilnehmerInnen benötigt. Je nach Anzahl der Kofaktoren werden laut wissenschaftlichem Standard zwischen 25 (bei einem) und 77 (bei 20 Kofaktoren) Personen für klinisch relevante Effekte benötigt.

Homogenität
Besonders wichtig ist es, dass die Personen, die in eine Studie eingeschlossen werden, repräsentativ sind. Das bedeutet, dass die TeilnehmerInnen beispielsweise auch einer üblichen Klientel mit dem Krankheitsbild entsprechen sollten. Denn sonst können die Ergebnisse nicht in die Praxis übertragen werden.

Bei Vergleichsstudien (RCT) muss zudem darauf geachtet werden, dass die Personen der Gruppen zueinander homogen verteilt sind. Sind beispielsweise die TeilnehmerInnen von Gruppe A durchschnittlich 55 und die von B 65 Jahre alt, kann dies dazu führen, dass sich der Kofaktor „Alter“ auf die Ergebnisse auswirkt.

Aber nicht nur die Kofaktoren sollten so betrachtet werden, sondern auch die zu messenden Endpunkte, wie z. B. der Barthel Index aus dem obigen Beispiel. Denn je stärker jemand zu Beginn eingeschränkt ist, desto größer kann einerseits das Verbesserungspotenzial sein; oder aber umso unwahrscheinlicher wird eine Genesung, weil der Schweregrad zu massiv ist.

Für jeden Topf ein Deckel
In der Vielfältigkeit der statistischen Verfahren gibt es für jede Abweichung von den oben beschriebenen Normen einen korrekten Test. Das Problem dabei ist, dass es ein ausreichend tiefes Wissen über Statistik braucht, um die richtigen Entscheidungen zu treffen.

Zunächst muss man wissen, welche Voraussetzungen erfüllt sein müssen, um einen Test durchführen zu dürfen. Und direkt daran anknüpfend, welchen alternativen Test man nutzen muss, wenn die Bedingungen verletzt sind. Zu solchen Voraussetzungen zählen beispielsweise die Stichprobengröße, die Homogenität und die Normalverteilung der Daten. Aber auch die Gruppengröße selbst ermöglicht oder verbietet bestimmte statistische Verfahren. Für kleine Gruppen gibt es andere Tests als für große. Haben die Vergleichskohorten keine gleiche Anzahl an TeilnehmerInnen, müssen bestimmte Korrekturrechnungen vorgelagert werden.

Abschlussanmerkung der Autoren
So. Das soll unser heutiger Ausflug in das Reich der wissenschaftlichen Statistik gewesen sein. Einige Ausführungen sind aus Gründen der Verständlichkeit vereinfacht oder verkürzt und daher in manchen Punkten eventuell etwas unpräzise. Dies schmälert nicht die Korrektheit der Kernaussagen, kann aber bei Menschen mit tiefem methodischem Verständnis zu Irritationen führen.

Wir hoffen dennoch, dass Sie Studien in Zukunft wieder ein bisschen gewinnbringender lesen und in Diskussionen darüber noch kompetenter auftreten können. Falls ja: Es war uns ein Anliegen und Freude zugleich.

Martin Römhild B.Sc. und Friedrich Merz / physio.de

Mehr Lesen über

BegriffsklärungStatistik


Es gibt 1 Beitrag
abonnieren
Zum Kommentieren bitte erst anmelden. Dafür hier klicken.
Gelabinchen
Vor 4 Monaten
Ob große oder mehrere kleine Studien hängt nicht nur von den Probanden ab sondern auch von den Therapeuten. Wie lange arbeiten diese Therapeuten schon mit der ein oder anderen Technik um durch Erfahrung auch Techniken anzupassen? In der praktischen Therapie werden Techniken miteinander vermischt um individuell auf Patienten anzupassen. Würden Studien Techniken zusammenwürfeln und dadurch weitere Zertifikatspositionen verhindern, wäre es mal eine sinnvolle Studie die reale Ergebnisse vermittelt und dem studierten Therapeuten viel mehr Spaß am Probanden bereiten würde.
Kurzes Beispiel zur Bewegung:
Achtet man im Straßenverkehr darauf wie wenig Menschen mittlerweile noch in der Lage sind einen einzigen Finger zu bewegen um den Blinker zu betätigen, dann weiß man wie schwierig es in der Praxis läuft um Patienten zu Übungen für zu Hause zu bewegen. Nicht selten sind unter den Fingerbewegunslegasthenikern im Straßenverkehr auch Therapeuten. Wir können entweder darauf aufmerksam machen oder anpassen, aber vorallem lernen mit Kritik umzugehen um besser zu werden
1

Gefällt mir

• katrin180
Ob große oder mehrere kleine Studien hängt nicht nur von den Probanden ab sondern auch von den Therapeuten. Wie lange arbeiten diese Therapeuten schon mit der ein oder anderen Technik um durch Erfahrung auch Techniken anzupassen? In der praktischen Therapie werden Techniken miteinander vermischt um individuell auf Patienten anzupassen. Würden Studien Techniken zusammenwürfeln und dadurch weitere Zertifikatspositionen verhindern, wäre es mal eine sinnvolle Studie die reale Ergebnisse vermittelt und dem studierten Therapeuten viel mehr Spaß am Probanden bereiten würde. Kurzes Beispiel zur Bewegung: Achtet man im Straßenverkehr darauf wie wenig Menschen mittlerweile noch in der Lage sind einen einzigen Finger zu bewegen um den Blinker zu betätigen, dann weiß man wie schwierig es in der Praxis läuft um Patienten zu Übungen für zu Hause zu bewegen. Nicht selten sind unter den Fingerbewegunslegasthenikern im Straßenverkehr auch Therapeuten. Wir können entweder darauf aufmerksam machen oder anpassen, aber vorallem lernen mit Kritik umzugehen um besser zu werden
Gefällt mir
Antworten

Wollen Sie diesen Beitrag wirklich melden?

Problem beschreiben

Gelabinchen schrieb:

Ob große oder mehrere kleine Studien hängt nicht nur von den Probanden ab sondern auch von den Therapeuten. Wie lange arbeiten diese Therapeuten schon mit der ein oder anderen Technik um durch Erfahrung auch Techniken anzupassen? In der praktischen Therapie werden Techniken miteinander vermischt um individuell auf Patienten anzupassen. Würden Studien Techniken zusammenwürfeln und dadurch weitere Zertifikatspositionen verhindern, wäre es mal eine sinnvolle Studie die reale Ergebnisse vermittelt und dem studierten Therapeuten viel mehr Spaß am Probanden bereiten würde.
Kurzes Beispiel zur Bewegung:
Achtet man im Straßenverkehr darauf wie wenig Menschen mittlerweile noch in der Lage sind einen einzigen Finger zu bewegen um den Blinker zu betätigen, dann weiß man wie schwierig es in der Praxis läuft um Patienten zu Übungen für zu Hause zu bewegen. Nicht selten sind unter den Fingerbewegunslegasthenikern im Straßenverkehr auch Therapeuten. Wir können entweder darauf aufmerksam machen oder anpassen, aber vorallem lernen mit Kritik umzugehen um besser zu werden



    Zum Kommentieren bitte erst anmelden. Dafür hier klicken.

Mein Profilbild bearbeiten

Das könnte Sie auch interessieren

Begriffsklärung
Studiendesigns einfach erklärt
Das „Was ist was“ wissenschaftlichen Arbeitens
07.11.2024 • Von M. Römhild
Synästhesie
Wenn Wörter schmecken und Farben riechen
Wissenswertes über das Wahrnehmungsphänomen
04.09.2024 • Von L. Lorenzen
Begriffsklärung
Zusatzangebote für Praxen
Was ist eigentlich T-RENA, RV-Fit, Rehasport und Funktionstraining?
25.04.2024 • Von D. Bombien
Alle Artikel zum Thema

© 2025 physio.de - Physiotherapie in Deutschland  Impressum - Datenschutz - AGB - Diese Seite weiter empfehlen - Ihre E-Mail an uns