News - Wörter aus der Wissenschaft

Begriffserklärung

Wörter aus der Wissenschaft

Eine Übersicht häufig verwendeter Begriffe in wissenschaftlichen Arbeiten, wie: Mittelwert, Median, Standardabweichung, Konfidenzintervall, Statistische Signifikanz oder Klinische Relevanz

14.07.2022 • 0 Kommentare

Foto: Martin Römhild • Lizenz: CC-BY •

"Traue keiner Statistik, die Du nicht selbst gefälscht hast." Dieses Bonmot wird häufig Winston Churchill zugeschrieben. Es macht deutlich, dass man mit ein wenig Boshaftigkeit mittels Studien und Statistiken alles Mögliche behaupten und belegen kann. Damit diesem Wildwuchs Einhalt geboten werden kann, wurden bestimmte Begriffe und Qualitätskriterien entwickelt anhand derer man die Qualität von Studienergebnissen einschätzen kann.

Da diese Begriffe regelmäßig auch in medizinischen Studien auftauchen, möchten wir Ihnen in diesem Beitrag einige der häufigsten Wörter kurz erläutern.

Normalverteilung
Stellen wir uns eine Schulklasse mit 25 Schülern vor. In dieser sieht es in Sachen Körpergröße wie folgt aus:

• eine Schülerin: 1,65 Meter
• zwei Schülerinnen: 1,70 Meter
• drei Schülerinnen: 1,75 Meter
• vier SchülerInnen: 1,78 Meter
• fünf Schüler: 1,80 Meter
• vier Schüler: 1,82 Meter
• drei Schüler: 1,85 Meter
• zwei Schüler: 1,90 Meter
• ein Schüler: 1,95 Meter

Trägt man nun die Körpergröße dieser Schulklasse in ein Diagramm ein, entsteht ein Bild der sog. "Normalverteilung" - auch "Glockenverteilung" genannt. Dabei hat die Mehrheit der SchülerInnen eine nahezu gleiche Größe. Und es gibt es einige größere und kleinere sowie einzelne sehr große und sehr kleine MitschülerInnen. Die Anzahl der größeren und kleineren Schüler ist ungefähr gleich groß.

Schiefe Verteilung
Bleiben wir beim Beispiel der Schulklasse. Zum neuen Schuljahr kommt nun Dirk und einer seiner Basketballfreunde neu in die Klasse – sie hatten vor lauter Basketball kaum Muße zum Lernen und blieben sitzen. Dirk ist 2,13 Meter und sein Freund sogar 2,20 Meter. Man findet immer noch eine Mehrheit nahezu gleich großer SchülerInnen. Anders als bei der Normalverteilung aber häufen sich nun mehr größere SchülerInnen als kleinere. Dadurch verschiebt sich die Glockenform zu einer sogenannten linksschiefen Verteilung.

Gäbe es mehr kleinere als größere SchülerInnen, entstünde eine Rechtsschiefe.

Mittelwert
Betrachtet man Parameter einer Personengruppe, verteilen sich die Messwerte um einen zentralen Punkt. Befragt man beispielsweise eine beliebige Menge von Menschen mit Nackenschmerzen zur Intensität ihrer Beschwerden (auf einer Skala von 0 bis 10), werden einige mehr, andere wiederum weniger Schmerz angeben. Bei solchen Beobachtungen entsteht meist die Normalverteilung. Liegt diese vor, nutzt man den Mittelwert zur Darstellung der Ergebnisse. Zur Berechnung addiert man alle Werte und teilt sie durch die Anzahl (normale Durchschnittsberechnung).

Oder um in unserem Eingangsbeispiel der Schulklasse ohne Dirk zu bleiben, hieße das: Summe der Körpergröße aller Schüler (4.500 cm) geteilt durch 25 Schüler macht einen Mittelwert von 1,80 Meter. Man kann also sagen der/die durchschnittliche SchülerIn ist 1,80 Meter groß.

Median
Liegt keine Normalverteilung vor, empfiehlt es sich, den Median statt den mathematischen Durchschnitt als Mittelwert zu verwenden. Dieser repräsentiert den Mittelwert bei einer schiefen Verteilung viel besser.
Die herkömmliche Durchschnittsberechnung (siehe oben) würde ein verzerrtes Bild liefern. Dirk und sein Freund würden den Durchschnitt auf ca 1,83 Meter anheben (4.933 cm geteilt durch 27 Schüler), die mittlere Mehrheit der Schüler wäre aber immer noch so ca. um die 1,80 Meter groß.

Verdeutlichung durch Übertreibung
Oder um es mit einem sehr drastischen Beispiel zu verdeutlichen: In einem kleinen Königreich leben und arbeiten 1.000 PhysiotherapeutInnen. Alle verdienen mtl. 2.500 Euro. Es gibt eine große Medienkampagne darüber, wie wenig PhysiotherapeutInnen verdienen. Alle Bürger der Stadt sind sich einig, dass die TherapeutInnen mehr verdienen müssen und überzeugen den König. Aber kurz bevor dieser den Verdienst aller TherpeutInnen anhebt, wird Elon Musk (Inhaber von Tesla und einer der reichsten Menschen der Welt) Neubürger des Königreiches und bezahlt seinem persönlichen Physiotherapeuten 1.000.000 Euro Monatsgehalt.

Nun rechnet der König erneut den mtl. Durchschnittsverdienst aller 1.001 TherapeutInnen aus und kommt auf einmal auf annähernd 3.500 Euro und sagt: "Ups, doch gar nicht so schlecht!". Daraufhin bläst er die geplante Lohnerhöhung für alle TherapeutInnen wieder ab, denn im Schnitt verdienten ja jetzt die TherapeutInnen ca. 3.500 Euro im Monat. Wäre das gerecht? Oder wäre es nicht gerechter, davon auszugehen, dass irgendwie die Masse im Schnitt doch nur 2.500 Euro verdient? Hierfür gibt es die sog. Median.

Ermittlung des Median
Median kommt aus dem Lateinischen und bedeutet Mitte. Um den Median zu ermitteln, schreibt man einfach die Größe aller 27 Schüler geordnet nebeneinander hin und schaut welcher der Werte nun in der Mitte steht; also neben welchen Wert stehen links die Körpergröße von 13 kleineren und rechts die Körpergröße von 13 größeren Schülern? In unserem Falle wäre das dann der Wert von 1,80 Metern.
Oder um im zweiten Beispiel zu bleiben: Sie schreiben tausendmal 2.500 nebeneinander und am Ende der Reihe die 1 Mio. Monatsverdienst des Therapeuten von Elon Musk. Dann schauen sie welcher Wert in der Mitte der Zahlenreihe steht (2.500) und erhalten somit den Medianverdienst von 2.500 Euro - im Gegensatz zum Durchschnittsverdienst von ca. 3.500 Euro.

Hier der Median noch einmal in einem Video schön erklärt

Standardabweichung (SD)
Die Standardabweichung (SD) beschreibt die Streuung der Ergebnisse um den Mittelwert herum. Misst man die Schulklasse ohne Dirk und seinen Kumpel, sind diese im Durchschnitt 1,80 Meter groß. Die kleinste Schülerin ist 1,65 und der größte Schüler ist 1,95. Somit beträgt die SD in diesem Fall 0,15 Meter.

Konfidenzintervall (CI)
Konfidenz kommt vom lateinischen Wort "confidere", was übersetzt "vertrauen" heißt. Es geht also darum: Wie sehr kann ich den Ergebnissen einer Untersuchung vertrauen?
In wissenschaftlichen Untersuchungen kann meist nur eine (kleine) Stichprobe aus der Gesamtheit gezogen werden. Um zum Beispiel zu untersuchen, ob ein Schmerzmittel gegen die Nackenschmerzen hilft, kann man es ja nicht an allen 80 Mio. Bundesbürgern testen.

Daher gibt es eine potenzielle Fehleranfälligkeit, da der Mittelwert der ProbandInnen nicht zwingend den der durchschnittlichen Population repräsentiert.
Oder um diesen Fehler wieder anhand unseres Beispiels der Schulklasse mit Dirk Nowitzki zu verdeutlichen: Würde man aus der Klasse nur eine relativ kleine Stichprobe - bestehend aus der der kleinsten Schülerin (1,65 Meter) und den drei größten Schülern (1,95 Meter, 2,13 Meter und 2,20 Meter) - hernehmen, könnte man (fälschlicherweise) behaupten: Das Ergebnis der Untersuchung besagt, dass die Schüler im Schnitt 1,98 Meter groß sind.

Um diese Fehler weitestgehend zu vermeiden, wählt man nicht nur einen isolierten Einzelwert bei der Angabe des Mittelwertes, sondern betrachtet den Streuungsbereich um diesen Wert (1,65 Meter bis 2,20 Meter) herum. Diesen Bereich nennt man Konfidenzintervall (CI). Plastisch ausgedrückt: Ich kann darauf vertrauen, dass die Körpergröße (fast) aller SchülerInnen in dem Bereich zwischen 1,65 Meter und 2,20 Meter liegt.

In der Versorgungsforschung im konservativen Bereich wählt man meist ein CI von 95 Prozent. Statistisch betrachtet beschreibt der Wert, dass bei einer hundertfachen Wiederholung der Untersuchung mit immer wieder neuen ProbandInnen mit einer 95-prozentigen Wahrscheinlichkeit der „wahre Mittelwert“ in diesem Bereich liegt. Dadurch steigen Aussagekraft und Übertragbarkeit dieser Studie.

Statistische Signifikanz
In einer wissenschaftlichen Arbeit überprüft man Hypothesen, beispielsweise, ob eine Intervention einen größeren Erfolg hat als ein Placebo. Ergibt die Untersuchung, dass die Intervention bei allen (zu dem Begriff "alle" unten mehr) ProbandInnen bessere Ergebnisse hervorbrachte als das Placebo, spricht man von einem statistisch signifikanten Effekt. Das „alle“ wird dabei vom Konfidenzintervall (CI) definiert.

In den Sozialwissenschaften wird ein sogenanntes Signifikanzniveau von 5 Prozent (p < 0,05) angenommen. In anderen Wissenschaftsdisziplinen mit weniger Störgrößen werden kritischere Werte (1 oder 0,1 Prozent) angesetzt. In der Statistik wird immer gegen die sogenannte Nullhypothese (siehe unten) getestet. Diese sagt, dass es KEINEN Effekt gibt. Ist ein Ergebnis statistisch signifikant, wird die Nullhypothese abgelehnt und die Alternativhypothese (es gibt EINEN Effekt) angenommen. Die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise abgelehnt wurde, ist so groß, wie das Signifikanzniveau angibt.

Ein P-Wert von 0,05 bedeutet: Würde man dieselbe Studie nun 100 Mal durchführen, würde bei p = 0,05 in 95 Prozent der Fälle identische Ergebnisse entstehen. In fünf Studien würden die Ergebnisse leicht von dem Ergebnis abweichen.

Nullhypothese
Die Bedeutung der "Nullhypothese" lässt sich am leichtesten merken mithilfe des Satzes: Es besteht NULL Zusammenhang zwischen einer Intervention und evtl. gemessenen Verbesserungen (denn auch Placebobehandlungen wirken beispielsweise).
Korrekterweise werden die Ergebnisse einer Studie immer den Ergebnissen einer Vergleichsgruppe gegenübergestellt.

Diese Vergleichsergebnisse können entweder aus einer Placebogruppe stammen, dann besagt die Nullhypothese: 'Das Schmerzmittel wirkt so gut/so schlecht wie das Placebo.' Oder die Vergleichswerte stammen aus einer Gruppe mit "Keine Therapie", dann besagt sie: 'Das Schmerzmittel bringt keine Verbesserungen'.

Sprich: Schon beim Designen meiner Studie definiere ich, was meine sog. Nullhypothese sein soll.

Klinische Relevanz
Neben der Frage, ob es überhaupt einen eindeutigen Effekt gibt, ist zudem zu klären, ob der Nutzen auch im Alltag eine relevante Veränderung bietet. Es ist möglich, dass die Veränderung eines Messwertes statistisch signifikant ausfällt, aber die Änderung so gering ist, dass sie für das Leben der Person keinen relevanten Einfluss hat.

Für nahezu alle Parameter, die man erheben kann, gibt es einen Wert, der die Grenze der klinischen Relevanz repräsentiert: Die sogenannte „minimal clinical important difference“ (MCID).
Oder, da man in Beobachtungsstudien keine Referenzgruppe hat, nutzt man statt der MCID die sogenannte „Minimal Detectable Change“ (MDC).

Minimal clinical important difference (MCID)
Der Grenzwert, ab dem eine Veränderung einen tatsächlichen Alltagsnutzen aufweist, nennt man minimal clinical important difference – die kleinste klinisch relevante Veränderung. Am Beispiel von Schmerzintensität – gemessen mit der „visuellen Analogskala“ (VAS) – ist dies leicht erkennbar. Je nach Körperregion und Krankheitsbild schwankt die MCID leicht, bewegt sich aber um etwa zwei Punkte auf der Zehnerskala bzw. 20 von 100 Millimetern. Wird durch eine Intervention der Schmerz bei allen Probanden um durchschnittlich 15 mm verbessert, ist dies zwar statistisch signifikant, aber nicht klinisch relevant.

Ein weiteres Beispiel ist der "Timed-Up-and-Go-Test (TUG)". Er dient der Einschätzung des Sturzrisikos in der Neurologie und Geriatrie. Nun wäre es möglich, dass durch eine Intervention die Zeit des Tests bei allen PatientInnen verbessert wird. Verändert sich der Wert bei allen nur um wenige Sekunden, verändert sich die Sturzneigung nicht. Somit ist zwar die Zeit signifikant verändert, hat aber keine klinische Relevanz.

Minimal Detectable Chance (MDC)
Die minimal erkennbare Veränderung (engl.: Minimal Detectable Chance - MDC) ist der Wert, den eine Intervention in einer Beobachtungsstudie ohne Vergleichsgruppe erzielen muss, um als klinisch relevant zu gelten. Am Beispiel des „Neck Disability Index (NDI)“ zeigt sich, dass dieser Wert meistens noch höher liegt als der MCID. Die MDC ist hier zwischen 8,4 und 13,4 Punkten, die MCID hingegen „nur“ bei fünf bis 8,5 Punkten.

Verzerrung (BIAS)
Der BIAS ist ein im wissenschaftlichen Kontext häufig verwendetes Wort. Es stammt aus dem Englischen, bedeutet Verzerrung und ist mittlerweile als Fachterminus auch im deutschsprachigen Raum geläufig. Es gibt unterschiedliche Formen des Bias. So führt der Bestätigungsfehler oder Confirmations-Bias auf das falsche Auswählen oder Interpretieren von Ergebnissen. Aber auch der Selection-Bias ist häufig zu finden. Hierbei werden bei der Auswahl (Selektion) der ProbandInnen Manipulationen ausgelöst. Grundsätzlich sind Verzerrungen in Studien aber zunächst nicht als Absicht oder Böswilligkeit zu verstehen. Es ist vielmehr die Natur des Menschen, seine eigene Kognition nicht vollständig hinten anstellen zu können, denn: „Niemand ist vorurteilsfrei.“ (Asli Kücük)

Standardisierte Effektstärke (Standardised Mean Difference - SMD)
Um die Wirksamkeit von Interventionen einfacher Vergleichen zu können, gibt es die Möglichkeit der Standardisierung.

NNT
Eine Möglichkeit der Standardisierung ist die Berechnung der sogenannte Number Needed to Treat (NNT). Hierbei stellt man sich die Frage: Wie viele PatientInnen muss ich mit der Intervention A behandeln bis eine Person mehr als bei Intervention B davon profitiert?

Hier ein Beispiel zur Verdeutlichung: Haben sich beispielsweise 80 Prozent der PatientInnen mit Behandlung A und 60 Prozent der Personen mit Behandlung B verbessert, entspricht die NNT=5. Denn die Behandlung A ist 20 Prozentpunkte effektiver als Behandlung B. Es müssen also mehr als 5 Menschen (100 Prozent geteilt durch 20 Prozent) mit Intervention A versorgt werden, bevor eine Person zusätzlich davon profitiert.

Cohen’s d
Eine weitere Art der Standardisierung ist der sogenannte Cohen’s d. Auch hier wird das Verhältnis der Verbesserungen zwischen den verschiedenen Therapiestrategien errechnet. Der resultierende Wert wird in 4 Kategorien der Effektstärke eingeteilt:

• <0.20 = irrelevant bis minimal
• 0.20 - 0.49 = gering
• 0.50 - 0.80 = moderat oder mittel
• > 0.80 = groß oder stark

Ein Cohen’s d von 0.47 entspricht beispielsweise einer NNT von 5,3.

Der größte Vorteil aber gleichzeitig auch der größte Risikofaktor dieser Werte ist die Unabhängigkeit von der Studiengröße und dem Signifikanzniveau. Für Meta-Analysen bringt es den positiven Effekt, dass diese standardisierten Ergebnisse unabhängig vom Messinstrument und der Einheit sind. Somit erleichtert es das Zusammenführen verschiedener Studienergebnisse.

In den primären Studien werden diese Werte häufig nicht angegeben. Daher ist es wichtig, genau zu schauen, wie die Ergebnisse dargestellt werden. So muss dann entweder das obige Skalenniveau angelegt werden oder aber die Verteilung der klinischen Relevanz im Sinne der MCID.

Das wissenschaftliche "alle" und "niemand" bzw. "keiner"
Häufig wirken Aussagen aus wissenschaftlichen Arbeiten sehr absolut. Worte wie "alle" oder "keiner" sind in dem Kontext etwas differenzierter zu betrachten. Das wissenschaftliche "alle" beschreibt einen Bereich von maximal 99,xx Prozent. Das "keiner" entsprechend 0,xx Prozent – somit niemals 100 oder null Prozent.

Praktische Relevanz
In der alltäglich Praxis als Therapeut ist es nahezu unmöglich zu erkennen, ob man nun den absoluten Einzelfall vor sich hat, der außerhalb des Bereichs von 99,xx Prozent liegt oder nicht. Daher ist als Therapiestrategie in der Praxis diejenige anzuwenden, die laut Studie auf alle PatientInnen zutrifft.

Martin Römhild und Friedrich Merz / physio.de

Mehr Lesen über

Begriffsklärung Statistik Studie

München

Das könnte Sie auch interessieren