-
Effektstärke
Ergänzend zum p-Wert (Signifikanz) wird in Studien die Effektstärke angegeben, da statistische Signifikanztests nicht auseichen, um die Bedeutsamkeit von Untersuchungsergebnissen beurteilen zu können, weshalb zur Beurteilung von Untersuchungsergebnissen zusätzlich Effektmaße herangezogen werden. Die Effektstärke ist ein Indikator für die Bedeutsamkeit von Untersuchungsergebnissen. Gewöhnlich wird mittels statistischer Wahrscheinlichkeitstests ermittelt, ob sich der in der Stichprobe beobachtbare Zusammenhang (oder Mittelwertsunterschied) gegenüber dem Zufall absichern lässt (und damit auch auf die Grundgesamtheit generalisieren lässt). Implizit wird dabei davon ausgegangen, dass damit auch bedeutsame Ergebnisse vorliegen. Allerdings hängt die Absicherung dagegen, dass es sich nicht um ein Zufallsergebnis handelt, nicht nur von der Existenz und Stärke von Effekten ab (Signifikanz), sondern auch von der…
-
p-Wert (Signifikanz)
Der p-Wert gibt an, wie wahrscheinlich die Ergebnisse der Stichprobe sind, unter der Annahme, dass die Nullhypothese stimmt. Daraus können Schlüsse darüber gezogen werden, ob gefundene Unterschiede oder Zusammenhänge zwischen Variablen durch Zufall entstanden sind oder nicht. Die Nullhypothese besagt, dass es keinen statistischen Zusammenhang zwischen den unabhängigen und abhängigen Variablen gibt. Dies bedeutet, dass die gemessenen Zusammenhänge nur durch Zufall entstanden sind. Als Gegensatz zur Nullhypothese wird immer eine Alternativhypothese aufgestellt. Berechnet wird der p-Wert mit einem passenden statistischen Test aus den Daten der Stichprobe, wobei der p-Wert angibt, wie wahrscheinlich die von der Studie gewonnenen Daten sind, wenn die Nullhypothese wahr ist. Das heißt: Je kleiner der p-Wert, desto unwahrscheinlicher ist es, dass…
-
Minimaler klinisch bedeutsamer Unterschied (MCID)
In den meisten wissenschaftlichen Studien wird nach statistisch relevanten Ergebnissen Ausschau gehalten, d.h. es wird überprüft, wie wahrscheinlich das Ergebnis einer Messung nur durch Zufall entstanden ist, oder ob tatsächlich ein Effekt besteht. Und zeigt sich ein statistisch signifikantes Ergebnis, dann besteht Grund zur Annahme, dass das Ergebnis der Analyse einer ausgewählten Stichprobe auch für die Grundgesamtheit gilt. Dass etwas statistisch signifikant ist, bedeutet aber nicht, dass es auch (für den*die Betreffende*n, für den*die Behandelnde*n) bedeutsam sein muss. Um die Relevanz für Patient*innen bzw. für die Behandlung zu erfassen, wurden in der Forschung deshalb entsprechende Kennzahlen entwickelt. Neben der Number Needed to Treat (NNT) wird der MCID, der minimale klinisch…
-
Number Neaded to Treat (NNT)
Die Number Needed to Treat (NNT) ist ein Begriff aus der medizinischen Statistik, der besser als der p-Wert Auskunft über die klinische Relevanz einer Behandlung (oder Arznei) gibt. Er wird verwendet, um Behandlungsverfahren zu vergleichen und bedeutet die Anzahl der Patient*innen, die behandelt werden müssen, um bei einem*einer Patient*in den gewünschten Benefit zu erlangen (gegenüber einem alternativen Behandlungsverfahren oder keiner Behandlung). Die Number Needed to Treat wird immer aufgerundet (auch bei niedrigen Nachkommastellen) angegeben, d.h. 1,1 wird auf 2 aufgerundet. Je höher die Number Needed to Treat ist, desto geringer ist der Unterschied gegenüber einer anderen untersuchten Behandlungsmethode (bzw. keiner Behandlung). Die optimale Number needed to treat ist 1, d.h.…
-
Carry-Over-Effekt und Washout
Carry-Over-Effekte (Übertragungseffekte) bezeichnen Auswirkungen von vorigen Behandlungen, die noch fortbestehen und nachfolgende Messungen beeinflussen. Carry-Over-Effekte sind vor allem bei Within-Designs zu finden, wo Versuchspersonen mehrere Versuchsbedingungen durchlaufen. Um Carry-Over-Effekte zu reduzieren, wird eine Pause zwischen den Bedingungen eingelegt, das sogenannte Washout, in dem Effekte aus dem Treatment (der vorangegangenen Behandlung) abklingen sollen. Bei der Entwicklung von Versuchsdesigns ist es deshalb besonders wichtig, das Intervall des Washouts richtig zu bemessen. Mit einem zu kurzen Washout steigt die Wahrscheinlichkeit für den Carry-Over-Effekt, wohingegen bei einem zu langen Washout die Studie unnötig in die Länge gezogen wird (mit wirtschaftlichen und psychologischen Belastungen).
-
Between-Subjects- und Within-Subjects-Design
Bei einer experimentellen Studie mit Between-Subjects-Design (Between-Design) werden alle Teilnehmenden während des Experiments nur mit einer Behandlung untersucht. Die Forschenden bewerten Gruppenunterschiede zwischen Teilnehmenden mit unterschiedlichen Behandlungen. Bei einem Within-Subjects-Design (Within-Design oder auch Innersubjektstudie bzw. Repeated Measures Design) werden alle Teilnehmenden während des Experiments mit allen Behandlungen (Bedingungen oder Stufen der unabhängigen Variable) untersucht. Die Forschenden testen dieselben Teilnehmenden wiederholt auf Unterschiede in der Reaktion auf unterschiedliche Behandlungen. Auf diese Weise fungiert jede*r Teilnehmer*in als seine*ihre eigene Kontrollperson. Bei einfacheren Within-Studien wird eine einzige unabhängige Variable untersucht (einfaktorielles Within-Subjects-Design). Ein Beispiel dafür wäre eine Studie, die die Wirkung von Koffein auf die kognitive Funktion untersucht. Die unabhängige Variable (Koffein) könnte…
-
„N-of-1“-Studien („N=1“-Studien)
Nicht für alle Fragestellungen zur Wirksamkeit eines Medikaments oder einer Behandlungsmethode kann eine „klassische“ randomisierte Placebo-kontrollierte klinische Studie durchgeführt werden, z.B. wenn es darum geht, ob eine bestimmte, kleine Personengruppe bzw. Einzelpersonen, die vom „Durchschnitt“ abweichen, von einem Medikament, von einer Behandlung profitieren. Zu diesem Zweck kann eine „N=1“-Studie („N-of-1“-Studie, Einpersonen-Studie) an Einzelpersonen durchgeführt werden. Fischer & Hummers-Pradier schreiben dazu: Gerade in der hausärztlichen Praxis steht man häufig vor der Problematik, ob die bekannte wissenschaftliche Evidenz auf den konkreten, individuellen Fall übertragbar ist. Allzu oft beruht diese wissenschaftliche Evidenz auf fallzahlstarken randomisierten Kontrollstudien mit Patienten, deren Beschwerdespektrum und biometrische Daten weit von der hausärztlichen Realität entfernt sind (z. B. zu…
-
Wie man Studien manipuliert
Sie seien gut gewesen, so David L. Sackett und Andrew D. Oxman 2003 in ihrer Satire „HARLOT plc: an amalgamation of the world’s two oldest professions“ , und hätten sich einen einwandfreien Ruf für den Schutz der Validität von randomisierten Studien und Reviews sowie für die Aufdeckung von Lücken in Methodik, Validität, therapeutischen Ansprüchen und professionellem Verhalten erarbeitet. Und doch: sie blieben arm. Sackett fährt immer noch seinen klapprigen Pick-Up, Oxman trägt abgenutzte Blue Jeans und hat seit zehn Jahren kein neues Paar Schuhe mehr leisten können. Wie ihnen nun aber endlich klar geworden sei, blieben sie arm, weil Moral und Armut kausal zusammenhängen. Integrität, so mussten sie erkennen, zahlt sich…
-
Sind Doppelblindstudien immer sinnvoll?
2003 veröffentlichte das BMJ einen über die Satire hinausgehenden Artikel von Gordon Smith, in dem er die „Allgläubigkeit“ an randomisierte Studien ironisch thematisierte. In „Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials” (2003; http://www.bmj.com/content/327/7429/1459.full) stellt der Autor fest, dass es keine ausreichende Beweislage für die lebensbewahrende Wirksamkeit von Fallschirmen gibt, letztlich keine einzige randomisierte, kontrollierte Studie: Results: „We were unable to identify any randomised controlled trials of parachute intervention.” Conclusions: „As with many interventions intended to prevent ill health, the effectiveness of parachutes has not been subjected to rigorous evaluation by using randomised controlled trials. Advocates of evidence based medicine have…
-
Efficacy, Effectiveness und Efficiency. Unterschiedliche Forschungsansätze entscheiden über die Ergebnisse und Aussagen einer Studie
Forschung ist wichtig, um die Effektivität einer Methode zu belegen (die dann von den Krankenkassen oder anderen öffentlichen Trägern bezahlt wird) und um etwaige Gesundheitsrisiken auszuschließen. In der westlichen Medizin hat diese Form der Wissenschaftlichkeit mehr und mehr Einzug gehalten, so dass man heute gern von evidence based medicine spricht, einer Medizin, deren Methoden-Wirksamkeit durch Forschungen belegt und abgesichert ist. Forschungsergebnisse sind deshalb mitunter sehr entscheidend für eine Methode und ihren weiteren Stellenwert im Gesundheitssystem. Entscheidend ist aber nicht nur, dass geforscht wird, sondern auch die Art und Weise, wie geforscht wird. Der „goldene Standard“ in der Medizin, die randomisierte Doppelblindstudie entstammt den pharmakologischen Wirkstoffprüfungen und macht in diesem Kontext…
-
Reviews (Übersichtsarbeiten)
Vergleicht man verschiedene klinische Studien zu einer bestimmten Fragestellung, zeigen sich meist in den Ergebnissen und Implikationen abweichende, ja manchmal sogar widersprüchliche Ergebnisse. Um hier zu einer bestmöglichen Bewertung zu kommen – vor allem, wenn es viele Studien gibt, die sich manchmal auch nur schwer direkt vergleichen lassen –, stellen Überblicksarbeiten (Reviews) eine wichtige Quelle „vorbewerteter Evidenz“ dar. Selektive und systematische Übersichtsarbeiten
-
Evidenzgrade
Studien unterscheiden sich darin, wie gut sie das Risiko für Verzerrungen durch Bias und Confounder kontrollieren. Entsprechend wurden Systeme für Evidenzhierarchien (Klassifikationssysteme) entwickelt. Es ist zu berücksichtigen, dass diese Evidenzhierarchien naturgemäß auf bestimmte Fragen/Themenstellungen zugeschnitten sind. In der vorliegenden Auflistung geht es um Fragen zu Therapie und/oder Prävention, wobei randomisierte kontrollierte Studien hier als beste Evidenz gelten. Evidenzgrade nach Oxford Centre for Evidence-Based Medicine 1a Systematische Reviews von randomisierten kontrollierten Studien (RCT) bei homogener Studienlage 1b Einzelne randomisierte kontrollierte Studie (RCT) mit hoher Qualität und Präzision des Effektschätzers 2a Systematische Übersichtsarbeiten von Kohortenstudien bei homogener Studienlage 2b Einzelne Kohortenstudie oder randomisierte kontrollierte Studie (RCT) mit niedriger Qualität 3a Systematische Übersichtsarbeiten von Fall-Kontroll-Studien bei homogener…
-
Bias (Verzerrung)
Von Bias (Verzerrung) spricht man bei einem systematischen Fehler in der Datenerhebung, der sich im Unterschied zu zufälligen Fehlern auch bei einer ausreichenden Anzahl von Messungen oder Untersuchungen nicht aufhebt (und damit nicht auf einer zu kleinen Anzahl an Versuchspersonen beruht). Das Resultat einer Studie beruht bei Vorliegen eines Bias letztlich nicht auf der Auswirkung der Intervention (Behandlung) sondern auch auf einem Fehler im Studiendesign oder der Auswertung. Im schlimmsten Fall ist die Aussage einer Studie damit nicht nur verzerrt sondern sogar gänzlich falsch. Damit eine Studie eine möglichst hohe Validität oder Gültigkeit aufweist (d.h. die Studie die Merkmale misst, die man messen möchte), ist es notwendig, dass innere und…
-
Confounder (Störfaktoren)
Neben systematischen Fehlern (Bias) gibt es noch weitere Faktoren, die einer Studie ihre Aussagekraft nehmen und ihre Ergebnisse verzerren können: Confounder, die unabhängig von der untersuchten Intervention (Behandlung) einen Einfluss auf die Ergebnisse haben und (zumindest zu einem gewissen Ausmaß) eine alternative Erklärung für die Ergebnisse bedeuten. Als Beispiel kann die Cholera in London dienen, der allein im Jahre 1849 bei einem großen Ausbruch etwa 15.000 Menschen zum Opfer fielen. Und während wir heute wissen, dass die Erkrankung durch Vibrio cholerae-Bakterien ausgelöst wird, stritten die Ärzte und Wissenschaftler zu jener Zeit noch heftig über ihre Ursachen und Übertragung. Besonders populär war die sogenannte Miasma-Theorie, die davon ausging, dass Krankheiten durch das…
-
Studientypen. Ein Überblick
Unterschiedliche Studientypen sind unterschiedlich in der Lage, systematische Fehler (Bias) und Störfaktoren (Confounder) auszuschließen. Das Ausmaß, in dem diese Einflussfaktoren kontrolliert werden, ist (neben anderen Faktoren wie der Stichprobengröße) von besonderer Bedeutung für die Aussagekraft der Studie. Überblicksmäßig können die verschiedenen Studientypen, so Iris Hinneburg (2015), mit nachfolgenden Fragen unterschieden werden: Interventionsstudie versus Beobachtungsstudie Randomisierte Interventionsstudie versus kontrollierte Interventionsstudie Interventionsstudien unterscheiden sich in der Art und Weise, wie die Zuordnung zu Behandlungs- (Versuchs-) und Kontroll(Vergleichs)gruppe erfolgt. Durch die Randomisierung (zufällige Zuordnung) wird Strukturgleichheit (dass sich die Versuchsgruppen ausschließlich in der Art der Behandlung unterscheiden) zwischen den Studien gewährleistet. Da bei CCTs die Randomisierung fehlt, werden sie in Bezug auf die…