Effektstärke
Ergänzend zum p-Wert (Signifikanz) wird in Studien die Effektstärke angegeben, da statistische Signifikanztests nicht auseichen, um die Bedeutsamkeit von Untersuchungsergebnissen beurteilen zu können, weshalb zur Beurteilung von Untersuchungsergebnissen zusätzlich Effektmaße herangezogen werden.
Die Effektstärke ist ein Indikator für die Bedeutsamkeit von Untersuchungsergebnissen. Gewöhnlich wird mittels statistischer Wahrscheinlichkeitstests ermittelt, ob sich der in der Stichprobe beobachtbare Zusammenhang (oder Mittelwertsunterschied) gegenüber dem Zufall absichern lässt (und damit auch auf die Grundgesamtheit1Die Grundgesamtheit (Population) ist die gesamte Anzahl an Objekten, über die man Schlüsse ziehen möchte. generalisieren lässt). Implizit wird dabei davon ausgegangen, dass damit auch bedeutsame Ergebnisse vorliegen. Allerdings hängt die Absicherung dagegen, dass es sich nicht um ein Zufallsergebnis handelt, nicht nur von der Existenz und Stärke von Effekten ab (Signifikanz), sondern auch von der Stichprobengröße, dem Signifikanzniveau und der Stärke des Tests ab.2Gibt es in der Grundgesamtheit einen Unterschied, wird dieser im p-Wert umso deutlicher angezeigt, je größer die Stichprobe ist. Ist die Stichprobe sehr groß, können auch sehr kleine Unterschiede in der Grundgesamtheit nachgewiesen werden. Diese kleinen Unterschiede können unter Umständen in der Praxis gar nicht (mehr) relevant ein. So können in sehr großen Stichproben (n > 500) schon minimale Zusammenhänge oder Mittelwertsunterschiede statistisch signifikant sein.3Zudem können Berechnungen auf Intervallskalenniveau über eine größere Power verfügen als auf Ordinaldatenniveau. Statistische Signifikanztests reichen deshalb nicht aus, um die Bedeutsamkeit von Untersuchungsergebnissen beurteilen zu können. Hierfür müssen zusätzlich Effektstärkemaße herangezogen werden, die die Größe von Auswirkungen quantifizieren und bei der Integration von Resultaten verschiedener Untersuchungen unverzichtbar sind. Mit Hilfe der Effektstärke können also verschiedene Studien, wie z.B. in einer Metastudie vorliegen, miteinander verglichen werden.
Die Effektstärke gibt grundsätzlich an, wie stark ein beobachteter Effekt ist. Je nachdem welche Hypothese man testest, steht der Effekt für einen Unterschied oder einen Zusammenhang. Die bekanntesten Effektstärkemaße stellen der Korrelationskoeffizient r als Maß des Zusammenhangs und das Differenzmaß d als Maß von Mittelwertsunterschieden dar.
Korrelationskoeffizient r
Der Korrelationskoeffizient r ist ein einheitsloser Wert zwischen -1 und 1. Je näher r bei Null liegt, desto schwächer ist der lineare Zusammenhang. Positive r-Werte zeigen eine positive Korrelation an, bei der die Werte beider Variable tendenziell gemeinsam ansteigen. Negative r-Werte zeigen eine negative Korrelation an, bei der die Werte einer Variable tendenziell ansteigen, wenn die Werte der anderen Variablen fallen.4Der p-Wert hingegen hilft zu ermitteln, ob man auf Grundlage der Beobachtungen aus der Stichprobe aussagekräftig schlussfolgern kann, dass der Korrelationskoeffizient der Population nicht gleich Null ist.
Die Werte 1 und -1 stellen beide „perfekte“ Korrelationen dar (einmal positiv und einmal negativ). Zwei perfekt korrelierte Variablen verändern sich gemeinsam mit einer konstanten Rate, d.h. sie haben eine lineare Beziehung.
Zusammenhänge unter r = .10 gelten als unbedeutend, ab r = .30 als mittel und ab r = .50 als groß.
Differenzmaß d
Die Effektstärke besagt, wie stark der Unterschied zwischen den untersuchten Gruppen ist. Beim unabhängigen t-Test geschieht dies, indem Mittelwertsunterschiede unter Einbeziehung der Standardabweichung verglichen werden.
Differenzen unter d = 0,20 gelten als vernachlässigbar, ab 0,50 als mittel und ab 0,80 als groß. Die inhaltliche Bedeutsamkeit von Effekten und vor allem ihr Nutzen hängt allerdings nicht ausschließlich von statistischen Grenzwerten ab, denn unter Umständen kann ein Effekt von d = 0,10 bei bestimmten Personengruppen, die nahe einer Ausschlußgrenze liegen, sehr bedeutsam sein. Adäquate Effektgrößen sollten deshalb vorab, aufgrund inhaltlicher Erwägungen festgelegt werden.
Anmerkungen/Fußnoten
- 1Die Grundgesamtheit (Population) ist die gesamte Anzahl an Objekten, über die man Schlüsse ziehen möchte.
- 2Gibt es in der Grundgesamtheit einen Unterschied, wird dieser im p-Wert umso deutlicher angezeigt, je größer die Stichprobe ist. Ist die Stichprobe sehr groß, können auch sehr kleine Unterschiede in der Grundgesamtheit nachgewiesen werden. Diese kleinen Unterschiede können unter Umständen in der Praxis gar nicht (mehr) relevant ein.
- 3Zudem können Berechnungen auf Intervallskalenniveau über eine größere Power verfügen als auf Ordinaldatenniveau.
- 4Der p-Wert hingegen hilft zu ermitteln, ob man auf Grundlage der Beobachtungen aus der Stichprobe aussagekräftig schlussfolgern kann, dass der Korrelationskoeffizient der Population nicht gleich Null ist.