Eines der häufigsten Probleme, mit denen Leser (und Autoren!) medizinischer Artikel konfrontiert werden, liegt in der Interpretation des Wortes „Signifikanz“. Der Begriff „statistische Signifikanz“ wird oft als „klinisch wichtiges“ Ergebnis missverstanden. Die Verwirrung rührt daher, dass viele Menschen „Signifikanz“ mit der wörtlichen Bedeutung von „Bedeutung“ gleichsetzen, während der Begriff in der Statistik eine weitaus restriktivere Konnotation hat. In diesem Artikel wird das Konzept der statistischen Signifikanz erläutert und von der klinischen Relevanz oder Wichtigkeit unterschieden, die ein völlig anderes Konzept ist. Im vorangegangenen Artikel dieser Reihe haben wir uns mit den verschiedenen Möglichkeiten befasst, statistische Signifikanz auszudrücken („P“-Werte versus Konfidenzintervalle). Statistische Signifikanzmaße quantifizieren die Wahrscheinlichkeit, dass die Ergebnisse einer Studie auf Zufall beruhen. Die klinische Signifikanz hingegen bezieht sich auf die Größe des tatsächlichen Behandlungseffekts (d. h. den Unterschied zwischen der Interventions- und der Kontrollgruppe, auch bekannt als „Größe des Behandlungseffekts“), der bestimmt, ob die Ergebnisse der Studie wahrscheinlich Auswirkungen auf die aktuelle medizinische Praxis haben werden. Der „P“-Wert, der häufig zur Messung der statistischen Signifikanz verwendet wird, gibt die Wahrscheinlichkeit an, dass die Studienergebnisse auf Zufall und nicht auf einen tatsächlichen Behandlungseffekt zurückzuführen sind. Der konventionelle Grenzwert für den „P“-Wert, der als statistisch signifikant angesehen wird, liegt bei 0,05 (oder 5 %). Ein P < 0,05 bedeutet, dass die Wahrscheinlichkeit, dass die Ergebnisse einer Studie auf Zufall beruhen, <5 % beträgt.
In der klinischen Praxis hängt die „klinische Signifikanz“ eines Ergebnisses von seinen Auswirkungen auf die bestehende Praxis ab – die Größe des Behandlungseffekts ist einer der wichtigsten Faktoren für Behandlungsentscheidungen. LeFort schlägt vor, dass die klinische Signifikanz „das Ausmaß der Veränderung, die Frage, ob die Veränderung einen wirklichen Unterschied für das Leben der Betroffenen bedeutet, die Dauer der Wirkung, die Akzeptanz durch die Verbraucher, die Kosteneffizienz und die Einfachheit der Umsetzung“ widerspiegeln sollte. Während es für statistische Signifikanztests etablierte, traditionell akzeptierte Werte gibt, fehlen diese für die Bewertung der klinischen Signifikanz. In den meisten Fällen ist es das Urteil des Arztes (und des Patienten), das darüber entscheidet, ob ein Ergebnis klinisch signifikant ist oder nicht.
Die statistische Signifikanz hängt stark von der Stichprobengröße der Studie ab; bei großen Stichprobengrößen können selbst kleine Behandlungseffekte (die klinisch unbedeutend sind) statistisch signifikant erscheinen; daher muss der Leser sorgfältig interpretieren, ob diese „Signifikanz“ klinisch sinnvoll ist. In einer im Journal of Clinical Oncology veröffentlichten Studie wurde das Gesamtüberleben von 569 Patienten mit fortgeschrittenem Bauchspeicheldrüsenkrebs verglichen, die nach dem Zufallsprinzip Erlotinib plus Gemcitabin gegenüber Gemcitabin allein erhielten. Es wurde festgestellt, dass das mediane Überleben in der Erlotinib/Gemcitabin-Gruppe „signifikant“ verlängert war (6,24 Monate gegenüber 5,91 Monaten, P = 0,038). P = 0,038 bedeutet, dass es nur eine 3,8 %ige Chance gibt, dass dieser beobachtete Unterschied zwischen den Gruppen zufällig auftrat (was weniger als der traditionelle Cut-off von 5 % ist) und daher statistisch signifikant ist. In diesem Beispiel ist die klinische Relevanz dieser „positiven“ Studie der „Behandlungseffekt“ oder der Unterschied in der medianen Überlebenszeit zwischen 6,24 und 5,91 Monaten – nur 10 Tage, was nach Ansicht der meisten Onkologen eine klinisch irrelevante „Verbesserung“ der Ergebnisse ist, insbesondere wenn man die zusätzliche Toxizität und die Kosten berücksichtigt, die mit dieser Kombination verbunden sind.
Die meisten Fachzeitschriften befürworten inzwischen die Verwendung der CONSORT-Erklärung für die Berichterstattung über randomisierte Parallelgruppenstudien, in der die Notwendigkeit der Angabe der geschätzten Effektgröße und ihrer Genauigkeit (z. B. 95 % Konfidenzintervall) für jedes primäre und sekundäre Ergebnis betont wird. Die Leser sollten bedenken, dass bei der Interpretation der Studienergebnisse die klinische Signifikanz berücksichtigt werden sollte, indem der tatsächliche Behandlungseffekt (mit Konfidenzintervallen) betrachtet wird, und nicht nur die „P“-Werte und die statistische Signifikanz herangezogen werden sollten.