Veel voorkomende valkuilen bij statistische analyse: Klinische versus statistische significantie

Een van de veel voorkomende problemen waar lezers (en auteurs!) van medische artikelen mee te maken krijgen is de interpretatie van het woord “significantie”. De term “statistische significantie” wordt vaak verkeerd geïnterpreteerd als een “klinisch belangrijk” resultaat. De verwarring komt voort uit het feit dat veel mensen “significantie” gelijkstellen met de letterlijke betekenis van “belang”, terwijl het in de statistiek een veel restrictievere connotatie heeft. In dit artikel wordt het idee van statistische significantie uitgelegd en onderscheiden van klinische relevantie of belang, wat een heel ander concept is. In het vorige artikel, in deze reeks, hebben we gekeken naar verschillende manieren om statistische significantie uit te drukken (“P”-waarden versus betrouwbaarheidsintervallen). Metingen van statistische significantie kwantificeren de waarschijnlijkheid dat de resultaten van een studie aan het toeval te wijten zijn. Klinische significantie daarentegen verwijst naar de grootte van het werkelijke behandelingseffect (d.w.z. het verschil tussen de interventie- en de controlegroep, ook bekend als de “grootte van het behandelingseffect”), dat zal bepalen of de resultaten van het onderzoek waarschijnlijk een invloed zullen hebben op de huidige medische praktijk. De “P”-waarde, die vaak wordt gebruikt om de statistische significantie te meten, is de waarschijnlijkheid dat de onderzoeksresultaten aan het toeval te wijten zijn en niet aan een echt behandelingseffect. De conventionele grenswaarde voor de “P”-waarde om als statistisch significant te worden beschouwd is 0,05 (of 5%). Een P < 0,05 betekent dat de kans dat de resultaten van een studie aan het toeval te wijten zijn <5% bedraagt.

In de klinische praktijk hangt de “klinische significantie” van een resultaat af van de implicaties ervan voor de bestaande praktijk – de grootte van het behandelingseffect is een van de belangrijkste factoren voor het nemen van beslissingen over een behandeling. LeFort suggereert dat de klinische significantie “de omvang van de verandering, of de verandering een echt verschil maakt in het leven van de proefpersonen, hoe lang de effecten duren, de aanvaardbaarheid voor de consument, de kosteneffectiviteit en het gemak van de implementatie” zou moeten weerspiegelen. Hoewel er vaste, traditioneel aanvaarde waarden zijn voor statistische significantiebepaling, ontbreekt dit voor de evaluatie van klinische significantie. Meestal is het het oordeel van de clinicus (en de patiënt) dat beslist of een resultaat klinisch significant is of niet.

Statistische significantie is sterk afhankelijk van de steekproefgrootte van de studie; met grote steekproeven kunnen zelfs kleine behandelingseffecten (die klinisch onbeduidend zijn) statistisch significant lijken; daarom moet de lezer zorgvuldig interpreteren of deze “significantie” klinisch betekenisvol is. Een studie gepubliceerd in het Journal of Clinical Oncology vergeleek de totale overleving bij 569 patiënten met gevorderde pancreaskanker die gerandomiseerd werden om erlotinib plus gemcitabine te krijgen versus gemcitabine alleen. De mediane overleving bleek “significant” langer te zijn in de erlotinib/gemcitabine-arm (6,24 maanden versus 5,91 maanden, P = 0,038). De P = 0,038 betekent dat er slechts een kans van 3,8% is dat dit waargenomen verschil tussen de groepen door toeval is ontstaan (wat minder is dan de traditionele cut-off van 5%) en dus statistisch significant is. In dit voorbeeld is de klinische relevantie van deze “positieve” studie het “behandelingseffect” of het verschil in mediane overleving tussen 6,24 en 5,91 maanden – slechts 10 dagen, waarvan de meeste oncologen zouden beamen dat het een klinisch irrelevante “verbetering” van de resultaten is, vooral wanneer men rekening houdt met de extra toxiciteit en kosten die met de combinatie gepaard gaan.

De meeste tijdschriften onderschrijven nu het gebruik van de CONSORT-verklaring voor de rapportage van gerandomiseerde onderzoeken met parallelle groepen, waarin de noodzaak wordt benadrukt van rapportage van de geschatte effectgrootte en de precisie daarvan (zoals 95%-betrouwbaarheidsinterval) voor elk primair en secundair resultaat. Lezers moeten in gedachten houden dat bij de interpretatie van studieresultaten rekening moet worden gehouden met de klinische significantie door te kijken naar het daadwerkelijke behandelingseffect (met betrouwbaarheidsintervallen) en niet alleen moet worden gebaseerd op “P”-waarden en statistische significantie.

PMC

Geef een antwoord Antwoord annuleren