Yksi lääketieteellisten artikkeleiden lukijoiden (ja kirjoittajien!) yleisistä ongelmista liittyy sanan ”merkitsevyys” tulkintaan. Termi ”tilastollinen merkitsevyys” tulkitaan usein väärin ”kliinisesti merkittäväksi” tulokseksi. Hämmennys johtuu siitä, että monet ihmiset rinnastavat sanan ”merkitsevyys” sen kirjaimelliseen merkitykseen ”tärkeys”, kun taas tilastotieteessä sillä on paljon rajoittavampi merkitys. Tässä artikkelissa selitetään tilastollisen merkitsevyyden käsite ja erotetaan se kliinisestä merkityksestä tai tärkeydestä, joka on täysin eri käsite. Tämän sarjan edellisessä artikkelissa tarkastelimme erilaisia tapoja ilmaista tilastollista merkitsevyyttä (”P”-arvot vs. luottamusvälit). Tilastollisen merkitsevyyden mittarit kvantifioivat sen todennäköisyyden, että tutkimuksen tulokset johtuvat sattumasta. Kliinisellä merkitsevyydellä taas tarkoitetaan todellisen hoitovaikutuksen suuruutta (eli interventio- ja kontrolliryhmien välistä eroa, joka tunnetaan myös nimellä ”hoitovaikutuksen koko”), joka määrittää, vaikuttavatko tutkimuksen tulokset todennäköisesti nykyisiin lääketieteellisiin käytäntöihin. P-arvo, jota käytetään usein tilastollisen merkitsevyyden mittaamiseen, on todennäköisyys sille, että tutkimustulokset johtuvat sattumasta eivätkä todellisesta hoitovaikutuksesta. Tilastollisesti merkitsevänä pidettävän P-arvon tavanomainen raja-arvo on 0,05 (tai 5 %). P < 0,05 tarkoittaa, että mahdollisuus, että tutkimustulokset johtuvat sattumasta, on <5 %.
Kliinisessä käytännössä tuloksen ”kliininen merkitys” riippuu sen vaikutuksista nykyiseen käytäntöön – hoitovaikutuksen suuruus on yksi tärkeimmistä hoitopäätöksiä ohjaavista tekijöistä. LeFort ehdottaa, että kliinisen merkityksen tulisi heijastaa ”muutoksen laajuutta, sitä, onko muutoksella todellista merkitystä tutkittavien elämässä, kuinka kauan vaikutukset kestävät, kuluttajien hyväksyttävyyttä, kustannustehokkuutta ja täytäntöönpanon helppoutta”. Vaikka tilastollista merkitsevyystestausta varten on olemassa vakiintuneita, perinteisesti hyväksyttyjä arvoja, kliinisen merkitsevyyden arviointia varten ne puuttuvat. Useimmiten kliinikon (ja potilaan) harkinta ratkaisee, onko tulos kliinisesti merkitsevä vai ei.
Tilastollinen merkitsevyys riippuu suuresti tutkimuksen otoskoon suuruudesta; suurilla otoskoolla pienetkin hoitovaikutukset (jotka ovat kliinisesti merkityksettömiä) voivat vaikuttaa tilastollisesti merkitseviltä; siksi lukijan on tulkittava tarkkaan, onko tämä ”merkitsevyys” kliinisesti merkityksellinen. Journal of Clinical Oncology -lehdessä julkaistussa tutkimuksessa verrattiin 569:n pitkälle edennyttä haimasyöpää sairastavan potilaan kokonaiselossaoloaikaa, joka satunnaistettiin saamaan erlotinibia ja gemsitabiinia verrattuna pelkkään gemsitabiiniin. Keskimääräisen elossaoloajan todettiin pidentyneen ”merkittävästi” erlotinibia/gemcitabiinia saaneessa ryhmässä (6,24 kuukautta vs. 5,91 kuukautta, P = 0,038). P = 0,038 tarkoittaa, että on vain 3,8 prosentin mahdollisuus, että tämä havaittu ero ryhmien välillä syntyi sattumalta (mikä on vähemmän kuin perinteinen 5 prosentin raja-arvo) ja siten tilastollisesti merkittävä. Tässä esimerkissä tämän ”positiivisen” tutkimuksen kliininen merkitys on ”hoitovaikutus” tai ero mediaanielossaoloajassa 6,24 ja 5,91 kuukauden välillä – vain 10 päivää, minkä useimmat onkologit myöntäisivät kliinisesti merkityksettömäksi ”parannukseksi”, etenkin kun otetaan huomioon yhdistelmähoitoon liittyvä lisämyrkyllisyys ja kustannukset.
Useimmat aikakauslehdet kannattavat nykyään CONSORT-lausunnon käyttöä rinnakkaisryhmien satunnaistettujen tutkimusten raportoinnissa, jossa korostetaan tarvetta raportoida arvioitu vaikutuksen koko ja sen tarkkuus (kuten 95 prosentin luottamusväli) kunkin ensisijaisen ja toissijaisen tuloksen osalta. Lukijoiden olisi pidettävä mielessä, että tutkimustulosten tulkinnassa olisi otettava huomioon kliininen merkitys tarkastelemalla todellista hoitovaikutusta (luottamusväleineen) eikä sen pitäisi perustua pelkästään P-arvoihin ja tilastolliseen merkitsevyyteen.