Sådan udføres en Poisson-regressionsanalyse i SPSS Statistics | Laerd Statistics

Indledning

Poisson-regression bruges til at forudsige en afhængig variabel, der består af “tælledata”, givet en eller flere uafhængige variabler. Den variabel, som vi ønsker at forudsige, kaldes den afhængige variabel (eller undertiden respons-, resultat-, mål- eller kriteriumsvariabel). De variabler, som vi bruger til at forudsige værdien af den afhængige variabel, kaldes de uafhængige variabler (eller undertiden forudsigelses-, forklarings- eller regressorvariabler). Nedenfor beskrives nogle eksempler på, hvor Poisson-regression kan anvendes:

Eksempel 1: Du kan bruge Poisson-regression til at undersøge antallet af elever, der suspenderes af skoler i Washington i USA på grundlag af prædiktorer som køn (piger og drenge), race (hvid, sort, latinamerikansk, asiat/havsøboer og indianer/aslaska-indfødte), sprog (engelsk er deres første sprog, engelsk er ikke deres første sprog) og handicapstatus (handicappede og ikke handicappede). Her er “antallet af suspensioner” den afhængige variabel, mens “køn”, “race”, “sprog” og “handicapstatus” alle er nominelle uafhængige variabler.
Eksempel 2: Du kan bruge Poisson-regression til at undersøge, hvor mange gange folk i Australien misligholder deres tilbagebetalinger på kreditkort i en femårig periode baseret på prædiktorer som f.eks. jobstatus (ansat, arbejdsløs), årsløn (i australske dollars), alder (i år), køn (mand og kvinde) og arbejdsløshedsniveau i landet (% arbejdsløse). Her er “antallet af misligholdte tilbagebetalinger på kreditkort” den afhængige variabel, mens “jobstatus” og “køn” er nominelle uafhængige variabler, og “årsløn”, “alder” og “arbejdsløshedsniveau i landet” er kontinuerlige uafhængige variabler.
Eksempel 3: Du kan bruge Poisson-regression til at undersøge antallet af personer, der står foran dig i køen på et hospitals skadestueafdeling (A& Emergency (A&E) baseret på prædiktorer som f.eks. ankomstmåde til A&E (ambulance eller egen check-in), skadens vurderede alvorlighed under triage (mild, moderat, alvorlig), tidspunktet på dagen og ugedag. Her er “antallet af personer foran dig i køen” den afhængige variabel, mens “ankomstmåde” er en nominel uafhængig variabel, “vurderet skadens alvorlighed” er en ordinal uafhængig variabel, og “tidspunkt på dagen” og “ugedag” er kontinuerlige uafhængige variabler.
Eksempel 4: Du kunne bruge Poisson-regression til at undersøge antallet af studerende, der får en 1. klasses karakter på et MBA-program, baseret på prædiktorer som f.eks. de typer valgfrie kurser, de har valgt (hovedsageligt numeriske, hovedsageligt kvalitative, en blanding af numeriske og kvalitative) og deres GPA ved indgangen til programmet. Her er “antal 1. klasses studerende” den afhængige variabel, mens “valgfrie kurser” er en nominel uafhængig variabel og “GPA” er en kontinuert uafhængig variabel.

Når du har udført en Poisson-regression, vil du kunne fastslå, hvilke af dine uafhængige variabler (hvis nogen) har en statistisk signifikant virkning på din afhængige variabel. For kategoriske uafhængige variabler vil du være i stand til at bestemme den procentvise stigning eller nedgang i antallet af personer i en gruppe (f.eks. dødsfald blandt “børn”, der kører i rutsjebaner) i forhold til en anden gruppe (f.eks. dødsfald blandt “voksne”, der kører i rutsjebaner). For kontinuerlige uafhængige variabler vil du kunne fortolke, hvordan en enkelt enheds stigning eller fald i den pågældende variabel er forbundet med en procentvis stigning eller fald i optællingerne af din afhængige variabel (f.eks. et fald på 1.000 dollars i løn – den uafhængige variabel – på den procentvise ændring i antallet af gange, hvor folk i Australien misligholder deres kreditkortbetalinger – den afhængige variabel).

Denne “quick start”-vejledning viser dig, hvordan du udfører Poisson-regression ved hjælp af SPSS Statistics, samt hvordan du fortolker og rapporterer resultaterne fra denne test. Inden vi introducerer dig til denne procedure, skal du dog forstå de forskellige antagelser, som dine data skal opfylde, for at Poisson-regressionen kan give dig et gyldigt resultat. Vi diskuterer disse antagelser i det følgende.

Bemærk: Vi har i øjeblikket ikke en premium-version af denne vejledning i abonnementsdelen af vores websted.

SPSS Statistics

Afgørelser

Når du vælger at analysere dine data ved hjælp af Poisson-regression, består en del af processen i at kontrollere, at de data, du ønsker at analysere, rent faktisk kan analyseres ved hjælp af Poisson-regression. Det skal du gøre, fordi det kun er hensigtsmæssigt at anvende Poisson-regression, hvis dine data “overholder” fem antagelser, som er nødvendige for, at Poisson-regressionen kan give dig et gyldigt resultat. I praksis vil kontrollen af disse fem antagelser tage langt størstedelen af din tid, når du udfører Poisson-regression. Det er imidlertid vigtigt, at du gør det, fordi det ikke er ualmindeligt, at data overtræder (dvs. ikke opfylder) en eller flere af disse forudsætninger. Men selv når dine data ikke overholder nogle af disse antagelser, er der ofte en løsning til at overvinde dette. Lad os først tage et kig på disse fem antagelser:

Antagelse nr. 1: Din afhængige variabel består af tælledata. Tælledata er anderledes end de data, der måles i andre velkendte typer af regression (f.eks. kræver lineær regression og multipel regression afhængige variabler, der måles på en “kontinuerlig” skala, binomial logistisk regression kræver en afhængig variabel, der måles på en “dikotomisk” skala, ordinær regression kræver en afhængig variabel, der måles på en “ordinær” skala, og multinomial logistisk regression kræver en afhængig variabel, der måles på en “nominel” skala). I modsætning hertil kræver tællevariabler heltalsdata, som skal være nul eller større. For at gøre det enkelt, kan man tænke på et “heltal” som et “helt” tal (f.eks. 0, 1, 5, 8, 354, 888, 23400 osv.). Da tælledata skal være “positive” (dvs. bestå af “ikke-negative” heltalsværdier), kan de heller ikke bestå af “minus”-værdier (f.eks. ville værdier som -1, -5, -8, -354, -888 og -23400 ikke blive betragtet som tælledata). Desuden foreslås det nogle gange, at Poisson-regression kun udføres, når middelværdien af tallet er en lille værdi (f.eks. mindre end 10). Hvis der er tale om et stort antal tællinger, kan det være mere hensigtsmæssigt at anvende en anden regressionstype (f.eks. multipel regression, gamma-regression osv.).
Eksempler på tællevariabler omfatter antallet af fly, der er mere end tre timer forsinket i europæiske lufthavne, antallet af elever, der suspenderes af skoler i Washington i USA, antallet af gange, hvor mange gange folk i Australien misligholder deres kreditkortbetalinger i løbet af en femårig periode, antallet af personer, der står foran dig i køen på hospitalets skadestueafdeling, antallet af studerende, der får en 1. klasses karakter (typisk mindre end 5) på en MBA-uddannelse, og antallet af personer, der omkommer i ulykker i rutsjebaner i USA.
Antagelse nr. 2: Du har en eller flere uafhængige variabler, som kan måles på en kontinuerlig, ordinal eller nominel/dichotomisk skala. Ordinale og nominelle/dichotome variabler kan groft sagt klassificeres som kategoriske variabler.
Eksempler på kontinuerte variabler omfatter revisionstid (målt i timer), intelligens (målt ved hjælp af IQ-score), eksamenspræstationer (målt fra 0 til 100) og vægt (målt i kg). Eksempler på ordinale variabler omfatter Likert-elementer (f.eks. en 7-punktsskala fra “helt enig” til “helt uenig”) blandt andre måder at rangordne kategorier på (f.eks. en 3-punktsskala, der forklarer, hvor meget en kunde kunne lide et produkt, fra “ikke særlig meget” til “ja, meget”). Eksempler på nominelle variabler omfatter køn (f.eks. to grupper – mand og kvinde – også kendt som en dikotom variabel), etnicitet (f.eks. tre grupper: kaukasisk, afroamerikansk og latinamerikansk) og erhverv (f.eks. fem grupper: kirurg, læge, sygeplejerske, tandlæge og terapeut). Husk, at ordinale og nominelle/dichotome variabler kan klassificeres bredt som kategoriske variabler. Du kan lære mere om variabler i vores artikel:
Antagelse nr. 3: Du skal have uafhængighed af observationer. Det betyder, at hver observation er uafhængig af de andre observationer; det vil sige, at en observation ikke kan give nogen oplysninger om en anden observation. Dette er en meget vigtig antagelse. Manglende uafhængige observationer er for det meste et problem med undersøgelsesdesignet. En metode til at teste muligheden for uafhængighed af observationer er at sammenligne standardmodelbaserede fejl med robuste fejl for at afgøre, om der er store forskelle.
Antagelse nr. 4: Fordelingen af tællinger (betinget af modellen) følger en Poisson-fordeling. En konsekvens heraf er, at de observerede og forventede tællinger bør være ens (i virkeligheden blot meget ens). Det betyder i bund og grund, at modellen forudsiger de observerede tællinger godt. Dette kan testes på flere måder, men en metode er at beregne de forventede tællinger og plotte disse med de observerede tællinger for at se, om de ligner hinanden.
Antagelse nr. 5: Modellens middelværdi og varians er identiske. Dette er en konsekvens af antagelse nr. 4; at der er tale om en Poisson-fordeling. For en Poisson-fordeling har variansen den samme værdi som middelværdien. Hvis denne antagelse er opfyldt, er der tale om equidispersion. Ofte er dette imidlertid ikke tilfældet, og dine data er enten under- eller overdispergeret, idet overdispersion er det mest almindelige problem. Der findes en række forskellige metoder, som du kan bruge til at vurdere overspredning. En metode er at vurdere Pearson-spredningsstatistikken.

Du kan kontrollere forudsætningerne #3, #4 og #5 ved hjælp af SPSS Statistics. Antagelse nr. 1 og 2 bør kontrolleres først, før du går videre til antagelse nr. 3, 4 og 5. Husk blot, at hvis du ikke udfører de statistiske tests på disse antagelser korrekt, er det muligt, at de resultater, du får, når du udfører Poisson-regression, ikke er gyldige.

Og hvis dine data overtræder antagelse #5, hvilket er meget almindeligt, når du udfører Poisson-regression, skal du først kontrollere, om du har “tilsyneladende Poisson-overdispersion”. Tilsyneladende Poisson-overspredning er, når du ikke har specificeret modellen korrekt, således at dataene ser ud til at være overspredte. Hvis din Poisson-model i første omgang ikke overholder antagelsen om equidispersion, bør du derfor først foretage en række justeringer af din Poisson-model for at kontrollere, at den faktisk er overdispredt. Dette kræver, at du foretager seks kontroller af din model/dine data: (a) Omfatter din Poisson-model alle vigtige prædiktorer? b) Omfatter dine data outliers? c) Omfatter din Poisson-regression alle relevante interaktionstermer? d) Skal nogle af dine prædiktorer transformeres? e) Har din Poisson-model brug for flere data og/eller er dine data for sparsomme?; og (f) Har du manglende værdier, som ikke er missing at random (MAR)?

I afsnittet Procedure illustrerer vi SPSS Statistics-proceduren til at udføre en Poisson-regression, idet vi antager, at ingen antagelser er blevet overtrådt. Først introducerer vi det eksempel, der bruges i denne vejledning.

SPSS Statistics

Eksempel & Opsætning i SPSS Statistics

Forskningschefen på et lille universitet ønsker at vurdere, om en akademikers erfaring og den tid, han/hun har til rådighed til at udføre forskning, har indflydelse på antallet af publikationer, som han/hun producerer. Derfor bliver en tilfældig stikprøve på 21 akademikere fra universitetet bedt om at deltage i undersøgelsen: 10 er erfarne akademikere og 11 er nyuddannede akademikere. Antallet af timer, de har brugt på forskning i de sidste 12 måneder, og antallet af peer-reviewede publikationer, de har genereret, er registreret.

For at opstille dette undersøgelsesdesign i SPSS Statistics oprettede vi tre variabler: (1) no_of_publications, som er antallet af publikationer, som akademikeren har udgivet i peer-reviewed tidsskrifter i de sidste 12 måneder; (2) experience_of_academic, som afspejler, om akademikeren er erfaren (dvs. har arbejdet i den akademiske verden i 10 år eller mere og er derfor klassificeret som “erfaren akademiker”) eller for nylig er blevet akademiker (dvs, har arbejdet i den akademiske verden i mindre end tre år, men mindst et år, og derfor klassificeres som “nyuddannet akademiker”) og (3) no_of_weekly_hours, som angiver antallet af timer, som en akademiker har til rådighed hver uge til at arbejde med forskning.

SPSS Statistics

Testprocedure i SPSS Statistics

De 13 trin nedenfor viser dig, hvordan du kan analysere dine data ved hjælp af Poisson-regression i SPSS Statistics, når ingen af de fem antagelser i det foregående afsnit, Antagelser, er blevet overtrådt. I slutningen af disse 13 trin viser vi dig, hvordan du kan fortolke resultaterne fra din Poisson-regression.

Klik på Analyser > Generaliserede lineære modeller > Generaliserede lineære modeller… i hovedmenuen, som vist nedenfor:

Udgivet med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.

Du vil blive præsenteret for dialogboksen Generalized Linear Models nedenfor:

Udgivet med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Vælg Poisson loglinear i -området, som vist nedenfor:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.

Bemærk: Mens det er standard at vælge Poisson loglinear i området for at udføre en Poisson-regression, kan du også vælge at køre en brugerdefineret Poisson-regression ved at vælge Custom i området og derefter angive den type Poisson-model, du ønsker at køre, ved hjælp af indstillingerne Distribution:, Link function: og -Parameter-.
Vælg fanen . Du får følgende dialogboks frem:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Overfør din afhængige variabel, no_of_publications, til feltet Afhængig variabel: i området ved hjælp af knappen , som vist nedenfor:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Vælg fanebladet . Du vil blive præsenteret for følgende dialogboks:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Overfør den kategoriske uafhængige variabel, experience_of_academic, til feltet Factors: og den kontinuerlige uafhængige variabel, no_of_weekly_hours, til feltet Covariates: ved hjælp af knapperne , som vist nedenfor:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.

Note 1: Hvis du har ordinale uafhængige variabler, skal du beslutte, om de skal behandles som kategoriske og angives i feltet Faktorer: eller om de skal behandles som kontinuerte og angives i feltet Kovariater:. De kan ikke indtastes i en Poisson-regression som ordinale variabler.

Note 2: Selv om det er typisk at indtaste kontinuerlige uafhængige variabler i feltet Covariates:, er det muligt at indtaste ordinale uafhængige variabler i stedet. Hvis du vælger at gøre dette, vil din ordinale uafhængige variabel dog blive behandlet som kontinuerlig.

Note 3: Hvis du klikker på knappen , vises følgende dialogboks:

I området -Category Order for Factors- kan du vælge mellem indstillingerne Ascending, Descending og Use data order. Disse er nyttige, fordi SPSS Statistics automatisk omdanner dine kategoriske variabler til dummy-variabler. Medmindre du er bekendt med dummy-variabler, kan dette gøre det lidt vanskeligt at fortolke resultatet fra en Poisson-regression for hver af grupperne af dine kategoriske variabler. Derfor kan det være nemmere at fortolke dit output ved at foretage ændringer i indstillingerne i området -Category Order for Factors-.
Vælg fanen . Du vil blive præsenteret for følgende dialogboks:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Behold standardværdien i området -Build Term(s)- og overfør de kategoriske og kontinuerlige uafhængige variabler, experience_of_academic og no_of_weekly_hours, fra feltet Factors and Covariates: til feltet Model: ved hjælp af knappen , som vist nedenfor:

Published with written permission from SPSS Statistics, IBM Corporation.

Note 1: Det er i -dialogboksen, at du opbygger din Poisson-model. Du bestemmer især, hvilke hovedeffekter du har (indstillingen ), samt om du forventer, at der er nogen interaktioner mellem dine uafhængige variabler (indstillingen ). Hvis du har mistanke om, at du har interaktioner mellem dine uafhængige variabler, er det vigtigt at medtage disse i din model, ikke kun for at forbedre forudsigelsen af din model, men også for at undgå problemer med overspredning, som fremhævet i afsnittet om forudsætninger tidligere.
Mens vi giver et eksempel på en meget simpel model med kun en enkelt hovedeffekt (mellem de kategoriske og kontinuerlige uafhængige variabler, experience_of_academic og no_of_weekly_hours), kan du nemt indtaste mere komplekse modeller ved hjælp af , , . og i området -Build Term(s)- afhængigt af den type hovedvirkninger og interaktioner, du har i din model.

Note 2: Du kan også bygge indlejrede termer i din model ved at tilføje disse i feltet Term: i området -Build Nested Term-. Vi har ikke nested effekter i denne model, men der er mange scenarier, hvor du kan have nested termer i din model.
Vælg fanen . Du får følgende dialogboks frem:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Behold standardindstillingerne valgt.
Bemærk: Der er en række forskellige muligheder, du kan vælge i området -Parameterestimation-, herunder muligheden for at vælge en forskellig: (a) skala-parametermetode (dvs. eller i stedet for i feltet Scale Parameter Method:), som kan overvejes for at håndtere problemer med overspredning; og (b) kovariansmatrix (dvs. Robust estimator i stedet for Model-based estimator i området -Covariance Matrix-), som udgør en anden potentiel mulighed (blandt andet) for at håndtere problemer med overspredning.
Der er også en række specifikationer, du kan foretage i området -Iterations- for at håndtere problemer med ikke-konvergens i din Poisson-model.
Vælg fanen . Du vil blive præsenteret for følgende dialogboks:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.
Vælg Inkluder eksponentielle parameterestimater i -området, som vist nedenfor:

Publiceret med skriftlig tilladelse fra SPSS Statistics, IBM Corporation.

Note 1: I -området kan du vælge mellem Wald- og Likelihood-forholdet baseret på faktorer som f.eks. stikprøvestørrelse og de konsekvenser, som dette kan have for nøjagtigheden af statistisk signifikanstestning.
I området kan Lagrange-multiplikator-testen også være nyttig til at afgøre, om Poisson-modellen er passende for dine data (selv om den ikke kan køres ved hjælp af Poisson-regressionsproceduren).

Note 2: Du kan også vælge en lang række andre muligheder fra fanerne og . Disse omfatter indstillinger, der er vigtige, når du undersøger forskelle mellem grupperne af dine kategoriske variabler samt tester antagelserne for Poisson-regression, som beskrevet i afsnittet Antagelser tidligere.
Klik på knappen . Dette vil generere output.

SPSS Statistics

Interpretation og rapportering af output af Poisson-regressionsanalyse

SPSS Statistics vil generere en hel del tabeller med output for en Poisson-regressionsanalyse. I dette afsnit viser vi dig de otte hovedtabeller, der er nødvendige for at forstå dine resultater fra Poisson-regressionsproceduren, under forudsætning af at ingen antagelser er blevet overtrådt.

Model- og variabelinformation

Den første tabel i outputtet er tabellen Modelinformation (som vist nedenfor). Dette bekræfter, at den afhængige variabel er “Antal publikationer”, at sandsynlighedsfordelingen er “Poisson”, og at linkfunktionen er den naturlige logaritme (dvs. “Log”). Hvis du kører en Poisson-regression på dine egne data, vil navnet på den afhængige variabel være anderledes, men sandsynlighedsfordelingen og linkfunktionen vil være de samme.