Comment effectuer une analyse de régression de Poisson dans SPSS Statistics | Laerd Statistics

Introduction

La régression de Poisson est utilisée pour prédire une variable dépendante qui consiste en des « données de comptage » étant donné une ou plusieurs variables indépendantes. La variable que nous voulons prédire est appelée la variable dépendante (ou parfois la variable de réponse, de résultat, cible ou critère). Les variables que nous utilisons pour prédire la valeur de la variable dépendante sont appelées les variables indépendantes (ou parfois les variables prédictives, explicatives ou régressives). Quelques exemples où la régression de Poisson pourrait être utilisée sont décrits ci-dessous :

Exemple #1 : Vous pourriez utiliser la régression de Poisson pour examiner le nombre d’élèves suspendus par les écoles de Washington aux États-Unis en fonction de prédicteurs tels que le sexe (filles et garçons), la race (Blanc, Noir, Hispanique, Asiatique/Insulaire du Pacifique et Amérindien/Alaska Natif), la langue (l’anglais est leur première langue, l’anglais n’est pas leur première langue) et le statut de handicap (handicapé et non handicapé). Ici, le « nombre de suspensions » est la variable dépendante, tandis que le « sexe », la « race », la « langue » et le « statut d’invalidité » sont tous des variables indépendantes nominales.
Exemple n°2 : Vous pourriez utiliser la régression de Poisson pour examiner le nombre de fois où les personnes en Australie ne remboursent pas leur carte de crédit au cours d’une période de cinq ans en fonction de prédicteurs tels que le statut professionnel (employé, chômeur), le salaire annuel (en dollars australiens), l’âge (en années), le sexe (homme et femme) et les niveaux de chômage dans le pays (% de chômeurs). Ici, le « nombre de défauts de remboursement de cartes de crédit » est la variable dépendante, tandis que le « statut professionnel » et le « sexe » sont des variables indépendantes nominales, et le « salaire annuel », l' »âge » et les « niveaux de chômage dans le pays » sont des variables indépendantes continues.
Exemple n°3 : Vous pourriez utiliser la régression de Poisson pour examiner le nombre de personnes qui vous précèdent dans la file d’attente du service des accidents &urgences (A&E) d’un hôpital en fonction de prédicteurs tels que le mode d’arrivée à l’A&E (ambulance ou auto-enregistrement), la gravité évaluée de la blessure lors du triage (légère, modérée, grave), l’heure de la journée et le jour de la semaine. Ici, le « nombre de personnes devant vous dans la file d’attente » est la variable dépendante, tandis que le « mode d’arrivée » est une variable indépendante nominale, la « gravité évaluée de la blessure » est une variable indépendante ordinale, et l' »heure de la journée » et le « jour de la semaine » sont des variables indépendantes continues.
Exemple n°4 : Vous pourriez utiliser une régression de Poisson pour examiner le nombre d’étudiants qui obtiennent une note de 1ère classe dans un programme de MBA en fonction de prédicteurs tels que les types de cours optionnels qu’ils ont choisis (principalement numériques, principalement qualitatifs, un mélange de numérique et de qualitatif) et leur GPA à l’entrée dans le programme. Ici, le « nombre d’étudiants de 1ère classe » est la variable dépendante, tandis que les « cours optionnels » sont une variable indépendante nominale et la « moyenne générale » est une variable indépendante continue.

Après avoir effectué une régression de Poisson, vous serez en mesure de déterminer lesquelles de vos variables indépendantes (le cas échéant) ont un effet statistiquement significatif sur votre variable dépendante. Pour les variables indépendantes catégorielles, vous serez en mesure de déterminer le pourcentage d’augmentation ou de diminution des effectifs d’un groupe (par exemple, les décès parmi les « enfants » faisant du rollercoaster) par rapport à un autre (par exemple, les décès parmi les « adultes » faisant du rollercoaster). Pour les variables indépendantes continues, vous serez en mesure d’interpréter comment une augmentation ou une diminution d’une seule unité de cette variable est associée à une augmentation ou une diminution en pourcentage des dénombrements de votre variable dépendante (par exemple, une diminution de 1 000 $ du salaire – la variable indépendante – sur la variation en pourcentage du nombre de fois où les personnes en Australie ne remboursent pas leurs cartes de crédit – la variable dépendante).

Ce guide de » démarrage rapide » vous montre comment effectuer une régression de Poisson à l’aide de SPSS Statistics, ainsi qu’interpréter et rapporter les résultats de ce test. Cependant, avant de vous présenter cette procédure, vous devez comprendre les différentes hypothèses que vos données doivent respecter pour que la régression de Poisson vous donne un résultat valide. Nous discutons de ces hypothèses ci-après.

Note : Nous n’avons pas actuellement de version premium de ce guide dans la partie abonnement de notre site Web.

SPSS Statistics

Assumptions

Lorsque vous choisissez d’analyser vos données à l’aide de la régression de Poisson, une partie du processus consiste à vérifier que les données que vous voulez analyser peuvent effectivement être analysées à l’aide de la régression de Poisson. Vous devez le faire car il n’est approprié d’utiliser la régression de Poisson que si vos données » passent » cinq hypothèses requises pour que la régression de Poisson vous donne un résultat valide. En pratique, la vérification de ces cinq hypothèses prendra la majeure partie de votre temps lorsque vous effectuerez une régression de Poisson. Cependant, il est essentiel que vous le fassiez car il n’est pas rare que les données violent (c’est-à-dire ne respectent pas) une ou plusieurs de ces hypothèses. Cependant, même lorsque vos données ne respectent pas certaines de ces hypothèses, il existe souvent une solution pour y remédier. Tout d’abord, examinons ces cinq hypothèses :

Hypothèse n°1 : votre variable dépendante est constituée de données de comptage. Les données de comptage sont différentes des données mesurées dans d’autres types de régression bien connus (par exemple, la régression linéaire et la régression multiple nécessitent des variables dépendantes mesurées sur une échelle » continue « , la régression logistique binomiale nécessite une variable dépendante mesurée sur une échelle » dichotomique « , la régression ordinale nécessite une variable dépendante mesurée sur une échelle » ordinale » et la régression logistique multinomiale nécessite une variable dépendante mesurée sur une échelle » nominale « ). En revanche, les variables de comptage nécessitent des données entières qui doivent être égales ou supérieures à zéro. En termes simples, pensez à un « entier » comme à un nombre « complet » (par exemple, 0, 1, 5, 8, 354, 888, 23400, etc.). De plus, puisque les données de comptage doivent être « positives » (c’est-à-dire constituées de valeurs entières « non négatives »), elles ne peuvent pas être constituées de valeurs « négatives » (par exemple, des valeurs telles que -1, -5, -8, -354, -888 et -23400 ne seraient pas considérées comme des données de comptage). En outre, il est parfois suggéré que la régression de Poisson ne soit effectuée que lorsque le nombre moyen de comptages est une petite valeur (par exemple, moins de 10). Lorsqu’il y a un grand nombre de comptages, un autre type de régression pourrait être plus approprié (par exemple, régression multiple, régression gamma, etc.).
Des exemples de variables de comptage incluent le nombre de vols retardés de plus de trois heures dans les aéroports européens, le nombre d’élèves suspendus par les écoles de Washington aux États-Unis, le nombre de fois où les gens en Australie ne remboursent pas leur carte de crédit sur une période de cinq ans, le nombre de personnes qui vous précèdent dans la file d’attente au service des accidents &urgences (A&E) d’un hôpital, le nombre d’étudiants qui obtiennent une note de 1ère classe (généralement moins de 5) dans un programme de MBA, et le nombre de personnes tuées dans des accidents de montagnes russes aux États-Unis.
Hypothèse n°2 : Vous avez une ou plusieurs variables indépendantes, qui peuvent être mesurées sur une échelle continue, ordinale ou nominale/dichotomique. Les variables ordinales et nominales/dichotomiques peuvent être classées de manière générale comme des variables catégorielles.
Des exemples de variables continues incluent le temps de révision (mesuré en heures), l’intelligence (mesurée à l’aide du score de QI), la performance aux examens (mesurée de 0 à 100) et le poids (mesuré en kg). Parmi les exemples de variables ordinales, citons les items de Likert (par exemple, une échelle à 7 points allant de « tout à fait d’accord » à « pas du tout d’accord »), parmi d’autres moyens de classer des catégories (par exemple, une échelle à 3 points expliquant à quel point un client a aimé un produit, allant de « Pas beaucoup » à « Oui, beaucoup »). Parmi les exemples de variables nominales, citons le sexe (par exemple, deux groupes – homme et femme – donc également appelé variable dichotomique), l’origine ethnique (par exemple, trois groupes : caucasien, afro-américain et hispanique) et la profession (par exemple, cinq groupes : chirurgien, médecin, infirmier, dentiste, thérapeute). N’oubliez pas que les variables ordinales et nominales/dichotomiques peuvent être classées dans la catégorie des variables catégorielles. Vous pouvez en savoir plus sur les variables dans notre article : Types de variables.
Hypothèse n°3 : Vous devez avoir une indépendance des observations. Cela signifie que chaque observation est indépendante des autres observations, c’est-à-dire qu’une observation ne peut fournir aucune information sur une autre observation. Il s’agit d’une hypothèse très importante. Un manque d’observations indépendantes est principalement un problème de conception de l’étude. Une méthode pour tester la possibilité d’indépendance des observations est de comparer les erreurs standard basées sur le modèle aux erreurs robustes pour déterminer s’il existe de grandes différences.
Hypothèse n°4 : La distribution des comptages (conditionnelle au modèle) suit une distribution de Poisson. Une conséquence de ceci est que les comptages observés et attendus devraient être égaux (en réalité, juste très similaires). Essentiellement, cela signifie que le modèle prédit bien les comptages observés. Cela peut être testé de plusieurs façons, mais une méthode consiste à calculer les comptes attendus et à les tracer avec les comptes observés pour voir s’ils sont similaires.
Hypothèse #5 : La moyenne et la variance du modèle sont identiques. C’est une conséquence de l’hypothèse n°4 ; qu’il existe une distribution de Poisson. Pour une distribution de Poisson, la variance a la même valeur que la moyenne. Si vous satisfaites cette hypothèse, vous avez une équidispersion. Cependant, ce n’est souvent pas le cas et vos données sont soit sous-dispersées, soit surdispersées, la surdispersion étant le problème le plus courant. Il existe une variété de méthodes que vous pouvez utiliser pour évaluer la surdispersion. Une méthode consiste à évaluer la statistique de dispersion de Pearson.

Vous pouvez vérifier les hypothèses #3, #4 et #5 en utilisant SPSS Statistics. Les hypothèses #1 et #2 doivent être vérifiées en premier, avant de passer aux hypothèses #3, #4 et #5. Rappelez-vous simplement que si vous n’exécutez pas correctement les tests statistiques sur ces hypothèses, les résultats que vous obtenez lorsque vous exécutez une régression de Poisson pourraient ne pas être valides.

De plus, si vos données ont violé l’hypothèse #5, ce qui est extrêmement courant lorsque vous exécutez une régression de Poisson, vous devez d’abord vérifier si vous avez une « surdispersion de Poisson apparente ». On parle de surdispersion de Poisson apparente lorsque vous n’avez pas spécifié le modèle correctement, de sorte que les données semblent surdispersées. Par conséquent, si votre modèle de Poisson viole initialement l’hypothèse d’équidispersion, vous devez d’abord effectuer un certain nombre d’ajustements à votre modèle de Poisson pour vérifier qu’il est réellement surdispersé. Pour ce faire, vous devez effectuer six vérifications de votre modèle/données : (a) Votre modèle de Poisson inclut-il tous les prédicteurs importants? ; (b) Vos données comprennent-elles des valeurs aberrantes? ; (c) Votre régression de Poisson inclut-elle tous les termes d’interaction pertinents? ; (d) L’un de vos prédicteurs doit-il être transformé? ; (e) Votre modèle de Poisson nécessite-t-il davantage de données et/ou vos données sont-elles trop éparses ?; et (f) Avez-vous des valeurs manquantes qui ne sont pas manquantes au hasard (MAR) ?

Dans la section, Procédure, nous illustrons la procédure SPSS Statistics pour effectuer une régression de Poisson en supposant qu’aucune hypothèse n’a été violée. Tout d’abord, nous présentons l’exemple qui est utilisé dans ce guide.

SPSS Statistics

Exemple &Configuration dans SPSS Statistics

Le directeur de la recherche d’une petite université souhaite évaluer si l’expérience d’un universitaire et le temps dont il dispose pour effectuer des recherches influencent le nombre de publications qu’il produit. Par conséquent, un échantillon aléatoire de 21 universitaires de l’université sont invités à participer à la recherche : 10 sont des universitaires expérimentés et 11 sont des universitaires récents. Le nombre d’heures qu’ils ont consacré à la recherche au cours des 12 derniers mois et le nombre de publications évaluées par les pairs qu’ils ont générées sont enregistrés.

Pour mettre en place ce plan d’étude dans SPSS Statistics, nous avons créé trois variables : (1) no_of_publications, qui est le nombre de publications que l’universitaire a publiées dans des revues à comité de lecture au cours des 12 derniers mois ; (2) experience_of_academic, qui reflète si l’universitaire est expérimenté (c’est-à-dire qu’il a travaillé dans le milieu universitaire pendant 10 ans ou plus, et est donc classé comme un « Universitaire expérimenté ») ou s’il est devenu récemment un universitaire (c’est-à-dire, a travaillé dans le milieu universitaire pendant moins de 3 ans, mais au moins un an, et est donc classé comme « Universitaire récent ») ; et (3) no_of_weekly_hours, qui est le nombre d’heures dont un universitaire dispose chaque semaine pour travailler sur la recherche.

SPSS Statistics

Procédure de test dans SPSS Statistics

Les 13 étapes ci-dessous vous montrent comment analyser vos données en utilisant la régression de Poisson dans SPSS Statistics lorsqu’aucune des cinq hypothèses de la section précédente, Hypothèses, n’a été violée. À la fin de ces 13 étapes, nous vous montrons comment interpréter les résultats de votre régression de Poisson.

Cliquez sur Analyser >Modèles linéaires généralisés…. dans le menu principal, comme indiqué ci-dessous :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.

Vous verrez apparaître la boîte de dialogue Modèles linéaires généralisés ci-dessous :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
Sélectionnez Poisson log-linéaire dans la zone , comme indiqué ci-dessous :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.

Note : Bien qu’il soit standard de sélectionner Poisson loglinéaire dans la zone afin d’effectuer une régression de Poisson, vous pouvez également choisir d’exécuter une régression de Poisson personnalisée en sélectionnant Personnalisé dans la zone , puis en spécifiant le type de modèle de Poisson que vous souhaitez exécuter à l’aide des options Distribution :, Fonction de liaison : et -Paramètre-.
Sélectionnez l’onglet . La boîte de dialogue suivante s’affiche :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
Transférez votre variable dépendante, no_of_publications, dans la case Variable dépendante : dans la zone en utilisant le bouton , comme indiqué ci-dessous :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
Sélectionnez l’onglet . La boîte de dialogue suivante s’affiche:

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
Transférez la variable indépendante catégorielle, expérience_de_l’académie, dans la boîte Facteurs : et la variable indépendante continue, no_d’heures_hebdomadaires, dans la boîte Covariables :, en utilisant les boutons , comme indiqué ci-dessous :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.

Note 1 : Si vous avez des variables indépendantes ordinales, vous devez décider si elles doivent être traitées comme des catégories et saisies dans la case Facteurs : ou traitées comme continues et saisies dans la case Covariates :. Elles ne peuvent pas être entrées dans une régression de Poisson en tant que variables ordinales.

Note 2 : Alors qu’il est typique d’entrer des variables indépendantes continues dans la case Covariates :, il est possible d’entrer des variables indépendantes ordinales à la place. Cependant, si vous choisissez de le faire, votre variable indépendante ordinale sera traitée comme continue.

Note 3 : Si vous cliquez sur le bouton , la boîte de dialogue suivante apparaîtra :

Dans la zone-Ordre des catégories pour les facteurs- vous pouvez choisir entre les options Ordre ascendant, Ordre descendant et Utiliser l’ordre des données. Ces dernières sont utiles car SPSS Statistics transforme automatiquement vos variables catégorielles en variables muettes. Si vous n’êtes pas familier avec les variables nominales, cela peut rendre un peu difficile l’interprétation des résultats d’une régression de Poisson pour chacun des groupes de vos variables catégorielles. Par conséquent, apporter des modifications aux options de la zone -Commande des catégories pour les facteurs- peut faciliter l’interprétation de votre sortie.
Sélectionnez l’onglet . La boîte de dialogue suivante s’affiche :

Publié avec la permission écrite de SPSS Statistics, IBM Corporation.
Maintenez la valeur par défaut de dans la zone -Build Term(s)- et transférez les variables indépendantes catégoriques et continues, experience_of_academic et no_of_weekly_hours, de la boîte Factors and Covariates : dans la boîte Model :, en utilisant le bouton , comme indiqué ci-dessous:

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.

Note 1 : C’est dans la boîte de dialogue que vous construisez votre modèle de Poisson. En particulier, vous déterminez quels effets principaux vous avez (l’option ), ainsi que si vous vous attendez à ce qu’il y ait des interactions entre vos variables indépendantes (l’option ). Si vous soupçonnez que vous avez des interactions entre vos variables indépendantes, les inclure dans votre modèle est important non seulement pour améliorer la prédiction de votre modèle, mais aussi pour éviter les problèmes de surdispersion, comme souligné dans la section Hypothèses plus tôt.
Alors que nous fournissons un exemple pour un modèle très simple avec un seul effet principal (entre les variables indépendantes catégorielles et continues, expérience_de_l’académie et no_de_l’heure_hebdomadaire), vous pouvez facilement entrer des modèles plus complexes en utilisant les , , . et dans la zone -Build Term(s)- selon le type d’effets principaux et d’interactions que vous avez dans votre modèle.

Note 2 : Vous pouvez également construire des termes imbriqués dans votre modèle en les ajoutant dans la case Term : dans la zone -Build Nested Term-. Nous n’avons pas d’effets imbriqués dans ce modèle, mais il existe de nombreux scénarios où vous pourriez avoir des termes imbriqués dans votre modèle.
Sélectionnez l’onglet . La boîte de dialogue suivante s’affiche :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
Gardez les options par défaut sélectionnées.
Note : Il existe un certain nombre d’options différentes que vous pouvez sélectionner dans la zone -Parameter Estimation-, notamment la possibilité de choisir une différente : (a) méthode de paramètre d’échelle (c’est-à-dire ou au lieu de dans la case Méthode de paramètre d’échelle :), qui pourrait être envisagée pour traiter les problèmes de surdispersion ; et (b) matrice de covariance (c’est-à-dire estimateur robuste au lieu d’estimateur basé sur le modèle dans la zone -Matrice de covariance-), qui présente une autre option potentielle (entre autres) pour traiter les problèmes de surdispersion.
Il y a également un certain nombre de spécifications que vous pouvez faire dans la zone -Iterations- afin de traiter les questions de non-convergence dans votre modèle de Poisson.
Sélectionnez l’onglet . La boîte de dialogue suivante s’affiche :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.
Sélectionnez Inclure les estimations de paramètres exponentiels dans la zone , comme indiqué ci-dessous :

Publié avec l’autorisation écrite de SPSS Statistics, IBM Corporation.

Note 1 : Dans la zone , vous pouvez choisir entre le rapport de Wald et le rapport de vraisemblance en fonction de facteurs tels que la taille de l’échantillon et les implications que cela peut avoir sur la précision des tests de signification statistique.
Dans la zone , le test du multiplicateur de Lagrange peut également être utile pour déterminer si le modèle de Poisson est approprié pour vos données (bien que cela ne puisse pas être exécuté en utilisant la procédure de régression de Poisson).

Note 2 : Vous pouvez également sélectionner une large gamme d’autres options dans les onglets et . Il s’agit notamment d’options qui sont importantes lors de l’examen des différences entre les groupes de vos variables catégorielles ainsi que pour tester les hypothèses de la régression de Poisson, comme discuté dans la section Hypothèses plus tôt.
Cliquez sur le bouton . Cela générera la sortie.

SPSS Statistics

Interprétation et rapport de la sortie de l’analyse de régression de Poisson

SPSS Statistics générera pas mal de tableaux de sortie pour une analyse de régression de Poisson. Dans cette section, nous vous montrons les huit tableaux principaux nécessaires pour comprendre vos résultats de la procédure de régression de Poisson, en supposant qu’aucune hypothèse n’a été violée.

Informations sur le modèle et les variables

Le premier tableau de la sortie est le tableau d’informations sur le modèle (comme indiqué ci-dessous). Il confirme que la variable dépendante est le « Nombre de publications », la distribution de probabilité est « Poisson » et la fonction de liaison est le logarithme naturel (c’est-à-dire « Log »). Si vous exécutez une régression de Poisson sur vos propres données, le nom de la variable dépendante sera différent, mais la distribution de probabilité et la fonction de liaison seront les mêmes.