Ibland räcker det inte med linjär regression – särskilt när vi tror att våra observerade förhållanden är icke-linjära. Av denna anledning bör vi vända oss till andra typer av regression. Den här sidan är en kort lektion om hur man beräknar en kvadratisk regression i Excel. Om du har några frågor är du som alltid välkommen att mejla mig på [email protected]!
Den typiska regressionstypen är en linjär regression, som identifierar ett linjärt samband mellan prediktor(er) och ett resultat. Ibland är dock våra effekter inte linjära. I dessa fall måste vi tillämpa olika typer av regression.
En vanlig icke-linjär relation är den kvadratiska relationen, som är en relation som beskrivs av en enda kurva. I dessa fall kan förhållandet mellan två variabler se ut som ett U eller ett uppochnedvänt U. Ofta kallar vi det senare av dessa förhållanden (det uppochnedvända U) för en ”för mycket av det goda”-effekt. Det vill säga, när en variabel stiger, stiger den andra också, men när man kommer till en viss punkt går förhållandet ner igen. Exempelvis kan samvetsgrannhet ha ett samband med livstillfredsställelse. Om du är hårt arbetande är du i allmänhet mer nöjd med ditt liv. När du når en viss nivå av samvetsgrannhet kan dock din livstillfredsställelse sjunka igen. Om du är för hårt arbetande kan du bli stressad och mindre nöjd med ditt liv.
Det finns mer som skulle kunna sägas om kvadratisk regression, men vi ska hålla det enkelt. För att beräkna en kvadratisk regression kan vi använda Excel. Om du inte har något dataset kan du ladda ner exempeldataset här. I datasetet undersöker vi sambandet mellan samvetsgrannhet och livstillfredsställelse.
Data ska se ut ungefär så här:
Om ditt dataset ser annorlunda ut ska du försöka formatera om det så att det liknar bilden ovan. Anvisningarna nedan kan vara lite förvirrande om dina data ser lite annorlunda ut.
Först kan vi skapa en spridningsdiagram över förhållandet mellan samvetsgrannhet och livstillfredsställelse. Som du kan se finns det en tydlig U-form i data, vilket indikerar att en kvadratisk regression bör tillämpas.
För att utföra en kvadratisk regression måste vi först skapa en ny variabel. För att göra det i Excel ska vi först högerklicka på vår resultatkolumn och sedan klicka på Infoga.
Detta skapar en ny kolumn. I denna nya kolumn vill vi att varje cell ska vara kvadraten på vår respektive prediktorobservation. För att göra detta lägger du först till en etikett till den första cellen i kolumnen, till exempel ConSQ. Skriv sedan ”=A2^2” i den andra cellen i kolumnen (utan citationstecken). Detta kommer automatiskt att beräkna kvadraten på det som står i den andra cellen i den första kolumnen.
För att göra detta för resten av cellerna kan du dubbelklicka längst ner till höger på cellen med formeln i den. Om du gör det på rätt sätt ska formeln automatiskt kopieras till var och en av de följande cellerna, och ditt Excel-kalkylblad ska se ut på följande sätt:
När du väl har de kvadrerade värdena ska vi utföra en regression som vanligt. Klicka på Dataanalys.
Därefter Regression och OK.
Klicka sedan på knappen nedan för att identifiera dina utfallsdata (ditt Y-område).
Markera dina utfallsdata, inklusive etiketten. Klicka sedan på knappen som visas nedan.
Klicka nu på knappen nedan för att identifiera dina prediktordata (ditt X-område).
Markera nu BÅDE din prediktorvariabel och dess kvadrerade värden, inklusive deras etiketter. Klicka sedan på knappen som visas nedan.
Slutningsvis klickar du på rutan för Etiketter och trycker på OK.
Vi borde få resultat! Yay!
Om du behöver hjälp med att läsa den här tabellen kan du ta en titt på min guide Regression i Excel. Annars kan vi tydligt se att det ostandardiserade betavärdet för samvetsgrannhet är -23,864, och det ostandardiserade betavärdet för dess kvadratvärden är 3,106. Båda dessa är statistiskt signifikanta (p < .001). När vi tolkar kvadratiska effekter tolkar vi dock endast betydelsen av den högsta ordningens effekt – i det här fallet den kvadrerade prediktoren. Vi skulle alltså säga att en signifikant kvadratisk effekt sågs mellan samvetsgrannhet och livstillfredsställelse, och att förhållandet kunde beskrivas av en enda kurva. Vi skulle sedan titta på spridningsdiagrammet mellan de två för att identifiera kurvans form, som liknade ett U. Slutligen skulle vi kunna identifiera att modellens totala R-kvadrat var 0,78, vilket är mycket högt för samhällsvetenskaperna!
Självklart ger resultaten annan information, som kan vara användbar för dina särskilda syften, men den aktuella guiden täcker bara grunderna.