Avsnitt 2 of 6
Pågående

Linjär regression (regressionsanalys) och korrelation

Korrelation och regression: relationen mellan variabler

Att undersöka sambandet (associationen, relationen) mellan två eller flera variabler är vanligt inom all medicinsk forskning. I detta fall är termerna samband, association och relation i princip synonym. Exempel på samband som kan undersökas är sambandet mellan kolesterol och akut hjärtinfarkt, eller sambandet mellan BMI (Body Mass Index) och blodsocker. Det finns många anledningar till att studera relationen mellan variabler. De vanligaste anledningarna är som följer:

  • Sambandet mellan variablerna är okänt och därav viktigt att undersöka.
  • Sambandet mellan variablerna är känt sedan tidigare men det är av värde att klargöra hur sambandet ser ut i den aktuella populationen.
  • Sambandet måste klargöras för att besluta hur variablerna bäst kan användas i statistiska beräkningar. Flera beräkningar och metoder kräver nämligen att det skall föreligga ett särskilt samband mellan variablerna (diskuteras nedan).

När man undersöker relationen mellan variabler är det följande frågor som skall besvaras:

  1. Finns det någon relation mellan variablerna?
  2. Hur stark är relationen mellan variablerna?
  3. Hur ser relationen ut?

För att studera hur variabler är relaterade så används oftast korrelation och regression. Dessa två är de vanligaste och viktigaste metoderna för att kartlägga relationer mellan variabler. Med korrelation kan man studera hur starkt ett samband mellan två variabler är. Regression är ett kraftfullare verktyg; med regression kan man nämligen studera hur starkt sambandet är; man kan studera fler än två variabler samtidigt och man kan använda resultaten för att prediktera. Att prediktera innebär att man använder en statistisk modell för att förutsäga värdet på en variabel, vars värde är okänt, utifrån värdet på en eller flera variabler vars värde(n) är kända.

Ponera att vi studerar relationen mellan BMI (Body Mass Index) och glukos. Med korrelation kan vi då klargöra hur stark relationen mellan BMI och glukos är. Med regression kan vi, utöver att uttala oss om relationens styrka, även prediktera (förutsäga) vad glukosvärdet är för ett visst BMI.

Korrelation och regression: kausalitet eller association?

Kausalitet och kausala samband diskuteras i en separat föreläsning. Begreppet kausalitet (eller kausalt samband) är centralt inom all forskning. Ett kausalt samband (kausalitet) innebär att två processer är beroende av varandra, så till vida att den första processen orsakar den andra. Ett exempel följer:

Det finns ett bevisat kausalt samband mellan BMI och risken för diabetes. Det innebär att allteftersom BMI stiger så ökar risken för diabetes. Sambandet mellan BMI och diabetes är således kausalt och det är högt BMI som leder till diabetes.

När man undersöker relationer med korrelation och regression så kan man aldrig vara säker på att relationen är kausal. Ett samband som påvisas med korrelation/regression behöver alltså inte vara kausalt, även om det potentiellt är det. Ett exempel på ett icke-kausalt samband följer:

Ponera att vi undersöker sambandet mellan gula fingrar och risken för lungcancer. Vi undersöker 5000 personer och graderar deras fingrar från 0 till 50 avseende hur gula fingrarna är och vi upptäcker att ju gulare fingrar desto större risk för lungcancer. I detta fall är sambandet mellan gula fingrar och lungancer verklighet; dvs det finns ett samband (som eventuellt kan vara av kliniskt intresse). Gula fingrar är dock inte orsaken till lungcancer, utan det är mer sannolikt att personer med gula fingrar röker och ju mer man röker desto gulare är fingrarna. Det är rökningen som förklarar både gula fingrar och lungcancerrisken. Även om gula fingrar inte var orsaken till cancern, så är klargörandet av sambandet ändå viktigt eftersom (1) gula fingrar kan användas kliniskt som screening och (2) gula fingrar kan leda oss till den verkliga orsaken till cancern.

Korrelation och korrelationskoefficienten

En korrelation inbegriper två variabler (hädanefter X och Y). Båda variablerna behandlas lika, så till vida att ingen av variablerna betraktas som prediktor eller utfallsmått (outcome). Korrelationen mellan X och Y indikerar sambandet mellan variablerna. Korrelationen sträcker sig från –1 till +1 och detta värde – som kallas korrelationskoefficienten – saknar enhet. Om korrelationskoefficient är +1 så indikerar det ett perfekt positivt linjärt samband mellan X och Y. Om koefficienten istället är –1 så indikerar det ett perfekt negativt linjärt samband mellan X och Y. Om korrelationskoefficienten är 0 så finns inget samband mellan X och Y. Se Figur 1.

Figur 2. Tre exempel på korrelationer.
Figur 2. Tre exempel på korrelationer.

Korrelationskoefficienten indikerar alltså det linjära sambandet mellan X och Y. Koefficienten kan maximalt vara –1 eller +1, beroende på om sambandet är positivt eller negativt. Ju närmare korrelation är 0, desto svagare är sambandet. Ju närmare korrelationen är –1 eller +1, desto starkare är sambandet. I Figur 1 (a) ses exempel där korrelationskoefficienten är 0, vilket innebär att en ändring i X inte är associerat med någon särskild ändring i Y. I Figur 1 (b) däremot är det tydligt att när X ökar så minskar Y. I Figur 1 (c) ses istället att en ökning av X är associerat med en ökning av Y.

Pearsons korrelationskoefficient

Korrelationskoefficienten måste beräknas utifrån data. Det finns flera alternativ för att beräkna koefficienten. Den vanligaste korrelationskoefficienten är Pearson’s Product-Moment Coefficient of Correlation, eller bara Pearsons korrelationskoefficient. Denna förkortas med bokstaven r. Pearsons korrelationskoefficient erhålls genom att dividera variablernas (X och Y) kovarians med produkten av deras standarddeviationer.

Vad är kovarians och hur skiljer det sig från korrelation?

Kovarians påminner mycket om korrelation. Kovarians är ett mått på två variablers (X, Y) samvariation (dvs hur X och Y samvarierar). Om högre värden på X motsvarar högre värden på Y, och vice versa, så finns en samvariation mellan X och Y. Positiv kovarians innebär att högre värden på X motsvarar högre värden på Y. Negativ kovarians innebär att lägre värden på X motsvarar lägre värden på Y. Kovarians är den linjära samvariationen mellan X och Y, vilket påminner mycket om korrelationen mellan X och Y! Kovarians är dock svårare att tolka och jämföra. Exempelvis kan man inte jämföra om kovariansen mellan ålder och kroppsvikt är lika stark som kovariansen mellan ålder och längd eftersom kovariansen är skalberoende (om variablerna inte har samma skala så kan de inte jämföras). Lösningen på problemet är att normalisera kovariansen. Detta görs genom att dividera kovariansen med ”något” som representerar skalan och variationen i X och Y. Detta ger ett värde som sträcker sig från –1 till +1 oavsett vilka variabler man undersöker. Det gör det också möjligt att jämföra korrelationer mellan variabler. För Pearsons korrelationskoefficient är ”något” alltså produkten av variablernas (X, Y) standarddeviation.

Pearsons korrelationskoefficient bygger på antagandet att X och Y är normalfördelade och sambandet mellan X och Y är linjärt. Pearsons metod är alltså parametrisk (dvs den kräver att variablerna är normalfördelade). Figur 2 visar hur ett linjärt respektive icke-linjärt samband ser ut.

Figur 2. (A) Linjärt samband och (B) icke-linjärt samband.
Figur 2. (A) Linjärt samband och (B) icke-linjärt samband.

Spearman rank correlation coefficient (Spearmans korrelationskoefficient)

Om variablerna (X, Y) inte uppfyller antagandena ovan så finns icke-parametriska metoder. Den mest använda icke-parametriska metoden är Spearman rank correlation coefficient, eller bara Spearmans korrelationskoefficient. Med denna metoden jämförs istället rangordningen mellan X och Y. Genom att använda rangordning blir beräkningen mer robust om sambandet inte är linjärt. Rangordningen dämpar också betydelsen av eventuella outliers (extremvärden).

Om antagandena för Pearsons korrelationskoefficient är uppfyllda så bör man inte använda Spearmans korrelation eftersom den är mindre effektiv, vilket innebär att Pearsons har större möjlighet att upptäcka ett samband (om ett sådant existerar).

Man kan också transformera X eller Y (eller båda) om de inte uppfyller Pearsons antaganden. Transformationen kan exempelvis göras genom att en eller båda variabler logaritmeras. Detta kan ofta resultera i att Pearsons antaganden kan tillfredsställas. Transformationen påverkar inte Spearmans korrelationskoefficient eftersom denna enbart använder variablernas rangordning, vilken inte påverkas av transformationen.

Hur undersöker jag om variablerna är normalfördelade?

Svar: Gör ett histogram för varje variabel.

Hur undersöker jag om relationen mellan X och Y är linjär?

Svar: Scatterplot kan används för att undersöka (visuellt) hur relationen ser ut.

Exempel i R

library(ggplot2)

library(dplyr)

data(diamonds)

View(diamonds)

# Skapa “data” som består av ett slumpmässigt urval av 2000 rader i “diamonds”

tabell <- sample_n(diamonds, 3000)

# Undersöker sambandet grafiskt

plot(tabell$price, tabell$carat)

# Med ggplot2 kan man göra lite mer sofistikerade grafer

# Först anges datafilen, sedan vad som är X och Y värden.

ggplot(tabell, aes(x=carat, y=price)) + geom_point() + geom_smooth(color=”red”) + geom_smooth(method=”lm”, color=”blue”)

# Hur stark är korrelationen enligt Pearsons metod

cor(tabell$price, tabell$carat, method=”pearson”)

# Hur stark är korrelationen enligt Spearmans metod

cor(tabell$price, tabell$carat, method=”spearman”)

Nedan följer figur från ovanstående exempel i R.

Figur 3. Här undersöker vi korrelationen mellan diamanters karat och priset på diamanten. Det är tydligt att ju högre karat desto dyrare diamant. För tydlighetens skull är en rak linje (blå) och en flexibel linje (röd) anpassad till datapunkterna. Dessa linjer är faktiskt regressionslinjer och dessa diskuteras mer nedan.
Figur 3. Här undersöker vi korrelationen mellan diamanters karat och priset på diamanten. Det är tydligt att ju högre karat desto dyrare diamant. För tydlighetens skull är en rak linje (blå) och en flexibel linje (röd) anpassad till datapunkterna. Dessa linjer är faktiskt regressionslinjer och dessa diskuteras mer nedan.

Visuell bedömning av relationen

Man bör alltid göra en visuell bedömning av en korrelation. Scatterplot är utmärkt metod för att göra detta. Anledningen till att en visuell bedömning är viktig är för att själva korrelationskoefficienten inte karaktäriserar sambandet mellan variablerna. Se Figur 4 nedan. Figuren visar fyra korrelationer. I alla fyra fallen är medelvärdet av y = 7.5, variansen av y = 4.12 och korrelationen är 0.816. Korrelationskoefficienten är alltså identisk i alla fyra fallen, trots att den faktiska relationen mellan X och Y inte är lika.

Figur 4. Visuell bedömning av korrelationer.
Figur 4. Visuell bedömning av korrelationer. Källa.

Förklaring till figur 4:

  • Överst till vänster: X och Y förefaller vara normalfördelade.
  • Överst till höger: Här finns ett samband mellan X och Y men sambandet är inte linjärt. I detta fall kommer korrelationskoefficienten vara en linjär approximation till det faktiska sambandet mellan X och Y.
  • Nederst till vänster: Ett perfekt positivt linjärt samband mellan X och Y men en outlier (extremvärde) påverkar korrelationskoefficienten så att den sjunker från 1 till 0.816.
  • Nederst till höger: Sambandet mellan X och Y är svagt men en outlier (extremvärden) påverkar korrelationskoefficienten så att sambandet ser starkare ut än vad det egentligen är.

Korrelationskoefficienten är alltså ett sammanfattningsmått och skall därför aldrig ersätta en visuell bedömning av relationen mellan X och Y.

Regression (regressionsanalys)

Med regression undersöker man också sambandet mellan variabler. Vid regressionsanalys är dock ena variabeln beroende och andra variabeln oberoende. För att följa traditionen kommer den beroende variabeln vara Y och den oberoende variabeln är X. Det innebär att vi kommer använda X för att förutsäga värdet på Y.

Synonym för beroende och oberoende variabel:

  • Beroende variabel kan även kallas för utfall, outcome, eller (engelska) dependent.
  • Oberoende variabel kan även kallas för prediktor.

Ponera att vi undersöker sambandet mellan BMI och glukos. Med regression kan vi använda den ena variabeln för att prediktera värdet på den andra. I detta fall vill vi använda BMI för att prediktera glukosvärdet. BMI är således oberoende (prediktor) och glukos är beroende (outcome).

Figur 5. Regression där BMI (mass) är oberoende variabel som predikterar glukos (beroende variabel).
Figur 5. Regression där BMI (mass) är oberoende variabel som predikterar glukos (beroende variabel).

Ovanstående graf skapades i R med följande kod

library(mlbench)
data(PimaIndiansDiabetes)
View(PimaIndiansDiabetes)
diabetes <- PimaIndiansDiabetes
ggplot(diabetes, aes(x=mass, y=glucose)) + geom_point() + geom_smooth(method="lm")

Regressionen mellan glukos och BMI kan beskrivas som följer:

Yi = β0 + β1Xi + ei

β0 är interceptet (dvs där regressionslinjen skär Y-axeln).

β1 är koefficienten för BMI, vilket innebär att det är värdet för regressionslinjens lutning.

ei är modellens felprecision (residual error). Ingen modell är perfekt; det kommer alltid finnas ett visst fel i prediktionerna och detta felet är ei.

Sammanfattningsvis är detta en modell som predikterar Y med hjälp av en regressionslinje (vars lutning är β1), intercept (β0) och modellens felprecision beskrivs av ei.

Målsättningen är alltså att skapa en regressionslinje vars lutning anpassas så att den representerar sambandet mellan X och Y. Linjens lutning beror på sambandet mellan BMI och glukos. Lutningen för BMI kallas även koefficienten för BMI. Om glukos stiger med stigande BMI, så kommer regressionslinjen ha en positiv lutning. I figuren ovan framgår att linjen har en positiv lutning. Så koefficienten för BMI är posiitv.

Notera att relationen mellan X och Y måste vara linjär och detta kan fastställas med en enkel scatterplot.

Vi fortsätter i R och skapar regressionen:

modell <- lm(glucose ~ mass, data=diabetes)
summary(modell)

Resultaten visar följande:

Coefficients

Intercept: 92.2129
BMI: 0.8965

Interceptet (β0) är 92.2 vilket innebär att regressionslinjen skär Y-axeln vid värdet 92.2. Koefficienten för BMI (β1) är 0.8965, vilket innebär att när BMI ökar med 1 enhet, så ökar glukos med 0.8965 enheter. Detta är oftast av stort intresse, dvs att kunna uttala sig om hur stor inverkan X har på Y.

Om sambandet mellan X och Y inte är linjärt så kan man behöva transformera en eller båda. Transformationer är alltså tilllåtna men de försvårar oftast tolkningen av koefficienten (β1).

Beräkning av regressionslinjen

Centralt för all regressionsanalys är beräkning av regressionslinjen. Den vanligaste metoden är least-squares method (på svenska metod med kvadratsummor). Least-squares kan även kallas för ordinary least-squares. Metoden least-squares går ut på att skapa en linje som minimerar summan av error. Se Figur nedan.

Figur 6. Least-squares metoden (kvadratsummor).
Figur 6. Least-squares metoden (kvadratsummor).

Least-squares syftar till att skapa en regressionslinje som minimerar summan av alla observationers error. Var god se Figur 6 ovan. I figuren framgår att regressionslinjen hamnar mitt på vissa av datapunkterna och i de fallen lyckas regressionslinjen prediktera värdet med litet eller inget fel (error). Av figuren framgår också att vissa värden ligger längre bort från linjen och då lyckas inte linjen prediktera värdet med lika hög precision (error blir större). Metoden med kvadratsummor går ut på att minimera den sammanlagda (totala) errorn. Linjen tippas fram och tillbaka tills lutningen minimerar summan av alla error. Innan man adderar alla error så kvadrerar man dem och syftet med detta är att alla negativa error (de som befinner sig under linjen) skall bli positiva värden. Summan av alla kvadrerade error kallas SSE (Sum Square Residual Errors).

Notera att interceptet (Figur 6) sällan av betydelse men inkluderas då det behövs för att skapa regressionslinjen.

Coefficient of determination: R2

För att skatta styrkan på sambandet mellan X och Y så kan man använda coefficient of determination, även kallat R2. Detta värde går from 0 till 1. Om R2 är 0 så finns inget samband och om R2 är 1 så finns ett perfekt samband, vilket innebär att X kan förklara hela variationen i Y.

Antaganden för regression med least-squares method

Följande antaganden krävs för att least-square skall kunna användas:

1) Residualerna skall vara normalfördelade med medelvärdet 0. Detta kan kontrolleras med en så kallad quantile-quantile plot. I en quantile-quantile plot skall en rak linje ses om antagandet är tillfredsställt.

2) Residualerna skall ha konstant varians. Detta kan kontrolleras genom en scatterplot med estimerade residualer mot fitted values. Scatterplot skall visa ett moln utan något samband mellan värdena.

3) Residualerna skall vara oberoende av varandra. Detta är sällan ett problem såvida inte samma person/cell/bakterie/enhet/etc ingår flera gånger i studiepopulationen. Om samma person ingår flera gånger i studiepopulationen (exempelvis genom upprepade mätningar av BMI och glukos) så är de observationernas residualer beroende av varandra.

Punkt 1) och 2) kan undersökas väldigt enkelt i R genom följande kod, som returnerar alla nödvändiga grafer:

View(PimaIndiansDiabetes)
diabetes <- PimaIndiansDiabetes
modell <- lm(glucose ~ mass, data=diabetes)
plot(modell)

Figur 7. Quantile-Quantile plot (QQ plot). Denna sklal visa en helt rak linje, vilket föreligger i detta fallet (även om det finns lite deviation i ändlägena).
Figur 7. Quantile-Quantile plot (QQ plot). Denna sklal visa en helt rak linje, vilket föreligger i detta fallet (även om det finns lite deviation i ändlägena).

Figur 8. Residualer plottade mot fitted values. Här får inget mönster föreligga, utan det skall vara ett enda stort moln, vilket det är i detta fallet.
Figur 8. Residualer plottade mot fitted values. Här får inget mönster föreligga, utan det skall vara ett enda stort moln, vilket det är i detta fallet.

Prediktion med regression

Regression kan användas för prediktion. Det innebär att vi kan gissa värdet på Y för ett givet X-värde. Det kan exempelvis var av intresse att förutsäga vad blodsockret kommer vara vid ett givet BMI.

Multipel regression

Om vi vill undersöka hur BMI samvarierar med glukos och även beakta ålder, så använder vi multipel regression. Definitionen av multipel regression är helt enkelt regression med minst 2 prediktorer. Multipel regression följer samma principer som den linjära regressionen som diskuterats hittills. Metoden least-squares används som vanligt men i detta fall anpassas inte en regressionslinje utan istället ett regressionsplan genom datapunkterna. Detta plan har ett tredimensionellt utseende som illustreras i Figur 7 nedan:

Figur 9. Ett tredimensionellt regressionsplan.
Figur 9. Ett tredimensionellt regressionsplan.

Formeln för regressionen blir

Yi = β0 + β1Xi + β2Xi + ei

β0 är interceptet.

β1 är koefficienten för BMI.

β2 är koefficienten för ålder.

Då skapar vi ett regressionsplan för att prediktera Y med både BMI och ålder. Denna modellen kommer alltså bära mer information och eventuellt bättre precision än den föregående. Vi gör beräkningen i R och tolkar därefter resultatet:

modell2 <- lm(glucose ~ mass + age, data=diabetes)
summary(modell2)

Resultat:

Coefficients
Intercept 70.3
mass 0.86
age 0.69

Tolkning av mass (BMI): När BMI ökar en enhet så ökar glukos med 0.86 enheter, när vi håller ålder konstant.

Tolkning av age (ålder): När ålder ökar med en enhet, så ökar glukos med 0.69, när vi håller BMI konstant.

Detta innebär att sambandet mellan BMI och glukos nu är “justerat för” ålder, och vice versa, dvs sambandet mellan ålder och glukos är “justerat för” BMI.

Multipel regression diskuteras i detalj i nästa föreläsning.