Relaterad information
Datamaterialets egenskaper Bedömning av datakvalitet

Arbetsgång för en statistisk analys

Vilken är min biologiska/kemiska/ekologiska frågeställning?

Inför ett upplägg av en ny studie eller analys av data är det viktigt att grundligt tänka igenom vilken (vilka) fråga (-or) man vill ha svar på. Typiska frågeställningar kan vara:

vilka förändringar sker i kvalitetsstatus vid en plats eller ett område
vilka förändringar sker i en viss variabel på en plats eller ett område
vilka skillnader finns det i områden som är påverkade av människan i jämförelse med likvärdiga opåverkade referensområden
finns det artificiella brytpunkter i en tidserie
finns det mönster eller grupperingar i ett dataset med många observationer och många variabler

Att ställa en genomtänkt fråga är basen för ett bra övervakningsprogram, ett lyckat experiment eller en grundlig analys. När man identifierat och definierat sin fråga är det dags att fundera över hur man samlar in och analyserar data för att svara på frågan. Det är här statistiken kommer in i bilden.

Vilken är min statistiska frågeställning?

Det är inte alltid självklart hur man översätter den biologiska frågeställningen till en fråga som inkludera mätbara variabler. Vill man t.ex. utvärdera förändringar i kvalitén i ett vattendrag eller i luften måste man välja ut en eller ett fåtal variabler som kan representera kvalitén, med risken att inte få med alla aspekter. Väljer man flera variabler så kan det bli komplicerat att sammanfatta all informationen när man redovisar sina slutsatser.

När man har bestämt den eller de mätbara variablerna som ska undersökas så måste man också ta ställning till hur dessa variabler sammanfattas. Man kan då fråga sig:

är det intressantast med medelvärden, t.ex. undersöka om medelvärdet ändras över tiden eller på grund av en åtgärd?
är det mer intressant att titta på de mest extrema händelserna, alltså när och hur ofta variabeln antar väldigt höga/låga värden?
är det en fördel att sammanfatta mätningarna i en 0/1 variabel eller en kategorisk variabel, till exempel att man bara noterar att ett visst gränsvärde överskrids eller inte.

Vilken metod man ska välja för analysen beror till en stor dela av detta val. Läs mer om olika variabeltyper här.

Om den statistiska frågeställningen ska analyseras med hjälp av ett test så är nästa steg att noga formulera en statistisk hypotes. En statistisk hypotes innehåller en nollhypotes och en eller flera alternativhypoteser. Nollhypotesen formuleras så att det inte skett någon förändring. Alternativhypotesen står för förändring, t.ex att det finns en trend eller att det har skett en ökning/minsking p.g.a. av en åtgärd. Läs mer om hypoteser och hypotesprövning här (Pdf-fil).

När man bestämt hur data bäst sammanfattas och hypoteserna är bestämda har man också oftast redan en lämplig statistisk analysmetod i tanke. Om frågeställningen handlar om att analysera trender är man naturligtvis främst intresserat i metoder för trendanalyser, vill man jämföra olika medelvärden så har man kanske tänkt på t-test eller variansanalysmetoder. För analys av samband kan regression eller multivariata metoder vara aktuella. Innan man kan gå vidare till analysen måste man dock kontrollera datakvalitén och datamaterialets egenskaper för att kunna hitta den bästa och mest lämpliga analysen. Det är en stor fördel att redan före detta steg veta om metodernas begränsningar. Läs mer här om granskning av datakvalitén (länk) och om vissa egenskaper av datamaterialet (länk) som kan påverka val av metod.

Att omvärdera en frågeställning

I vissa fall går det inte att få ett svar på den frågeställning man hade från början, t.ex pga datakvalitetsproblem eller vissa egenskaper som datamaterialet har.

Ett typiskt problem är att en serie uppvisar avvikande perioder eller saknar observationer på ett sätt som inte är slumpmässigt och som gör det omöjligt att uttala sig om trender eller förändringar under den valda tidsperioden. I värsta fall kan det insamlade datamaterialet inte användas alls. Då är det viktigt att undersöka hur dessa datakvalitetsproblem har uppstått för att undvika att framtida undersökningar stöter på samma problem. Ibland kan man använda serien i alla fall, men genom att välja bort opålitliga delar av serien. Frågeställningen måste ofta omformuleras, då man inte längre har tillgång till ett lika omfattande datamaterial. Isället för att formulera frågan till ’Vilka förändringar har skett i nivån av alkalinitet i Våtsjön mellan 2001 och 2011’, så blir det kanske ’ Vilka förändringar har skett i nivån av alkalinitet i Våtsjön mellan 2001 och 2009’.

Ett annat problem kan vara att det observerade datamaterialet visar upp egenskaper som inte är förenliga med vanliga statistikmetoder, t.ex. om det finns både värden under en detektionsgräns och beroenden mellan observationer i tid och/eller rum, så kan det vara svårt att hitta statistiska metoder som är enkla att använda och kan hantera dessa speciella egenskaper hos datamaterialet eller så krävs det fler observationer än vad man har samlat in. Då kan man fundera på om det blir enklare att koncentrera sin frågeställning på en övervakningsstation i taget, en period på året då man inte förekommer värden under detektionsgräns (om det är intressant med denna period) eller överväga om man kan bilda medelvärden över platser eller tidpunkter för att inte behöva skatta alla beroenden.

Vilken är min frågeställning?

Med kunskap om den biologiska frågeställningen och hur den kan översättas i statistiska termer, samt vetskap om datamaterialets egenskaper och kvalitet kan nu en bra statistisk metod väljas. Antalet tänkbara fortsättningar av analysen är många. Här presenterar vi fyra ämnen djupare:

Bedömning av måluppfyllelse.
Analys av flera variabler samtidigt, se även flödeschemat .
Analys av trender, se även flödeschemat.
Detektion av brytpunkter.

Vilken är min statistiska slutsats?

Om man genomför ett statistisk test i analysen så får man till svar om man ska behålla eller förkasta sin nollhypotes. Om man väljer att förkasta nollhypotesen finns det alltid en risken att man har fel, denna risk kallas för felet av första slaget och är samma som signifikansnivån. Ibland är det också viktigt att undersöker styrkan (länk) av det statistiska testet. Styrkan ska helst undersökas innan data samlas in för att säkerställa att stickprovsstorleken är tillräckligt stort för att kunna hitta relevanta effekter. Det kan dock också vara intressant med styrkeanalyser efter ett signifikanstest (så-kallad post hoc styrkeanalys).

Om den statistiska analysen inte är ett signifikanstest så är det oftast en deskriptiv analys, t.ex. för att hitta intressanta mönster eller nya frågeställningar som kan undersökas vidare. Den statistiska slutsatsen blir då en sammanfattning av vad som hittats under analysen.

Vilken är min biologiska/kemiska/ekologiska slutsats?

Även om det statistiska testet visar en signifikant förändring, d.v.s. att nollhypotesen förkastas, är det långt ifrån säkert att denna förändring har någon betydelse sett ur ett ekologiskt perspektiv. För att svara på sådana frågor krävs expertkunskap om det man studerar. På samma sätt kan mönster i en descriptiv analys vara mer eller mindre intressanta i praktiken. Avsluta alltid din analys med att noga tänka igenom om och hur de statistiska resultaten är betydelsefulla för just din frågeställning.

Exempel

Den biologiska frågeställnigen: Har kalkning haft en effekt på försurningsstatusen av Våtsjön?
Den statistiska frågeställningen: Har alkaliniteten förändrats efter tidpunkt t0 (tidpunkten för kalkningen)

Formulering av den statistiska frågan: Vi är intresserade av den genomsnittliga nivån i alkaliniteten och väljer därför att sammanfatta data med ett medelvärde före och ett efter tidpunkt t0.

Hypoteser:
Nollhypotes H0: Alkaliniteten efter kalkning skiljer sig inte från alkaliniteten före kalkning eller

μ_{alkalinitet före t0} = μ_{alkalinitet efter t0}
där μ står för medelvärdet (väntevärdet).

Alternativhypotes H1: Alkaliniteten efter kalkning skiljer sig från alkaliniten efter kalkning eller
μ_{alkalinitet före t0} ≠ μ_{alkalinitet efter t0}

Upplägget av frågeställning och hypoteser följer den av ett t-test. T-test baseras på ett antal antaganden som måste vara uppfyllda: (i) observationerna ska vara oberoende (ii) observationerna ska vara normalfördelade, eller ett medelvärde måste bildas av minst 20 (tumregel) observationer, så att medelvärdets fördelning är normal enligt Centrala Gränsvärdessatsen och (iii) varianserna ska vara lika i de två grupperna.

Om antagande (iii) inte är uppfyllt kan det lätt justeras genom att använda den versionen av t-test som tillåter olika varianser (se t.ex. Biometri, Ulf Olsson, sida 167). Om antagande (ii) inte är uppfyllt så kan man undersöka om data kan transformeras (länk), annars måste man byta till en icke-parametrisk metod. Om antagande (i) inte är uppfyllt så måste man försöka modellera beroendet mellan observationerna (om data har samlats in som en tidserie och beroendet är i tiden, så kan man också tänka sig att glesa ut serien till ett tidsavstånd, där observationerna kan anses oberoende). Observera att även icke-parametriska metoder kräver att observationerna är oberoende.

Andra aspekter som kan påverka analyssättet:

Säsongsvariation 1 – Om man har samlat in data över hela året så finns det oftast en viss säsongsvariation i data. Man kan då bilda genomsnittet över ett år eller flera år bara om alla säsonger är lika mycket representerade i båda grupperna. Till exempel blir det problem om man vill jämföra medelvattentemperatur mellan två grupper av sjöar, men där mätningar på sommaren saknas i den ena gruppen.

Säsongsvariation 2 – Även om det är möjligt att bilda årsmedelvärden så kan det vara mer intressant att jämföra värden för de olika säsongerna (t.ex. vårvärden före kalkning med vårvärden efter kalkning.) för att upptäcka om det blir olika slutsatser för olika säsonger.

Värden under detektionsgräns – Har man värden under en detektionsgräns måste skattningssättet för medelvärdena anpassas. Om man använder den relativt vaniga metoden att sätta dessa värden till värdet av halva detektionsgränsen kan man få mycket missvisande medelvärden.

Finns det naturlig variation som kan kontrolleras – De flesta dataset insamlade i naturen innehåller variation som härrör från förändrade väderförhållanden. Säsongvariation är en typ, men variationen kan naturligtvis även vara mycket mer kortsiktigt, t.ex. en regnig dag, en längre torrperiod,etc. Innan man börjar en analys kan det vara en god idé att undersöka om det är möjligt att korrigera för naturlig variation som inte är intressant i min frågeställning. Om det finns en sjö där ingen kalkning har gjorts men där förutsättningarna för övrigt liknar vår sjö i undersökningen, så kan den med fördel användas som referensområde, för att representera den naturliga variationen. Det blir då enklare att påvisa även mindre effekter i den kalkade sjön eftersom variationen i data blir mindre då man kunnat ta hänsyn till och justera för den naturliga dag-till-dag variationen.