Loading
Relaterad information
Att designa ett övervakningsprogram

Skattningar

Att använda förhandsinformation

Dimensionering

Fördelningar för observationer och skattningar


Externa länkar

Urvalsmetoder

Nedan beskrivs de vanligaste utvalsmetoderna och i någon mån även när de är lämpliga att använda.

Ram

För att över huvud taget kunna lotta ut objekt krävs att vi på något sätt kan ”komma åt” dem. Vi måste kunna lotta och veta vilka objekt som blev valda. I det enklaste fallet har vi en (uppdaterad) lista på alla objekt i populationen, med numrering från 1 till något N. I övervakningsprogram brukar populationen vara ett (större) område och det kan inte listas på samma sätt. Men här kan vi använda kartan (koordinaterna) för att komma åt objekt. Ibland kan vi använda ett mellanting, t.ex. en lista på sjöar och koordinaterna inom sjö. En sådan här ”förteckning” av populationen kallas en ram. Sättet på vilken den används kallar vi åtkomstmetod.

Urvalsmetod I. OSU och systematiskt urval

Det enklaste fallet av urval kan göras när ramen består av en lista över hela populationen. Vi kan då sampla (lotta ut stickprovet) ”helt slumpmässigt”, som om vi drog numrerade papperslappar i en hatt. Detta kallas OSU (obundet slumpmässigt urval) och kan göras ”med återläggning” (efter varje dragning läggs lapp tillbaka) eller ”utan återläggning”. Fallet ”med återläggning” är endast teoretiskt intressant, det är inte statistiskt effektivt. En annan möjlighet är att låta stickprovet bestå av vart n:te objekt i listan, där vi dock då lottar vilket av objekten 1, 2, …, n som är det första. Detta förfarande kallas systematiskt urval (med slumpmässig start).

I övervakningssammanhang utgörs vår population normalt av ett område i två dimensioner (ibland tre). Vår ram utgörs då av kartan. Beroende på geometrin på de objekt vi ska mäta kan vi komma åt dem genom att lotta ut punkter, provytor, bälten eller linjer och ha strikta regler för när objekt ska ingå i stickprovet. Några exempel på åtkomstmetoder är:
Ovanstående är bara en del av de möjligheter som finns. Dessutom kan objekt representeras på olika sätt. Exempelvis kan en låga representeras av sin tjocka ända, och alltså av en punkt, och då går det bra att inventera lågor genom att använda provytor.

Lägena för punkterna, provytorna, bältena och linjerna kan vi lotta ut helt slumpmässigt (OSU) eller systematiskt (oftast ett kvadratiskt förband) med slumpmässig start, där utlottningen ger koordinater att besöka i fält (eller ibland att studera i flygbild). För bälten och linjer kan man även välja slumpmässig riktningar, men det är sällan nödvändigt. (Ibland kan det vara effektivt att lägga ut ”linjerna” i form av L eller som kvadrater).

En fördel med OSU eller systematiskt urval är att skattningar (beräkningar) blir enkla. En annan fördel med det systematiska urvalet när populationen är ett område är att man sprider ut observationspunkterna. Värdena i populationen (t.ex. i en sjö eller i ett skogsbestånd) brukar vara likartade för punkter nära varandra (positiv s.k. spatial autokorrelation). En viss nackdel med systematiskt urval är att man inte kan beräkna ett helt korrekt medelfel (man brukar använda samma beräkning för detta som för OSU, men det är på grund av autokorrelationen normalt en överskattning).

Urvalsmetod II. Två- och flerstegsurval

Ett systematiskt urval är oftast effektivt för en objektsvis inventering, t.ex. av en viss sjö (eller ett visst skogsbestånd). I många fall vill vi veta tillståndet för sjöar (eller bestånd) inom ett större geografiskt område. Det finns då i regel en lista på sjöar (kanske bestånd) i området som vi kan använda för att göra urvalet. I ett första steg kan vi använda listan för att lotta ut ett antal sjöar (t.ex. OSU) och sedan i ett andra steg lotta ut (OSU eller systematiskt) en eller flera punkter i de utlottade sjöarna. Denna metod kallas tvåstegsurval och det är inte svårt att tänka sig att urvalsmetoden kan användas i flera steg, alltså flerstegsurval. Typiskt är att datainsamlingen sker hierarkiskt. Detta har effekter på hur data sedermera ska analyseras. Om flera observationer görs per sjö är de (data) inte längre oberoende. Värdena från en och samma sjö är säkerligen mer lika varandra än värden från olika sjöar. Data måste analyseras med en komponent som tar hänsyn till nivån per sjö. Detta gäller även beräkning av medelfel. Med flera steg krävs flera sådana nivåer.

Två- eller flerstegsurval kan vara effektiva om man tar hänsyn till kostnader (man bör observera flera objekt i steg två). Det är mindre kostsamt att mäta på fyra ställen i en sjö än att mäta på ett ställe i vardera fyra sjöar.

Urvalsmetod III. Klusterurval

Med klusterurval menas att man för varje utlottning observerar (mäter på) flera objekt. Vid användning av provytor som åtkomstmetod mäter man i regel diametern på alla träd inom provytan. Alla träden inom en och samma provyta utgör ett kluster. Observationerna inom ett kluster är inte oberoende av varandra och detta måste man ta hänsyn till vid analysen av data. Bland annat ska antalet observationer sättas lika med antalet kluster. I Riksskogstaxeringen är provytorna i sig samlade i kluster till s.k. trakter och antalet observationer (i beräkningar) är då antalet trakter.

Det systematiska urvalet är egentligen ett klusterurval. Sedan startpunkten lottats är hela urvalet gjort.

Klusterurval kan på samma sätt som tvåstegurvalet vara kostnadseffektivt. I Riksskogstaxeringen utgör en trakt en dags arbete (alltså utan restid mellan provytor).

Urvalsmetod IV, PPS-urval

Om man i t.ex. tvåstegsurvalet vill skatta antalet sjöar med vissa egenskaper kan vi utan vidare sampla sjöar OSU. Om vi däremot vill skatta t.ex. arealen sjövatten med viss egenskap i ett område finns det en bättre metod för första steget i urvalet. Det finns stora sjöar och det finns små. Det är (många gånger) rimligt att varje m2 sjövatten ska ha samma sannolikhet att bli utlottat. För att åstadkomma något som liknar detta i det fall vi väljer ut hela sjöar kan vi lotta så att en sjö kommer med i urvalet med en sannolikhet som är direkt proportionell mot sjöns areal. En sjö som är 25 km2 stor ska då få 25 gånger fler ”lotter” än en sjö med arealen 1 km2. Detta kallas PPS-urval (Probability Proportional to Size).

Det finns olika varianter på hur man kan utföra PPS-urval utan återläggning (och man ska i förväg förvissa sig om att den man väljer inte kommer att vålla beräkningsmässiga problem).

Ett alternativ till att göra urvalet PPS mot arealen är att använda tvåstegsurval med OSU av sjöar i första steget och sedan använda fler provpunkter för större sjöar än för små (normalt är det då inte optimalt att välja antalet provpunkter proportionellt mot arealen utan låta ”ökningstakten” vara betydligt mindre).

PPS-urval kan göras mot annat än areal. PPS-urval kan göras mot vilken annan (positiv) (hjälp-) variabel x som helst. Den ska dock vara starkt korrelerad till målvariabeln y. Liksom för stratifiering (se nedan) är det dock inte säkert att en viss variabel x ger ett PPS-urval som är bra för alla intressanta målvariabler.

Urvalsmetod V. Stratifierat urval

Precisionen i en skattning bestäms i hög grad av hur stor variationen (variansen) är i populationen. Det är inte ovanligt att en stor variation orsakas av relativt få mycket höga värden. Om vi då samplar t.ex. OSU kan vi i samplet råka få med fler (eller färre) av de stora värdena än förväntat. Vi får då ett skattat värde som är alldeles för stort (eller litet). För att undvika detta kan man tillgripa metoden med stratifierat urval. Stratifierat urval innebär två saker: Här kräver indelningen i strata att vi har någon sorts förhandsinformation om värdena (gamla värden, gissningar, värden på någon hjälpvariabel som är korrelerad med målvariabeln) eller kan skaffa oss sådan med små medel. Att sträva efter att göra en optimal indelning är fruktlöst. Det räcker i regel att göra en intuitivt bra indelning i strata. Allokeringen kan man sträva efter att göra optimal (med den information vi har) eftersom relativt enkel matematik kan användas. Allokeringen bör leda till att en stor andel av totala samplet satsas på de största stratumen med störst variation (och där kostanden för inventering är minst).

Ett exempel: Antag att vi vill skatta ”arealen av bestånd med gammal lövskog” i ett område. Om vi inte har någon förhandsinformation lägger vi förmodligen ut provytor systematiskt över området. Mycket få av provytorna kommer att hamna i gammal lövskog och skattningen av arealen får låg precision. Antag nu att vi först skaffar oss förhandsinformation genom att studera området i flygbild. Det torde då inte vara svårt att dela in området i tre-fyra strata av delområden beroende på vad man i flygbilden bedömer kan vara lövskog och helst gammal sådan (man ritar in stratumen efter bedömd lövskogsstatus). Därefter ska man säkert lägga ut fler provpunkter (eller ytor) i stratum med förmodad hög andel gammal lövskog än i de med mindre. (Detaljerna i ett sådant utlägg går vi inte in på här). Exemplet visar på att det kan räcka med kvalitativ förhandsinformation, den behöver inte vara kvantitativ.

Man kan göra urval på olika sätt inom olika strata. Varje stratum är i sig en ”population” och för skattning av den ”riktiga” populationstotalen adderar man bara skattningarna för de olika stratumen.

För övervakningsprogram som ska pågå under lång tid bör man tänka på att det som är en bra stratifiering idag inte säkert är det i morgon. Lövskogen ovan försvinner av ålder eller avverkning och ny kommer till.

Anm. Man bör skilja på stratifiering enligt ovan och på begreppet redovisningsgrupp. Med redovisningsgrupp menas en delpopulation för vilken resultat ska redovisas, t.ex. ett län, en kommun eller ett biogeografiskt område. Det är inte ovanligt att man ser redovisningsgrupper som strata. Sådana strata medför dock ingen precisionsvinst, utan används i regel bara för att tillse att man får (tillräckligt med) observationer från varje grupp.

Urval, tidpunkt för mätning

I många fall varierar inte värden i rummet utan (ofta ännu mer) i tiden. Det kan finnas naturliga säsongs- och dygnsvariationer. Frågan om vid vilka tidpunkter mätningar ska utföras beror i hög grad på definitionen av sant värde. Vi kan givetvis definiera det sanna värdet som det som gäller (i genomsnitt) i juni (och eventuellt mitt på dagen). Värdet kan variera även i juni så vi kan göra urvalet OSU med avseende på tiden, d.v.s. lotta ut tidpunkt i juni. Tänker vi oss att mäta fler gånger under juni kan vi välja tidpunkterna systematiskt, med lottad först tidpunkt, eller OSU rakt över. Vill man skatta ett årsgenomsnitt och det finns stora säsongvariationer är nog varken OSU eller systematiskt i tiden det bästa, utan man bör överväga en indelning av året i säsonger och göra ett urval per säsong. Detta är stratifiering (se ovan) och stickprovens storlek bör anpassas till variationer inom respektive säsong.

Urval, för tillstånd eller förändring

Med ett övervakningsprogram avser man säkerligen att följa tillståndet under en längre period och skatta förändringar. Det är då frågan om hur urvalet ska göras period för period. Det är då klart att om man främst är ute efter att skatta förändringar bör man permanenta urvalet, d.v.s. vid de successiva tidpunkterna mäter man exakt samma objekt (som första gången), och under samma tid på året. Det kan dock förekomma migration i populationen, vissa objekt försvinner och andra tillkommer, och då bör man använda sig av partiella utbyten. Man kan t.ex. byta ut 20-25 % av objekten mellan tillfällena. Man kan alternativt använda sig av både permanenta och tillfälliga objekt. Den lämpligaste designen beror i hög grad på det speciella inventeringsfallet och på praktiska övervägande (vad gäller administration, praktiskt utförande och beräkningsarbete). Det finns en uppsjö varianter.

För skattningar av både tillstånd och förändringar kan data från flera tillfällen användas genom sammanvägningar av data, både från tillfälliga och permanenta objekt.

Läs vidare om skattningar




Ansvarig för webbsidan:
webmaster@miljostatistik.se