Loading
Relaterad information
Datakvalitet

Ett test för univariata outliers - Grubb's test

Principalkomponentanalys för detektion av outliers


Externa länkar
Robust beräkning av kovarianser som sen används för att bestämma ellipserna i exemplet (Programvara: SAS).

Detektion av outliers

Innan en statistisk bearbetning görs måste datakvaliteten av materialet säkras. En stor del av bedömningen kan göras med hjälp av olika grafer och plottar. Man kan då till exempel se om det finns orimliga outliers eller problem i provtagning/instrumentkalibrering som resulterar i en förändring av de observerade nivåer, t.ex. en plötslig ökning. Generellt kan sägas att avvikande värden bara ska strykas från datamaterialet om det är klarlagt att det har skett fel i provtagningen eller den kemiska analysen. Avvikande värden som är korrekt provtagna och analyserade bär ofta på viktigt information (t.ex. om i vilka situationer extrema observationer kan uppstå).

Andra datakvalitetsproblem är svårare att upptäcka, som till exempel multivariata outliers, alltså observationer som egentligen har rimliga värden i flera olika variabler, men värden som inte kan uppträda tillsammans.

Det finns ett stort antal metoder för att upptäcka både univariata och multivariata outliers. För univariata outliers används vanligtvis olika grafer över datamaterialet, till exempel boxplot. När man gör en boxplot för ett datamaterial, så klassas ofta observationer som överstiger 75%-percentilen med mer än 1.5*IQR eller understiger 25%-percentilen med mer än 1.5 IQR som outliers. Man kan också använda statistiska test, som t.ex. Grubb's test eller multivariata metoder, såsom principalkomponentanalys.




Figur 1: Serien av logaritmerad total fosfor visar några avvikande värden. Även i en boxplot kan samma värden identifieras (här enligt regeln att de värden som avviker med mer än 1.5 IQR från 25%- och 75%-percentilen är outliers).

Även om man vill undersöka om det finns outliers i två eller tre dimensioner kan grafer och plottar användas, t.ex. två- eller tredimensionella punktgrafer (scatter plots). Det finns också ett antal metoder som hjälper att identifiera observationer som avviker i flera dimensioner, se Figur 2.




Figur 2: Till höger en scatter plot för de logaritmerade Kalcium-värdena mot de logaritmerade Natrium-värdena. Några observationer avviker från det generella mönstret utan att vara extrema i någon av de två variablerna. Med hjälp av en robust skattning av kovariansmatrisen och antagandet av att man har en (bivariat) normalfördelning kan man skatta ellipsen i den högra bilden. Värden utanför kan ses som multivariata outliers och bör undersökas närmare.

Bedömningen om observationen är en outlier eller inte är vanligtvis subjektiv. När statistiska metoder används för att bedöma hur mycket olika observationer avviker från datamängdens centrum måste ändå alltid gränsen för outliers bestämmas av användaren.



Ansvarig för webbsidan:
webmaster@miljostatistik.se