Loading
Relaterad information
Allmänt om multivariata metoder

Ett flödesschema för multivariata metoder

PCA

PCA exempel 1 - Figurer

PCA exempel 2 - Fisher Iris


Externa länkar

PCA - Exempel 3 – Analys av differenser

Data för detta exempel kommer från ett hälsohem. För varje patient mättes vid ankomst och vid avfärd några medicinska variabler. Frågan vi vill besvara är om vistelsen på hälsohemmet haft en positiv inverkan på hälsan. Data är analyserade med programmet SIMCA.

Data kommer från 57 patienter där man mätt 9 variabler: AG - ålder, SX - kön, BS - systoliskt blodtryck, BD - diastoliskt blodtryck, HD - HDL det goda blodfettet, TR - triglycerider, CO - kolesterol, BM - BMI och TV - konditionstestvärde.

PCA - Alla data, före och alla efter

För att få en översikt över data gör vi en PCA på alla data. Eftersom data är i olika enheter gör vi en PCA på en korrelationsmatris (kallas även PCA på standardiserade data eller PCA på autoskalade data). De två första komponenterna förklarar tillsammans 56 % av variationen i data (Fig. 1).

förklarad variation
Figur 1. Sammanställning av den förklarade variationen i en PCA med 2 komponenter på alla data från mätningar på patienter på ett hälsohem.

Ordinationsdiagrammet (Fig. 2) visar dels hur patienterna förhåller sig till varandra, dels hur varje patient förändrat sina värden under tiden på hälsohemmet. Genom att färga mätningarna efter vistelsen i en avvikande färg (röd i detta exempel) kan man få en visuell bild av om vistelsen haft en likartad effekt för alla patienter. Om det finns en gemensam effekt i de variabler man mätt kommer de flesta patienter att ha rört sig åt samma håll i ordinationsdiagrammet. I detta fall kan vi ana att de röda punkterna (mätningarna efter vistelsen) ligger till vänster om de svarta (mätningar vid ankomst).

Ordinationsdiagram
Figur 2. Ordinationsdiagram från en PCA på patientdata före och efter en vistelse på ett hälsohem. Siffrorna kodar för patient, och bokstäverna för Före och Efter vistelsen. Uppe till höger sys t.ex. hur patient 05 förflyttat sig åt vänster. .

En titt på variabeldiagrammet (Fig. 3) visar att variablerna i stort fördelar sig längs 2 axlar. Den ena hänger ihop med blodfetter, BMI och testvärden. Bättre blodfetter nere till vänster, och sämre värden uppe till höger. Den andra axeln hänger ihop med ålder och de båda blodtrycksvariablerna, där alla dessutom är starkt korrelerade.

Tolkar vi figur 2 och 3 tillsammans finner vi att patienterna förmodligen har bättre blodfetter då de åker hem, eftersom de flesta patienter verkar ha rör sig nedåt vänster i ordinationsdiagrammet och att variabeldiagrammet visat att de goda blodfetterna (HD) ökar i den riktningen.

Att gå omvägen via en PCA för att titta på förändring hos enskilda variabler är dock inte att rekommendera. I detta fall hade ett t-test på variabeln HD varit en bättre metod!

Variabeldiagram
Figur 3. Variabeldiagram från en PCA på patientdata före och efter en vistelse på ett hälsohem. Pilarna är ditlagda i manuellt efterhand för att underlätta tolkningen av diagrammet. Se inledningen för förklaring av förkortningarna.

PCA på differenser

För denna analys bildar vi differenser mellan observationerna efter och före, förutom för ålder och kön som inte kan förändras till följd av vistelsen på hälsohemmet. Dessa två variabler får istället fungera som bakgrundsdata för respektive patient. I det nya datasetet standardiserades alla differensvariabler till variansen 1.0 (division med standardavvikelsen), medan ålder och kön även centrerades (subtraktion med medelvärdet och efterföljande division med standardavvikelsen, ”autoskalades” i Simcas nomenklatur). Eftersom det är fråga om olika former av standardisering för olika variabler, gjordes standardiseringarna manuellt (i Excel) innan data importerades till SIMCA.

En PCA på differensdatasetet (utan någon automatisk standardisering av data) ger en signifikant komponent (Fig. 4), men för tydlighetens skull har vi i alla figurer nedan ändå använt oss av två komponenter (axlar). förklarad variation
Figur 4. Sammanställning av den förklarade variationen i en PCA på differensdata från mätningar på patienter före och efter en vistelse på ett hälsohem..

Ordination
Figur 5: Ordination på förändringar (differenser efter - före) i medicinska data hos 57 patienter, efter vistelse på hälsohem. Eftersom punktsvärmen ligger vid sidan av origo i ordinationsdiagrammet (till vänster), förutom patient 2, indikerar detta att det finns ett gemensamt mönster i differenserna. Variabeldiagrammet (till höger) visar i vilken riktning de olika medicinska variablerna ändrat sig.

I ordinationsdiagrammet (Fig. 5, vänster) finns alla punkter (patienter) utom en (nr 2) till höger om origo, vilket innebär de differensdata vi räknat på i stort har samma tecken (positiva eller negativa). Detta indikerar att vistelsen på hälsohemmet hade en effekt. En utebliven effekt på gruppen som helhet hade visat sig som att alla punkter hade varit fördelade runt origo i diagrammet.

För att undersöka om effekten varit positiv för hälsan får vi titta på variabelplotten (Fig. 5, höger). Där ser vi att längs axel 1 har variablerna BM, CO, BD, BS och TR låga värden, och att HD och TV har höga värden. Detta innebär att ju längre till höger vi kommer i diagrammet, desto lägre värden på BM, CO, BD, BS och TR, medan HD och TV ökar åt höger. Eftersom nästa alla patienters prickar ligger till höger om origo kan vi konstatera att BM, CO, BD, BS och TR har minskat, medan HD och TV har ökar ökat hos patientgruppen.

Medicinskt innebär detta att de variabler som indikerar sämre hälsa (BM, CO, BD, BS och TR) har lägre värden efter vistelsen på hälsohemmet, medan det goda kolesterolet (HD) och konditionsvärdet (TV) ökat. Största positiva förändringen i hälsa finner vi hos patient 54, medan patient 20 och 24 har den lägsta förändringen bland de som fått bättre hälsa. Patient nr 2 har blivit sämre (eftersom punkten för denna patient ligger till vänster om origo).

Går vi till datatabellen förändringar för de patienter som förändrat sig mest (Tabell 1) ser vi att patient 54 har stora negativa förändringar (minskningar) hos de variabler som indikerar dålig hälsa. Patient 2 har istället ökningar i de flesta variablerna, vilket medicinskt är detsamma som sämre hälsa. datatabell
Tabell 1. Utdrag ur datatabellen för exemplet ovan. Här visas de patienter som förändrat sig mest.


Ansvarig för webbsidan:
webmaster@miljostatistik.se