%%%%% Carichiamo una tabella di dati regionali presi dal sito ISTAT; sono cinque potenziali indicatori di benessere: PLIC = posti letto in istituti di cura SC = spese complessive per famiglia SA.SC = proporzione di SC dedicata agli alimentari TD = tasso di disoccupazione TMI = tasso di mortalità infantile %% I valori presi da ISTAT sono stati standardizzati: ad esempio, si sono presi i valori di PLIC e a ciascuno è stata sottratta la media (nazionale) e si è diviso poi per la deviazione standard (nazionale). %% Si rammenta di cambiare directory per eseguire questo caricamento, posizionandosi nella directory in cui c'è il file. IB <- read.table(file="indicatori_benessere.txt",header=TRUE) % Col comando: IB % si vede la tabella: > IB PLIC SC SA.SC TD TMI Piem 0.08833073 0.471218868 -0.70738393 -0.6079983 -0.395594374 Vaos -1.54531281 0.348570963 -0.64222892 -0.8134750 1.578973068 Lomb 0.20230586 1.397587799 -0.83615834 -0.7908017 -0.538580292 TrAA 0.67720223 0.435951016 -1.26986734 -0.9665197 -0.075578271 Vene 0.08833073 1.334386404 -1.21054741 -0.8489020 -0.497727172 FrVG 0.63921052 -0.005441075 -1.02808828 -0.8049725 -1.301171855 Ligu 1.19009032 -0.247332925 0.47073536 -0.4294462 -0.354741254 EmRo 0.65820638 1.177628694 -1.31590440 -0.8630728 -0.347932401 Tosc 0.12632244 1.092670016 -0.79594148 -0.6448424 -1.355642681 Umbr -1.43133768 0.675982968 -0.14084928 -0.5243906 -1.287554149 Marc 0.27828928 1.090985581 -0.26509116 -0.7029427 -0.000680885 Lazi 2.32984163 0.546807878 -0.08030122 -0.1134373 -0.014298592 Abru 0.33527684 -0.373279515 0.40242546 -0.4563707 0.040172234 Moli 0.65820638 -1.289120729 0.06583846 0.4519778 -1.151377084 Camp -1.81125478 -1.314422342 2.03132778 1.6649986 0.414659163 Pugl -0.76648275 -0.926405778 1.03856609 0.6489520 1.109162194 Basi -0.74748690 -1.154085209 0.66193679 0.8445091 2.001121969 Cala -0.50054078 -1.727319412 1.57182583 2.1538913 0.632542467 Sici -0.91844959 -1.130924231 1.33235861 1.5176222 1.783238665 Sard 0.44925197 -0.403458971 0.71734736 1.2852211 -0.238990749 % Come estrarre informazioni da una simile tabella di dati? % Applichiamo il metodo delle Componenti Principali: PCA <- princomp(IB) % Prima raffigurazione: biplot(PCA) % Per quanto riguarda le regioni, con questa visualizzazione si distinguono nel modo migliore (massima dispersione) le regioni, le loro differenze e somiglianze, i raggruppamenti; % per quanto riguarda le variabili, si può osservare l'orientazione reciproca delle 5 variabili originarie: allineamenti ed ortogonalità, stesso verso o verso opposto; l'orientazione delle 5 variabili rispetto alle 2 componenti principali; e da questo delle potenziali interpretazioni delle 2 componenti principali; % si può infine osservare la posizione delle regioni rispetto alle 5 variabili originarie e rispetto alle 2 componenti principali. % Tutte queste osservazioni ci fanno capire i dati (proprietà delle regioni) e le variabili. %%% Si provi a fare un elenco di tali osservazioni nell'esempio specifico. plot(PCA) % questo comando illustra la varianza lungo le diverse componenti principali ed indica ad esempio la dimensione delle 5 variabili, che qui è 2 o 3. I valori numerici di tali varianze e deviazioni standard, oltre che la varianza cumulativa, si vedono col comando: summary(PCA) % Infine, col comando PCA$loadings % si possono leggere le coordinate numeriche delle componenti principali rispetto alle 5 variabili originarie (leggendo per colonne), o viceversa (leggendo per righe) le coordinate delle 5 variabili originarie rispetto alle componenti principali: > PCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 PLIC -0.310 0.769 -0.553 SC -0.491 -0.309 -0.813 SA.SC 0.512 0.216 0.120 -0.433 -0.699 TD 0.506 0.279 0.115 -0.381 0.713 TMI 0.379 -0.435 -0.816 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 SS loadings 1.0 1.0 1.0 1.0 1.0 Proportion Var 0.2 0.2 0.2 0.2 0.2 Cumulative Var 0.2 0.4 0.6 0.8 1.0 > %% Questi valori numerici possono servire, oltre al grafico biplot(PCA), per decidere ragionevoli associazioni tra variabili originarie e componenti principali. Ad esempio, è ragionevole associare Comp1 alle tre variabili SC, SA.SC, TD, in quanto ha componenti maggiori in tali direzioni; mentre ha un certo senso associare Comp2 alle variabili PLIC e TMI. Il significato applicativo di Comp1 e Comp2 può essere estrapolato da questi fatti: ad es., si può decidere che Comp1 descrive il benessere di tipo economico, Comp2 quello relativo alla salute. %%%%% Ci sono legami tra le 5 variabili PLIC ecc.? L'emergenza di due componenti principali ad esswe molto legate è già un legame. Ci sono però anche legami del tipo: noto TD possiamo prevedere SC? Un primo modo per indagare questo problema è calcolare la matrice di correlazione: cor(IB) e vedere quali coppie di variabili sono più o meno correlate. Il risultato è: > cor(IB) PLIC SC SA.SC TD TMI PLIC 1.0000000 0.3224224 -0.4109997 -0.3665858 -0.4435252 SC 0.3224224 1.0000000 -0.8418786 -0.8502698 -0.4835062 SA.SC -0.4109997 -0.8418786 1.0000000 0.9054330 0.5138328 TD -0.3665858 -0.8502698 0.9054330 1.0000000 0.4869491 TMI -0.4435252 -0.4835062 0.5138328 0.4869491 1.0000000 % da cui ad es. si vede che TD e SC sono abbastanza correlate, in modo negativo, mentre TD e PLIC non hanno alcun legame. %% Un secondo modo grafico si ottiene con: plot(IB) % che mostra, per ciascuna coppia di variabili, il grafico di dispersione, da cui si può intuire la presenza di un legame o meno. Si noti l'aspetto grarfico del legame tra TD e SC, e dell'assenza di legame tra TD e PLIC.