tesina lorenzo sagulo

9
Analisi Statistica per le Scienze Sociali Il contenuto del presente documento è stato elaborato prendendo come riferimento il piano EU - denominato GARANZIA GIOVANI – il quale ha previsto uno stanziamento di risorse per l’avvio di politiche attive volte all’inserimento lavorativo di giovani under 30. A partire dall’anno 2014 lo Stato ha ripartito dette risorse tra le regioni italiane (in base a specifiche valutazioni che sono a noi sconosciute) Lo scopo dell’analisi in componenti principali ci aiuterà nell’identificare “variabili latenti” volte a sintetizzare i dati raccolti e di seguito riportati. Successivamente, sarà approntato un modello di regressione multipla che abbia lo scopo di «spiegare» la relazione tra le componenti individuate e la «reale entità degli stanziamenti ripartiti» tra le Regioni. a cura di Lorenzo Sagulo Roma, 4 dicembre 2015

Upload: anonymous-qbv4z1omu8

Post on 10-Jul-2016

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

Il contenuto del presente documento è stato elaborato prendendo come riferimento il piano EU - denominato GARANZIA GIOVANI – il quale ha previsto uno stanziamento di risorse per l’avvio di politiche attive volte all’inserimento lavorativo di giovani under 30. A partire dall’anno 2014 lo Stato ha ripartito dette risorse tra le regioni italiane (in base a specifiche valutazioni che sono a noi sconosciute) Lo scopo dell’analisi in componenti principali ci aiuterà nell’identificare “variabili latenti” volte a sintetizzare i dati raccolti e di seguito riportati. Successivamente, sarà approntato un modello di regressione multipla che abbia lo scopo di «spiegare» la relazione tra le componenti individuate e la «reale entità degli stanziamenti ripartiti» tra le Regioni.

a cu

ra d

i L

ore

nzo

Sag

ulo

Ro

ma,

4 d

icem

bre

20

15

Page 2: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

Variabili considerate per ogni regione (dati riferiti all’anno 2013)

1. Numero di abitanti (Fonte Istat – tuttaitalia.it);

2. Tasso di disoccupazione giovanile (Fonte Istat);

3. Numero di soggetti in età lavorativa sotto i 30 anni - NEET - (Fonte Istat);

4. Tasso rilevato di lavoro nero sul totale delle unità lavoro (Fonte Istat);

5. Numero di aziende (Fonte Istat);

6. Numero di fallimenti (Fonte CRIBIS D&B);

7. Numero di politiche attive già presenti in ogni regione (Banca dati Cdl);

8. Spesa regionale per abitante (Fonte Istat);

9. Tempo medio di collocamento dalla conclusione degli studi alla firma di un

contratto di lavoro a tempo indeterminato nella stessa regione di residenza

(Banca dati Cdl);

10. Numero contratti precari (a termine) rispetto alla totalità dei contratti a tempo

indeterminato (Fonte INPS).

Page 3: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

L’ Analisi in componenti principali è una tecnica utilizzata nell’ambito della statistica multivariata per la semplificazione dei dati d’origine. Lo scopo primario di questa tecnica è la riduzione di un numero più o meno elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno analizzato) in alcune variabili latenti. Quindi … un numero ridotto di queste «nuove variabili» deve essere in grado di spiegare una porzione rilevante della varianza totale dei dati considerati.

Page 4: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

prima di osservare la matrice di correlazione è necessario puntualizzare che l’entità delle correlazioni tra le variabili rilevate è un prerequisito indispensabile affinché l’ ACP fornisca risultati soddisfacenti.

se tra tutte la variabili considerate ci fossero correlazioni molto modeste

(tendenti a zero) avremmo che ogni variabile varierebbe in modo indipendente dalle altre e quindi non sarebbe possibile operare alcuna sintesi;

se invece tra le variabili riscontrassimo correlazioni molto forti vorrebbe dire che avremmo raccolto informazioni ridondanti.

L’ACP diviene efficace solo quando tra le variabili esiste un’apprezzabile quota di varianza in comune (espressa da coefficienti di correlazione non tutti molto bassi o molto alti): saranno così sufficienti poche componenti principali per ottenere una buona approssimazione alla matrice di partenza.

Page 5: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

… analizzando la matrice di correlazione è possibile osservare «buoni» legami di associazione tra le variabili quindi la sintesi effettuabile attraverso l’ ACP potrebbe risultare efficace !

Page 6: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

…procediamo, quindi, a costruire l’ACP tramite la funzione “princomp” :

nell’output troveremo le componenti ordinate in base alla varianza posseduta

Quante componenti scegliere ed in base a cosa ? entità degli autovalori ( >1) sembrerebbe opportuno scegliere 3 CP

fattori che «spiegano» non meno di un certa % della varianza totale sembrerebbe opportuno scegliere 3 CP (87% circa della varianza totale) metodo grafico «scree-test» (conferma 3 CP)

la domanda da porsi: a quale livello di percentuale cumulativa della varianza totale effettuare il taglio potrebbe essere il frutto di un compromesso tra semplicità e completezza della descrizione ?

Page 7: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

… al fine di interpretare le componenti scelte funzione “principal” scegliendo 3 fattori

PC1: fortissimo legame con il numero di abitanti, di aziende, di fallimenti nella regione e con il numero di politiche adottate, sembra quindi strettamente legata al fattore dimensionale, potremmo pertanto chiamare tale componente: “Dimensione” PC2: correlata positivamente con il tasso di disoccupazione e con il tasso di lavoro nero, negativamente con la percentuale di contratti precari sul totale dei contratti di lavoro potremmo quindi chiamarla: “Arretratezza” PC3: correlata positivamente alla spesa regionale per abitante e negativamente al tempo medio di collocamento da un punto di vista puramente lavorativo potremmo identificarla come: “Virtuosità”

Infine, possiamo notare che le variabili più rappresentate dalla soluzione fattoriale sono il numero di abitanti e di aziende, mentre la meno rappresentata è la spesa per abitante

Page 8: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

… tracciando il biplot di questo modello: essendo 3 le CP considerate, verrebbero visualizzati tutti i biplot relativi alle combinazioni (a coppie) delle componenti. Essendo però di lettura non così immediata, si riporta un focus sul biplot relativo alle prime 2 componenti:

un punto unità vicino all’origine segnala che tale unità ha valori delle variabili vicini alla media (es. Abruzzo, o Toscana, sembrano vicini all’origine) un punto unità molto lontano dall’origine nella direzione d’un asse o d’una (o più) variabili indica che tale unità presenta valori molto diversi dalla media per quella CP (es. Lombardia per la prima componente ha un valore altissimo) l’angolo di ciascun vettore con gli assi rappresenta la correlazione tra la variabile e la CP (es. il numero di abitanti è perpendicolare alla PC2 (90 gradi circa), quindi è indipendente dalla PC2) gli angoli tra coppie di vettori indicano la correlazione tra due variabili (angolo vicino a zero indica una forte correlazione diretta; angolo vicino a 90° indica assenza di correlazione, angolo vicino a 180° indica forte correlazione lineare indiretta). (es. politiche e tempo di collocamento (o spesa per abitante) sono opposte, quindi hanno massima correlazione negativa).

Page 9: Tesina Lorenzo Sagulo

Analisi Statistica per le Scienze Sociali

… a questo punto facciamo un passo ulteriore costruendo un modello di regressione multipla che tenti di spiegare la relazione tra lo ‘stanziamento realmente ripartito’ tra le regioni e le 3CP:

… come possiamo osservare dalla «summary» del modello di regressione, la dimensione è fortemente significativa nello spiegare lo stanziamento. Non risultano invece significative l’arretratezza e la virtuosità nelle loro relazioni con lo stanziamento ottenuto. L’R quadro finale del modello è pari a circa 0,69 … in pratica il 69% della variabilità degli stanziamenti è spiegata dalle relazioni con le variabili analizzate. Infine, dal grafico di normalità dei residui risulta che gli stessi rispettano «abbastanza» il modello di regressione