calcolomatriciale e acp
TRANSCRIPT
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 1/158
Elementi di calcolo matriciale
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 2/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Alcune definizioni
Richiami di alcune definizioni e notazioni:
• Si definisce trasposta di una matrice X(n*m), il cui generico elemento è [xi,j],la matrice X’ (m*n) , il cui generico elemento [x j,i], è ottenuta scambiandorighe e colonne della matrice X.
• Quando il numero delle righe è pari a quello delle colonne la matrice viene
definita quadrata, tale numero identifica l’ordine della matrice; la matriceviene definita simmetrica se risulta essere uguale alla sua trasposta. Casiparticolari di matrici simmetriche:
a) Matrice identità (unità)I con generico elemento i;
b) Scalare, con generico elemento d;
c) Matrice diagonale, con generico elemento di.• Matrice nulla (non necessariamente quadrata) O.
2
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 3/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Operazioni tra matrici: matrice per unoscalare e somma tra matrici
Prodotto matrice per uno scalare: si moltiplica ogni elemento della matriceper lo scalare.
Somma tra matrici: può essere fatta solo per matrici delle stesse dimensioni,ciascun elemento della nuova matrice è dato dalla somme degli elementi
1 3 4 2 6 8
2 X 2 4 5 = 4 8 10
3 5 5 6 10 10
2 7 9 1 3 4 3 10 13
3 7 5 + 2 4 5 = 5 11 10
4 5 5 3 5 5 7 10 10
3
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 4/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Operazioni tra matrici: i diversi tipi diprodotti
Componente per componente, solo per matrici con la stessa dimensione (A eB), il generico elemento della matrice C, c i,j = ai,j *bi,j , dove ai,j e bi,j sono igenerici elementi delle matrici A e B
Righe per colonne: è un’operazione che può essere fatta, date due matriciA(m,n) e B(u,v), solo se n=u. Si moltiplicano le righe della prima matrice per le
colonne della seconda (il prodotto tra la singola riga e la singola colonna èinteso come prodotto tra due vettori con gli stessi componenti). Il prodottotra la riga i-esima e la riga j-esima individua l’elemento ci,j della matrice C=A*B
Prodotto tra un vettore riga e un vettore colonna:
(ovvero prodotto scalare)
Prodotto righe per colonne, esempio:
=4x8+5x5+7x6
8
4 5 7 * 5
6
= 99
2 7 6 * 1 3 34 64
3 7 7 2 4 = 38 72
3 5
4
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 5/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Operazioni tra matrici
Indicato con un vettore colonna ad n elementi, si
definisce modulo il prodotto ′ = ∑ e
prodotto scalare ′ = ∑ ∗
5
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 6/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Proprietà delle operazioni tra matrici
La trasposta della trasposta della matrice A è uguale ad A = ( )′La trasporto del prodotto tra due matrici A e B è uguale al prodotto dellatrasposta di B per la trasposta di A
∗ =
∗ ′Se D1 e D2 sono matrice diagonale dello stesso ordine, allora D1*D2=D2*D1
6
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 7/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il determinante di una matrice
È una funzione che permette di associare ad una matrice quadrata unoscalare che ne riassume alcune proprietà algebriche.
UTILIZZI: per quello che ci riguarda, ci permette di studiare sistemi diequazioni lineari.
COME SI CALCOLA: con il procedimento che utilizza i complementi algebrici,
oppure se la matrice è di ordine 3 con al regola di Sarrus.Per due matrici A e B (entrambe quadrate di ordine n) si ha che:
1. A*B≠B*A
2. Det(A*B)= Det(A)*Det(B)
3. Det(B*A)=Det(A*B)
7
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 8/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dal prodotto righe per colonne allamatrice inversa
Ai sensi del prodotto righe per colonne, e per matrice quadrate, è lecitochiedersi se ci sia una matrice A, tale che X*A= A*X=I, dove I è la matriceunità (tutti zero ad eccezione della diagonali principale che assume valori paria 1).
NB= il determinante della matrice I è pari a 1!!!!
Nella slide precedente si è visto come il prodotto «righe per colonne» rispettiil determinante, per questo motivo:
Det(X)*Det(A)=Det(I);
Det(A)=
()
quindi il affinché esista una matrice A, inversa rispetto ad X, il determinante
di X deve essere diverso da 0, ovvero le matrici non singolari (questacondizione risulta sia necessaria, sia sufficiente)
8
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 9/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Come si calcola la matrice inversa
Si definisce inversa rispetto alla matrice X , la matrice X-1 .
La matrice X-1 è data dalla trasposta della matrice degli aggiunti. La matricedegli aggiunti è una matrice che al posto (i,j), indicatori di riga e colonna, ha ilcomplemento algebrico (della matrice X per quel componente) diviso il Det(X)
Infatti per il primo elemento della matrice (2) si avrà
((-1)1+1(80*10-10*10))/det(X)= -20/16=-1,25
Per il secondo, prima riga, =((-1)1+2(4*10-10*6))/det(X)=20/16=1,25
Per il secondo, prima riga, =((-1)1+3(4*10-8*6))/det(X)=-8/16=-0,5
Questa prima riga verrà trasposta (infatti è la prima riga della matrice degliaggiunti) al fine di ottenere X-1 (diventeranno, i valori della prima colonna di X-
1, come si può vedere!!)
9
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 10/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Proprietà delle matrici inverse
• = ( )• ( ) = ( )• Se A è diagonale e [
,
]
≠0
, e non
singolare , l’elemento generico di è ,• Se A e B sono non singolari e dello stesso
ordine, allora (
∗ )=
∗
10
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 11/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Forme quadratiche
Forma quadratica di una matrice quadrata A(n) è: =∑ ∑ ,Si può assumere che A di una forma quadratica è simmetrica (consideriamo lasimmetrica di A, cioè
+ ′ ), la forma quadratica:
+ ′ =
A +
A’ =
e A sono chiamate definite positive se >0 ∀ ≠ 0
Semidefinite positive se ≥ 0 ∀ ≠ 0
Definite negative se <0 ∀ ≠ 0
Semidefinite negative se
≤ 0 ∀ ≠ 0Indefinite se >0 e < 0
11
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 12/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Vettori linearmente indipendenti
Dati k vettori ,…., tutti con n elementi,
+ ⋯ + (con …. sono numeri reali)
è una combinazione lineare dei k vettori. I kvettori sono linearmente indipendenti quandoogni possibile combinazione lineare dei vettori èdiversa (ad esclusione del caso banale
=...=
=0) dal vettore nullo.
12
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 13/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il rango di una matrice
Nell’algebra matriciale rappresenta il numero massimo di righe o colonnelinearmente indipendenti tra di loro.
UTILIZZI: sistemi lineari non quadrati (Teorema di Rouchè Capelli)
Rg(A)=Rg(A’)=Rg(AA’)=Rg(A’A)
13
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 14/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Autovalori e Autovettori
Si rimanda alla sezione sulle PC.
14
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 15/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Calcolo matriciale in Eviews: creare lematrici
Per creare matrici, vettori e scalari in Eviews:matrix(3,3) x
(con questo comando si crea una matrice, x, con tre righe e tre colonne con
componenti tutte pari a 0)
vector(3) u(con questo comando si crea un vettore colonna, u, a tre elementi, con
componenti tutte pari a 0)
rowvector(3) u1
(con questo comando si crea un vettore riga, u1, a tre elementi, con
componenti tutte pari a 0)
scalar k
(con questo comanda si crea uno scalare k di valore 0)
15
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 16/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Calcolo matriciale in Eviews: creare lematrici
Una volta creata la matrice o creato il vettore, il passosuccessivo e di inserire gli eventuali valori all’interno deglistessi. Questo passaggio, in Eviews, può essere completato in3 modi differenti:1. Individuare gli elementi da inserire nella matrice e
introdurli uno ad uno:u1(1,1)=4u1(1,2)=5u1(1,3)=7u(1,1)=8
u(2,1)=5u(3,1)=6
16
U1 U
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 17/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Calcolo matriciale in Eviews: creare lematrici
2. Una volta create le matrici/vettori di 0, si assegnano i valori delle componenticontemporaneamente (comando «.fill»):
Es.
x.fill 1,2,3,2,4,5,3,5,5
u1.fill 4,5,7
In questo modo i valori inseriti, secondo la sequenza di cui sopra, seguono unordine sopra-sotto per colonne successive, ovvero:
Per gli scalari basta inserire il l’unico valore a destra dell’uguale
Es. K=2
17
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 18/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Calcolo matriciale in Eviews: creare lematrici
3. Matrix assignement, una volta create le seguentioggettimatrix(5,8) x1scalar k1
vector(8) u2Si passa all’assignmentEs. x1=4 (x1 sarà una matrice dove tutte le componentiassumono un valore pari a 4)k1=5
u2=1 (vettore colonna a otto componenti tutte con valore1)
18
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 19/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Operazioni tra matrici in Eviews
• Prodotto matrice per scalarematrix(3,3) zz=k*x• Somma tra matrici
matrix(3,3) yy.fill 2,3,4,7,7,5,9,5,5matrix(3,3) y1y1.fill 1,2,3,3,4,5,4,5,5matrix(3,3) z1z1=y+y1
19
1 3 4 2 6 8
2 X 2 4 5 = 4 8 10
3 5 5 6 10 10
2 7 9 1 3 4 3 10 13
3 7 5 + 2 4 5 = 5 11 10
4 5 5 3 5 5 7 10 10
K X Z
y y1 z1
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 20/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Operazioni tra matrici in Eviews
• Prodotto righe per colonne
matrix(2,3) y3
y3.fill 2,3,7,7,6,7
matrix(3,2) y4
Y4.fill 1,2,3,3,4,5
matrix(2,2) y5
y5=y3*y4
20
2 7 6 * 1 3 34 64
3 7 7 2 4 = 38 72
3 5
y3 y4 y5
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 21/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Altre funzioni in Eviews
• Trasposta
matrix y6 = @transpose(x)
• Determinante
scalar d1 = @det(x)
• Rango di una matrice
scalar rank1 = @rank(x1)
21
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 22/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Altre funzioni in Eviews
22
matrix(3,3) y6
y6.fill 2,4,6,6,8,10,8,10,10
matrix(3,3) y7 = @inverse(y6)
y6 y7
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 23/158
ACP
Analisi in Componenti Principali
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 24/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Introduzione
• Karl Pearson (1901) introduce per primoquesto metodo
• Hotelling (1933) lo sviluppa in modo più
completo• “The Vectors of Mind” L. L. Thurstone (1934)
• La maggior parte dei package statistici
consentono questa analisi (es. Spss, Stata,Spad, Eviews etc.)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 25/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La matrice dei dati
Si consideri una matrice Xn,p (ovvero una matrice di p vettoricolonna di n componenti), matrice degli scarti dalle medie.L’obiettivo dell’ ACP è di ridurre il numero di variabili oggettodell’analisi (es v<p) ossia trovare una struttura di fattori latentiche sintetizzi la struttura di Xn,p. In sostanza i fattori latenti,
chiamati anche Componenti Principali, non sono altro che unacombinazione lineare delle variabili in Xn,p.Quindi si sostituisce la matrice Xn,p, con una matrice Cn,v , dovev<p.Perché ridurre il numero delle variabili?• Per agevolare l’interpretazione dei dati;• Per una sintesi interpretativa dei risultati;• Per l’interpretazione geometrica dei risultati conseguiti.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 26/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Prima osservazione
Come in tutte le analisi statistiche, si presentauna trade-off tra sinteticità dei risultati e perditadi informazione. Infatti, più la rappresentazionedei risultati sarà sintetica maggiore sarà laperdita di informazioni.Rovesciando il concetto, la domanda è: quantainformazione siamo disposti a sacrificare (intermini di perdita) a fronte di una maggiore
sintesi esplicativa dei risultati?
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 27/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
L’intuizione geometrica
Per facilitare la comprensione di questo metodologia la scuola francese, negli anni 80’,(Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondances.Paris, France: Dunod) ha introdotto un’interpretazione geometrica del ACP.
Per semplicità consideriamo la matrice X24,2 . I 24 individui possono essere rappresentati,oltre che nel piano a 2 dimensioni, anche sulla retta F1, non perdendo una rilevanteinformazione statistica.
In questo modo si passa da uno spazio di analisi a due dimensione (X24,2 ) ad uno spazio conuna unica dimensione (C24,1 ).
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 28/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Intuizione geometrica: come èottenuta la Componente Principale
Dato lo spazio di rappresentazione degli individui (figura sottostante) di baricentro G.Si cerca il sottospazio che meno «deforma» la d(ei, ei ), ovvero la distanza, per ognicoppia di unità.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 29/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Determinazione analitica della primaComponente Principale
La prima Componente Principale, così come le eventuali altre, sono unacombinazione lineare delle variabili della matrice Xn,p
= , + , …..,
Dove= [,…. ,] è un vettore riga a norma unitaria (la somma deiquadrati dei componenti deve essere pari a 1).
Data la generica , i valori che essa assume non sono altro che le coordinate
degli individui nel sottospazio di riferimento individuato da.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 30/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Determinazione analitica della primacomponente principale
Si cerca di massimizzare il quadrato del seguente prodotto ′ (proiezionidegli individui, nella figura sottostante Mi sulla prima componente principale,nella figura sottostante 0Hi)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 31/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Determinazione analitica della primacomponente principale
Quindi:
′ = ( ′ ′ ) = ( Σ)
Dove:
Σ=matrice varianze e covarianze di XX=matrice degli scarti
Sub, ovvero sotto il vincolo che abbia norma 1:
’=1
Passando al Lagrangiano: = ( ′′) − λ (’−1)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 32/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Determinazione analitica della primacomponente principale
Derivando il «Lagrangiano» rispetto a siottiene λ (autovalore associato alla primacomponente principale) dal quale si ottiene che:
′= λ Dove rappresenta l’autovettore associato allaprima CP
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 33/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Determinazione analitica dellesuccessive Componenti Principali
Per le successive Componenti Principali siintroduce un ulteriore vincolo da inserire nelLagrangiano, la condizione di ortogonalità
(incorrelazione, data da ′ =0) degliautovettori. Analiticamente, per la seconda CP = ( ′′) − λ (’−1)−µ
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 34/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Determinazione analitica dellesuccessive Componenti Principali
Da dove si ottiene
′= λ Per le successive Componenti Principali, la procedura dicalcolo adottata è la stessa vista per la secondaComponente Principale. In generale, quindi, la K-esimacomponente principale sarà data da una combinazionelineare delle variabili contenute in X. I coefficienti diquesta combinazione lineare sono dati dall’autovettorecaratteristico associato all’autovalore ( λ ) dellaComponente Principale calcolata.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 35/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Notazione
Le variabili inserite nell’ACP possono esserepreliminarmente standardizzate; in questo casoil generico elemento della matrice Σ , σ, =
1per i = je, = , ≠
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 36/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Alcune riflessioni
• Le Componenti Principali presentano varianza non crescente infunzione della loro estrazione. Ovvero la prima CP presenta unavarianza non inferiore rispetto alla seconda; la quale a sua voltapossiede una varianza non inferiore alla terza etc..
• Il numero massimo di Componenti Principali individuabili in unamatrice Xn,p è p, patto che X abbia rango almeno pari a p.
• Data la condizione di ortogonalità introdotta a partire dallaseconda Componente Principale, le correlazioni tra le componentiprincipali risulta nulla.
• Data la matrice X, costituita da p vettori colonna i cui elementi sonostandardizzati non è assicurata la piena corrispondenza dei risultatiottenuti rispetto alla matrice X non standardizzata
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 37/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Alcune riflessioni
• La traccia della matrice varianze e covarianze di X (Σ) risulta pari allasomma delle varianze delle componenti principali (date dagliautovalori associati a ciascuna di esse)
λ = Σ
• Dato che le componenti principali sono, per costruzione, tra di esseincorrelatate, il contributo della singola CP (k-esima ad esempio)alla variabilità complessiva (si veda il punto precedente) è dato da:
∑
=
Dove Σ è la traccia della matrice varianze e covarianze di X
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 38/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Quanti fattori selezionare? I criteri discelta
Quanti fattori selezionare? Non c’è una rispostaunivoca a questa domanda. Vengono proposti,invece, una serie di criteri per la scelta del
numero di fattori.I principali criteri sono:
• Tassi di inerzia
• Autovalore superiore a 1 (Eigenvalue one)
• Scree test
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 39/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Criteri di selezione dei fattori: i tassi diinerzia
Dato che λ non è altro che la varianza dellacomponente principale k-esima, inoltre dato chele CP sono tra loro incorrelate, si possonoselezionare le prime k CP a patto che queste«spieghino» almeno l’% ( ) della traccia della matrice varianze ecovarianze di X:
∑ ∑ =∑
> %
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 40/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Criteri di selezione dei fattori:eigenvalue one
Questo criterio è valido in presenza di variabilistandardizzate, si selezionano CP fino a quandoλ risulta superiore a 1. In quanto la selezione
di una CP con λ , ovvero varianza, inferiore aduno determina un incremento della varianzatotale spiegata inferiore rispetto a quello fornitoda una qualsiasi variabile considerate a se
stante.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 41/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Criteri di selezione dei fattori: screetest
Il tasso di inerzia è funzione decrescente, quindiconsideriamo gli autovalori (e quindi le CP)prima del “salto massimo”, visibile dal grafico
chiamato scree plot, ovvero il grafico degliautovalori.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 42/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Relazioni tra variabili e CP: il cerchiodelle correlazioni
Il cerchio delle correlazioni è una rappresentazione grafica che si ottieneproiettando i punti della variabile posizionati sull’ipersfera con r =1 sul pianofattoriale. All’interno del cerchio di raggio unitario si collocano tutte leproiezioni dei punti variabile, con coordinate pari alla correlazione dellavariabile rispettivamente con il i-mo e j-mo asse fattoriale. Per conoscerel’importanza di ciascuna variabile rispetto ad un fattore, è sufficienteguardare le sue coordinate: più elevate sono le coordinate, più il punto èvicino sia alla circonferenza e all’asse, più incide nella costruzione dell’assestesso. Generalmente, punti sulla stessa bisettrice hanno stesso coefficientedi correlazione. Per interpretare gli assi, bisogna quindi guardare qualivariabili sono concentrate su una polarità e quali su quella opposta.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 43/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esempio cerchio delle correlazioni: ildataset
Si analizzano i prezzi di listino e le specifiche fisiche di numerose marche e modelli diveicoli. I prezzi di listino e le specifiche fisiche sono state ottenute dal sitoedmunds.com e dai siti dei produttori. Le variabili analizzate sono:Price= prezzo di vendita del modelloMpg= miglia per galloneType= tipologia di veicoloWheelbas= interasse
Length= lunghezzaWidth= larghezzaFuel_cap= capienza del serbatoioCurb_wgt=peso della carlingaEngine_s= pollici cubi del motoreHorsepower= cavalli vaporeResale= prezzo di rivendita a 4 anni dall’acquistoSales= ammontare delle vendite in migliaia di $Le unità analizzate sono 157.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 44/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Relazioni tra variabili e CP: il cerchiodelle correlazioni
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 45/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dal cerchio delle correlazioniall’interpretazione del fattore
Per quanto concerne il ruolo delle variabili, sianalizza sul cerchio delle correlazioni e siconsiderano le variabili che presentano elevativalori di correlazione con i fattori.
Per ogni fattore si considerano le correlazionicon le variabili che sono più elevate in valoreassoluto rispetto a quelle mostrate con gli altrifattori, al fine di attribuire un significato
(«battezzare») il fattore stesso.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 46/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il contributo dell’individuo all’assefattoriale k-esimo
Per quanto riguarda gli individui è interessante valutarequanto un individuo contribuisce alla spiegazione dellavariabilità di un asse fattoriale.Dato che è dato dalla somma dei quadrati delle coordinatedi ciascun «punto individuo» ( ) con un peso
(generalmente esso è pari a ) ovvero = ∑ allora è possibile cacolare il contributo assolutodell’individuo all’asse fattoriale k-esimo:
=
Dove := è la proiezione dell’individuo j-esimo
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 47/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Contributo relativo della variabileall’asse fattoriale k-esimo
Allo stesso modo è possibile calcolare ilcontributo della variabile rispetto all’assefattoriale k.
Il contributo assoluto indica quanto l’j-esimavariabile ha contribuito alla costruzione del k-esimo asse fattoriale ovvero, posto che il k-esimo asse è quello che rende massima lasomma dei quadrati dei coeff di correlazione tra
variabili ed asse k-esimo .
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 48/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Contributo relativo della variabileall’asse fattoriale k
Quindi:
= ( ,)
Dove ( ,) indica il quadrato dell correlazione trala variabile i-esima e il fattore k-esimo.
Per questa ragione il contributo assoluto della variabile i-esimo può essere calcolato come:
= (
,
)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 49/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il contributo relativo
Generalmente è utile conoscere la qualità dirappresentazione di un punto, o di un individuo, sugli assifattoriali, ossia «quanto» un’ asse ha contribuito allaricostruzione del punto ( o dell’individuo).
Il rapporto tra la norma riprodotta sull’asse fattoriale, e lanorma originaria del vettore associato all’elemento i-mo,fornisce questa informazione.
Questo rapporto è in genere uguale al coseno dell’angoloformato tra il vettore rappresentativo dell’elemento e
asse fattoriale relativo CP k-esima.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 50/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
L’ACP nello spazio delle variabili
Piuttosto che rappresentare gli individui in unospazio a k<p dimensioni (data Xn,p ) si può essereinteressati a ridurre di etichette checaratterizzano gli individui, in modo da
rappresentare le variabili in uno spazio j<n.Anche in questo caso si cerca il sottospazio diriferimento che massimizzi la sommatoria alquadrato delle distanze delle proiezioni
dall’origine.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 51/158
Esempio Principal Component
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 52/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Base dati
Si consideri la matrice X(10,2) (si veda l’esercizio svoltonel primo item a proposito della c.d. collettività b, slide23)
2 1
2 1
2 24 1
4 2
4 2
4 3
6 2
6 3
6 3
media 4 2
dev. Standard 1, 63299 0, 81650
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 53/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Matrice standardizzata
• A ciascun componente si sottrae la media, percolonna, e si rapporta ciascun differenziale alladeviazione standard, di colonna.
-1,225 -1,225-1,225 -1,225
-1,225 0,000
0,000 -1,225
0,000 0,000
0,000 0,000
0,000 1,225
1,225 0,000
1,225 1,225
1,225 1,225
media 0 0
dev. Standard 1,00000 1,00000
D ll i d li S i ll i
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 54/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dalla matrice degli Scarti alla matricevarianze e covarianze
La matrice degli scarti coincide, siccome operiamo con una matricestandardizzata (e quindi a media 0), corrisponde alla matrice standardizzata
-1,225 -1,225-1,225 -1,225
-1,225 0,000
0,000 -1,225
0,000 0,000
0,000 0,000
0,000 1,225
1,225 0,000
1,225 1,225
1,225 1,225
media 0 0
dev. Standard 1,00000 1,00000
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 55/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dalla matrice degli Scarti alla matricevarianze e covarianze
∑=X’ X x x
- 1, 225 -1, 225 -1, 225 0, 000 0, 000 0, 000 0, 000 1, 225 1, 225 1, 225
-1, 225 -1, 225 0, 000 -1, 225 0, 000 0, 000 1, 225 0, 000 1, 225 1, 225
-1,225 -1,225
-1,225 -1,225
-1,225 0,000
0,000 -1,225
0,000 0,000
0,000 0,000
0,000 1,225
1,225 0,000
1,225 1,225
1,225 1,225
1
− 1
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 56/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Matrice di Correlazione e Varianze eCovarianze
La traccia è la somma delle componenti della diagonale principale, in questo caso 2.
1,0000 0,6667
0,6667 1,0000
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 57/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovalori
Gli autovalori sono dati dalla risoluzione della seguente relazione:
1 − 0,66670,6667 1 − = − 2+0,5556=0
La specifica funzionale è ++c=0
L’equazione di secondo grado ammette due soluzioni se
Δ> 0,
Δ=
-
4ac=1,7777le due soluzioni saranno:
, =∓
; =1,6666; = 0,33333
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 58/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per Una volta individuati gli autovalori è opportuno individuare gli autovettoriassociati agli autovalori. Gli autovalori sono individuati secondo quantosegue:
• Si considera l’autovalore in funzione del quale si cerca l’autovettore, inquesto caso =1,6666 e lo si sostituisce in questa matrice
1
− 0,6667
0,66667 1 − chediventa −0,6667 0,66667
0,66667 −0,6667
• Si moltipica la matrice di cui sopra per le componenti dell’autovettore ()che ora sono incognite:
−0,6667 0,666670,66667 −0,6667
x,, =0 da cui si ricava il seguente sistema di
equazioni (Prossima slide)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 59/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per −0,6667, + 0,6667, = 0
0,6667, − 0,6667, = 0
Ipotizzando che ,=1 , ,=1
Tuttavia il vettore individuato(= 1; 1 ) non ha norma 1(ovvero la somma deiquadrati delle componenti), quindi non rispetta le condizioni enunciate per la
ricerca della C.P.. Per normalizzare l’autovettore () si procede al calcolo dellanorma di come ∗ ’= ottenendo come valore 2
A questo punto di rapporta ciascun componente di alla radice quadratadella norma di
, 2 in questo caso. Ottenendo
la cui norma è 1
1 1 1
1
0,707106781
0,707106781
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 60/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il punteggio sulla Prima ComponentePrincipale
A questo punto per calcolare i punteggi degliindividui sulla componente principale bastamoltiplicare la matrice standardizzata per gli
l’autovalore individuato
x =
Valori, per ciascunindividuo, della Primacomponente principale
La varianza della C.P. è paria ovvero a 1,6666!!!
-1,225 -1,225
-1,225 -1,225
-1,225 0,000
0,000 -1,225
0,000 0,000
0,000 0,000
0,000 1,225
1,225 0,000
1,225 1,225
1,225 1,225
0,707106781
0,707106781
-1,73205081
-1,73205081
-0,8660254
-0,8660254
0
0
0,866025404
0,866025404
1,732050808
1,732050808
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 61/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La seconda Componente Principale
Per il calcolo del punteggio della secondaComponente Principale si segue il processoprecedentemente illustrato riferito alla prima
Componente Principale.Nelle successive slide sarà illustrato ilprocedimento per il calcolo della secondaComponente Principale
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 62/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per Una volta individuati gli autovalori è opportuno individuare gli autovettoriassociati agli autovalori. Gli autovalori sono individuati secondo quantosegue:
• Si considera l’autovalore in funzione del quale si cerca l’autovettore, inquesto caso =0,3333e lo si sostituisce in questa matrice
1
− 0,6667
0,6667 1 − chediventa0,6667 0,66670,6667 0,6667
• Si moltipica la matrice di cui sopra per le componenti dell’autovettore ()che ora sono incognite:
0,6667 0,66670,6667 0,6667
x,
, =0 da cui si ricava il seguente sistema di equazioni
(Prossima slide)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 63/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per 0,6667, + 0,6667, = 0
0,6667, + 0,6667, = 0
Ipotizzando che ,=1 ,=-1
Tuttavia il vettore individuato(= 1;−1 ) non ha norma 1(ovvero la sommadei quadrati delle componenti), quindi non rispetta le condizioni enunciate
per la ricerca della C.P.. Per normalizzare l’autovettore () si procede alcalcolo della norma di come x ’= ottenendo come valore 2
A questo punto di rapporta ciascun componente di alla radice quadratadella norma di
, 2 in questo caso. Ottenendo
la cui norma è 10,707106781
-0,70710678
1 1 -1
-1
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 64/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il punteggio sulla SecondaComponente Principale
A questo punto per calcolare i punteggi degliindividui sulla componente principale bastamoltiplicare la martrice standardizzata per gli
l’autovalore individuato
x =
Valori, per ciascunindividuo, della Primacomponente principale
La varianza della C.P. è pari
a ovvero a 0,33333!!!
-1,225 -1,225
-1,225 -1,225
-1,225 0,000
0,000 -1,225
0,000 0,000
0,000 0,000
0,000 1,225
1,225 0,000
1,225 1,225
1,225 1,225
0,707106781
-0,70710678
0
0
-0,8660254
0,866025404
0
0
-0,8660254
0,866025404
0
0
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 65/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Osservazioni
Dall’individuazione dei due autovettori si puòosservare la condizioni di ortogonalità
0,70711
-0,7071
0,70711
0,707104
Primo Autovettore Secondo Autovettore
=
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 66/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Domande
Ogni volta che bisogna calcolare una C.P.bisogna seguire questo processo?
Se il numero delle variabili o delle osservazioni
aumentasse, sarebbe ancora gestibile comeprocesso?
La risposta è si, ci sono dei software che seguono la procedura illustrata in queste slideIn modo automatico. Questi software come Spss o Spad riescono a gestire anche grossiquantitativi di dati input
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 67/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Stesso esempio risolto su SPSS 13.0
• Si caricano gli input (matrice standardizzata);
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 68/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 69/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 70/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
• Cliccate su «Extraction»
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 71/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
Poi cliccate su OK
Negli output troverete
Autovalori,come calcolati
nell’esempio
Total Variance Explained
1,667 83,333 83,333 1,667 83,333 83,333
,333 16,667 100,000 ,333 16,667 100,000
Component
1
2
Tot al % of V ar ia nce Cum ulat iv e % Tot al % of V aria nc e C um ulat iv e %
I nit ial Eigenv alues Ex trac tio n Sum s of S qu ared Loa dings
Extraction Method: Principal Component Analysis.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 72/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Punteggi fattoriali
I punteggi delle nuove Componenti principaliFAC_1 e FAC_2 sono uguali a quelle calcolatenell’esempio diviso la radice quadra di
-1,73205081
-1,73205081
-0,8660254
-0,8660254
0
0
0,866025404
0,8660254041,732050808
1,732050808
-1,341641
-1,341641
-0,67082
-0,67082
0
0
0,6708204
0,67082041,3416408
1,3416408
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 73/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
CP in Eviews
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 74/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
CP e confronto con laregressione/correlazione lineare
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
-2 -1 0 1 2
Component 1 (83.3%)
C o m p o e n 2 ( 1 6 . 7 )
Scores (Orthonormal Loadings) Variabili nello spazio originario
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 75/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
CP1 CP1^2 CP2 CP2^2
-1,83 3,33 0 0,00
-1,83 3,33 0 0,00
-0,91 0,83 0,912871 0,83
-0,91 0,83 -0,91287 0,83
0,00 0,00 0 0,000,00 0,00 0 0,00
0,91 0,83 0,912871 0,83
0,91 0,83 -0,91287 0,83
1,83 3,33 0 0,00
1,83 3,33 0 0,00
Sum 16,666666666667 3,333333333333
1,67 0,33 2,00
t eorico_Y_X t eorico_Y_X 2̂ t eorico_X_Y t eorico_X_Y^2
-0,8607 0,7407 -0,8607 0,7407
-0,8607 0,7407 -0,8607 0,7407
-0,8607 0,7407 0,0000 0,0000
0,0000 0,0000 -0,8607 0,7407
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,8607 0,7407
0,8607 0,7407 0,0000 0,0000
0,8607 0,7407 0,8607 0,7407
0,8607 0,7407 0,8607 0,7407
4,4444 4,4444
0,4444 0,4444 0,8889
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 76/158
Esempio Principal Component
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 77/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Base dati
Si consideri la matrice X(5,2)
1 3
3 3
3 5
5 5
4 6
Medie 3,2 4,4
Dev. Standard 1,48324 1,341641
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 78/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Matrice standardizzata
• A ciascun componente si sottrae la media, percolonna, e si rapporta ciascun differenziale alladeviazione standard, di colonna.
-1, 48324 -1,04350
-0, 13484 -1,04350
-0,13484 0,44721
1,21356 0,44721
0,53936 1,19257
Medie 0 0
Dev. Standard 1 1
Dalla matrice degli Scarti alla matrice
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 79/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dalla matrice degli Scarti alla matricevarianze e covarianze
La matrice degli scarti coincide, siccome operiamo con una matricestandardizzata (e quindi a media 0), corrisponde alla matrice standardizzata
-1, 48324 -1,04350
-0, 13484 -1,04350
-0,13484 0,44721
1,21356 0,44721
0,53936 1,19257
Medie 0 0
Dev. Standard 1 1
ll d l ll
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 80/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dalla matrice degli Scarti alla matricevarianze e covarianze
∑=X’ X
-1,483 -1,043
-0,135 -1,043
-0,135 0,447
1,214 0,447
0,539 1,193
-1,48324 -0,13484 -0,13484 1,21356 0,53936
-1,0435 -1,0435 0,447214 0,447214 1,19257 x x
1
− 1
M i di C l i V i
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 81/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Matrice di Correlazione e Varianze eCovarianze
1,0000 0,7035
0,7035 1,0000
traccia 2,00000
La traccia è la somma delle componenti della diagonale principale, in questo caso 2.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 82/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovalori
Gli autovalori sono dati dalla risoluzione della seguente relazione:
1 − 0,70350,7035 1 − = − 2+0,50506=0
La specifica funzionale è ++c=0
L’equazione di secondo grado ammette due soluzioni se Δ > 0,Δ = -
4ac=1,9797 le due soluzioni saranno:
, =∓
; =1,70352; = 0,29648
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 83/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per Una volta individuati gli autovalori è opportuno individuare gli autovettoriassociati agli autovalori. Gli autovalori sono individuati secondo quantosegue:
• Si considera l’autovalore in funzione del quale si cerca l’autovettore, inquesto caso =1,70352 e lo si sostituisce in questa matrice
1
− 0,7035
0,7035 1 − chediventa −0,70352
0,7035
0,7035 −0,70352
• Si moltipica la matrice di cui sopra per le componenti dell’autovettore ()che ora sono incognite:
−0,70352 0,70350,7035 −0,70352
x,, =0 da cui si ricava il seguente sistema di
equazioni (Prossima slide)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 84/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per −0,70352, + 0,70352, = 0
0,70352, − 0,70352, = 0
Ipotizzando che ,=1 ,=0,999990803
Tuttavia il vettore individuato(= 1; 0,999990803 ) non ha norma 1(ovvero lasomma dei quadrati delle componenti), quindi non rispetta le condizioni
enunciate per la ricerca della C.P.. Per normalizzare l’autovettore () siprocede al calcolo della norma di come x ’= ottenendo come valore 2
A questo punto di rapporta ciascun componente di alla radice quadratadella norma di
, 2 in questo caso. Ottenendo
la cui norma è 1
1 1 0,999991 = 2,000
0,999991
0,70711
0,707104
Il t i ll P i C t
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 85/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il punteggio sulla Prima ComponentePrincipale
A questo punto per calcolare i punteggi degliindividui sulla componente principale bastamoltiplicare la matrice standardizzata per glil’autovalore individuato
-1,483 -1,043
-0,135 -1,043
-0,135 0,447
1,214 0,447
0,539 1,193
x0,70711
0,707104=
-1,78668
-0,83321
0,22088
1,174347
1,224657
Valori, per ciascunindividuo, della Primacomponente principale
La varianza della C.P. è paria ovvero a1,703526471!!!
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 86/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La seconda Componente Principale
Per il calcolo del punteggio della secondaComponente Principale si segue il processoprecedentemente illustrato riferito alla primaComponente Principale.
Nelle successive slide sarà illustrato ilprocedimento per il calcolo della secondaComponente Principale
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 87/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per Una volta individuati gli autovalori è opportuno individuare gli autovettoriassociati agli autovalori. Gli autovalori sono individuati secondo quantosegue:
• Si considera l’autovalore in funzione del quale si cerca l’autovettore, inquesto caso =0,29648 e lo si sostituisce in questa matrice
1
− 0,7035
0,7035 1 − chediventa
0,70352
0,7035
0,7035 0,70352
• Si moltipica la matrice di cui sopra per le componenti dell’autovettore ()che ora sono incognite:
0,70352 0,70350,7035 0,70352
x,, =0 da cui si ricava il seguente sistema di
equazioni (Prossima slide)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 88/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
La ricerca degli autovettori per 0,70352, + 0,70352, = 0
0,70352, + 0,70352, = 0
Ipotizzando che ,=1 ,=-0,999990803
Tuttavia il vettore individuato(= 1;−0,999990803 ) non ha norma 1(ovverola somma dei quadrati delle componenti), quindi non rispetta le condizioni
enunciate per la ricerca della C.P.. Per normalizzare l’autovettore () siprocede al calcolo della norma di come x ’= ottenendo come valore 2
A questo punto di rapporta ciascun componente di alla radice quadratadella norma di
, 2 in questo caso. Ottenendo
la cui norma è 1
1 1 -0,99999 = 2,000
-0,99999
0,70711
-0,7071
Il t i ll S d
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 89/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Il punteggio sulla SecondaComponente Principale
A questo punto per calcolare i punteggi degliindividui sulla componente principale bastamoltiplicare la martrice standardizzata per glil’autovalore individuato
-1,483 -1,043
-0,135 -1,043
-0,135 0,447
1,214 0,447
0,539 1,193
x =
Valori, per ciascunindividuo, della Primacomponente principale
La varianza della C.P. è paria ovvero a 0,296473529!!!
0,70711
-0,7071
-0,31095
0,642515
-0,41157
0,541894
-0,46188
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 90/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Osservazioni
Dall’individuazione dei due autovettori si puòosservare la condizioni di ortogonalità
0,70711
-0,7071
0,70711
0,707104
Primo Autovettore Secondo Autovettore
=
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 91/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Domande
Ogni volta che bisogna calcolare una C.P.bisogna seguire questo processo?
Se il numero delle variabili o delle osservazioni
aumentasse, sarebbe ancora gestibile comeprocesso?
La risposta è si, ci sono dei software che seguono la procedura illustrata in queste slideIn modo automatico. Questi software come Spss o Spad riescono a gestire anche grossi
quantitativi di dati input
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 92/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Stesso esempio risolto su SPSS 13.0
• Si caricano gli input (matrice standardizzata);
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 93/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 94/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 95/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
• Cliccate su «Extraction»
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 96/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Spss
Poi cliccate su OK
Negli output troverete
Total Variance Explained
1,703 85,167 85,167 1,703 85,167 85,167
,297 14,833 100,000 ,297 14,833 100,000
Component1
2
Tot al % of Variance Cum ulat iv e % Tot al % of Variance Cumulat iv e %
Init ial Eigenv alues Extraction Sum s of Squared Loadings
Extraction Method: Principal Component Analysis .
Autovalori,come calcolati
nell’esempio
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 97/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Punteggi fattoriali
I punteggi delle nuove Componenti principaliFAC_1 e FAC_2 sono uguali a quelle calcolatenell’esempio diviso la radice quadra di
-1,78668
-0,83321
0,22088
1,1743471,224657
-1,368901
-0,638381
0,1692318
0,8997517
0,9382981
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 98/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
CP in Eviews
Input: matrice stardardizzata dei dati inizialiPrima di effettuare un’analisi in CP, è necessariocreare un gruppo di variabili, in Eviews «unico».
98
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 99/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esercizio in Eviews
Total Variance Explained
1,703 85,167 85, 167 1,703 85,167 85,167
,297 14,833 100,000 ,297 14,833 100,000
Component1
2
Tot al % of Varia nce C um ulat iv e % Tot al % of V aria nce C um ulat iv e %
In it ial Eigenv alue s Extractio n Sum s of S qu ared Loa dings
Extraction Method: Principal Component Analy sis.
Spss
Le differenze tra Eviews e Spss: gli
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 100/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Le differenze tra Eviews e Spss: gliscores
Scores in E views Scores in Spss
La differenza sta nel fatto che rispetto agli scores originali, Eviews standardizza perla deviazione standard della popolazione mentre spss per la deviazione standardcampionaria.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 101/158
Spss 13.0 for Windows
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 102/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Apertura Programma
• Apertura programma ( Avviare il programmamediante collegamento sul desk oppure: Start
– Programmi – Spss for Windows)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 103/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Apertura file:
• Tipo File Excel:1. File – Open – Data File – Open – Data individuare dov’è
situato il file “Esempio1”- Tipo file ( Tutti i file o excel)
Spuntare la riga perAttribuire a ciascunavariabile il nome contenutonella prima riga
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 104/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Apertura File (2):
• Aprire File formato (*.sav) File di Spss
File – Open – Data - Cercare i file che sidesiderano aprire es. Cars nella Cartella “Spps
che si apre come default” ( Prima di questaoperazione chiudere e riaprire Spss)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 105/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Dizionario Variabili:
Variabiliquantitative
Variabiliqualitative
Unitàstatistiche \ osservate
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 106/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Modificare Variabili
• Variable View:
Prima colonna: Nome della variabile ( si modificaentrando nella stringa)
Seconda colonna: il tipo di dati che sono inseriti
Terza colonna: l’ampiezza ovvero il numero si spazi checontiene
Quarta colonna: numero di decimali ammessi
Quinta colonna: valore di etichetta
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 107/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Value Label
• Spss permette di attribuire un valore etichettaper ciascuna variabile;
• Per i caratteri qualitativi ( es. femmina -
maschio; Assente – presente) si è solitiattribuire un valore numerico da associare aduna caratteristica.
• È possibile evidenziarlo spuntando in
In: View – Value Label
( )
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 108/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Value Label (2)
• Es. in “Cars”; selezionando Value Label daView, nella colonna “Origin” si osservano tremodalità:
1. Americane2. Europee
3. Giapponesi
Come si fa ad attribuire un valore etichetta ad una variabile qualirativa?(continua…
l b l ( )
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 109/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Value Label (3)
• Percorso:
Variable view – andare nella colonna Valueselezionando la variabile Origin; comparirà
una tabella:Valore dellavariabile (es1,2,3)
Etichetta daattribuire aquel valore
Es. se la variabile Origin assumevalore 1 vuol dire che l’auto èstata prodotta in U.S.A.
b l
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 110/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Creare una nuova variabile
• Chiamandola “Airbag”
1= Assente
2= Avanti
3= Avanti e lateraleEsempio di Costruzione
i i
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 111/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esercizio
• Creare una variabile che accoglie i seguentivalori:
• 1, 2, 3, 4 relativi a 6 Titoli “etichettando”
I seguenti valori nel modo seguente:
1= Trend Rialzista
2= Trend Ribassista
3= Fase Laterale
4= Fase inversione trend
S i i h d i i
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 112/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Statistiche descrittive:
• Riaprire il file “Cars”
• Per costruire una tabella di frequenza e alcunerappresentazioni grafiche;
• Analize – Descriptive Statistics - Frequencies
T b ll
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 113/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Tabelle
1. Inserire lavariabile
2. Entrare e
selezionare:Quartili; Media,Mediana; e altremisure didispersione
3. Consente di scegliere iltipo di grafico
4. Ok4. Tabella di
frequenza
O
Statistics
Vehicle Weight (lbs )
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 114/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
OutputVehicle Weight (lbs.)
406
0
2969,56
2811,00
849,827
722206,2
,468
,121
-,752
,242
2222,25
2811,00
3614,75
Valid
Missing
N
Mean
Median
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
25
50
75
Percentiles
1. StatisticheDescrittive
T b ll di F (P i )
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 115/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Tabelle di Frequenza (Provenienza auto)Country of Origin
253 62,3 62,5 62,5
73 18,0 18,0 80,5
79 19,5 19,5 100,0
405 99,8 100,0
1 ,2
406 100,0
American
European
Japanese
Total
Valid
SystemMissing
Total
Frequency Percent Valid Percent
Cumulative
Percent
Tabella di
frequenze
Pie Graph
(grafico atorta)
E t i d ll’ O t t
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 116/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esportazione dell’ Output
• In Spss c’è la possibilità di esportare il proprioOutput.
Posizionarsi sulla finestra outout
File – esporta –
Fi t di t i
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 117/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Finestra di esportazione
1. Doveposizionarlo
2. Formatoesportazione(html, xls, txt
C l i
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 118/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Correlazione
• Tra “miglia per Gallone” e “Potenza dell’auto”;Analize – Correlate - Bivariate - Pearson
Correlations
1 -,771**
,000
398 392
-,771** 1
,000
392 400
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Miles per Gallon
Horsepower
Miles per
Gallon Horsepower
Correlation is significant at the 0.01 level (2-tailed).**.
St d di i bil
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 119/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Standardizzare una variabile
• Analize - Desciptive statistics - descriptivies
Spuntare edinserire la ole variabili
E i i (2)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 120/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esercizio (2)
• Sul file ‘Cars’ calcolarsi:1. le tabelle di frequenza della variabile “cylinders”
2. Pie chart;
3. Esportare l’output in formato htm sul desk delproprio pc;
4. Calcolare l’indice di correlazione con la variabile“cavalli” ( horse);
5. Esportare l’output in formato txt.
Alcune operazioni su excel
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 121/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Alcune operazioni su excel
• Matrice inversa, trasposta, operazioni tra matrici• Correlazioni, media, deviazione standard, ecc…
• Attivare dai componenti aggiuntivi “Strumenti di analisi”
• In Office 2007 comparirà in Dati
• Per excel 2003 Strumenti – Componenti Aggiuntivi- Strumenti di Analisi; (
Comparirà in Strumenti – Analisi dei dati);
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 122/158
Spss 13.0 for Windows
Open File:
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 123/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Open File:
1. Aprire la cartella;
2. Aprire “Sample file”;
3. Aprire “Car_sales.sav”
Tabella
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 124/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Tabella
Select Cases:
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 125/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Select Cases:
• Cliccare su Data- (in Basso) Selected cases• Serve per selezionare unità statistiche /
osservazioni che soddisfano alcunecaratteristiche
Select Cases (2)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 126/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Select Cases (2)
Cliccare sul cerchio vuoto:
“if condition is satisfied”
Select Cases
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 127/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Select Cases
Condizioni immesse:
L’unità statisica deve averecome type la modalità 1(truck)
Condizioni immesse:
L’unità statisica deve averesales maggiore di 100
Analisi dei Cluster: Gerarchici
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 128/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Analisi dei Cluster: Gerarchici
Solo sulle unità statisticheche soddisfano lecondizioni date!!!!
Cluster Gerarchici
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 129/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster GerarchiciSi inseriscono le variabili
( non quellestandaridizzate)
Si inserisce
l’etichetta delleUnità statistiche
Ci si riferisce alla unità
statistiche
Cluster gerarchici: Plot
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 130/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster gerarchici: Plot
Dendogramma;
Per tutti i Cluster
Cluster gerarchici: Metod
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 131/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster gerarchici: Metod
Metodo dellegame singolo
Distanza
Standardizza le
variabili(quando sistandardizza)
Cluster: Output(1)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 132/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster: Output(1)
Agglomeration Schedule
4 9 2,491 0 0 6
2 5 7,280 0 0 5
1 8 7,536 0 0 7
3 7 7,581 0 0 5
2 3 7,714 2 4 6
2 4 12,095 5 1 8
1 6 14,178 3 0 8
1 2 16,771 7 6 0
Stage
1
2
3
4
5
6
7
8
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Nel menù Cluster era presente in
“Statistic” come default
4 e 9 sono i primi Cluster con uncoefficiente di distanza pari a2,49
Questo gruppo lo ritroveremo
nella fase 6 ( si aggrega con 2il quale a sua volta si eraaggregato con 5 nella fase 2con 3 nella fase 5)
Cluster: Output (2)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 133/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster: Output (2)
Vertical Icicle
X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X
X X X X X X X X X X
Number of clusters
1
23
4
5
6
7
8
9 : G r a n d C h e r o k e e
4 : E x p l o r e r
7 : R a n g e r
3 : C a r a v a n
5 : W i n d s t a r
2 : D a k o t a
6 : E x p e d i t i o n
8 : F - S e r i e s
1 : R a m P i c k u p
Case
Codice per ciascun case ( unitàstatistica)
Ghiacciolo Verticale
Ci dice che Dakota ed Expeditionsi uniscono per uno “stage”
Cluster Output: dendogramma
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 134/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster Output: dendogramma
Come determinare
il numero diCluster
Esercizio
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 135/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esercizio
Sullo stesso file selezionare le unità statistichecon le seguenti condizioni Type=0
Sales maggiore di 100
• Criterio di Ward.• Esportare in html il file sul desk top.
• Commentare i risultati.
Cluster K mean
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 136/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Cluster K mean
K mean menù
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 137/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean menù
Si inserisce
l’etichetta delleUnità statistiche
Si inseriscono le variabili
(quelle standaridizzate)
Numero ClusterSpuntare questa
K mean: Iterate
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 138/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean: Iterate
K mean: Option
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 139/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean: Option
Informazioni per
Ogni unitàstatistica
K mean: save
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 140/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean: save
Spuntare lecaselle
OK!!
K mean output(1)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 141/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean output(1)
Iteration Historya
,312 ,852 ,780 ,427 ,000
,104 ,284 ,260 ,142 ,000
,035 ,095 ,087 ,047 ,000
,012 ,032 ,029 ,016 ,000
,004 ,011 ,010 ,005 ,000
,001 ,004 ,003 ,002 ,000
,000 ,001 ,001 ,001 ,000
,000 ,000 ,000 ,000 ,000
4,76E-005 ,000 ,000 6,51E-005 ,000
1,59E-005 4,33E-005 3,97E-005 2,17E-005 ,000
Iteration1
2
3
4
5
6
7
8
9
10
1 2 3 4 5
Change in Cluster Centers
Iterations stopped because the maximum number of iterations
was performed. Iterations failed to converge. The maximum
absolute coordinate change for any center is 2,99E-005. The
current iteration is 10. The minimum distance between initial
centers is 3,148.
a.
K mean: output(2)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 142/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean: output(2)
Cluster Membership
Ram
Pickup1 ,468
Dakota 2 1,277
Durango . .
Caravan 3 1,171
Explorer 4 ,641
Windstar 3 1,171Expeditio
n5 ,000
Ranger 2 1,277
F-Series 1 ,468
Grand
Cherokee4 ,641
Case Number41
44
45
46
53
5455
56
57
70
Model Cluster Distance
Distanza dal
centro ( Ladistanza èeuclidea)
K mean: output(3)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 143/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
K mean: output(3)
Distances between Final Cluster Centers
5,052 4,804 5,660 3,306
5,052 2,555 3,685 5,210
4,804 2,555 2,846 3,911
5,660 3,685 2,846 3,754
3,306 5,210 3,911 3,754
Cluster1
2
3
4
5
1 2 3 4 5
Number of Cases in each Cluster
2,000
2,000
2,000
2,000
1,000
9,000
1,000
1
2
3
4
5
Cluster
Valid
Missing
Esercizio
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 144/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Esercizio
• Aprire il file Telco_extra.sav che si trova nellacartella “sample_file”;
• Con le variabili standardizzate e conun’iterazione di 20 ottenere 3 Cluster.
• Esportare il file in formato *.txt sul propriodesk.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 145/158
Spss 13.0 for Windows
A.C.P.: open
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 146/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
A.C.P.: open
File – Open –Data – aprire “car_sales” nella cartella “sample file” in “tutorial”
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 147/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
A.C.P: maschera
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 148/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
asc e a
Inserire la variabilinonstandardizzate (ovvero escluderele Z score del file)
A.C.P: extraction
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 149/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Inserire comemetodo “PrincipalComponent”
Corralation Matrixse i caratteri sonomisuratidiversamente
Spuntare pervisualizzare ilgrafico degliautovalori
Sarannoselezionate quelle
componentiprincipali conautovalorisuperiori a 1
A.C.P: rotation
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 150/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Massima varianza:criterio diindividuazione diautovalori eautovettori
A.C.P: scores
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 151/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
Salva la C.P. comese fosse unavariabile
Salva comevariabili diregressione
Lasciare la casella
vuota
A.C.P: output
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 152/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
p
Communalities
1,000 ,408
1,000 ,866
1,000 ,928
1,000 ,914
1,000 ,808
1,000 ,9091,000 ,858
1,000 ,780
1,000 ,910
1,000 ,887
1,000 ,865
1,000 ,850
Sales in thousands
4-year resale value
Vehicle type
Price in thousands
Engine size
HorsepowerWheelbase
Width
Length
Curb weight
Fuel capacity
Fuel efficiency
Initial Extraction
Extraction Method: Principal Component Analysis.
Varianza iniziale:1 se si usa lamatrice dicorrelaione
Varianza spiegatadalle componentiprincipali ( valoricompresi tra 0 e 1se si usa la
matrice dicorrelazione)
Le C.P. sonoselezionate inbase al valoresogliadell’autovalore
A.C.P: Output (2)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 153/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
p ( )
Total Variance Explained
6,153 51,275 51,275 6,153 51,275 51,275 3,838 31,982 31,982
2,652 22,101 73,376 2,652 22,101 73,376 3,706 30,884 62,866
1,179 9,825 83,201 1,179 9,825 83,201 2,440 20,336 83,201
,740 6,164 89,366
,429 3,576 92,942
,254 2,113 95,054
,193 1,612 96,667
,132 1,100 97,766
,120 ,999 98,765
,074 ,614 99,379
,053 ,438 99,818
,022 ,182 100,000
Component1
2
3
4
5
6
7
8
9
10
11
12
Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Extraction Method: Principal Component Analysis.
Autovalori
Varianza spiegata dalla C.P.
Varianzacumulata,
perché sisomma
Dati relativi allesole componentiprincipaliselezionate
A.C.P: grafico autovalori
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 154/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
g
A.C.P: output (3)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 155/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
p ( )
Component Matrix a
,110 ,620 ,105
,522 -,765 -,088
,384 ,489 -,737
,645 -,706 -,007
,869 -,211 ,090
,775 -,535 ,149
,677 ,584 ,243
,802 ,240 ,280,713 ,391 ,499
,929 ,124 -,096
,863 ,213 -,275
-,856 -,038 ,340
Sales in thousands
4-year resale value
Vehicle type
Price in thousands
Engine size
Horsepower
Wheelbase
WidthLength
Curb weight
Fuel capacity
Fuel efficiency
1 2 3
Component
Extraction Method: Principal Component Analysis.
3 components extracted.a.
Correlazione conla C.P.
A.C.P.: output (4)
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 156/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
p ( )
Analogia con ilcerchio dellecorrelazioni
Esercizio 1:
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 157/158
Metodi Statistici e Statistica per la Finanza a.a. 2011-2012
Martino Lo Cascio – Mauro Aliano
A.C.P sul file Cars ( cartella default):1. Autovalori con valore superiore a 1,5;
2. Method: varimax;
3. Salvare le C.P. come variabili;4. Esportare l’output in formato html sul desk.
Esercizio 2: cluster su A.C.P.
5/13/2018 CalcoloMatriciale e ACP - slidepdf.com
http://slidepdf.com/reader/full/calcolomatriciale-e-acp 158/158
• Selezionare le unità statistiche che hannocome modalità del carattere type=1;
• Fare Cluster ( gerarchici) sulle C.P.:
1. Legame singolo;
2. Distanza “squared euclidean”3. Esportare il file in formato html
4. Commentare i risultati.