note introduttive all'econometria - liberarete.itlinear unbiased estimator). per provare il teorema...

38
Note introduttive all’econometria Domenico Suppa * 25 maggio 2016 Il modello di regressione lineare Date n osservazioni campionare relative alla variabile Y ea k - 1 variabili X i (con k < n): Y =[Y i ] per i = 1,..., n X = 1, [X i , j ] per i = 1,..., n e per j = 2,..., k nel modello di regressione lineare si ipotizza che tra Y e X sussista una relazione lineare alterata solo dalla presenza di una componente erratica ε. Le condizioni imposte, per ipotesi, sono le seguenti: 1 Y = Xβ + ε ipotesi di linearità della relazione tra Y e X (I1) E [ε|X]= 0 ipotesi di esogeneità dei regressori X (I2) Ci si pone l’obiettivo di stimare il vettore dei parametri incogniti β . Tale stima, ˆ β , si può ottenere minimizzando la somma dei quadrati dei residui 2 u = Y - X ˆ β : min ˆ β u 0 u (1) Si tratta, quindi, di determinare ˆ β di modo che la lunghezza del vettore u sia la più piccola possibile. Ciò equivale a calcolare ˆ β imponendo la condizione che u sia * Università di Napoli "Federico II". 1 Gli elementi della prima colonna della matrice X sono posti tutti pari a 1, in tal modo il primo elemento del vettore β , indicato con β 0 , è il termine costante (l’intercetta) della funzione lineare che determina Y. Riguardo alla condizione (I2) essa risulta generalmente troppo restrittiva e quindi, quando è possibile, si richiede solo l’incorrelazione tra l’errore e i regressori della medesima osservazione: E[ε|X = x i ]= 0. 2 È chiaro che u 6= ε: l’errore ε resterà sempre incognito mentre i residui calcolati u possono consentire di inferire le caratteristiche di ε solo se sono soddisfatte le ipotesi (I1), (I2) e quelle di seguito specificate nel testo. L’ipotesi che le k colonne di X siano linearmente indipendenti garantisce che la matrice X 0 X sia invertibile (unicità della stima) e che essa sia definita positiva (in tal modo la somma dei quadrati dei residui è minima). Per valutare se una matrice simmetrica definita positiva è quasi-singolare (cioè molto vicina ad una matrice non invertibile) si utilizza l’indice di condizionamento che è pari al rapporto tra il massimo e il minimo autovalore della matrice (se questo rapporto è molto distante da 1, allora la matrice è quasi-singolare e i risultati dell’inversione dipendono drasticamente dalla precisione di macchina del calcolatore). V. appendice A3. 1

Upload: others

Post on 19-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Note introduttive all’econometria

    Domenico Suppa∗

    25 maggio 2016

    Il modello di regressione lineare

    Date n osservazioni campionare relative alla variabile Y e a k−1 variabili X i (conk< n):

    Y= [Yi] per i= 1,.. . ,n

    X=�

    1,[X i, j]�

    per i= 1,.. . ,n e per j= 2,.. . ,k

    nel modello di regressione lineare si ipotizza che tra Y e X sussista una relazione linearealterata solo dalla presenza di una componente erratica ε. Le condizioni imposte, peripotesi, sono le seguenti:1

    Y=Xβ+ε ipotesi di linearità della relazione tra Y e X (I1)E[ε|X] = 0 ipotesi di esogeneità dei regressori X (I2)

    Ci si pone l’obiettivo di stimare il vettore dei parametri incogniti β . Tale stima, β̂ , sipuò ottenere minimizzando la somma dei quadrati dei residui2 u= Y−Xβ̂:

    minβ̂

    u′u (1)

    Si tratta, quindi, di determinare β̂ di modo che la lunghezza del vettore u sia lapiù piccola possibile. Ciò equivale a calcolare β̂ imponendo la condizione che u sia

    ∗Università di Napoli "Federico II".1Gli elementi della prima colonna della matrice X sono posti tutti pari a 1, in tal modo il primo elementodel vettore β , indicato con β0, è il termine costante (l’intercetta) della funzione lineare che determina Y.Riguardo alla condizione (I2) essa risulta generalmente troppo restrittiva e quindi, quando è possibile,si richiede solo l’incorrelazione tra l’errore e i regressori della medesima osservazione: E[ε|X= xi] = 0.

    2È chiaro che u 6= ε: l’errore ε resterà sempre incognito mentre i residui calcolati u possono consentire diinferire le caratteristiche di ε solo se sono soddisfatte le ipotesi (I1), (I2) e quelle di seguito specificatenel testo. L’ipotesi che le k colonne di X siano linearmente indipendenti garantisce che la matrice X′Xsia invertibile (unicità della stima) e che essa sia definita positiva (in tal modo la somma dei quadratidei residui è minima). Per valutare se una matrice simmetrica definita positiva è quasi-singolare (cioèmolto vicina ad una matrice non invertibile) si utilizza l’indice di condizionamento che è pari al rapportotra il massimo e il minimo autovalore della matrice (se questo rapporto è molto distante da 1, allorala matrice è quasi-singolare e i risultati dell’inversione dipendono drasticamente dalla precisione dimacchina del calcolatore). V. appendice A3.

    1

  • ortogonale al sottospazio di Rn generato dalle colonne di X. Tale sottospazio avràdimensione k, se le k colonne di X sono linearmente indipendenti (questa è un’ipotesiulteriore che può essere verificata facilmente), e pertanto il vettore u giacerà nelsottospazio di Rn di dimensione n−k (Rn−k è il complemento ortogonale di Rk rispettoa Rn). Imposta la condizione di ortogonalità X′u= 0, determiniamo β̂ risolvendo ilseguente sistema di equazioni:

    Y=Xβ̂+u (2)

    dal quale otteniamo:

    β̂ = (X′X)−1X′Y (3)

    Lo stimatore dei minimi quadrati (X′X)−1X′Y è costruito sulla validità della ipotesi (I1).Se è valida anche l’ipotesi (I2), tale stimatore è corretto. Infatti, data la (I1), possiamoriscrivere la (3) nel modo seguente:

    β̂ = (X′X)−1X′(Xβ+ε) = β+(X′X)−1X′ε (4)

    e, grazie alla (I2), verificare che lo stimatore dei minimi quadrati è non distorto:3

    E[β̂ |X] = E[(X′X)−1X′(Xβ+ε)|X]

    = β+ E[(X′X)−1X′ε|X]

    = β+(X′X)−1X′E[ε|X]= β+0= β (5)

    La distorsione da variabile omessa

    L’importante risultato di correttezza delle stime ottenute con il metodo dei minimiquadrati (espresso nella (5)) richiede (oltre alle ipotesi (I1) e (I2)) che tra i regressorisiano incluse tutte le variabili esplicative dalle quali dipende probabilisticamente Y; inaltre parole non devono esservi variabili omesse (si tratta di un requisito che talvoltaviene esplicitato come una ulteriore ipotesi).4 Le conseguenze dell’omissione di unavariabile esplicativa, importante nella determinazione di Y, possono essere illustratenel modo seguente. Poniamo di dividere i regressori in due gruppi X1 e X2, in mododa avere il seguente processo che genera Y:

    Y=X1β1+X2β2+ε (6)

    ma, supponiamo di omettere i regressori X2 nella specificazione del modello chevogliamo stimare, allora la stima di β1 sarà:

    5

    β̂∗1 = (X′1X1)

    −1X′1Y (7)

    3Per effettuare i passaggi è necessario tener presente il fatto che (X′X)−1X′ è funzione deterministica diX, per cui E[(X′X)−1X′|X] = (X′X)−1X′.

    4Come vedremo, aggiungere questa ulteriore ipotesi non è strettamente necessario e in praticarisulterebbe ridondante in quanto è già contenuta nella (I2).

    5Premoltiplichiamo la specificazione scorretta Y = X1β̂∗1 + u per X′, assumiamo la condizione di

    ortogonalità X′u= 0 (che non è corretta), ed esplicitiamo rispetto a β̂∗1 .

    2

  • ma, dato il modello vero, sostituendo la (6) nella (7) e prendendo il valore medio, siha:

    E[β̂∗1 |X1] = β1+(X′1X1)

    −1X′1X2β2 (8)

    Quindi la stima β̂∗1 è distorta (sistematicamente diversa da β1) se non si verifica almenouna delle seguenti condizioni:

    • (X′1X1)−1X′1X2 = 0 (i regressori X2 sono incorrelati con - cioè ortogonali ai -

    regressori X1);

    • β2= 0 (i regressori X2 sono incorrelati con - cioè ortogonali a - Y).

    L’ultima condizione (β2 = 0) ci dice che l’omissione di regressori (X2) irrilevanti nelprocesso di generazione di Y non altera i risultati della regressione di Y su X1 (l’intui-zione è ovvia). La prima condizione, invece, indica che quando i regressori sono traloro ortogonali (cioè incorrelati), abbiamo la possibilità di condurre separatamente leregressioni di Y su X1 e di Y su X2 avendo la certezza di ottenere gli stessi parametriche avremmo ottenuto dalla regressione condotta su tutti i regressori in un’unica so-luzione. Più in generale, però, la distorsione causata dall’omissione di una variabilerilevante (quantificata dal termine (X′1X1)

    −1X′1X2β2 della (8)), che non sia ortogonaleai regressori utilizzati, conduce a stime distorte. Inoltre, la distorsione da variabileomessa non diminuisce all’aumentare della numerosità campionaria (le stime quindirisultano distorte e anche inconsistenti). In effetti, si dovrebbe riflettere sul fatto chequesta omissione invalida l’ipotesi (I2): la variabile omessa, correlata con i regressoriutilizzati, viene inglobata nei residui della regressione che, a questo punto, non possonopiù essere incorrelati con i regressori utilizzati (viene meno l’ipotesi (I2)).

    Ora risultà più chiaro il senso della seguente affermazione:sotto le ipotesi (I1) e (I2) sul modello di regressione lineare,• gli stimatori dei minimi quadrati producono stime non distorte dei parametri β .

    Sfericità degli errori e teorema di Gauss-Markov

    Riguardo agli errori ε è stata già introdotta l’ipotesi (I2) di ortogonalità rispetto airegressori X del modello di regressione lineare. Si è visto che le stime dei parametri β̂sono non distorte se è soddisfatta questa ipotesi (insieme alla (I1)). Per indagare lavariabilità di β̂ è necessario formulare una ulteriore ipotesi inerente la distribuzionedegli errori.6

    In condizioni ottimali gli errori dovrebbero essere omoschedastici e non autocorre-lati:

    Var[ε|X] = E[εε′|X] =σ2I ipotesi di sfericità degli errori (I3)

    Dove σ2 è la varianza costante di ε e I è la matrice identità n×n. Se i regressori Xnon sono stocastici (perché, ad esempio, scaturiscono da un disegno sperimentale),allora (tenuto conto della (4)) le varianze e le covarianze del vettore β̂ possono esserecalcolate nel modo seguente:

    VarX[β̂ |X] = E[(β̂−β)(β̂−β)′|X]

    6Al riguardo, si veda ad esempio Greene (2012, cap. 4).

    3

  • = E[(X′X)−1X′εε′X(X′X)−1|X]

    = (X′X)−1X′E[εε′|X]X(X′X)−1

    = (X′X)−1X′(σ2I)X(X′X)−1

    =σ2(X′X)−1 (9)

    Se i regressori X sono stocastici (cioè sono delle variabili casuali), allora (v. appendiceA1):

    Var[β̂] = EX�

    VarX[β̂ |X]�

    +VarX�

    E[β̂ |X]�

    = EX[σ2(X′X)−1] =σ2EX[(X

    ′X)−1] (10)

    Tale risultato si ottiene tenendo presente che per la (9) VarX[β̂ |X] =σ2(X′X)−1 e per

    la (5) VarX�

    E[β̂ |X]�

    = VarX[β] = 0.

    Dalle ipotesi (I1), (I2) e (I3) si ricava il teorema di Gauss-Markov:

    • gli stimatori dei minimi quadrati dei parametri β del modello di regressione linearehanno varianza minima tra tutti gli stimatori lineari e non distorti di β (sono BLUE, bestlinear unbiased estimator).

    Per provare il teorema consideriamo un qualunque altro generico stimatore di βche sia, per ipotesi, lineare e non distorto ma diverso da (X′X)−1X′Y. La stima di βsarà data da β̂C =CY (dove C è una matrice di dimensione k×n al pari di (X′X)

    −1X′).Il requisito della non distorsione consiste nella seguente uguaglianza:

    E[β̂C |X] = E [CY|X]= E [(CXβ+Cε)|X] = β (11)

    che è soddisfatta solo se CX= I. In generale avremo C= D+(X′X)−1X′ (dove D èdefinita implicitamente) e quindi CX=DX+(X′X)−1X′X=DX+ I= I solo se DX= 0.Assumendo che sia soddisfatta questa condizione, calcoliamo la varianza di β̂C :

    7

    VarX[β̂C |X] = E[(β̂C −β)(β̂C −β)′|X]= E[Cε(Cε)′] = E[Cεε′C′] =CE[εε′]C′=σ2CC′

    =σ2

    (D+(X′X)−1X′)(D+(X′X)−1X′)′

    =σ2DD′+σ2(X′X)−1=σ2DD′+VarX[β̂ |X] (12)

    l’ultimo passaggio riprende il risultato della (9). La (12) stabilisce che VarX[β̂C |X]raggiunge il minimo solo quando β̂C = β̂ , poiché DD′ e (X′X)

    −1 sono entrambe definitepositive.

    È bene ribadire che il teorema di Gauss-Markov può essere applicato solo se ilmodello di regressione lineare è correttamente specificato (ipotesi (I1) e (I2)) e se glierrori sono omoschedastici e non autocorrelati (ipotesi (I3)).8 In condizioni alternative,

    7Sostituendo C nella (4) al posto di (X′X)−1X′, abbiamo (β̂C −β) =Cε.8Un ipotesi molto più forte della (I3) potrebbe richiedere che gli errori siano variabili casuali indipendentie identicamente distribuite (iid).

    4

  • più generali, altri stimatori (non lineari e magari distorti) possono essere più efficienti9

    degli stimatori dei minimi quadrati nell’inferenza sul legame funzionale esistente tra Ye X.

    La varianza dell’errore

    Siccome σ2 è (e resta) ignota, la definizione della varianza degli stimatori deiminimi quadrati, fornita dalla (9) o dalla (10), non è direttamente utilizzabile neicalcoli. Pertanto, è necessario stimare la varianza degli errori per determinare lavarianza degli stimatori dei minimi quadrati. La soluzione è basata sulla definizionedei residui. Dalla (2) e dalla (3), abbiamo:

    u= Y−Xβ̂

    =

    I−X(X′X)−1X′

    Y=

    I−X(X′X)−1X′

    [Xβ+ε]

    =

    I−X(X′X)−1X′

    ε=MXε (13)

    dove con MX è stata indicata la matrice [I−X(X′X)−1X′].10 Notiamo che, per l’ipotesi

    (I2), dalla (13) segue che E[u|X] = E[MXε|X] = 0.Sfruttando le proprietà della matrice MX , si può dimostrare che:• la varianza campionaria dei residui:

    S2u =u′u

    n−k(14)

    è uno stimatore corretto della varianza degli errori.Omettendo per semplicità il pedice deponente assegnato alla matrice MX :

    E[u′u] = E[(Mε)′(Mε)] = E[ε′M′Mε] = E[ε′Mε] = E[t r(ε′Mε)] = E[t r(Mεε′)]

    = t r(E[Mεε′]) = t r(ME[εε′]) = t r(Mσ2I) = t r(M)σ2= (n−k)σ2 (15)

    Questo risultato proviene dal fatto che ε′Mε è uno scalare (la cui traccia t r(ε′Mε)coincide con il suo valore) e dalla definizione di M (che è una funzione deterministicadi X).11

    La matrice delle covarianze di u è data da:

    Var[u] = E[uu′] = E[(Mε)(Mε)′] = E[Mεε′M′] =M(σ2I)M′=σ2M (16)

    9Uno stimatore è più efficiente rispetto a un altro se ha una varianza più bassa.10 Una generica matrice MX (denominata residual maker) trasforma un qualunque vettore (o variabile)

    nei rispettivi residui ortogonali allo spazio generato dalle componenti (colonne) della matrice X. Èsemplice dimostrare che MX è simmetrica (M=M′), idempotente (M2 =MM=M) e semidefinitapositiva (i suoi autovalori sono non negativi). La matrice HX = I−MX (hat matrix) che proietta unqualunque vettore sullo spazio generato dalle colonne di X, gode delle stesse proprietà di MX . Gliautovalori di entrambe le matrici assumono valore 0 o 1 e si può facilmente verificare che il prodottoHX MX ha come risultato una matrice nulla. Dato che H è simmetrica e idempotente, abbiamo:H2x=λ2x=Hx=λx e quindi λ2−λ= 0, da cui segue che λ può assumere solo i valori 0 e 1.

    11Si tenga presente anche che, quando le dimensioni delle matrici permettono la commutazione delprodotto, t r(AB) = t r(BA). Pertanto: t r

    ε′Mε�

    = t r�

    Mεε′�

    e t r

    X(X′X)−1X′

    = t r

    X′X(X′X)−1

    .

    5

  • La (16) mostra che anche se gli errori ε sono tra loro incorrelati e hanno varianzacostante (rispettando l’ipotesi (I2)), in generale, i residui u non hanno varianza costantee presentano un certo grado di autocorrelazione.12

    Ipotesi di normalità degli errori

    Per concludere l’elenco delle proprietà finite di cui può godere la stima dei minimiquadrati dei parametri del modello di regressione lineare aggiungiamo l’ipotesi dinormalità dei residui. La motivazione è dovuta al fatto che per condurre dei teststatistici sui parametri stimati è necessario conoscere la distribuzione dei rispettivistimatori.

    Se gli errori del modello di regressione lineare si distribuiscono in modo normale eindipendente (fermo restando le altre ipotesi (I1), (I2) e (I3)), applicando la proprietàriproduttiva della v. c. normale alla (4), risulta che anche i (gli stimatori dei) parametrisono distribuiti in modo normale (essendo questi ultimi il risultato di una combinazionelineare degli errori come mostrato dalla (4)): β̂ |X∼ N

    β ,σ2(X′X)−1

    . L’ipotesi dinormalità degli errori può essere formalizzata nel modo seguente:

    ε∼N�

    0,σ2I�

    distribuzione normale degli errori (I4)

    Sotto questa ipotesi, date la (4) e la (9), indicando con (X′X)−1ii il termine diagonaledella matrice (X′X)−1 corrispondente al parametro βi, possiamo affermare che:

    β̂i−βiσq

    (X′X)−1ii∼ N (0,1) = z per i= 1,.. . ,k (17)

    la v. c. definita dalla (17) si distribuisce come la normale standardizzata, indicata conz. Applicando la proprietà riproduttiva della variabile casuale normale alla (13), sipuò dedurre che, se per l’errore ε vale l’ipotesi di normalità (I4), anche i residui hannouna distribuzione normale u∼N

    0,σ2MX�

    . Inoltre, si può dimostrare, che la variabile

    casuale u′uσ2

    si distribuisce come una v. c. Chi-quadrato con n−k gradi di libertà:13

    u′uσ2=� ε

    σ

    �′MX

    � ε

    σ

    =S2u(n−k)σ2

    ∼χ2(n−k) (18)

    Rapportando la (17) alla radice quadrata della (18) (dopo aver diviso quest’ultimaper n−k), deduciamo che tale rapporto si distribuisce come una variabile casuale t di

    12Nei successivi paragrafi emergeranno ulteriori considerazioni sulla relazione tra errori e residui inbase all’esame delle matrici MX e HX . In particolare, esaminando i termini diagonali della matriceMX si può mostrare che la variabilità dei residui è sempre minore di quella degli errori. Ciò èevidente anche intuitivamente, in quanto i residui sono calcolati in base ad un criterio di distanzaminima (l’ortogonalità alle colonne della matrice X) mentre per gli errori l’ipotesi di ortogonalità ègeneralmente soddisfatta solo con una certa approssimazione.

    13Ricordiamo che χ2(n)=∑n

    i=1 z2i , dove zi sono variabili casuali normali standardizzate e tra loro indipen-

    denti. Il risultato presentato nella (18) deriva dal fatto che se x, ad m componenti, si distribuisce comeuna variabile casuale normale multivariata con vettore delle medie pari a µ e matrice delle covarianzepari a S, allora la forma quadratica (x−µ)′S−1(x−µ) si distribuisce come una variabile casualechi-quadrato con m gradi di libertà. (Piccolo, 1998, pp. 423 e 879), Greene (2012), v. appendice A2.

    6

  • Student con n−k gradi di libertà:

    β̂i−βiSuq

    (X′X)−1ii=

    β̂i−βiσq

    (X′X)−1iir

    S2u(n−k)(n−k)σ2

    ∼z

    È

    χ2(n−k)n−k

    = t(n−k) (19)

    Grazie alla (19), se è valida la (I4), si può codurre il test t di Student sul confronto traβ̂i e βi. Nella (19) il numeratore z deve essere indipendente dal denominatore χ

    2(n−k),

    cioè lo stimatore del parametro deve essere indipendente dallo stimatore dell’errorestandard degli errori.14

    Cenni alle proprietà asintotiche dei minimi quadrati

    Circa la consistenza dello stimatore dei minimi quadrati di β , osserviamo che la suavarianza, ottenuta dalla (9), può essere riscritta nel modo seguente:

    Var[β̂] =σ2

    n

    1n

    X′X−1

    (20)

    Il secondo membro della (20) è costituito dal prodotto di due termini: il primo, σ2/n,tende a zero al crescere di n, il secondo (grazie all’applicazione della legge dei grandinumeri, se la matrice X′X non è singolare e i regressori presentano alcuni requisiti diregolarità) tende (in probabilità) ad un valore limite costante.15 Pertanto, siccomela varianza dello stimatore dei minimi quadrati tende a zero al crescere di n, talestimatore è consistente oltre che corretto.16

    Nel caso gli errori non siano normalmente distribuiti, al fine di ottenere stimatori deiminimi quadrati la cui distribuzione sia asintoticamente normale, è necessario disporredi una elevata numerosità campionaria e formulare l’ipotesi di indipendenza seriale:17

    (xi,εi) per i= 1,.. . ,n sono serialmente indipendenti (I5)

    (questa ipotesi rafforza l’incorrelazione richiesta dall’ipotesi di sfericità dei residuiformulata dalla (I3)). In un certo senso, il venir meno dell’indipendenza, a causa deglierrori non più distribuiti normalmente, richiede un assunto esplicito sull’indipendenzadegli errori. Permane, invece, immutata l’ipotesi di varianza costante degli errori. Sottoqueste condizioni è possibile applicare il teorema limite centrale.18

    14V. Davidson e MacKinnon (2003, cap. 4). V. appendice A2.15V. Greene (2012, p. 103 e ss.).16Uno stimatore θ̂n è consistente per il parametro θ se, al crescere della numerosità campionaria n,

    tende a 1 la probabilità che θ̂n assuma il valore θ .17Indichiamo con xi il vettore riga trasposto della matrice dei regressori relativo all’osservazione i-esima.18Le due formulazioni del teorema limite centrale più utilizzate in econometria sono: quella di Lindeberg-

    Levy e, in particolare, quella di Lindeberg-Feller; riguardo alla prima, la formulazione (più semplice) èla seguente (vedi appendice A9 a p. 25):Se x1, . . . , xn è un capione casuale (cioè a componenti indipendenti) estratto da una popolazione la cui

    funzione di distribuzione ha media µ e varianza σ2 finite e xn =∑n

    i=1 x in , allora, per n→∞,

    pn(xn−µ)

    si distribuisce come una v. c. normale N(0,σ2) .Il secondo teorema limite centrale, quello di Lindeberg-Feller, invece, pur conservando l’ipotesi diindipendenza, ammette che le v. c. x i presentino diverse varianze (e anche diverse medie). È proprioquesto il teorema limite necessario per ottenere la (21), dato che le varianze dei termini xiεi nonpossono essere ritenute costanti anche se è costante la varianza di εi al variare di i. Greene (2012).

    7

  • Tenendo presente la (4), possiamo scrivere:19

    pn(β̂−β) =

    X′Xn

    −1X′εp

    n

    a∼ N�

    0,σ2

    X′Xn

    −1�

    (21)

    Il membro di sinistra si distribuisce asintoticamente come una v. c. normale con mediazero e varianza finita. Si è già detto che, al crescere di n il termine

    X′Xn

    −1tende in

    probabilità ad una matrice con valori finiti. La stima della varianza σ2 può esserebasata ancora sulla varianza campionaria dei residui S2u definita dalla (14).

    20

    Svolgiamo in modo più formale e dettagliato questo discorso. Nel seguito indichia-

    mo con “plim” op→ la convergenza in probabilità.21

    Nell’approccio alla regressione lineare su dati di elevata numerosità campionaria siassume che:22

    plim

    X′Xn

    =Q con Q definita positiva e finita (I6)

    Date le ipotesi (I1), (I2), (I3), (I5), (I6), abbandonando l’ipotesi (I4), dalla (4) sideduce che:23

    • i minimi quadrati stimano in modo consistente i parametri del modello di regressionelineare.Dato che:

    β̂ = β+(X′X)−1X′ε= β+

    X′Xn

    −1 X′εn

    per la (4) (22)

    la dimostrazione della precedente proposizione è basata sulle seguneti convergenze inprobabilità:24

    X′Xn

    −1p→ Q−1 per la (I6)

    X′εn=

    1n

    n∑

    i=1

    xiεip→ E[xiεi] = Exi [xi E[εi|xi]] = 0 per la LDGN e la (I2)

    β̂p→ β+Q−10= β per le precedenti. (23)

    Inoltre, si dimostra che:• gli stimatori dei minimi quadrati si distribuiscono in modo asintoticamente normale.

    19Il simboloa∼ indica che il termine di sinistra “si distribuisce asintoticamente come” il termine di destra.

    20Per le dimostrazioni di questi enunciati si veda Greene (2012, pp. 103 e ss. e app. D).21Una successione di variabili casuali Xn converge alla variabile casuale X se e solo se, per qualsiasiδ> 0:

    limn→∞

    Prob(|Xn−X |)

  • Consideriamo il termine X′εpn =

    ∑ni=1

    xiεipn della (21), abbiamo E[xiεi] = 0 e:

    Var[xiεi] = E[xiεiεi′xi′]

    =n∑

    i=1

    x′iεipn

    ��

    x′iεipn

    �′

    = E�

    xi E[εiεi′|xi]xi ′

    =σ2E[xixi′]

    p→ σ2Q

    l’ultimo passaggio è giustificato all’identità X′X=∑n

    i=1 xixi′; infatti, dividendo ambo i

    membri di quest’ultima per n e considerando l’ipotesi (I6), segue:

    E[xixi′] =

    ∑ni=1 xixi

    n=

    X′Xn

    p→ Q

    Pertanto, applicando il teorema limite centrale di Lindeberg-Feller, il termine X′εpn della

    (21) tende a distribuirsi asintoticamente come una v. c. normale N�

    0,σ2Q�

    . Gra-zie a questi risultati, e alle (23), applicando il teorema di Slutsky,25 deduciamo chela distribuzione asintotica del primo membro della (21) è: N

    Q−10, Q−1σ2QQ−1′

    .

    Quindi, come riportato nella (21), la v. c.p

    n(β̂−β) tende a distribuirsi come una v. c.normale N

    0,σ2Q−1�

    .Infine:• la varianza dei residui S2u è uno stimatore consistente della varianza degli errori σ

    2.Dalla (14), ricordando la definizione della matrice M:

    S2u =u′u

    n−k=ε′Mεn−k

    =ε′

    I−X(X′X)−1X′

    ε

    n−k

    =n

    n−k

    ε′ε

    n−

    ε′Xn

    X′Xn

    −1X′εn

    (24)

    Il fattore costante nn−k tende a 1 al crescere di n, il secondo termine della differenzanelle parentesi quadre, grazie alla (I6) e alle convergenze in probabilità già calcolatenella (23), tende ad annullarsi. Il termine ε

    ′εn converge, sotto condizioni minimali, a

    σ2 per n tendente all’infinito. Quindi: plim S2u =σ2 e, pertanto, la varianza asintotica

    di β̂ è uguale a S2u(X′X)−1.

    In conclusione, grazie alla teoria asintotica che permette di determinare la (21),possiamo applicare il test sulla media di una v. c. normale standard z quando i datisono numerosi e per essi non è possibile sostenere l’ipotesi di normalità degli errori.26

    Per quanto si è detto in questo paragrafo:

    pn(β̂i−βi)

    Su

    r

    �X′Xn

    �−1ii

    =β̂i−βi

    Suq

    (X′X)−1ii∼ z (25)

    25Se g è una funzione continua che non dipende da n, allora g(xn)p→ g(x) se xn

    p→ x .

    26D’altra parte è anche ben noto che la variabile casuale t(n) tende velocemente alla v. c. normalestandard all’aumentare di n. Quindi il test sui parametri può essere basato sulla v. c. normale standardogni volta che vi è una considerevole numerosità campionaria: prossima o superiore a 100.

    9

  • A0. Il teorema di Frisch-Waugh-Lovell e i valori anomali

    Il teorema di Ragnar Frisch, Frederick V. Waugh27 e Michael C. Lovell28 affermache ogni regressione lineare può essere condotta in più stadi. La procedura può esseredescritta nel modo seguente: i regressori vengono divisi in due gruppi, si calcola laregressione della variabile dipendente rispetto al primo gruppo, poi si calcolano leregressioni del secondo gruppo di variabili esplicative rispetto al primo gruppo diregressori, si effettua infine la regressione dei residui della prima regressione rispettoai residui delle altre regressioni. I parametri ottenuti nell’ultimo stadio di questoprocedimento sono uguali a quelli che si ottengono da un unica regressione condottasu tutte le variabili esplicative (in un’unica soluzione).29 Il modello di partenza è ilseguente:30

    Y=X1β1+X2β2+u (A0-1)

    Sotto la condizione di ortogonalità dei residui rispetto ai regressori (implicita nelmetodo dei minimi quadrati), si possono determinare i parametri β1, ottenendo:

    β1= (X′1X1)

    −1X′1Y− (X′1X1)

    −1X′1X2β2 (A0-2)

    Sostituendo β1 nella (A0-1) e riorganizzando i termini:

    Y=X1(X′1X1)

    −1X′1Y− X1(X′1X1)

    −1X′1X2β2+ X2β2+u (A0-3)

    [I−X1(X′1X1)−1X′1]Y= [I−X1(X

    ′1X1)

    −1X′1]X2β2+ u (A0-4)

    Posto MX1 = [I−X1(X′1X1)

    −1X′1], la (A0-4) può essere riscritta in sintesi:

    MX1Y=MX1X2β2+u (A0-5)

    Teorema FWL: I parametri β2 e i residui u ottenuti da quest’ultima equazione di regressionesono identici a quelli prodotti dal modello espresso dall’equazione (A0-1). La figura 1illustra l’interpretazione grafica del teorema in uno spazio a tre dimensioni.

    Per giungere alla dimostrazione del teorema basta notare che la retta passanteper r2 è parallela alla perpendicolare a X1 passante per X2 e che le parallele passantiper a1, a2 e X1 individuano dei segmenti corrispondenti e proporzionali (in base alteorema di Talete) sulle rette passanti per r1 e r2. Quindi, l’univocità di β2 è garantitadalla corrispondenza tra le proiezioni di Y lungo le rette per r1 e r2. Naturalmente, iresidui sono individuati, in ogni caso, dalla perpendicolare rispetto al piano generatoda X1 e X2 passante per Y .

    31

    Un’applicazione del teorema FWL è costituita dall’analisi dell’influenza dei cosiddettivalori anomali sulla regressione. Si tratta di punti (o osservazioni) lontani dallafunzione di regressione lineare. Tale distanza è valutata in un duplice senso: verticale(gli outliers) e orizzontale (i punti di leverage). La combinazione di queste due distanze

    27Frisch e Waugh (1956).28Lovell (1963).29Anche i residui sono gli stessi.30Rispetto alla simbologia utilizzata in precedenza, con u indichiamo ancora i residui mentre β rappre-

    senta il vettore dei parametri stimati. Il simbolo Y identifica ancora la cosiddetta variabile dipendentee X sono sempre le variabili esplicative o regressori (compresa la costante).

    31Vedi Davidson e MacKinnon (2003).

    10

  • 0

    X1

    X2

    Y

    r1

    r2

    a1

    a2

    figura 1: Il teorema FWL in uno spazio a tre dimensioni

    determina l’influenza del punto preso in considerazione sulla pendenza della funzionedi regressione lineare. Indicando con ξ i residui di una generica regressione:

    Y=Xβ+ξ (A0-6)

    introduciamo una variabile (vettore colonna) dummy ẽ che assume valore 1 in corri-spondenza dell’osservazione per la quale si vuole valutare l’influenza e ha tutte le altrecomponenti uguali a zero. Questa operazione comporta una variazione dei parametri(da β a β̃) e l’equazione (A0-6) diventa:

    Y=Xβ̃+ ẽα+u (A0-7)

    Per misurare la differenza (β− β̃), premoltiplichiamo la precedente equazione per HX(ricordando che per definizione Ŷ=HX Y=Xβ , che HX X=X′HX =X e che i residui usono ortogonali sia a X, sia a ẽ); abbiamo i seguenti ovvi passaggi:

    Xβ =Xβ̃+αHX ẽ (A0-8)

    X(β− β̃) =αHX ẽ (A0-9)

    X′X(β− β̃) =αX′HX ẽ (A0-10)

    β− β̃ =α(X′X)−1X′ẽ (A0-11)

    Grazie al teorema FWL, considerato che MX X=0 e che ẽ′u=0, possiamo svilupparel’equazione (A0-7) nel modo seguente:

    MX Y=αMX ẽ+u (A0-12)

    11

  • ẽ′MX Y=αẽ′MX ẽ+ ẽ

    ′u (A0-13)

    ẽ′MX Y=αẽ′MX ẽ (A0-14)

    α=ẽ′MX Yẽ′MX ẽ

    =ẽ′MX Y

    ẽ′[I−HX ]ẽ=

    1− h̃(A0-15)

    Nell’ultima espressione, ũ e h̃ indicano rispettivamente la componente del vettore deiresidui u e l’elemento diagonale della matrice HX corrispondenti all’osservazione dellaquale si vuole misurare l’influenza. Determinato il valore del parametro α, possiamosostituirlo nell’equazione (A0-11), ottenendo:

    β− β̃ =ũ

    1− h̃(X′X)−1X′ẽ (A0-16)

    La (A0-16) mostra che l’effetto dell’osservazione presa in esame è tanto più grandequanto maggiore è ũ e quanto più elevato è h̃. Quest’ultimo valore, infatti, appartieneall’intervallo [0,1], in quanto è pari al quadrato della proiezione di ẽ (un vettoredi norma unitaria) sul sottospazio generato dalle colonne di X. In altri termini, perl’idempotenza di HX :

    h̃= ẽ′HX ẽ= ẽ′HX HX ẽ= ‖HX ẽ‖

    2 (A0-17)

    In realtà h̃ non può essere minore di 1/n (dove n è la numerosità delle osservazioni).Se la matrice dei regressori fosse costituita dalla sola costante con tutte le componentiuguali a 1, indicando con H1 la matrice delle proiezioni, avremo:

    1n= ‖H1ẽ‖

    2 (A0-18)

    ma se oltre alla costante vi sono altri regressori, avremo H1HX = HX H1=H1, perchéil vettore costante appartiene a X, e quindi:

    1n= ‖H1ẽ‖

    2= ‖H1HX ẽ‖2≤ ‖HX ẽ‖

    2 (A0-19)

    La proiezione di ẽ su X non può essere in modulo minore della proiezione di ẽ sulvettore con tutte le componenti pari a 1 (dato che questo vettore è una colonna dellamatrice X; infatti, la proiezione ortogonale di un qualunque punto P su una retta r nonpuò essere maggiore della proiezione dello stesso punto su un sottospazio che contienela retta, in quanto la proiezione ortogonale del punto P sulla retta r non è altro che laproiezione ortogonale sulla retta del punto del sottospazio, contenente la retta, cheè proiezione del punto P sul sottospazio al quale appartiene la retta; in un triangolorettangolo ogni cateto non può avere lunghezza maggiore dell’ipotenusa). Inoltre, ilvalore medio dei termini diagonali di HX è k/n, poiché vi sono n termini diagonali e latraccia di HX è pari al numero k dei regressori. I valori h̃ tendono ad essere sempre piùelevati via via che le componenti dei regressori si allontanano dalle rispettive medie(generando l’effetto leverage). Premoltiplicando la (A0-16) per ẽ′X, abbiamo:

    ẽ′X(β− β̃) =ũ

    1− h̃ẽ′X(X′X)−1X′ẽ=

    1− h̃

    ũ (A0-20)

    tale valore è l’effetto sulla stima dell’elemento di Y individuato dalla componente di ẽdiversa da zero. Posto Ỹ=Xβ̃ , dall’equazione (A0-9), premoltiplicando ambo i membri

    12

  • per se stessi, dividendo per kS2u e tenendo conto della (A0-15), si ottiene la distanza diCook:32

    (Ŷ− Ỹ)′(Ŷ− Ỹ)kS2u

    =‖(Ŷ− Ỹ)‖2

    kS2u=α2

    kS2uẽ′HX ẽ=

    h̃ũ2

    kS2u(1− h̃)2 (A0-21)

    Nella figura 2 è riportata una simulazione del modello:

    y= β0+β1x+u

    0 2 4 6 8 10 0 2 4 6 8 10

    123

    45 6

    0 2 4 6 8 10

    1

    2

    3

    4

    56

    12

    3

    45

    6

    Cook’s distance

    0 2 4 6 8 10

    ∆β0

    ∆β1

    figura 2: Distanza di Cook

    Il primo grafico rappresenta le 100 osservazioni (con x in ascissa e y in ordinata) ela retta di regressione. Il secondo grafico, a destra, riporta la relazione tra x (in ascissa)

    32Con S2u si è indicata la varianza dei residui della regressione: S2u =

    ∑ni=1 u

    2i

    n−k =(Y−Ŷ)′(Y−Ŷ)

    n−k . V.: Weisberg(2005) e anche Belsey et al. (1980). Ogni valore ũs =

    Sup

    1−h̃è detto residuo studentizzato, con questa

    notazione la (A0-21) può scriversi comeh̃ũ2s

    k(1−h̃)=

    ũ2sk

    h̃1−h̃= outlier× leverage= influence.

    13

  • e h̃ (in ordinata). La linea orizzontale continua indica il valore medio h= k/n= 2/100,la linea tratteggiata corrisponde al doppio di tale media. Il grafico illustra l’effettoleverage esercitato da ogni x: valori più distanti dalla media x (corrispondente allalinea verticale) causano un valore più elevato di h̃ (i primi 6 valori sono numerati).Nel grafico in basso a sinistra sono riportati in ordinata i valori che risultano dallaformula (A0-21) per ogni osservazione (x è riportato in ascissa come negli altri graficie la linea orizzontale tratteggiata corrisponde al valore 4/n). Dal grafico si può notarecome i valori che influiscono di più sulla stima di y (con maggiore ordinata) non sianoin generale tutti quelli con un più alto leverage. Il valore di ũ (l’eventuale condizionedi outlier), infatti, modifica l’effetto sintetizzato da h̃ (leverage). L’ultimo grafico, inbasso a destra, riporta l’equazione (A0-16) per entrambi i parametri del modello. Sipuò notare come gli effetti siano differenziati per i diversi parametri.

    A1. Medie e varianze condizionate

    La variabile casuale doppia (X,Y) ha la seguente distribuzione di probabilità:

    Probabilità marginalie Probabilità congiunta

    YY1 Y2

    XX1 pX1,Y1 pX1,Y2 pX1X2 pX2,Y1 pX2,Y2 pX2

    pY1 pY2 1

    Definizioni di probabilitàmarginali e probabilità congiunta

    pX i = pX i ,Y1+ pX i ,Y2

    pYj = pX1,Yj + pX2,Yj

    pX i ,Yj = P(X i∩Yj)

    Le distribuzioni di probabilità marginali (pX1 ,pX2) e (pY1 ,pY2), rispettivamente nell’ul-tima riga e nell’ultima colonna della tabella, sono date dalla somma delle probabilitàcongiunte (pX i ,Yj).

    Consideriamo ora le variabili casuali condizionate, del tipo (X|Yi), e le loro distri-buzioni di probabilità pX|Yj = P(X|Yj). Data la definizione di probabilità congiunta:

    pX i ,Yj = P(X i∩Yj) = pX i P(Yj|X i) = pX j pYi |X j = pYj P(X i|Yj) = pYj pX j |Yi (A1-1)

    avremo le seguenti probabilità condizionate:

    pX i |Yj =pX i ,YjpYj

    pYj |X i =pX i ,YjpX i

    (A1-2)

    e il riepilogo dettagliato riportato nelle seguenti tabelle:

    Probabilità condizionate di XY

    Y1 Y2

    XX1 pX1|Y1 pX1|Y2X2 pX2|Y1 pX2|Y2

    1 1

    Probabilità condizionate di YY

    Y1 Y2

    XX1 pY1|X1 pY2|X1 1X2 pY1|X2 pY2|X2 1

    14

  • Utilizzando le probabilità condizionate si possono calcolare i valori medi condi-zionati di X e Y:

    E[X|Y1] =pX1,Y1pY1

    X1+pX2,Y1pY1

    X2= pX1|Y1 X1+ pX2|Y1 X2

    E[X|Y2] =pX1,Y2pY2

    X1+pX2,Y2pY2

    X2= pX1|Y2 X1+ pX2|Y2 X2

    E[Y|X1] =pX1,Y1pX1

    Y1+pX1,Y2pX1

    Y2= pY1|X1 Y1+ pY2|X1 Y2

    E[Y|X2] =pX2,Y1pX2

    Y1+pX2,Y2pX2

    Y2= pY1|X2 Y1+ pY2|X2 Y2

    Calcolando le medie delle medie condizionate, si dimostra che vale la legge delleaspettative iterate (LIE, law of iterated expectations). Con riferimento alle precedentidue tabelle, tenuto conto delle identità (A1-2), (posto E[X|Y] = (E[X|Y1], E[X|Y2]) eE[Y|X] = (E[Y|X1], E[Y|X2])), calcoliamo:

    EY [E[X|Y]] = pY1 E[X|Y1]+pY2 E[X|Y2]

    = pY1�

    pX1|Y1 X1+ pX2|Y1 X2�

    +pY2�

    pX1|Y2 X1+ pX2|Y2 X2�

    = pX1,Y1 X1+ pX2,Y1 X2+ pX1,Y2 X1+ pX2,Y2 X2= pX1 X1+pX2 X2= E[X] (A1-3)

    EX [E[Y|X]] = pX1 E[Y|X1]+pX2 E[Y|X2]

    = pX1�

    pY1|X1 Y1+ pY2|X1 Y2�

    +pX2�

    pY1|X2 Y1+ pY2|X2 Y2�

    = pX1,Y1 Y1+ pX2,Y1 Y2+ pX1,Y2 Y1+ pX2,Y2 Y2= pY1 Y1+pY2 Y2= E[Y] (A1-4)

    In definitiva, la media delle medie condizionate EY [E[X|Y]] è uguale alla media noncondizionata E[X]. Ogni realizzazione della variabile casuale media condizionataE[X|Yi] è funzione di Yi (la media condizionata varia al variare di Yi, per= 1,.. . ,n eviene detta funzione di regressione). La variabile casuale media condizionata E[X|Y],quindi, eredita la propria distribuzione da quella della variabile casuale condizionanteY e lo stesso vale anche per la media condizionata di ogni funzione deterministica di X.Pertanto, avremo, ad esempio, EY

    E[X2|Y]�

    = E[X2].Il risultato della (A1-3) può essere utilizzato per scomporre la varianza della varia-

    bile X nella somma della varianza (condizionata) della funzione di regressione e dellavarianza (condizionata) dei residui di X rispetto alla funzione di regressione.

    Premesso che la varianza può essere sempre espressa come differenza tra la mediadei quadrati e il quadrato della media, per una generica variabile casuale Z:

    Var[Z] = E�

    (Z− E[Z])2�

    = E�

    Z2+(E[Z])2−2Z E[Z]�

    = E�

    Z2�

    −(E[Z])2 (A1-5)

    calcoliamo il valore atteso della varianza condizionata di X rispetto a Y:

    EY [VarY[X|Y]] = EY�

    E[X2|Y]−(E[X|Y])2�

    = EY�

    E[X2|Y]�

    − EY�

    (E[X|Y])2�

    15

  • Sommando e sottraendo (E[X])2 (ricordando la (A1-3) e che EY�

    E[X2|Y]�

    = E[X2]):

    EY [VarY[X|Y]] = E[X2]− EY�

    (E[X|Y])2�

    −(E[X])2+(E[X])2

    = E[X2]−(E[X])2−�

    EY�

    (E[X|Y])2�

    −(EY [E[X|Y]])2�

    applicando la (A1-5) possiamo scrivere:

    EY [VarY[X|Y]] = Var[X]−VarY[E[X|Y]]

    e infine otteniamo:

    Var[X] = VarY[E[X|Y]]+ EY [VarY[X|Y]] (A1-6)

    Quindi, la varianza di X, Var[X], è data dalla somma della varianza condizionatadella funzione di regressione VarY[E[X|Y]] e della media condizionata delle varian-ze di X rispetto alla funzione di regressione EY [VarY[X|Y]]. Questo risultato restacosì dimostrato in termini generali, ma, per fissare le idee, proviamo ad applicarloall’esemplificazione riportata nelle tabelle precedenti, utilizzate nel calcolo dei valoriattesi condizionati espressi dalla (A1-3) e dalla (A1-4). Siamo condotti alla seguenteesemplificazione dei termini della (A1-6):

    VarY[E[X|Y]] = EY�

    (E[X|Y])2�

    −(EY [E[X|Y]])2=

    = pY1(E[X|Y1])2+pY2(E[X|Y2])

    2−(E[X])2 (A1-7)

    EY [VarY[X|Y]] =pY1 VarY1[X|Y1]+pY2 VarY2[X|Y2] =

    =pY1�

    pX1|Y1(X1− E[X|Y1])2+ pX2|Y1(X2− E[X|Y1])

    2�+

    pY2�

    pX1|Y2(X1− E[X|Y2])2+ pX2|Y2(X2− E[X|Y2])

    2�=

    =pX1,Y1(X1− E[X|Y1])2+ pX2,Y1(X2− E[X|Y1])

    2+

    pX1,Y2(X1− E[X|Y2])2+ pX2,Y2(X2− E[X|Y2])

    2=

    =pX1,Y1�

    X12+(E[X|Y1])

    2−2X1E[X|Y1]�

    +

    pX2,Y1�

    X22+(E[X|Y1])

    2−2X2E[X|Y1]�

    +

    pX1,Y2�

    X12+(E[X|Y2])

    2−2X1E[X|Y2]�

    +

    pX2,Y2�

    X22+(E[X|Y2])

    2−2X2E[X|Y2]�

    =

    =E[X2]+pY1(E[X|Y1])2+pY2(E[X|Y2])

    2−2EY�

    (E[X|Y])2�

    (A1-8)

    Sommando la (A1-7) e la (A1-8): VarY[E[X|Y]]+EY [VarY[X|Y]] = E[X2]−(E[X])2=

    Var[X].

    A2. Indipendenza tra trasformazioni di vettori di v. c. normali

    Sia z un vettore ad n componenti di variabili casuali normali standardizzate eincorrelate (quindi indipendenti) e sia q(z) una forma quadratica con argomento z:

    q(z) = z′Az z∼N(0,I) (A2-1)

    16

  • dove A è una matrice simmetrica n× n. Dal teorema spettrale33 sappiamo che A èdiagonalizzabile mediante una similitudine ortogonale. Sia C la matrice ortogonale(C′C= I) che realizza la diagonalizzazione di A:34

    C′AC= L ⇐⇒ A=CLC′ (A2-2)

    dove L è la matrice diagonale degli autovalori {λi} di A.35 Sostituendo A con CLC′nella definizione di q(z):

    q(z) = z′CLC′z (A2-3)

    Definito il vettore y=C′z, abbiamo:

    E[y] =C′E[z] = 0 Var[y] =C′Var[z]C=C′IC= I y∼N(0,I) (A2-4)

    Quindi, la forma quadratica q(z) può essere rappresentata nel modo seguente:

    q(z) = y′Ly=n∑

    i=1

    λi y2i (A2-5)

    Se la matrice A, associata a q(z), è anche idempotente (oltre che simmetrica), i suoiautovalori possono assumere solo i valori 1 o 0; in questo caso, grazie alla (A2-5),possiamo stabilire che:36

    q(z) = z′Az= y′Ly=n−k∑

    j=1

    y2j ∼χ2(n−k) (A2-6)

    dove j indicizza gli n−k autovalori non nulli di A che compongono ordinatamente ladiagonale di L. In particolare, se la matrice associata alla forma quadratica qA(z)= z′Azha rango pari a n (essendo A simmetrica ed idempotente: A= I), avremo:

    q(z) = z′Az∼χ2(n) (A2-7)

    Siano qA(z) = z′Az e qB(z) = z′Bz due forme quadratiche idempotenti, esse sonoindipendenti solo se AB= 0.37 Infatti, posto yA=Az e yB = Bz, risulta qA(z) = yA′yAe qB(z) = yB′yB (per la simmetria e l’idempotenza di A e B). Queste due funzioni,rispettivamente di yA e yB, sono indipendenti solo se sono indipendenti yA e yB. In altritermini, dato che E[yA] = 0 e E[yB] = 0, la matrice delle covarianze deve soddisfarela condizione E[yAyB′] = 0. Ma: E[yAyB′] = E[Azz′B′] = AE[zz′]B′= AIB′= AB= 0.Questo risultato permette di stabilire l’indipendenza tra numeratore e denominatoredella definizione della v. c. F di Fisher-Snedecor e della v. c. t di Student.38

    33Lang (1984, p. 245).34Le colonne della matrice C costituiscono una base ortonormale dello spazio Rn.35Per costruzione le matrici A e L hanno:· gli stessi autovalori e, quindi,· la stessa traccia (pari alla somma degli autovalori),· lo stesso determinante (pari al prodotto degli autovalori),· lo stesso rango (pari al numero degli autovalori non nulli).

    36V. nota 10 e Piccolo (1998, p. 508).37Questa affermazione è nota come teorema di Craig e consente di dimostrare che media e varianza di

    un campione casuale estratto dal una v. c. normale sono tra loro indipendenti (e viceversa, se mediae varianza campionarie sono indipendenti allora il campione è estratto da una popolazione che sidistribuisce in modo normale) Piccolo (1998, p. 508).

    38Riguardo alla v. c. t di Student, la forma lineare Bz e la forma quadratica z′Az sono indipendenti solose AB= 0. La dimostrazione si ottine allo stesso modo di quella fornita per due forme quadratiche.

    17

  • A3. Indice di condizionamento

    Dal punto di visto operativo, il calcolo dei parametri β̂ richiede l’inversione dellamatrice X′X, come mostrato dalla (3). Il punto è che la “precisione” dell’operazione diinversione di una matrice, su qualunque calcolatore, è segnata dai limiti posti dallaprecisione di macchina. Pertanto, quando una matrice è quasi-singolare (cioè non moltodiversa da una matrice singolare), l’approssimazione per mezzo dei numeri di macchinadei risultati nelle varie fasi della procedura di calcolo dell’inversa può generare unoutput molto diverso da quella che è la determinazione "esatta".39 Questo tipo dierrore, che non è contemplato dalla struttura probabilistica del modello di regressionelineare, determina la differnza tra la determinazione esatta di β̂ e quella ottenuta daicalcoli β̂∗. In termini percentuali, possiamo esprimere tale differenza come:

    e=||β̂∗− β̂ ||||β̂ ||

    (A3-1)

    Considerando le condizioni più semplici possibili, per misurare e, posto A= X′X ec = X′Y, introduciamo una perturbazione nella variabile Y (diciamo δY, cosi cheδc= X′δY) per la quale, mentre si intende risolvere il sistema Aβ̂ = c, in realtà ilcalcolatore risolve il sistema Aβ̂∗ = c+δc. Essendo β̂ = A−1c e β̂∗ = A−1c+A−1δc,avremo:

    e=||β̂∗− β̂ ||||β̂ ||

    =||A−1δc||||A−1c||

    (A3-2)

    Il massimo valore del numeratore ||A−1δc|| può essere determinato considerando chela matrice A, di dimensione k×k, è simmetrica e definita positiva e che, pertanto, puòessere diagonalizzata (come nel paragrafo precedente) mediante una base ortonormaledi vettori vi che generano Rk. Ogni vettore s ∈Rk può essere rappresentato comecombinazione lineare dei vettori vi mediante opportuni ed univoci coefficienti t i,ottenendo: s=

    ∑ki=1 t ivi. Visto che ogni vi è un autovettore di A (per cui Avi =λivi),

    che vi′vi = 1 e vi ′v j 6=i = 0, abbiamo:

    ||As||2= (As)′As=

    k∑

    i=1

    t iAvi

    ′ k∑

    i=1

    t iAvi

    =

    k∑

    i=1

    t iλivi′

    k∑

    i=1

    t iλivi

    =k∑

    i=1

    t i2λi

    2 (A3-3)

    Essendo ||s||2=∑k

    i=1 t i2, indicando con λmax il massimo autovalore di A, abbiamo:

    ||As||2=k∑

    i=1

    t i2λi

    2≤λmax 2||s||2⇔||As|| ≤λmax ||s|| (A3-4)

    Siccome la matrice A−1 è anch’essa simmetrica definita positiva e ha come spettro ireciproci degli autovalori di A, analogamente alla (A3-4):

    ||A−1s|| ≤1λmin

    ||s|| (A3-5)

    39l’indice Variance inflation factor può essere utilizzato per misurare l’effetto della collinearità sulla stimadei parametri. Greene (2012).

    18

  • Quindi, per il numeratore della (A3-2) abbiamo ||A−1δc|| ≤ ||δc||λmin e, sostituendo:

    e=||β̂∗− β̂ ||||β̂ ||

    ≤1λmin

    ||δc||||β̂ ||

    (A3-6)

    Il minimo valore del denominatore della (A3-2) sarà dato da ||c||λmax ≤ ||A−1c||= ||β̂ || e,

    quindi, sostituendolo nella (A3-6), abbiamo:

    e=||β̂∗− β̂ ||||β̂ ||

    ≤λmaxλmin

    ||δc||||c||

    (A3-7)

    L’indice di condizionamento λmaxλmin esprime il rapporto massimo possibile tra l’errorerelativo iniziale sui dati (rappresentati mediante numeri di macchina) e l’errore rela-tivo finale commesso sui risultati (anche questi espressi in numeri di macchina). Ilvalore ideale minimo dell’indice di condizionamento è 1, al suo aumentare i risultatidell’elaborazione sono sempre meno accurati e se tende all’infinito l’elaborazione èimpossibile (la matrice A è singolare). Il reciproco dell’indice di condizionamento,quindi, rappresenta, in termini relativi, la distanza della matrice A dalla matrice singo-lare ad essa più vicina, una distanza che va da 0 (se A è singolare) a 1 (nessun errorenell’elaborazione). L’indice λmaxλmin può essere interpretato come l’elasticità massima (omassima reattività) dell’errore nei risultati rispetto agli errori in fase di immissione (ein qualunque altra fase dell’elaborazione) dei dati.

    Questi risultati possono essere generalizzati in vari modi, ad esempio considerandoperturbazioni anche nella matrice A, oltre che nel vettore c, oppure analizzando ilcaso delle matrici non simmetriche, ottenendo, ovviamente, per il calcolo dell’indice,formule diverse dalla precedente.40

    A4. Intervallo di previsione

    Date le ipotesi del teorema di Gauss-Markov, Ŷi = xiβ̂ è la stima BLUE di EX[Yi|xi]=xiβ , l’ampiezza dell’intervallo nel quale ricade l’errore di previsione della funzionedi regressione può essere stimata utilizzando la varianza campionaria del residuoui = Ŷi−Yi = xi(β̂−β)+εi:

    VarX[ui|X ] = E

    xi(β̂−β)+εi��

    xi(β̂−β)+εi�′

    =σ2

    1+xi(X′X)−1xi

    (A4-1)

    Quindi S2ui = S2u(1+xi(X

    ′X)−1xi ′).

    Se accettiamo anche l’ipotesi di normalità degli errori, abbiamo che Yi−ŶiSui∼ t(n−k).

    Pertanto l’intervallo di previsione di Yi sarà dato da:

    Ŷi± t(n−k,1−α/2)Sui = Ŷi± t(n−k,1−α/2)Suq

    (1+xi(X′X)−1xi ′) (A4-2)

    dove α∈ [0,1] è un opportuno livello di fiducia assegnato. Nell’approccio della teoriaasintotica la v. c. di riferimento non sarà più la t ma la z.

    40Nell’esposizione si è seguito Quarteroni e Saleri (2006, pp. 134 e ss), per una trattazione generaledell’indice di condizionamento Murli (2007, pp. 221 e ss.).

    19

  • Se si vuole determinare l’ampiezza dell’intervallo di confidenza per l’errore chesi commette prevedendo Yi con il suo valore medio E[Yi|xi], allora S2ui deve esserestimato con S2u(xi(X

    ′X)−1xi ′) (poiché il valore atteso di εi è zero). Questo l’intervallodi confidenza sarà molto meno ampio rispetto a quello determinato con la (A4-2).

    A5. Trasformazione di Box e Cox

    Talvolta è possibile applicare una opportuna trasformazione alla variabile y perfare in modo di ricondurla alla “normalità” quando questa condizione non è soddisfatta.La trasformazione di Box e Cox (1964) può essere impiegata a questo fine, essa ha ilvantaggio di richiedere la stima di un unico parametro aggiuntivo λ. Poniamo che lavariabile yλ(y), trasformata della y, abbia una distribuzione normale e indichiamocon f (yλ) la sua funzione di densità di probabilità (la pdf, cosi che F(yλ) è la suaprimitiva, la cdf), allora avremo che (considerando la funzione composta F(yλ(y)))la funzione di densità di y sarà data da f (yλ)

    d yλd y . In pratica la trasformazione in

    questione è yλ=yλ−1λ ma se λ= 0 allora si pone yλ= ln(y) (che è il limite per λ→ 0

    della trasformazione originaria). Con questo accorgimento la trasformazione è definitasu tutto l’asse reale rispetto a λ ma solo per valori non negativi di y . Si tratta, quindi,di rendere massima la verosimiglianza rispetto al fatto che il campione sia stato estrattoda una popolazione (rappresentata da yλ) distribuita in modo normale. La funzione diverosimiglianza è la seguente:

    L (λ) =n∏

    i=1

    f (yi) =n∏

    i=1

    f (yλ i)d yλid yi

    =n∏

    i=1

    f (yλ i)yλ−1i = (2πσ

    2λ)−n2 e−∑n

    i=1(yλi−µλ)

    2

    2σ2λ

    n∏

    i=1

    yλ−1i (A5-1)

    e passando al logaritmo:

    logL (λ) =−n log 2π

    2−

    n logσ2λ

    2−

    n∑

    i=1

    (yλi−µλ)2

    2σ2λ

    +(λ−1)n∑

    i=1

    log yi (A5-2)

    raggruppando i termini costati in C , bisogna risolvere il problema:

    maxλ

    logL (λ) = C−12

    logn∑

    i=1

    (yλi−µλ)2+(λ−1)

    n∑

    i=1

    log yi (A5-3)

    per determinare il valore di λ.

    A6. Test di Wald

    Cosideriamo due modelli econometrici: un modello ristretto con m regressori èun modello completo con k>m regressori. Nei due modelli la variabile dipendente Yè la stessa e i primi m regressori sono gli stessi. Date le caratteristiche geometrichedei minimi quadrati, il modello ristretto produce dei residui che hanno una maggiorevarianza rispetto al modello completo. Il test di Wald si pone l’obiettivo di verificare ilpotere esplicativo dei k−m regressori aggiunti nel modello completo rispetto a quello

    20

  • ristretto. Il test è quindi basato sul confronto tra le varianze dei residui dei due modelli.Se i k−m regressori aggiunti nel modello completo hanno un buon potere esplicativonei confronti della variabile Y , allora la varianza dei residui u del modello completodeve essere significativamente inferiore alla varianza dei residui u∗ prodotti dal modelloristretto. Il grafico della figura 3 (nel quale z = Y e y è il regressore aggiunto) illustrail significato geometrico di queste proposizioni:

    z

    x

    y

    u*

    u

    Hz

    figura 3: Test di Wald

    In formule:41

    u∗= Y−Xβ∗= Y−Xβ∗+Xβ−Xβ = Y−Xβ+X(β−β∗) = u+X(β−β∗)

    u∗′u∗= u

    ′u+(β−β∗)′X′X(β−β∗)≥ u′uperché il doppio prodotto u′X(β−β∗) è nullo e

    u∗′u∗−u′u= (β−β∗)′X′X(β−β∗) = ||X(β−β∗)||

    2≥ 0 (A6-1)

    Sotto l’ipotesi H0 che le varianze di u∗ e u siano uguali, considerato che lo stimatoreal primo membro della (A6-1) (diviso per σ2) si distribuisce come una v. c. χ2 cheha (n−m)−(n−k) = k−m gradi di libertà42 e che lo stimatore u′u (diviso per σ2) sidistribuisce come una variabile casuale χ2 con n−k gradi di libertà, trattandosi di duestimatori indipendenti, una volta divisi entrambi per i rispettivi gradi di libertà, il lororapporto si distribuisce come una v. c. F di Fisher-Snedecor con k−m e n−k gradi dilibertà:43

    u∗′u∗−u′uk−mu′un−k

    ∼ F(k−m,n−k) (A6-2)

    41Ancora una volta, per non appesantire la notazione, indichiamo con β i parametri stimati e non le v. c.da cui sono generati.

    42Per il teorema di Fisher e Cochran, v. Piccolo (1998, p. 508),43Per la dimostrazione di queste affermazioni v. Piccolo (1998, pp. 507 e ss.). Il test di Wald può essere

    costruito con il metodo del rapporto di verosimiglianza, v. Piccolo (1998, pp. 639 e ss.).

    21

  • Utilizziamo le seguenti uguaglianze per definire una misura del fitting della regressione:

    l’indice di determinazione, indicato con R2 := (Ŷ−Y)′(Ŷ−Y)

    (Y−Y)′(Y−Y).44 Ricordando che Ŷ=Xβ e

    Y=Xβ:45

    Y−Y= (X−X)β+u

    (Y−Y)′(Y−Y) = β ′(X−X)′(X−X)β+u′u= (Ŷ−Y)′(Ŷ−Y)+u′u

    (Ŷ−Y)′(Ŷ−Y)(Y−Y)′(Y−Y)

    +u′u

    (Y−Y)′(Y−Y)= 1

    u′u

    (Y−Y)′(Y−Y)= 1−R2 (A6-3)

    Dividendo numeratore e denominatore della (A6-2) per (Y−Y)′(Y−Y), possiamoverificare la seguente uguaglianza:

    u′∗u∗−u′u

    k−mu′un−k

    =(R2−R2∗)/(k−m)(1−R2)/(n−k)

    ∼ F(k−m,n−k) (A6-4)

    dove R2∗ è l’R-quadro (l’indice di determinazione) del modello ristretto.Se consideriamo il modello ristretto con la sola costante (l’intercetta verticale), per

    qualunque modello completo con k> 1 regressori, la (A6-4) diventa:46

    (Ŷ−Y)′(Ŷ−Y)k−1u′un−k

    =R2/(k−1)

    (1−R2)/(n−k)∼ F(k−1,n−k) (A6-5)

    Infatti, nel modello restretto (con la sola intercetta verticale) l’indice R2∗ è pari a zero.In questo caso il test di Wald consente di esprimere un giudizio statistico complessivosu tutti i parametri del modello di regressione (escluso β0). Naturalmente, se k= 2,questo test produce gli stessi risultati del test t condotto sotto l’ipotesi H0 che β1 sianullo. In generale F(1,n−2)= t2(n−2), ma si può anche verificare che, per il modello diregressione semplice (con soli due parametri), la statistica al primo membro della(A6-5) è pari al quadrato della statistica che compare al primo membro della (19).

    44Questa definizione dell’R2 è frutto della scomposizione della devianza totale della Y nella somma delladevianza della stima Ŷ e della devianza dei residui u e non rispetta il criterio generale di parsimoniache dovrebbe sovrintendere alla specificazione del modello di regressione. Una misura corretta, pertener conto della perdita di gradi di libertà all’aumentare del numero dei regressori, è data dall’indice

    di determinazione corretto R2c = 1−S2uS2Y

    . Altre misure di fitting proposte per selezionare la migliore

    specificazione del modello sono l’Akaike Information Criterion (AIC), il Bayesian Information Criterion(BIC) e il Criterio di Schwarz. In ogni caso questi indici cercano di coniugare l’obiettivo di ridurre lavarianza dei residui con la necessità di rendere semplice il percorso esplicativo che mira ad interpretarela variabile dipendente, riducendo al minimo il numero di regressori (si tratta, in ogni caso, di proporreuna soluzione accettabile al trade-off che sussite tra questi due obiettivi).

    45I simboli Y e X indicano rispettivamente la media campionaria di Y e il vettore riga delle mediecampionarie delle colonne della matrice X.

    46Siccome in questo caso u′∗u∗ = (Y−Y)′(Y−Y), dal secondo passaggio della (A6-3) segue che:

    u′∗u∗−u′u= (Y−Y)′(Y−Y)−u′u= (Ŷ−Y)′(Ŷ−Y)

    22

  • Una ulteriore applicazione del test di Wald è il test di Chow per il confronto didue identici modelli definiti su set di dati alternativi e tra loro indipendenti. L’ipotesiH0 è che i due modelli presentano gli stessi coefficienti contro l’ipotesi alternativache i coefficienti sono diversi. Il test di Chow può essere impiegato per verificare lastabilità strutturale del modello (che consegue all’accettazione di H0), oppure perindividuare un break strutturale verificatosi nel tempo o per quantificare l’impatto di untrattamento (ad esempio un intervento di policy) sulla variabile dipendente (in questidue casi l’ipotesi statistica è confermata se si rifiuta H0). Il modello vincolato stima iparametri sulla totalità delle osservazioni (producendo, così, una maggiore devianzadei residui u∗). Il modello non vincolato stima gli stessi parametri su dei sottoinsiemi didati (tipicamente ripartiti in due sottoinsiemi). La devianza dei residui del modello nonvincolato u′u= u1′u1+u2′u2 è minore di quella del modello vincolato per costruzioneed è ottenuta come somma dei residui stimati nei diversi sottoinsiemi nei quali èstato diviso il campione. Supponendo che i dati costituiti da n osservazioni siano statiripartiti in due sottoinsiemi di numerosità n1 e n2, con riferimento alla (A6-2), i gradidi libertà del numeratore saranno dati da (n−k)−[(n1−k)+(n2−k)] = k e quelli deldenominatore da (n1−k)+(n2−k) = n1+n2−2k= n−2k:

    u∗′u∗−u′u

    ku′u

    n−2k

    ∼ F(k,n−2k) (A6-6)

    A7. Stima numerica di massima verosimiglianza

    Sia `(β) il logaritmo della funzione di verosimiglianza L (x;β), la massimizzazionedi quest’ultima si effettua risolvendo l’equazione di verosimiglianza ∂ `(β)∂ β = 0. Moltospesso questa equazione non ha una forma risolvibile rispetto a β , allora è necessarioutilizzare dei metodi numerici applicati allo sviluppo in serie di Taylor dell’equazionedi verosimiglianza (nel punto β0):

    ∂ `(β̂)∂ β

    '∂ `(β0)∂ β

    +(β̂−β0)∂ 2`(β0)∂ β2

    ' 0

    β̂ ' β0−�

    ∂ 2`(β0)∂ β2

    �−1∂ `(β0)∂ β

    (A7-1)

    Quindi, è possibile utilizzare un processo iterativo per trovare la soluzione β̂ ,basta sostituire β̂ con βn+1 e β0 con βn ad ogni iterazione fino a quando |βn+1−βn|non risulta minore ad un valore piccolo fissato a piacere (eventualmente, il doppiodella precisione di macchina). Tale procedimento è detto metodo di Newton, la suaformulazione generale è: xn+1= xn−

    f (x)f ′(x) . La convergenza a β̂ non è sempre garantita,

    tutto dipende dalle caratteristiche della funzione di cui bisogna determinare gli zeri.Non è detto che le derivate prime della funzione f (x) siano esprimibili in formaanalitica, in tal caso è necessario una loro approssimazione (ottenuta calcolando lapendenza della retta che interseca la f (x) in due punti vicini). In ogni caso il metodopuò fallire per vari motivi.

    23

  • A8. Varianza dei parametri e log-verosimiglianza

    Sia f (x;β) una funzione di densità di probabilità, per definizione∫∞−∞ f (x;β)d x =

    1 è costante rispetto a β . Quindi, se vi sono le condizioni per applicare il teorema diLibeniz, differenziando rispetto a β:

    ∂ β

    ∫ ∞

    −∞f (x;β)d x =

    ∫ ∞

    −∞

    ∂ f∂ β

    ff

    d x =

    ∫ ∞

    −∞

    ∂ log f∂ β

    f d x =

    `′ f = E[`′] = 0 (A8-1)

    dove ` è la funzione di log-verosimiglianza e `′ è la sua derivata rispetto a β (talederivata è detta anche score). La somma delle varianze di ogni componente di `′ (unaper ogni osservazione campionaria) è definita informazione di Fisher ed è indicata con(nI) := Var[`′]. Il valore I indica di quanto varia la pendenza del piano tangente allafunzione di log-verosimiglianza nell’intorno di β . Quanto maggiore è questa varianza,tanto più le sezioni superiori di ` saranno “vicine” alla perpendicolare passante per β .

    Consideriamo la derivata seconda `′′ di ` rispetto a β , per essa si ha:

    `′′=∂ `′

    ∂ β=∂

    ∂ β

    f ′

    f=

    f ′′ f − f ′ f ′

    f 2=

    f ′′

    f−(`′)2 (A8-2)

    Prendendo il valore atteso di ambo i membri della (A8-2):

    E[`′′] =

    f ′′

    ff − E

    (`′)2�

    =∂ 2

    ∂ β2

    f − E�

    (`′)2�

    =−E�

    (`′)2�

    =−Var[`′] (A8-3)

    Quindi: Var[`′] = E�

    (`′)2�

    =−E[`′′] (la varianza di `′ è pari all’opposto della matricehessiana della funzione di log-verosimiglianza).

    Se nella (A7-1) si pone β0 uguale al valore vero di β , allora:

    β̂−β =−�

    ∂ 2`(β)∂ β2

    �−1∂ `(β)∂ β

    =−`′

    `′′(A8-4)

    e, moltiplicando ambo i membri della (A8-4) perp

    n (dove n è la numerosità campio-naria):

    pn(β̂−β) =−

    `′p

    nn`′′=−

    `′p

    n

    `′′

    n

    −1(A8-5)

    Essendo `′ pari alla sommma di tutte le sue componenti (log f (X i;β)), per il teoremalimite centrale, la distribuzione del termine `

    ′p

    n =p

    n`′

    n tende ad essere quella di v. c.normale con media zero è varianza nI: N(0,nI). Per la legge dei grandi numeri iltermine `

    ′′

    n (pari alla media delle varianze delle singole componenti di `′) si approssima

    a nI all’aumentare di n. Pertanto,p

    n(β̂ −β) tende ad essere distribuito come unav. c. normale N(0,(nI)−2(nI)) = N(0,(nI)−1). In definitiva, all’aumentare di n, ladistribuzione di β̂ risulta approssimarsi a quella di v. c. normale N(β ,(nI)−1) dove(nI)−1 è l’inversa della matrice delle varianze-covarianze dello score (o matrice inversadell’informazione di Fisher).47 I termini diagonali della matrice (nI)−1 approssimanole varianze delle stime dei parametri β̂ . La varianza di ogni stimatore non distorto

    47La matrice (nI) è più spesso indicata con I, inglobando il fattore n.

    24

  • ottenuto con il metodo della massima verosimiglianza ha un limite inferiore stabilitodalla disuguaglianza di Cramér-Rao: Var[β̂]≥ 1(nI) =

    1Var[`′] . Infatti, per uno stimatore

    non distorto:∫

    β̂ f = β⇒∂

    ∂ β

    β̂ f =

    β̂`′ f = E[β̂`′] = 1 (A8-6)

    ricordando che cov[x , y] = E[x y]− E[x]E[y] e che E(`′) = 0, abbiamo:

    E[β̂`′] = cov[β̂`′] = 1

    e, per la disuguaglianza di Schwarz:48

    1=�

    cov[β̂`′]2≤ Var[β̂]Var[`′]

    che dimostra la disuguaglianza di Cramér-Rao.I precedenti risultati forniscono fondamento teorico a gran parte della statistica

    inferenziale e, in particolare, consentono di capire la logica di uno dei test statisticipiù generali, il test del rapporto di verosimiglianza. Tale test è basato sul confrontodi due massimi della funzione di verosimiglianza, il primo relativo ad un modelloristretto (nel quale, ad esempio, alcuni parametri sono posti pari a zero) e il secondorelativo ad un modello senza restrizioni (che, ad esempio, include tutti i parametri).Se la funzione di verosimiglianza del modello ristretto raggiunge un valore massimosignificativamente maggiore del massimo della funzione di verosimiglianza del modellosenza restrizioni, allora non è possibile rifiutare l’ipotesi H0 che il modello ristretto siapiù verosimile del modello senza restrizioni, viceversa è necessario accettare l’ipotesialternativa (favorevole al modello con restrizioni) e, quindi, rifiutare H0. Si tratta diprendere una decisione in base al valore assunto dal seguente rapporto: Q= L0LA dove lamassima verosimiglianza al numeratore è funzione dei parametri del modello ristretto,mentre quella al denominatore è funzione dei parametri del modello senza restrizioni.Espandendo in serie di Taylor il logaritmo del numeratore di Q (nell’intorno di βA),otteniamo:

    `0= `A+(β0−βA)`′+12(β0−βA)

    2`′′

    considerato che (data H0) E[`′] = 0 in βA e che, quindi, in tale punto del dominio di`A, risulta `

    ′' 0, possiamo scrivere:

    −2logQ=−2(`0−`A) =−(β0−βA)2`′′

    Dai paragrafi precedenti sappiamo che −`′′'−E[`′′] è l’informazione di Fisher (nI),pertanto −2(`0−`A) si distribuisce come (β0−βA)

    2(nI). Ma, per quanto si è dimostratonel paragrafo precedente, (β0−βA) si distribuisce come un v. c. normale N(0,(nI)

    −1) eciò implica che (β0−βA)(nI)

    12 si distribuisce come una v. c. normale standard N(0,1).

    Quindi, abbiamo che (β0−βA)2(nI) si distribuisce come una variabile casuale χ2g , dove

    g è la differenza tra il numero di parametri del denominatore e il numero di parametridel numeratore. Si è cosi determinato che la statistica −2logQ si distribuisce comeuna v. c. χ2g . Tale risultato è noto come teorema di Wilks (Piccolo, 1998, p. 647).

    48Per dimostrare la disuguaglianza di Cauchy-Schwarz, (∫

    g f )2 ≤ (

    g2)(∫

    f 2), basta considerare lafunzione di t definita come g+ t f e verificare che l’integrale del suo quadrato è sempre non negativo∫

    (g+ t f )2= (∫

    g2)+2t(∫

    g f )+ t2(∫

    f 2)≥ 0. Ciò può verificarsi solo se il discriminante di questaequazione di secondo grado in t è minore di zero: (

    g f )2−(

    g2)(∫

    f 2)≤0 (cvd). Tale discriminanteè uguale a zero solo se g e f sono linearmente dipendenti, per cui esiste un t tale che la funzioneg+ t f = 0. In questo caso (

    g f )2= (∫

    g2)(∫

    f 2).

    25

  • A9. Teorema limite centrale

    La formulazione più semplice del teorema limite centrale riguarda la convergen-za della somma standardizzata di n v. c. X i ∼ iid verso la distribuzione normalestandardizzata. Indicando con σ2 la varianza e con µ la media delle v. c. X i:

    ∑ni X i− E

    �∑ni X i

    q

    Var�∑n

    i X i�

    =

    ∑ni X i−nµp

    nσ2

    =1n

    ∑ni X i−µσpn

    =

    pn�1

    n

    ∑ni X i−µ

    σ∼ N(0,1) (A9-1)

    Quindi, si ha che all’aumentare di n:

    pn�1

    n

    ∑ni X i−µ

    σ∼ N(0,1)⇔

    pn(X n−µ)∼ N(0,σ2) (A9-2)

    dove X n è la media campionaria delle n v. c. X i.

    26

  • B0. Test statistici premessa

    Nel test delle ipotesi statistiche α è la probabilità di commettere l’errore del Io

    tipo: rifiutare l’ipotesi H0 quando essa è vera. Fissato α, rifiuto H0, al livello α, se ilvalore stimato a partire dalla realizzazione campionaria ricade nella Regione Critica(la regione dello spazio parametrico che, dato il campione e il valore prescelto per α,implica il rifiuto dell’ipotesi nulla H0).Nel seguito n è la numerosità del campione, e:

    x =1n

    n∑

    i=1

    x i S2=

    1n−1

    n∑

    i=1

    (x i− x)2 (1)

    sono rispettivamente la media e la varianza campionarie. In generale faremo riferi-mento a popolazioni distribuite in modo normale e ipotizzeremo che i campioni sianocasuali (rappresentativi), cioè costituiti da realizzazioni di variabili casuali indipendentied identicamente distribuite (distribuite come la popolazione).49

    B1. Test sulla media

    1. Se la varianza σ2 della popolazione dalla quale è stato estratto il campione ènota, allora la seguente statistica (calcolata sotto l’ipotesi H0: la media dellapopolazione è uguale a µ0) è la realizzazione di uno stimatore che si distribuiscecome una variabile casuale normale standardizzata: z∼ N(0,1),

    zc =x−µ0σ/p

    n(2)

    l’ipotesi H0, può essere rifiutata al livello di significatività α, se |zc|> zα/2. Dove,zα/2 è il valore teorico di z che delimita la Regione Critica (corrispondente aivalori di z più distanti dalla media che possono verificarsi con probabilità α).50

    2. Se la varianza della popolazione è incognita, lo stimatore della media, che sidistribuisce come una variabile casuale t di Student con n−1 gradi di libertà51,da luogo al calcolo della seguente statistica:

    tc =x−µ0S/p

    n(3)

    l’ipotesi H0, può essere rifiutata al livello di significatività α, se |tc|> tn−1,α/2.Dove, tn−1,α/2 è il valore teorico di tn−1 che delimita la Regione Critica (corri-spondente ai valori di tn−1 più distanti dalla media che possono verificarsi conprobabilità α).

    L’ipotesi potrebbe essere formulata in modo unidirezionale e, in questo caso, il con-fronto dovrebbe essere effettuato con il valore tn−1,α.

    49V. Piccolo D., 1998, Statistica, Il Mulino, Bologna.50V. figura 4.51In quanto al punto precedente si è sostituita al denominatore della statistica σ con S.

    27

  • Il test sulla differenza tra i valori medi di due campioni casuali indipendenti(di numerosità n ed m) generati da variabili casuali normali è basato sull’ipotesi chele varianze delle due popolazioni, X e Y , siano uguali anche se incognite. L’ipotesiH0 afferma che la differenza tra le medie delle due popolazioni è d0 contro l’ipotesialternativa H1 che tale differenza sia maggiore di (minore o diversa da) d0. La statisticada calcolare è:

    tc =x− y−d0

    q

    (n−1)S2x +(m−1)S2y

    √nm(n+m−2)n+m

    (4)

    essa dovrà essere confrontata con il valore teorico della variabile casuale t di Student incorrispondenza ad n+m−2 gradi di libertà ed opportuni livelli di α/2 o α (a secondoche l’ipotesi sia bidirezionale, |tc|> tn+m−2,α/2, o unidirezionale tc > tn+m−2,α). Insostanza questo test verifica se le due popolazioni sono somiglianti. Per campionigrandi la precedente statistica può essere semplificata nel modo seguente:

    zc =x− y−d0

    q

    S2x/n+S2y/m(5)

    da confrontare con i valori della variabile casuale normale standardizzata zα o zα/2secondo i casi. Se le varianze sono diverse (problema di Behrens-Fisher), un testasintotico (test di Welch), può essere basato sulla seguente statistica:

    tc =x− y−d0

    q

    S2x/n+S2y/m(6)

    e i gradi di libertà della variabile casuale t di Student saranno dati dall’espressione:

    S2x/n−S2y/m

    S2xn2(n−1) +

    S2ym2(m−1)

    (7)

    Il test sulla differenza tra valori medi per dati appaiati è riferito a coppie divariabili casuali. L’ipotesi nulla è specificata come H0 : µx −µy = v0 contro l’ipotesialternativa H1 :µx −µy > v0. La statistica del test è:

    tc =d− v0Sd/p

    n(8)

    dove:

    di = x i− yi d =1n

    n∑

    i=1

    (x i− yi) S2d =1

    n−1

    n∑

    i=1

    (di−d)2 (9)

    Fissato α, l’ipotesi H0 viene rifiutata, al livello α, se tc risulta maggiore al valore teoricotn−1,α. Anche in questo caso l’ipotesi potrebbe essere bidirezionale e il valore teoricodella v. c. t di Student da prendere in considerazione sarà tn−1,α/2.

    Un caso particolare di test sulla media è quello del test asintotico sulla propor-zione. Nel caso dell’ipotesi semplice unidirezionale, H0 è formulata come p = p0

    28

  • contro H1 : p> p0. La distribuzione del carattere in esame è di tipo bernoulliano: ognielemento assume l’attributo 1 con probabilità p e valore 0 con probabilità (1− p). Lamedia della popolazione è, quindi, pari a p e la varianza della popolazione è p(1− p).La statistica da calcolare per sottoporre a test l’ipotesi H0 è:

    zc =p̂− p0

    p

    p0(1− p0)/n(10)

    dove p̂ è la media campionaria (la somma dei valori 0 e 1 divisa per n). L’ipotesiH0 verrà rifiutata se zc > zα. Quest’ultimo test, in definitiva, sottopone a verificaun’ipotesi sull’andamento delle frequenze di un attributo. In questa stessa tipologiarientra anche il test sulla differenza tra le frequenze relative di un attributo detto anchetest sul confronto tra proporzioni relative a variabili casuali indipendenti. L’ipotesiH0 sostiene che la differenza tra le due proporzioni è pari a d0 e l’ipotesi alternativaH1 è espressa da p̂x − p̂y > d0. La statistica da calcolare è:

    zc =p̂x − p̂y −d0

    p

    p̂(1− p̂)(1/n+1/m)(11)

    dove:

    p̂=np̂x +mp̂y

    n+m(12)

    Il valore calcolato dovrà essere posto a confronto con la variabile casuale normalestandardizzata zα o zα/2 a secondo che l’ipotesi sia rispettivamente unidirezionale(tenuto conto del verso) o bidirezionale.

    B2. Test sulla varianza

    Se non è nota la media della popolazione dalla quale è stato estratto il campione,l’ipotesi H0 che può essere sottoposta a test è la seguente: H0 : σ2 = σ20 controH1 :σ2>σ20. Calcolata la seguente statistica:

    χ2c =n−1σ20

    S2 (13)

    essa deve risultare maggiore del valore teorico χ2n−1,α corrispondente al livello disignificativitàα e ad n−1 gradi di libertà. Nel caso sia nota la media bisogna consideraren gradi di libertà. Se l’ipotesi è formulata come: H0 :σ2 =σ20 contro H1 :σ

    2 6=σ20allora, il rifiuto di H0, al livello di significatività α, sarà possibile solo se la statisticaχ2c assume valori esterni all’intervallo che ha come estremi, rispettivamente, inferioree superiore i valori teorici:

    χ2n−1,1−α/2 χ2n−1,α/2 (14)

    Il test sul rapporto tra le varianze di variabili casuali normali e indipendentisottopone a verifica l’ipotesi H0 :σ2x =σ

    2y contro l’ipotesi alternativa H1 :σ

    2x >σ

    2y . La

    statistica da calcolare è:

    Fc =S2xS2y=

    1n−1

    ∑ni=1(x i− x)

    2

    1m−1

    ∑mi=1(yi− y)2

    (15)

    29

  • e i valori critici teorici della v. c. Fn−1,m−1 di Fisher-Snedecor per n−1 e m−1 gradidi libertà sono quelli corrispondenti al livello di significatività α o 1−α (secondo ladirezione), nel caso unidirezionale, oppure α/2 e 1−α/2 nel caso bidirezionale. Èutile tener presente la seguente relazione:

    Fn−1,m−1,1−α=1

    Fn−1,m−1,α(16)

    Questo test permette di rifiutare l’ipotesi nulla di uguaglianza delle varianze solo quandoil numeratore della statistica e molto diverso dal denominatore.

    B3. Test non parametrici

    Il test sulla bontà di adattamento formula l’ipotesi H0 che le frequenze osservatesiano uguali alla frequenze teoriche di un preciso modello probabilistico. La statisticanecessaria per effettuare questo confronto tra frequenze osservate e frequenze teoricheè la seguente:

    χ2c =k∑

    i=1

    (ni−npi)2

    npi(17)

    dove ni sono le frequenze osservate per le k classi la cui unione costituisce il supportodelle probabilità pi, quindi i valori npi sono le frequenze teoriche calcolate in base almodello probabilistico scelto dall’ipotesi H0. Fissato il livello α, la regione critica per ilrifiuto di H0 è data da χ2c >χ

    2k−1,α.

    Il test sulla indipendenza formula l’ipotesi H0 di indipendenza di due variabilicasuali, X e Y . La statistica del test è costruita in base allo scostamento tra frequenzeosservate ni j e frequenze teoriche n̂i j calcolate sotto l’ipotesi di indipendenza:

    χ2c =k∑

    i=1

    h∑

    j=1

    (ni j− n̂i j)2

    n̂i j(18)

    La regione critica per H0 è χ2c >χ(k−1)(h−1),α.

    B4. ANOVA

    L’ANOVA (analisi della varianza) analizza le medie in più di due gruppi medianteil confronto delle devianze. Questa metodologia è basata sulla decomposizione delladevianza totale, D, di un fenomeno multivariato nel quale un determinato effetto ypuò dipendere da k cause (o trattamenti):

    D=k∑

    j=1

    n j∑

    i=1

    (yi j− y)2=k∑

    j=1

    n j∑

    i=1

    (yi j− y j)2+

    k∑

    j=1

    n j(y j− y)2= DW +DB (19)

    dove y è la media globale, y j è a media del gruppo j soggetto alla causa j, D è ladevianza globale, DW è la devianza all’interno dei gruppi (within) e DB è la devianza tra

    30

  • i gruppi (between). Dividendo le devianze per i rispettivi gradi di libertà, si ottengonola varianza within e la varianza between, rispettivamente:

    S2W =DW

    n−kS2B =

    DBk−1

    (20)

    Considerato che:

    n−k=k∑

    j=1

    (n j−1) S2j =

    ∑n ji=1(yi j− y j)

    2

    n j−1(21)

    risulta:

    S2W =

    ∑kj=1(n j−1)S

    2j

    ∑kj=1(n j−1)

    (22)

    per cui la varianza within è una media ponderata delle varianze all’interno di ognigruppo. Il test statistico F di Fisher-Snedecor può essere utilizzato per stabilire se lavarianza between è significativamente maggiore della varianza within. L’ipotesi nullaè che le due varianze siano uguali, il suo rigetto significa che almeno una causa haagito, modificando la variabilità dell’effetto medio tra i gruppi oltre il livello mediodi variabilità registrato all’interno dei gruppi. I gradi di libertà del numeratore dellastatistica sono k−1 e quelli del denominatore son n−k, pertanto il valore calcolatodalla statistica:

    Fc =S2BS2W

    (23)

    verrà confrontato con i valore teorico, dipendente da α, della v.c. Fk−1,n−k,α. Perché siavalida questa procedura è necessario verificare che le componenti erratiche individualisiano distribuite normalmente.

    31

  • B5. Esempio di individuazione della Regione Critica

    Il grafico seguente mostra un esempio di individuazione della regione critica perun test unidirezionale sulla media nel caso della v. c. z.

    −3 −2 −1 0 1 2 3

    0.0

    0.1

    0.2

    0.3

    0.4

    Individuazione della Regione Critica per H0

    z

    Densi

    ta d

    ell

    a v

    .c.

    norm

    ale

    sta

    nd

    ard

    izzata

    α

    RC(α)=zc > zα

    figura 4: La regione critica per H0, RC(α), va da zα a∞.

    B6. Simulazione della regressione lineare in R

    Per studiare la regressione può essere conveniente simulare il DGP (data generatingprocess) e poi inferire dai dati le caratteristiche del DGP che sono, in realtà, già note.Ciò permette di verificare i risultati e di constatarne la coerenza rispetto alle prescrizioniteoriche del modello di regressione lineare.

    Poniamo che le osservazioni (yi, x i) siano generate da una relazione lineare conerrori che si distribuiscono come una v.c. normale standardizzata ε∼ N(0,1):

    yi = β0+β1x i+εi

    dove β0 = 5 e β1 = 1.2 [v. R1 e figura 5]. Uno dei test utilizzati per verificare lacorretta specificazione funzionale del modello di regressione è il test di Ramsey (resettest).52 Se il modello è stato specificato correttamente non si può rifiutare l’ipotesiH0: «la forma funzionale è ben specificata» dato il valore del p-value (che deve risultaremaggiore di 0.05 per accettare H0).

    Inoltre, in base alle ipotesi sul modello di regressione, i residui dovrebbero di-stribuirsi in modo "normale" (vedi grafico in alto a destra della figura 5). L’analisi

    52Per i test citati è necessario caricare alcune librerie - ad. es. lmtest - come specificato negli esempi.

    32

  • 2 4 6 8 10

    51

    01

    5

    x

    y

    figura 5: Scatter plot (x i, yi)

    grafica consente di avere un’idea della distribuzione degli errori e l’ipotesi di normalitàpuò essere verificata applicando il test di Shapiro-Wilk sulla normalità dei residui(preventivamente standardizzati con la trasformazione êi−eσe ), in tal caso l’ipotesi H0: «iresidui sono distribuiti come una v.c. normale» può essere accettata solo se il p-value èsufficientemente elevato. Con obiettivi analoghi, dal grafico della figura 7 (Normal Q-QPlot), si può verificare se gli errori standardizzati si distribuisco come la v. c. normalestandardizzata: i punti dovrebbero disporsi lungo la retta a 45o, se è verificata l’ipotesidi normalità. Riguardo alla corretta specificazione del modello di regressione lineare, èutile esaminare il grafico dei residui rispetto ai valori stimati della variabile dipendente:i punti dovrebbero disporsi orizzontalmente rispetto alle ascisse e simmetricamenterispetto alla linea orizzontale con intercetta zero (v. grafico in basso a sinistra nellafigura 6). Lo stesso tipo di grafico può essere tracciato rispetto ad ogni variabile espli-cativa: se la disposizione dei residui non è casuale ciò indica che il modello "vero" nonè lineare rispetto a quel particolare regressore.

    Per testare l’eteroschedasticità dei residui si può utilizzare il test di Breusch-Paganper l’ipotesi H0: «la varianza degli errori e costante» (omoschedasticità) che verràaccettata se il p-value è elevato.

    Soprattutto per le serie storiche viene utilizzato il test Durbin-Watson per verificareche non vi sia autocorrelazione nei residui sotto l’ipotesi H0: «i residui sono incorrelati»che può essere accettata se il valore del p-value è abbastanza alto. Nello stesso contestoseriale è possibile utilizzare la funzione di autocorrelazione totale (acf) e la funzionedi autocorrelazione parziale (pacf) per inferire sul processo ARMA che potrebbe avergenerato i residui.

    In tutti i software statistici l’output del modello di regressione prevede il calcolo

    33

  • 2 4 6 8 10

    510

    15

    x

    y

    Istogramma degli errori

    e

    Den

    sity

    −4 −2 0 2 4

    0.0

    0.1

    0.2

    0.3

    0.4

    6 8 10 12 14 16

    −2

    02

    4

    Residual vs fitted

    Fitted

    Res

    idui

    −2 0 2 4

    −2

    02

    4

    et−1

    e t

    figura 6: Grafici della regressione e dei residui

    dell’indice di determinazione R2= 1− Var(e)Var(y) e della sua versione corretta (non distorta):

    R2c = 1−(N−1)Var(e)(N−k−1)Var(y) (dove k è il numero delle variabili esplicative). l’indice R

    2 (comela sua versione corretta) indica quanta parte della variabilità complessiva (TSS: TotalSum of Squares) della variabile dipendete y è spiegata dalla regressione ed è, quindi,basato sulla decomposizione della varianza: la variabilità totale è uguale per definizionealla somma della variabilità della regressione (ESS: Explained Sum of Squares dellastima ŷ) e della variabilità degli errori (RSS: Residual Sum of Squares).

    Un test globale su tutti i parametri del modello di regressione può essere condottocon il test F di Fisher che confronta la variabilità della stima ŷ con la variabilità deiresidui ê. L’ipotesi nulla è H0:«le variabili esplicative non spiegano la variabile dipendente»(tutti i coefficienti del modello non sono significativamente diversi da zero). Per rifiutaretale ipotesi (ed attribuire qualche validità al modello) è necessario che la Fc calcolatasotto H0 sia sufficientemente maggiore della Fteorica, ottenuta in corrispondenza di ke n−k−1 gradi di libertà (e cioè che il p-value sia sufficientemente piccolo). Il testsui singoli coefficienti β̂ j formula l’ipotesi H0: «il coefficiente β̂ j è, in media, pari a

    zero» e confronta la statistica test t̂ j =β̂ jσ̂β j

    con la t teorica che si distribuisce come la

    variabile casuale t di Student ed è ben approssimata dalla normale standardizzata alcrescere della numerosità delle osservazioni. La tcalcolata deve essere significativamentemaggiore della t teorica e, quindi, il p-value deve essere abbastanza piccolo per poterrifiutare H0. Utili informazioni al riguardo possono essere dedotte anche dagli intervallidi confidenza che scaturiscono da questo test (ad es. la posizione dello zero).

    34

  • −2 −1 0 1 2

    −2

    −1

    01

    23

    Normal Q−Q Plot

    Theoretical Quantiles

    Sam

    ple

    Qu

    anti

    les

    figura 7: Adattamento dei residui alla Normale

    Codice in R

    In sequenza, cercando di rispettare l’ordine degli argomenti trattati nel testo:

    R1

    #Il DGP dell’esempio

    n

  • (e-mean(e))/sd(e)) # test di normalità dei residui

    R3: analisi grafica

    # Regressione e distribuzione errori

    par(mfrow=c(2,2)) # divide il grafico

    plot(x,y) # nube dei punti

    abline(r, col="red", lwd=2) # linea di regressione

    hist(e,freq=F, ylim=c(0,.45),

    main="Istogramma",cex.main=.92) # istogramma

    rug(e,lwd=.25,side=1) # evidenziare la concentrazione

    lines(density(e), lwd=2,

    col="blue") # densità della distribuzione

    z

  • Ulteriori comandi in R:

    Per salvare il grafico corrente nel file "scatterxy" in formato eps:

    par(family="Times") # da porre all’inzio dello script

    dev.copy(postscript, file="scatterxy.eps", height=6, width=6,

    horizontal=F, onefile=F, fonts="Times")

    dev.off()

    Riferimenti bibliografici

    Belsey, D. A., Kuh, E. e Welsch, R. E. (1980), Regression diagnostics, Wiley.

    Box, G. E. P. e Cox, D. R. (1964), ‘An analysis of transformations’, Journal of the RoyalStatistical Society Vol. 26(2), 211–252.

    Davidson, R. e MacKinnon, J. G. (2003), Econometric Theory and Methods, OxfordUniversity Press, New York.

    Frisch, R. e Waugh, F. V. (1956), ‘Partial time regressions as compared with individualtrends’, Econometrica Vol. 1(4), 387–401.

    Greene, W. H. (2012), Econometric Analysis - 7/E., Prentice Hall.

    Lang, S. (1984), Algebra lineare - 7/E., Boringhieri, Torino.

    Lovell, M. (1963), ‘Seasonal adjustment of economic time series’, Journal of theAmerican Statistical Association Vol. 58, 993–1010.

    Murli, A. (2007), Matematica numerica: Metodi, Algoritmi e Software. Parte prima,Liguori Editore, Napoli.

    Piccolo, D. (1998), Statistica, Il Mulino, Bologna.

    Quarteroni, A. e Saleri, F. (2006), Introduzione al calcolo scientifico, Springer Verlag.

    Weisberg, S. (2005), Applied Linear Regression - ed. III, Wiley.

    37

  • Indice

    Il modello di regressione lineare 1

    La distorsione da variabile omessa 2

    Sfericità degli errori e teorema di Gauss-Markov 3

    La varianza degli errori 5

    L’ipotesi di normalità degli errori 6

    Cenni alle proprietà asintotiche dei minimi quadrati 7

    A0. Il teorema di Frisch-Waugh-Lovell e i valori anomali 10

    A1. Medie e varianze condizionate 14

    A2. Indipendenza tra trasformazioni di vettori di v. c. normali 16

    A3. Indice di condizionamento 18

    A4. Intervallo di previsione 19

    A5. Trasformazione di Box e Cox 20

    A6. Test di Wald 20

    A7. Stima numerica di massima verosimiglianza 23

    A8. Varianza dei parametri e log-verosimiglianza 24

    A9. Teorema limite centrale 26

    B0. Test statistici premessa 27

    B1. Test sulla media 27

    B2. Test sulla varianza 29

    B3. Test non parametrici 30

    B4. ANOVA 30

    B5. Esempio di individuazione della Regione Critica 32

    B6. Simulazione della regressione lineare in R 32

    Bibliografia 37

    38

    Il modello di regressione lineareLa distorsione da variabile omessaSfericità degli errori e teorema di Gauss-MarkovLa varianza degli erroriL'ipotesi di normalità degli erroriCenni alle proprietà asintotiche dei minimi quadratiA0. Il teorema di Frisch-Waugh-Lovell e i valori anomaliA1. Medie e varianze condizionateA2. Indipendenza tra trasformazioni di vettori di v. c. normaliA3. Indice di condizionamentoA4. Intervallo di previsioneA5. Trasformazione di Box e CoxA6. Test di WaldA7. Stima numerica di massima verosimiglianzaA8. Varianza dei parametri e log-verosimig