inferenza statistica 15-16 - luiss guido carlidocenti.luiss.it/protected-uploads/321/2015/11/... ·...

102
STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ® Inferenza Statistica Prof. Pierpaolo D’Urso Libro di testo: Giuseppe Cicchitelli - Statistica: principi e metodi. Ediz. mylab.

Upload: others

Post on 03-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Inferenza Statistica

Prof. Pierpaolo D’Urso

Libro di testo: Giuseppe Cicchitelli - Statistica: principi e metodi. Ediz. mylab.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Cap. 15. Popolazione, campione, distribuzioni

campionarie

- Campione casuale - Popolazione - Spazio campionario - Statistiche campionarie - Distribuzione campionaria della media -Distribuzione campionaria della media quando la varianza non è nota

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Campione casuale

Consideriamo una popolazione di N unità, dove il carattere di interesse X presenta k modalità x1, x2, …, xk con frequenze relative f1, f2, …, fk.

Supponiamo di estrarre a sorte una unità da questa popolazione. Con l’estrazione a sorte la distribuzione di frequenze assume le caratteristiche di distribuzione di probabilità: il carattere X diviene una v.c. che può assumere i valori x1, x2, …, xk con probabilità p1, p2, …, pk (ove pi=fi, i=1,….,k).

In generale, l’estrazione a sorte di una unità statistica da una popolazione di N unità genera una v.c. la cui distribuzione di probabilità è identica alla distribuzione di frequenze della popolazione, nel senso che la probabilità associata al singolo valore di X è uguale alla frequenza relativa che tale

valore presenta nella popolazione.

Inoltre le costanti caratteristiche della v.c. X (media, mediana, varianza

etc.) coincidono con quelle del carattere X nella popolazione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Se supponiamo di ripetere l’estrazione a sorte n volte con ripetizione (ossia riponendo dopo ogni prova l’unità estratta nella popolazione) si ha che in questo modo si generano n v.c. X1, X2, ….,Xn indipendenti e identicamente distribuite. Si ha quindi che un esperimento casuale (ad esempio, estrazione di un pezzo da un lotto, somministrazione di un farmaco ad un paziente) origina una v.c. X della quale interessano una o più costanti caratteristiche (la media, la mediana, la varianza, etc.). La ripetizione dell’esperimento n volte, nelle stesse condizioni, genera le v.c. X1, X2, ….,Xn che sono indipendenti e hanno tutte la stessa distribuzione di probabilità (identicamente distribuite). Tali v.c. rappresentano il cosiddetto campione casuale di X.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quindi il campione casuale è costituito dagli esiti che si ottengono ripetendo n volte un esperimento casuale nelle stesse condizioni.

In termini poco formali, se i valori che può assumere la v.c. generata dall’esperimento sono associati ipoteticamente alle palline di un’urna, il campione casuale può essere pensato come il risultato dell’estrazione con ripetizione di n palline dall’urna.

In modo più formale: Def.

Si chiama campione casuale di ampiezza n la n-upla di v.c. (X1, X2, ….,Xn) indipendenti e identicamente distribuite come la v.c. X oggetto di studio.

Osservazione Per quanto riguarda le popolazioni finite, si osserva che il campione casuale con ripetizione è un campione casuale anche secondo la definizione precedente. Non lo sono, invece, i campioni casuali estratti con altri schemi di campionamento come il campionamento casuale senza ripetizione, il campionamento casuale stratificato, il campionamento a 2 stadi, etc.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Popolazione

Nel caso di popolazioni finite, il collettivo statistico di riferimento è costituito dalla “totalità” di elementi. Per uniformità di linguaggio, continueremo a usare il termine “popolazione” per identificare i possibili esiti della ripetizione,

teoricamente illimitata, dell’esperimento casuale nelle stesse

condizioni. Esempi Ad esempio, parleremo di popolazione bernoulliana quando consideriamo esperimenti del tipo “successo-insuccesso”, di popolazione normale quando il fenomeno casuale può essere descritto da una v.c. normale. Nel seguito utilizzeremo i seguenti termini:

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Popolazione generatrice = popolazione finita da cui il campione è fisicamente estratto.

Modello descrittivo della v.c. oggetto di studio = funzione di probabilità o di densità che descrive la v.c. associata all’esperimento.

Il modello descrittivo della v.c. verrà indicato con fx(x;θ), ove θ indica il parametro, la costante caratteristica presente nel modello (ad esempio, p per la v.c. bernoulliana, µ e σ per la v.c. casuale normale, etc.).

Quindi:

Def.

Si chiama parametro una costante numerica che caratterizza la v.c. X oggetto di studio.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Lo schema che caratterizzerà tutto ciò che sarà detto d’ora in avanti è il seguente.

Viene identificato un problema concreto. In relazione a questo viene definita una v.c. eventualmente descritta da un modello probabilistico. Il calcolo delle probabilità fornisce gli strumenti per fare “previsioni” sui possibili campioni casuali di ampiezza definita estraibili dalla popolazione, o meglio sui valori di una conveniente funzione dei dati del campione (previsione nel senso di poter assegnare delle probabilità o delle densità di probabilità ai valori di tale funzione) (problema diretto). I metodi dell’inferenza statistica consentono di affrontare invece il problema inverso.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

L’inferenza statistica è l’insieme dei metodi e delle tecniche con cui “si fa luce” su uno o più parametri della popolazione generatrice, utilizzando i dati di un campione casuale. Due sono i percorsi tipici dell’inferenza statistica: la stima dei parametri e la verifica delle ipotesi.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Spazio campionario

Consideriamo il campione casuale X1, X2, …, Xn composto da n v.c. indipendenti e identicamente distribuite. Denominiamo campione osservabile una specifica realizzazione del campione casuale, ossia una n-upla di numeri che indichiamo con

(x1, x2, …, xn).

Tutti i possibili campioni osservabili costituiscono lo spazio

campionario.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Un’urna contiene cinque palline numerate da 1 a 5.

Esempio 1: spazio campionario discreto

n. d’ordine campione n. d’ordine campione n. d’ordine campione

1 1, 1 11 3, 1 21 5, 1

2 1, 2 12 3, 2 22 5, 2

3 1, 3 13 3, 3 23 5, 3

4 1, 4 14 3, 4 24 5, 4

5 1, 5 15 3, 5 25 5, 5

6 2, 1 16 4, 1

7 2, 2 17 4, 2

8 2, 3 18 4, 3

9 2, 4 19 4, 4

10 2, 5 20 4, 5

� Ogni campione ha probabilità pari a 1/25

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Supponiamo che la durata del periodo di gestazione sia descritto da una v.c.normale con media 265 e deviazione standard 18. Lo spazio campionario dei

Esempio 2: spazio campionario continuo

x1 x2 x3 x4 x5

282,12 270,60 256,49 300,14 276,15249,42 266,57 303,47 254,40 255,02258,23 259,49 269,54 316,34 240,02253,32 270,59 299,43 250,20 262,71248,62 291,46 264,28 258,52 265,92269,10 232,19 267,01 252,18 256,59257,67 268,41 249,25 284,03 274,15267,99 278,08 297,70 255,91 252,31285,05 278,77 263,28 284,06 249,62272,84 314,08 262,44 306,29 236,97245,23 267,38 274,47 259,49 226,91271,13 291,66 275,40 282,92 305,21229,13 236,71 242,97 280,85 250,81230,88 246,21 262,35 240,61 287,62246,74 262,24 230,28 280,64 291,25

… … … … …

campioni di ampiezza 5 estraibili da questa popolazione è composto da infiniti campioni, che, ovviamente, non sono enumerabili come nell’Esempio 1. Nella tabella qui accanto sono riportati 15 campioni di ampiezza 5 estratti casualmente dalla nostra popolazione (tramite il calcolatore elettronico). Si tratta di un sottoinsieme dell’infinità di campioni di ampiezza 5 che costituiscono lo spazio campionario in questione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Statistiche campionarie

Def. Si chiama statistica campionaria o variabile casuale campionaria una qualsiasi funzione delle v.c. X1, X2, …, Xn che compongono il campione casuale.

Ogni statistica campionaria, quale funzione di v.c., è una variabile casuale.

Def. La distribuzione campionaria di una statistica è la distribuzione dei valori che la statistica assume nello spazio campionario.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Vogliamo determinare la distribuzione campionaria della media per campioni di ampiezza 2 provenienti dalla popolazione di cui all’Esempio 1.

Esempio 3: media campionaria

n. d’ordine

campioneMedia camp.

n. d’ordine

campioneMedia camp.

n. d’ordine

campioneMedia camp.

1 1, 1 1,0 11 3, 1 2,0 21 5, 1 3,02 1, 2 1,5 12 3, 2 2,5 22 5, 2 3,53 1, 3 2,0 13 3, 3 3,0 23 5, 3 4,04 1, 4 2,5 14 3, 4 3,5 24 5, 4 4,55 1, 5 3,0 15 3, 5 4,0 25 5, 5 5,06 2, 1 1,5 16 4, 1 2,5

7 2, 2 2,0 17 4, 2 3,0

8 2, 3 2,5 18 4, 3 3,5

9 2, 4 3,0 19 4, 4 4,0

10 2, 5 3,5 20 4, 5 4,5

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Si perviene alla distribuzione campionaria della media associando ai diversi valori assunti dalla media i relativi livelli di probabilità. La probabilità attribuita a un dato valore della media è uguale alla somma delle probabilità dei campioni che producono quel valore di media.

Esempio 3: statistiche campionarie(continuazione)

Media camp.

Frequenza Probabilità

1,0 1 0,04

1,5 2 0,08

2,0 3 0,12

2,5 4 0,16

3,0 5 0,20

3,5 4 0,16

4,0 3 0,124,5 2 0,08

5,0 1 0,0425 1,00

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 4: media campionaria nello spazio campionario dell’Esempio 2

Nella tabella che segue, accanto a ciascun campione del sottoinsieme considerato nell’Esempio 2, viene associata la media aritmetica. x1 x2 x3 x4 x5

282,1 270,6 256,5 300,1 276,2 277,1249,4 266,6 303,5 254,4 255,0 265,8258,2 259,5 269,5 316,3 240,0 268,7253,3 270,6 299,4 250,2 262,7 267,2

248,6 291,5 264,3 258,5 265,9 265,8

269,1 232,2 267,0 252,2 256,6 255,4

257,7 268,4 249,3 284,0 274,2 266,7

268,0 278,1 297,7 255,9 252,3 270,4285,1 278,8 263,3 284,1 249,6 272,2

272,8 314,1 262,4 306,3 237,0 278,5245,2 267,4 274,5 259,5 226,9 254,7271,1 291,7 275,4 282,9 305,2 285,3229,1 236,7 243,0 280,9 250,8 248,1230,9 246,2 262,4 240,6 287,6 253,5246,7 262,2 230,3 280,6 291,3 262,2… … … … … …

x Ciò per fare intuire che la v.c.media campionaria è generata dall’associazione a ciascun campione dello spazio campionario di un numero reale, dato dalla media aritmetica dei valori contenuti nel campione stesso.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Nella tabella che segue, accanto a ciascun campione del sottoinsieme considerato nell’Esempio 2, viene associata la varianza campionaria.

Esempio 5: varianza campionaria nello spazio campionario dell’Esempio 2

X1 x2 x3 x4 x5 s2

282,1 270,6 256,5 300,1 276,2 255,36

249,4 266,6 303,5 254,4 255,0 484,37258,2 259,5 269,5 316,3 240,0 821,25253,3 270,6 299,4 250,2 262,7 387,71248,6 291,5 264,3 258,5 265,9 252,97

269,1 232,2 267,0 252,2 256,6 218,04

257,7 268,4 249,3 284,0 274,2 185,55

268,0 278,1 297,7 255,9 252,3 337,05

285,1 278,8 263,3 284,1 249,6 235,39272,8 314,1 262,4 306,3 237,0 1.013,54

245,2 267,4 274,5 259,5 226,9 359,87271,1 291,7 275,4 282,9 305,2 185,59229,1 236,7 243,0 280,9 250,8 400,03230,9 246,2 262,4 240,6 287,6 493,12246,7 262,2 230,3 280,6 291,3 610,81… … … … … …

Ciò per fare intuire che la v.c.varianza campionaria è generata dall’associazione a ciascun campione dello spazio campionario di un numero reale, dato dalla varianza dei valori contenuti nel campione stesso.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Il valore atteso, cioè la media, di una statistica campionaria può essere vista come media aritmetica dei valori della statistica campionaria associati a tutti i campioni dello spazio campionario. Così, nell’Esempio 3, il valore atteso della media campionaria è pari alla somma dei valori assunti dalla media nei 25 campioni dello spazio campionario divisa per 25.Naturalmente, questo approccio intuitivo ha i crismi della validità formale solo nel caso in cui lo spazio campionario è finito.

Valore atteso e varianza di una statistica campionaria

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La varianza di una statistica campionaria può essere immaginata come il risultato delle operazioni indicate qui di seguito. Si associa a ogni campione dello spazio campionario il quadrato dello "scarto" tra il valore assunto dalla statistica nel campione e la media della statistica stessa. Si prende, poi, la media aritmetica delle quantità così ottenute. La quantità così ottenuta è una misura del grado di variabilità della statistica campionaria, cioè del grado medio di "oscillazione" della statistica intorno al suo valore medio.

Valore atteso e varianza di una statistica campionaria

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Vogliamo determinare il valore atteso e la varianza della media campionaria per il caso trattato nell’Esempio 3.

Esempio 6: media e varianza della media campionaria

n. d’ordine campione

Media camp.

n. d’ordine campione

Media camp.

n. d’ordine campione

Media camp.

1 1, 1 1,0 11 3, 1 2,0 21 5, 1 3,02 1, 2 1,5 12 3, 2 2,5 22 5, 2 3,53 1, 3 2,0 13 3, 3 3,0 23 5, 3 4,04 1, 4 2,5 14 3, 4 3,5 24 5, 4 4,55 1, 5 3,0 15 3, 5 4,0 25 5, 5 5,06 2, 1 1,5 16 4, 1 2,57 2, 2 2,0 17 4, 2 3,08 2, 3 2,5 18 4, 3 3,59 2, 4 3,0 19 4, 4 4,010 2,5 3,5 20 4,5 4,5

3.) 51,5(1,0)E( =+++25

1= LX

22 3)-(1,53)-[(1,0)Var( +25

1=X

1,0.]3)-(5,0 2 =++= L

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Vogliamo determinare il valore atteso e la varianza della media campionaria per il caso trattato nell’Esempio 2.

Esempio 7: media e varianza della media campionaria

(277,1, di aritmetica media)E( =X

,265)-[(277,1 di aritmetica media)Var( 2=X

x1 x2 x3 x4 x5

282,1 270,6 256,5 300,1 276,2 277,1249,4 266,6 303,5 254,4 255,0 265,8258,2 259,5 269,5 316,3 240,0 268,7253,3 270,6 299,4 250,2 262,7 267,2

248,6 291,5 264,3 258,5 265,9 265,8269,1 232,2 267,0 252,2 256,6 255,4

257,7 268,4 249,3 284,0 274,2 266,7268,0 278,1 297,7 255,9 252,3 270,4285,1 278,8 263,3 284,1 249,6 272,2272,8 314,1 262,4 306,3 237,0 278,5245,2 267,4 274,5 259,5 226,9 254,7271,1 291,7 275,4 282,9 305,2 285,3229,1 236,7 243,0 280,9 250,8 248,1230,9 246,2 262,4 240,6 287,6 253,5246,7 262,2 230,3 280,6 291,3 262,2… … … … … …

.265) 265,8, =K

3,6. ]265)-(265,8 2 =K,

N.B.: I due risultati saranno chiariti nella prossima diapositiva.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Distribuzione campionaria della media: Media e varianza

della media campionaria

Si osserva che la media campionaria ha valore atteso e varianza che dipendono solo dalla media e dalla varianza della popolazione generatrice e non dalla struttura di questa. Infatti:

Prop.

Si dimostra che il valore atteso e la varianza della media campionaria sono date da:

essendo µ e σ 2 la media e la varianza della popolazione generatrice.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Dunque:

• il valore atteso della media campionaria coincide con la media della popolazione;

• la varianza della media campionaria, interpretabile come la media delle oscillazioni (date dagli scarti al quadrato) che essa presenta rispetto alla sua media, è data dalla varianza della popolazione divisa per n. Ciò significa che la "variabilità" della media campionaria è molto

più piccola della "variabilità" presente nella popolazione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 9: media e varianza della media campionaria per una popolazione Bernoulliana

Consideriamo una popolazione Bernoulliana con p τ0,45, da cui immaginiamo di estrarre un campione di ampiezza 50. Vogliamo calcolare il valore atteso e la varianza della media campionaria.

Sappiamo che la media e la varianza di questo tipo di popolazione sono p e p(1 – p), rispettivamente. Pertanto, indicando con la media campionaria in questo contesto (interpretabile come proporzione di "successi" nel campione), abbiamo:

0,0049.)Var( ;)E( ==450= 50

550×450 ,,p̂,p̂

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Distribuzione campionaria della media nel caso di

popolazione generatrice normale

Consideriamo, ora, una popolazione generatrice normale N(ς , ς 2). In questo caso, si può dimostrare che la media campionaria ha distribuzione normale N(ς , ς 2/n). In altri termini, la v.c. è descritta dalla seguente funzione di densità

X

X

.en/xf n/x

-2

22

2

1= σ

µ

σπ

)-(

)()(

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quanto detto è rappresentato graficamente nella figura sottostante.

µ

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 10: calcolo delle probabilità su nel caso di una popolazione normale

Supponendo che la v.c. durata della gestazione sia normale con media 265 e deviazione standard 18, vogliamo calcolare la probabilità che in un campione di 35 unità la media campionaria sia compresa nell’intervallo (255, 270).

Poiché possiamo scrivere ),18 N(265, 2 35∼ /X

)]35265)/(18/-[(270Φ )( =270<<255 XP.,94930=)]35265)/(18/-[(255Φ -

X

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quando il campione ha un’ampiezza sufficientemente grande, la distribuzione campionaria della media può essere approssimata con una normale, qualunque sia la forma della v.c. oggetto di studio. Questa proprietà della media campionaria è legata a un risultato della statistica matematica noto come teorema del limite centrale.

Il caso di grandi campioni: il teorema del limite centrale

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

In particolare: Teorema.

Si consideri un campione casuale di ampiezza n proveniente da una popolazione qualsiasi con media µ e varianza σ2. Allora, se n è sufficientemente grande, la distribuzione campionaria di può essere approssimata con una normale N(µ, σ 2/n).

X

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La proprietà appena descritta è illustrata graficamente tramite la figura che segue, dove la popolazione è una v.c. esponenziale con parametro λ � 0,05.

Il teorema del limite centrale

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 13: applicazione del teorema del limite centrale a una popolazione bernoulliana

Un quiz è composto da 60 domande, ciascuna delle quali prevede 4 risposte, una sola delle quali è corretta. Vogliamo calcolare la probabilità che scegliendo a caso una risposta la proporzione di risposte corrette sia compresa tra 0,15 e 0,26.

Bisogna considerare, anzitutto, che la proporzione di risposte corrette è una particolare media, denotata con Bisogna considerare, inoltre, che la popolazione ha media e varianza Pertanto, l’applicazione del teorema del limite centrale dà

]0,75)/60(0,250,25)/-[(0,26Φ )0(0,15 ×≈26<< ,p̂P

.p̂250= ,p

.,,pp 750×250=1 )-(

0,53.]0,75)/60(0,250,25)/-[(0,15Φ - =×

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Ricordiamo che, se la popolazione generatrice è normale, la v.c. media campionaria ha distribuzione N(µ, σ 2/n). Pertanto, la v.c. standardizzata

avrà distribuzione normale standardizzata N(0, 1).Quando la popolazione non è normale, la v.c.precedente si distribuisce approssimativamente come una normale standardizzata, purché n sia sufficientemente grande.

Distribuzione campionaria della media quando la varianza non è nota

nXZX /σ

µ−=

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Sia data una popolazione generatrice normale con media ϕ.Siano e la media e la varianza di un campione casuale di ampiezza n. Allora il rapporto

è una v.c. descritta dalla seguente funzione di densità

dove b è una costante positiva e r ϕ n ϕ 1 indica il numero dei gradi di libertà. Questa v.c. è nota come t di Student.

nSXTX /

µ−=

X

,,1)(2/)1(2

+∞<<∞−

+=

+−

tr

tbtfr

2S

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La distrubuzione t di Student è stata proposta da W.S. Gosset che dovette usare lo pseudonimo Student poiché la fabbrica Guinness presso la quale lavorava vietava la pubblicazione di articoli per evitare la divulgazione dei segreti di produzione della birra.

-----Approfondimenti----------------------------------------------------------------------------

William Sealy Gosset (Canterbury, 13 giugno 1876 – Beaconsfield, 16 ottobre 1937) Diversamente dagli altri suoi colleghi statistici famosi, Gosset non intraprende la carriera accademica, ma lavora presso la celebre fabbrica di birra Guinness, dove elabora la mole di dati disponibili. Conclude la sua carriera gestendo dal 1935 la nuova birreria Guinness di Londra. Presso Guinness si rende presto conto che le

condizioni con le quali vengono raccolti i dati (temperatura, umidità, origine del malto) cambiano di continuo e il fatto di averne pochi con le stesse condizioni sperimentali non consente di applicare il teorema del limite centrale che permette di far riferimento alla distribuzione normale.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Nel 1905 conosce Karl Pearson con il quale si instaura un legame di amicizia. Grazie a questo può passare un anno sabbatico (a.a. 1906-07) presso i laboratori di biometria dell'University College di Londra, diretti da Pearson.

Nel 1908 pubblica su Biometrika (diretta da K. Pearson) con lo pseudonimo Student l'articolo “The probable error of the mean” sulla distribuzione t di Student. Gosset dovette usare uno pseudonimo poiché la fabbrica Guinness presso la quale lavorava vietava la pubblicazione di articoli per evitare la divulgazione dei segreti di produzione della birra.

-----Approfondimenti----------------------------------------------------------------------------

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La distribuzione presenta le proprietà di seguito indicate.

� È simmetrica.� Tende alla normale standardizzata al

tendere di n a infinito.

La v.c. t di Student

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Vogliamo trovare il decimo e il 90-esimo centile della v.c. t di Student con 19 gradi di libertà.

Per quanto riguarda il 90-esimo centile, nella tabella C.4 dobbiamo prendere il numero che sta nella riga corrispondente a r &19 e nella colonna corrispondente a p &0,90. Troviamo t0,90

& 1,328. Per ragioni di simmetria, troviamo t0,10 &&1,328.

p

r 0,60 0,70 0,80 0,90 0,95 0,975 0,990 0,995 0,999

… … … … … … … … … …18 0,257 0,534 0,862 1,330 1,734 2,101 2,552 2,878 3,610

19 0,257 0,533 0,861 1,328 1,729 2,093 2,539 2,861 3,579

20 0,257 0,533 0,860 1,325 1,725 2,086 2,528 2,845 3,552

… … … … … … … … … …

Esempio 15: uso della tavola della t di Student

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Siano e la media e la varianza di un campione casuale di ampiezza n estratto da una popolazione qualsiasi con media . Allora, se n è sufficientemente grande, il rapporto

è una v.c. che ha distribuzione prossima alla normale N(0, 1).

Il caso dei grandi campioni

X

nSXZX /

µ−=

2S

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Cap. 16. Stima puntuale dei parametri

- Stima puntuale e stimatore - Proprietà degli stimatori - Spazio campionario - Statistiche campionarie - Distribuzione campionaria della media -Distribuzione campionaria della media quando la varianza non è nota

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La statistica campionaria

utilizzata per stimare θ viene denominatastimatore. Si chiama, invece, stima la singola determinazione dello stimatore, il valore, che esso assume nel campione osservato

inteso come n-upla di numeri effettivi.

Stimatore

),,,( 21 nXXXtT K=

),,,,( 21 nxxxtt K=

),,,,( 21 nxxx K

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

� Si affronta il problema di come scegliere lo stimatore più “conveniente” per attribuire un valore al parametro di interesse θ.

� L’aggettivo “puntuale” viene impiegato per distinguere questo problema dalla stima per intervallo con cui ci si pone l’obiettivo di individuare un intervallo che contenga al suo interno il parametro θ.

Stima puntuale

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Sia uno stimatore del parametro θ. Per stabilire se lo stimatore T è più o meno appropriato per la soluzione del nostro problema di stima è cruciale studiare la v.c.

che denomineremo errore di stima.

Proprietà degli stimatori

),,,( 21 nXXXtT K=

θ−T

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Due questioni sono basilari per emettere un giudizio sullo stimatore:

� la media degli errori di stima è desiderabile che sia nulla;

� la media dei quadrati degli errori di stima

denominata, errore quadratico medio, è desiderabile che sia “la più piccola possibile”.

Proprietà degli stimatori

)(E θ−T

2)(E)MSE( θ−= TT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Se il valore atteso dell’errore di stima è uguale a 0, cioè se

lo stimatore è detto non distorto.L’equazione precedente può essere scritta in modo equivalente come

La differenza è denominata distorsione.

Non distorsione

, ,0)(E θθ ∀=−T

θθ ∀= ,)(ETθ−= )(E)(D TT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La proprietà della non distorsione può essere meglio apprezzata ipotizzandone l’assenza. Non è, ovviamente, desiderabile né che

né che

Nel primo caso, lo stimatore produrrebbe stime mediamente al di sotto del valore del parametro; nel secondo caso, si verificherebbe il fenomeno opposto.

Proprietà degli stimatori

,)(E θ<T

.)(E θ>T

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 1: non distorsione della media campionariaper una popolazione artificiale discreta

Campioni di ampiezza 2 estraibili dalla popolazione {1, 2, 3, 4, 5}, avente media µµµµ νννν3, medie campionarie e relativi errori di stima.

campione media camp.

erroredi stima

campione media camp.

erroredi stima

campione media camp.

erroredi stima

1, 1 1,0 νννν2,0 3, 1 2,0 -1,0 5, 1 3,0 0,01, 2 1,5 νννν1,5 3, 2 2,5 -0,5 5, 2 3,5 +0,51, 3 2,0 νννν1,0 3, 3 3,0 0,0 5, 3 4,0 +1,01, 4 2,5 νννν0,5 3, 4 3,5 +0,5 5, 4 4,5 +1,51, 5 3,0 0,0 3, 5 4,0 +1,0 5, 5 5,0 +2,02, 1 1,5 νννν1,5 4, 1 2,5 -0,5

2, 2 2,0 νννν1,0 4, 2 3,0 0,0

2, 3 2,5 νννν0,5 4, 3 3,5 +0,5

2, 4 3,0 0,0 4, 4 4,0 +1,0

2, 5 3,5 νννν0,5 4, 5 4,5 +1,5

Per ogni campione viene dato l’errore di stima, la differenza tra la media campionaria e la media della popolazione

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 1: (continuazione)

Il valore atteso di una statistica campionaria può essere

visto come la media aritmetica dei valori che la statistica

assume nei campioni dello spazio campionario. Pertanto,

calcolare , nel caso in esame, equivale a

calcolare la media aritmetica dei 25 errori di stima

Tale media è pari a 0; ciò significa che il valore atteso

della media campionaria è uguale alla media della

popolazione. In altri termini, la media campionaria gode

della proprietà della non distorsione. Si tratta, come

vedremo, di una proprietà con validità generale.

)(E θ−T

.3−=− xx µ

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 2: non distorsione della media campionaria per una popolazione continua

Piccolo sottoinsieme di campioni di ampiezza 5 provenienti da una popolazione normale con media 265 e varianza 182 (vedi Esempio 4 del cap. 15). A ciascun campione è associato l’errore di stima. Calcolare la quantità equivale a calcolare la media aritmetica degli errori di stima degli infiniti campioni che costituiscono lo spazio campionario:

x1 x2 x3 x4 x5

282,1 270,6 256,5 300,1 276,2 277,1 12,1249,4 266,6 303,5 254,4 255,0 265,8 0,8258,2 259,5 269,5 316,3 240,0 268,7 3,7253,3 270,6 299,4 250,2 262,7 267,2 2,2248,6 291,5 264,3 258,5 265,9 265,8 0,8269,1 232,2 267,0 252,2 256,6 255,4 -9,6257,7 268,4 249,3 284,0 274,2 266,7 1,7268,0 278,1 297,7 255,9 252,3 270,4 5,4

285,1 278,8 263,3 284,1 249,6 272,2 7,2272,8 314,1 262,4 285,3 257,0 278,3 13,3245,2 267,4 274,5 259,5 226,9 254,7 -10,3271,1 291,7 275,4 282,9 242,3 272,7 7,7229,1 236,7 243,0 280,9 250,8 248,1 -16,9230,9 246,2 262,4 240,6 287,6 253,5 -11,5246,7 262,2 230,3 280,6 291,3 262,2 -2,8… … … … … … …

x µ−x

)(E µ−X

diDiscorso volutamente intuitivo

,,8,0,1,12( di media)(E L=− µX.0),8,2 =− K

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Non distorsione della media campionarie

Indicando con µ la media nella popolazione, possiamo scrivere

Pertanto, la media campionaria è uno stimatore non distorto di µ.

; ,)(E µµµ ∀== XX

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Ribadiamo che l’errore quadratico medio dello stimatore T di θ è dato da

Si tratta del valore atteso del quadrato dell’errore di stima, che può essere interpretato(informalmente) come la media aritmetica degli errori di stima al quadrato associati ai campioni dello spazio campionario.

Errore quadratico medio

.)(E)(MSE 2θ−= TT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 3: errore quadratico della media campionariaper una popolazione artificiale discreta

Campioni di ampiezza 2 estraibili dalla popolazione {1, 2, 3, 4, 5}, avente media µµµµ 3, medie campionarie e relativi errori di stima al quadrato.

campione media camp.

quadratoerroredi stima

campione media camp.

quadratoerroredi stima

campione media camp.

quadratoerroredi stima

1, 1 1,0 4,00 3, 1 2,0 1,00 5, 1 3,0 0,001, 2 1,5 2,25 3, 2 2,5 0,25 5, 2 3,5 0,251, 3 2,0 1,00 3, 3 3,0 0,00 5, 3 4,0 1,001, 4 2,5 0,25 3, 4 3,5 0,25 5, 4 4,5 2,251, 5 3,0 0,00 3, 5 4,0 1,00 5, 5 5,0 4,002, 1 1,5 2,25 4, 1 2,5 0,25

2, 2 2,0 1,00 4, 2 3,0 0,00

2, 3 2,5 0,25 4, 3 3,5 0,25

2, 4 3,0 0,00 4, 4 4,0 1,00

2, 5 3,5 0,25 4, 5 4,5 2,25

Per ogni campione viene dato l’errore di stima, la differenza tra la media campionaria e la media della popolazione

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 3: (continuazione)

L’errore quadratico medio, come media aritmetica degli

errori di stima al quadrato, è dato da

Ciò significa che le 25 stime associate ai campioni

estraibili dalla popolazione presentano, mediamente, uno

scostamento rispetto alla media della popolazione pari a 1

(per scostamento intendiamo qui l’errore di stima al

quadrato).

.125/)00,425,225,200,4()(MSE =++++= LX

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 4: errore quadratico medio della media campionaria per una popolazione continua

Piccolo sottoinsieme di campioni di ampiezza 5 provenienti da una popolazione normale con media 265 e varianza 182 (vedi Esempio 4 del cap. 15). A ciascun campione è associato il quadrato dell’errore di stima. Calcolare l’errore quadratico medio equivale a calcolare la media aritmetica degli errori di stima al quadrato degli infiniti campioni che costituiscono lo spazio campionario:.

x1 x2 x3 x4 x5

282,1 270,6 256,5 300,1 276,2 277,1 146,41249,4 266,6 303,5 254,4 255,0 265,8 0,64258,2 259,5 269,5 316,3 240,0 268,7 13,69253,3 270,6 299,4 250,2 262,7 267,2 4,84248,6 291,5 264,3 258,5 265,9 265,8 0,64269,1 232,2 267,0 252,2 256,6 255,4 92,16257,7 268,4 249,3 284,0 274,2 266,7 2,89268,0 278,1 297,7 255,9 252,3 270,4 29,16

285,1 278,8 263,3 284,1 249,6 272,2 51,84

272,8 314,1 262,4 285,3 257,0 278,3 176,89245,2 267,4 274,5 259,5 226,9 254,7 106,09271,1 291,7 275,4 282,9 242,3 272,7 59,29229,1 236,7 243,0 280,9 250,8 248,1 285,61230,9 246,2 262,4 240,6 287,6 253,5 132,25246,7 262,2 230,3 280,6 291,3 262,2 7,84… … … … … … …

x 2)( µ−x

diDiscorso volutamente intuitivo

),84,7,,64,0,41,146( di media)(MSE KL=X

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Spazio campionario e spazio di un generico stimatore T

1tOsservazione 1

Osservazione 2

Osservazione nM

Campione 1

Osservazione 1

Osservazione 2

Osservazione nM

Campione 2

2tOsservazione 1

Osservazione 2

Osservazione n

M

Campione 3

3tMM

Popolazione

Parametro� θSpazio dello

stimatore T

Insieme di tutti i possibili

campioni casuali di ampiezza n

Spazio campionario

Distribuzione campionaria di T

• E(T) è la media aritmetica delle stime nello spazio dello stimatore.

• MSE(T) è la media aritmetica, nello spazio dello stimatore, dei quadrati degli errori di stima.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

L’errore quadratico medio dello stimatore T di θ può essere scritto nella forma

Dove è la varianza dello stimatore T.Se lo stimatore è non distorto, l’errore quadratico medio dello stimatore coincide con la varianza dello stesso stimatore:

Errore quadratico medio:una scrittura alternativa

2)(E)(Var θ−= TT

,])(E[)(Var)(MSE 2θ−+= TTT

).(Var)(MSE TT =

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Poiché lo stimatore gode della proprietà della non distorsione, possiamo scrivere:

MSE della media campionaria

X

;)(Var)(MSE2

nXX σ

==

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Si tratta di una proprietà che si manifesta nel confronto di due o più stimatori impiegabili per stimare uno stesso parametro.Dati due stimatori dello stesso parametro θ, T1 e T2, si dice che T1 è più efficiente di T2 se

Naturalmente, è preferibile, in generale, utilizzare lo stimatore più efficiente, in quanto garantisce a priori una maggiore precisione delle stime.

Efficienza di uno stimatore

. ,)(E)MSE()(E)MSE( 222

211 θθθ ∀−=≤−= TTTT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio

Nella figura sono riportate le distribuzioni campionarie di due stimatori corretti. lo stimatore (linea rossa) possiede un errore quadratico medio (ossia una varianza) più piccolo di (linea nera). T1 è più efficiente di T2

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 5: confronto di efficienza di due stimatori della media

Con riferimento alla stima della media con un campione di

5 unità proveniente da una popolazione con varianza 30,

consideriamo i due seguenti stimatori:

Il primo è la media campionaria, il secondo è una media

ponderata delle osservazioni campionarie.

Entrambi gli stimatori presentano, come è facile

verificare, la proprietà della non distorsione.

;5

543211

XXXXXT ++++=

.3,03,01,01,02,0 543212 XXXXXT ×+×+×+×+×=

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 5: (continuazione)

I loro errori quadratici medi sono, rispettivamente:

(si tratta della varianza di una combinazione lineare di

v.c. indipendenti).

Tra i due stimatori è, allora, preferibile la media

campionaria: infatti, l’errore medio che si commette con

essa è inferiore a quello connesso all’impiego del secondo

stimatore.

;0,65

30)(Var)(MSE 11 === TT

2,730)3,03,01,01,02,0()(Var)(MSE 2222222 =++++== TT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Il problema della scelta dello stimatore più efficiente per la stima di un dato parametro richiede strumenti teorici la cui presentazione supera i limiti di questa trattazione.Per specifici problemi di stima esistono soluzioni ad hoc. Per esempio, è possibile dimostrare che la media aritmetica è lo stimatore più efficiente

della media della popolazione nell’insieme degli

stimatori non distorti espressi da una

combinazione lineare delle osservazioni

campionarie.

Efficienza all’interno di una determinata classe di stimatori

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

La stessa media campionaria è lo stimatore più

efficiente nell’insieme degli stimatori non distorti

quando la popolazione generatrice è normale o è

descritta da un modello con certe

caratteristiche.

Efficienza all’interno di una determinata classe di stimatori

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

-----Approfondimento----------------------------------------------------------------------------

Stime come tiri al bersaglio Stimare esattamente un parametro è come centrare un bersaglio. Stime ripetute di un parametro si possono quindi immaginare come tiri ripetuti. Nella Fig. C vengono rappresentate stime ripetute prodotte da uno stimatore non distorto: le stime sono “disperse” attorno al valore del parametro (centro) senza che si manifestino deviazioni in una particolare direzione. Nella Fig. B le stime tendono invece a concentrarsi in una particolare zona al di sopra del centro, manifestando quindi la presenza di una distorsione. Nella Fig. A le stime tendono a concentrarsi intorno al centro. Nella Fig. D le stime sono disperse e lontane dal centro.

Dalla Fig. B si può osservare come la varianza non sia la misura appropriata per valutare l’errore medio di stima; infatti la variabilità delle stime risulta più contenuta rispetto alla Fig. C, ma esse sono decentrate rispetto al valore del parametro. Quindi ai fini della comparazione dei 2 stimatori, occorre tener conto sia della variabilità che della distorsione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

In termini informali, uno stimatore di θ è detto asintoticamente non distorto se la sua distorsione è prossima allo 0 quando la dimensione del campione è molto grande.Più precisamente, si ha uno stimatore asintoticamente non distorto quando la distorsione tendea 0 al tendere di n a infinito.

Proprietà asintotiche degli stimatori:stimatore asintoticamente non distorto

θ−= )(E)(D nnn TT

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 6: uno stimatore asintoticamente non distorto di σσσσ2

Lo stimatore di σσσσ 2 espresso da

è asintoticamente non distorto. Infatti, la sua distorsione

tende a 0 al tendere di n a infinito.

2

1

2 )(1~ XXn

Sn

ii −= ∑

=

22222 1)~(E)~(D σσσ −−

=−=n

nSS nnn

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

In termini semplici, uno stimatore T di θ si dice consistente se vi è pratica certezza che esso assuma un valore molto prossimo a θ quando la dimensione del campione è molto elevata.Più precisamente, ciò è espresso dall’equazione

dove ε è una quantità positiva piccola a piacere.

Proprietà asintotiche degli stimatori:consistenza

, ,1)|(|lim θεθ ∀=<−∞→

nn

TP

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Nella figura che segue è illustrata l’idea di consistenza con riferimento alla media campionaria per campioni provenienti da una popolazione normale di ampiezza 10, 100 e 300.

Proprietà asintotiche degli stimatori:consistenza

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Proprietà asintotiche degli stimatori:consistenza

Lo stimatore gode della proprietà della consistenza, sicché possiamo scrivere, formalmente:

X

. ,1)|(|lim µεµ ∀=<−∞→

nnXP

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Cap. 17. Stima per intervallo

- Stima per intervallo della media di una popolazione normale con varianza nota - Stima per intervallo della media di una popolazione normale con varianza non nota - Stima per intervallo della media nel caso di grandi campioni

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Stima per intervallo della media di una popolazione

normale con varianza nota

Alla stima puntuale occorre associare una misura della sua precisione. La varianza dello stimatore serve a ciò.

Tanto più tale varianza è piccola tanto più lo stimatore è preciso.

Un modo per esprimere l’incertezza e il grado di precisione

connessi ad una stima è rappresentato da un intervallo di valori che ci dia la garanzia di contenere il valore incognito del parametro

con un determinato livello di affidabilità.

La stima per intervallo della media di una popolazione normale con varianza nota è un caso abbastanza raro nelle applicazioni, ma in alcuni casi è possibile che indagini precedenti a quella effettuata rendano possibile una conoscenza esatta della varianza σ2.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Sia X una popolazione normale con varianza nota σσσσ2 e media

incognita µµµµ N(µµµµ,σσσσ2).

La costruzione di un intervallo di confidenza per µ sotto l’assunzione di varianza nota, si basa sul risultato precedentemente discusso che la media campionaria X associata a campioni casuali provenienti da una popolazione normale N(µ,σ2) si distribuisce come una normale N(µ,σ2/n), ossia X ∼N(µ,σ2/n).

Se dunque usiamo la media campionaria come stimatore della media della popolazione, il fatto che la sua distribuzione sia centrata sul valore vero del parametro µ indica che X e uno stimatore non distorto. Inoltre, il rapporto σ2/n misura la precisione dello stimatore: come ci si potrebbe aspettare, tale precisione è tanto minore quanto più è elevata la varianza σ2 e tanto maggiore quanto più è elevata la dimensione campionaria n.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Da X ∼ N(µ,σ2/n) si ha:

N(0,1).

µXZ ∼−

=

Indichiamo con 21z α− il quantile di livello 1-α/2 della Normale standardizzata 21)zZ(P 21 αα −=> − . Per la simmetria della distribuzione Normale, segue che

21)zZ(P 21 αα −=−< − e quindi

ααα −=≤≤− −− 1)zZz(P 2/12/1

(i valori 21z α− si possono ottenere facilmente consultando le tavole della distribuzione Normale standardizzata).

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quindi si ha:

ααα −=

−≤− −− 1z

nσµXzP 2/12/1

da cui

ααα −=

≤−≤− −− 1n

σzµXn

σzP 2/12/1

e quindi

ααα −=

+≤≤− −− 1n

σzXµn

σzXP 2/12/1 . (*)

Si osserva che la (*) può scriversi nella forma:

ααα −=

+≤≤− −− 1n

σzµXn

σzµP 2/12/1 (**)

che è quindi equivalente alla (*).

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Indicando con

nσzX e

nσzX 2/122/11 αα −− +=−= LL

le variabili casuali che formano gli estremi dell’intervallo precedente, possiamo affermare che l’intervallo casuale

+−= −− n

σzX , n

σzX],[ 2/12/12 1 ααLL

racchiude al suo interno il parametro µ con probabilità 1-α, ossia dato un campione casuale X1,X2,…,Xn estratto da una

distribuzione Normale con media µµµµ e varianza σσσσ2 nota, lo

stimatore intervallare (intervallo casuale) per la media della

popolazione X al livello 1-α è:

+−= −− n

σzX , n

σzX],[ 2/12/12 1 ααLL .

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quindi se associamo a ciascun elemento (x1,x2,…,xn) dello spazio campionario l’intervallo numerico di estremi

+− −− nσzx ,

nσzx 2/12/1 αα

in base alla (*) si ha che la proporzione degli intervalli che racchiudono il valore della media µ è uguale a 1-α e coincide con la proporzione delle medie campionarie che cadono nell’intervallo:

+−n

zn

z σµ

σµ αα 2/2/ , .

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Per dare evidenza intuitiva all’equivalenza tra (*) e (**) consideriamo la seguente Figura. La Figura si riferisce allo spazio dei campioni di ampiezza 15 provenienti da una popolazione normale con media 175 e varianza 44.

Nella figura qui accanto, viene mostrato come la media della popolazione (175 nell’esempio) sia racchiusa nell’intervallo di estremi

ogni volta che la media campionaria assume valori all’interno dell’intervallo di estremi

154496,1 e

154496,1 +− xx

.4,178154496,1 e 171,8

154496,1 =+=− µµ

Ciò dimostra che è pari a 0,95 la probabilità che il parametro µ sia compreso nell’intervallo casuale di estremi

nσXL

nσXL 96,1 e 96,1 21 +=−=

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Immaginiamo di osservare in successione i campioni dello spazio campionario suindicato: ad ogni campione osservato corrisponderà un intervallo numerico rappresentato da un segmento posto al di sotto della curva normale, i cui estremi si ottengono sottraendo e aggiungendo alla media del campione il margine di errore. Poiché il singolo intervallo include la media della popolazione se e solo se la media del campione è interna all’intervallo [171,6; 178,4], la proporzione degli intervalli validi (cioè quelli che racchiudono la media della popolazione) è uguale alla proporzione dei campioni nei quali la media campionaria è compresa nell’intervallo [171,6; 178,4], proporzione che è uguale a 0,95. La stessa idea è espressa attraverso il Principio del Campionamento

Ripetuto (PCR): la quantità 1-α può essere vista come la proporzione degli intervalli (l1, l2) validi in un insieme ampio di campioni casuali di ampiezza n estratti dalla stessa popolazione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Passando quindi dal ragionamento probabilistico alla stima basata su un campione osservato si ha che:

• la v.c. X assume uno specifico valore x ; • le v.c. L1, L2 diventano valori numerici l1, l2; • la probabilità 1-α che l’intervallo [L1, L2] racchiuda il valore µ diventa il livello di confidenza, il grado di fiducia 1-α che l’intervallo numerico (l1, l2) contenga la media della popolazione µ.

Detto questo, possiamo quindi dare la seguente definizione di intervallo di confidenza per la media:

Def. Sia (x1,x2,…,xn) un campione casuale osservato proveniente da una popolazione normale con media µ e varianza nota σ2 N(µ,σ2). Si chiama intervallo di confidenza per µ a un livello di confidenza 1-α l’intervallo seguente:

+−= −− n

σzx , n

σzx],[ 2/12/12 1 ααll .

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

In base a quanto detto, gli estremi dell’intervallo di confidenza sono:

Esempio 1: intervallo di confidenza per la media di una pop. normale con varianza nota

Una linea di produzione di una cartiera, in condizioni normali di funzionamento, produce fogli di carta la cui lunghezza è assimilabile a una v.c. avente deviazione

standard σσσσ =0,03 cm. In un campione casuale di 120 fogli la lunghezza media è risultata uguale a 29,4996 cm.

Vogliamo determinare un intervallo di confidenza al 95% per la media.

;49423,29120030961499629975,01 ==−=

,,-,n

zxl σ

.50497,29120

0,031,9629,4996975,02 =+=+=n

zxl σ

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 1 (continuazione)

Possiamo concludere che, verosimilmente,

Il grado di fiducia che attribuiamo a questa affermazione è quantificabile con il numero 0,95, che rappresenta la probabilità che avevamo, a priori (cioè prima che il campione fosse stato estratto), di osservare un campione che producesse un intervallo di confidenza valido, ossia che coprisse la media della popolazione. Nel caso in esame, il risultato ottenuto consente di affermare che il processo produttivo può dirsi “sotto controllo”, nel senso che i dati del campione non contrastano con l’idea che µµµµ sia uguale a 29,5.

.50494,2949423,29 << µ

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Spazio campionario e livello di confidenza

Nella diapositiva che segue sono riportati 20 campioni di ampiezza 10 estratti da una popolazione normale avente media 265 e varianza 182. Per ciascun campione è data la media aritmetica (terzultima colonna) e gli estremi (l1, l2) degli intervalli di confidenza al 95% per la media della popolazione. Le righe in rosso indicano i campioni a cui corrispondono intervalli di confidenza non validi, cioè che non contengono la media della popolazione.Se immaginiamo l’intero spazio campionario, il livello di confidenza (0,95 in questo caso) può essere interpretato come la frequenza relativa dei campioni a cui corrispondono intervalli validi.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Spazio campionario e livello di confidenza

Osservazioni Stima media

l1 l2

259,7 264,6 257,7 270,2 269,3 256,5 285,4 248,9 260,7 258 263,1 251,94 274,26267,2 277,5 253,7 249,6 286 242,8 270,1 268,9 301,0 230,6 264,72 253,56 275,88269,2 273,4 281,7 248,8 283,2 282,0 242,0 314,2 257,6 254,3 270,63 259,47 281,79274,5 265,7 270,1 239,3 237,7 269,8 264,8 247,8 265,3 266,8 260,18 249,02 271,34250,7 293,7 240,8 250,0 253,4 255,4 226,7 245,0 263,9 249,3 252,89 241,74 264,05272,2 275,5 249,5 227,2 284,5 261,6 294,0 257,5 244,8 279,8 264,66 253,51 275,82266,4 238,2 259,9 241,7 267,5 263,0 248,6 261,9 264,0 241,3 255,24 244,08 266,40265,2 295,4 255,9 259,1 297,7 251,6 263,3 252,9 267,7 251,8 266,05 254,90 277,21280,8 265,3 259,4 275,7 300,4 252,7 253,1 246,6 249,4 276,3 265,95 254,80 277,11255,0 269,5 245,3 253,9 283,4 271,3 249,8 281,9 283,9 257,4 265,13 253,98 276,29253,5 265,9 269,9 264,4 268,8 251,0 269,4 251,4 290,9 274,8 265,99 254,84 277,15275,5 234,9 250,3 289,7 269,9 253,6 250,1 277 210,2 230,4 254,16 243,00 265,31249,6 270,4 249,7 278,2 262,5 274,7 284,2 260,4 239,5 264,7 263,38 252,22 274,53247,1 249,8 262,7 279,6 281,1 262,7 279,6 247,8 281,5 275,2 266,71 255,55 277,87266,0 286,4 286 264,6 258,1 298,7 263,5 234,3 268,3 245,3 267,12 255,96 278,27306,0 267,5 286,5 277,4 267,8 280,6 299,2 272,0 251,6 280,9 278,95 267,79 290,11271,1 259,1 240,7 266,6 252,7 266,7 266,3 253,1 296,3 266,9 263,95 252,80 275,11279,6 279,7 289,7 247,9 264,4 294,6 248,6 261,2 253,8 250,0 266,94 255,78 278,09280,1 255,9 288,1 270,7 250,6 270,2 255,4 267,7 295,0 276,5 271,01 259,85 282,17266,2 300,9 288,1 274,3 235,8 256,6 261,4 285,4 280,7 285,9 273,53 262,37 284,69

… … … … … … … … … … … … …

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Ampiezza dell’intervallo di confidenza

L’ampiezza dell’intervallo di confidenza –differenza tra estremo superiore ed estremo inferiore- è pari al doppio del margine di errore:

.2 2/112 nzllA σ

α−=−=

A è funzione di α, di n e di σ :

• cresce al diminuire di α : infatti al diminuire di α, diminuendo α/2, aumenta z1-α/2 e quindi diminuisce A. Ciò significa che se vogliamo ridurre il rischio di errore, diminuendo α, dobbiamo rinunciare a una parte della precisione della stima, accettando un intervallo di confidenza più ampio e, quindi, più povero di informazione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

• decresce all’aumentare di n : è evidente direttamente dal punto di

vista algebrico dalla formula; ciò è anche intuitivo visto che campioni più ampi producono informazioni più precise sul parametro.

• cresce all’aumentare di σ : ciò è evidente algebricamente dalla

formula. Si osserva che -diversamente da α e n- sul livello di σ non possiamo intervenire.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Stima per intervallo della media di una popolazione

normale con varianza non nota

Purtroppo, quando si vuole costruire un intervallo di confidenza per la media di una popolazione Normale, raramente, nella realtà, si conosce la varianza della popolazione.

Sia pertanto X una variabile distribuita secondo una Normale con parametri µµµµ e σσσσ2 entrambi ignoti.

Il procedimento per determinare un intervallo di confidenza per µ, a partire da un campione casuale di dimensione n, è analogo a quello precedente. Abbiamo visto che, se la varianza è nota, ( )nσ µ;N~X 2 e che la variabile casuale standardizzata Z ~N(0,1). Tuttavia, quando σ2 è ignota occorre sostituirla con una sua stima.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Uno stimatore appropriato per σ2 è la varianza campionaria corretta:

∑=

−−

=n

1i

2i

2 )X(X1n

1S

Se nella standardizzazione di X , σ viene sostituito da 2SS= , si ottiene la variabile casuale:

nSµXTX

−=

che si distribuisce secondo una distribuzione t-Student con n-1 gradi di libertà (t-Student è una v.c. continua con funzione di densità campanulare simmetrica con “code pesanti”). Se con 2/1 α−t indichiamo il quantile di livello 1-α/2 della v.c. t di Student con n-1 gradi di libertà, possiamo scrivere:

.1tnSµXtP 2/12/1/2/2 αµµ αααα −=

+<<−=

−≤− −− n

StXn

StP

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Con le stesse argomentazioni effettuate nel caso precedente, possiamo scrivere:

.12/12/12/12/1 αµµµ αααα −=

+<<−=

+<<− −−−− n

StXn

StXPn

StXn

StP

Questa proposizione probabilistica permette quindi di definire l’intervallo di confidenza per la µ nel modo seguente: Def. Sia (x1,x2,…,xn) un campione casuale osservato proveniente da una popolazione normale con media µ e varianza σ2 incognite. Si chiama intervallo di confidenza per µ a un livello di confidenza 1-α l’intervallo seguente:

+−= −− n

stx , nstx],[ 2/12/12 1 ααll .

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Inoltre, in tal caso l’ampiezza dell’intervallo di confidenza è:

.2 2/112 nstllA α−=−=

Si nota che l’ampiezza dell’intervallo di confidenza non è fissa, ma dipende dalla deviazione standard campionaria s.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 2: intervallo di confidenza per la media di una popolazione normale con varianza non nota

Sono state rilevate le velocità di 11 automobili in una località in cui vige il limite di 50 km/h, ottenendo i risultati che seguono:

60, 66, 69, 65, 70, 72, 75, 65, 71, 72, 69

Vogliamo determinare un intervallo di confidenza al 99% per la velocità media delle auto nella località considerata.

La media e la deviazione standard del campione sono:

essendo 10 i gradi di libertà.

.2,4 ;5,68 == sx

,169,3005,02/01,02/ 995,02/1 ==⇒== − tt αα

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 2 (continuazione)

Estremi dell’intervallo di confidenza:

Possiamo, pertanto, affermare che la velocità media delle

auto in quella data località è compresa verosimilmente

nell’intervallo (64,5, 72,5). La credibilità

dell’affermazione è misurata dal coefficiente di

confidenza posto uguale a 0,99.

;5,6411

4,23,1695,86995,01 =−=−=nstxl

.5,7211

4,23,1695,86995,02 =+=+=nstxl

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Stima per intervallo della media nel caso di grandi campioni

Se la dimensione del campione è sufficientemente elevata, possiamo riferirci alla statistica

la cui distribuzione di probabilità è prossima alla normale standardizzata qualunque sia la popolazione generatrice. Ne segue che, procedendo passo per passo come nei casi precedenti, possiamo scrivere

,/ nS

µXZX−

=

,12/12/1 αµ αα −≈

+<<− −− n

SzXn

SzXP

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quindi:

Def. Sia (x1,x2,…,xn) un campione casuale osservatori dimensione sufficientemente grande proveniente da una popolazione qualsiasi con media µ e varianza σ2 incognite. Si chiama intervallo di confidenza per µ a un livello di confidenza 1-α l’intervallo seguente:

+−= −− n

szx , nszx],[ 2/12/12 1 ααll .

È un intervallo di confidenza che, rispetto ai due precedenti, ha una validità più ampia, richiedendo soltanto che l’ampiezza del campione sia sufficientemente grande e non la normalità della popolazione.

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 3: intervallo di confidenza per la media nel caso di grandi campioni

L’ufficio qualità di un’industria elettrica intende effettuare una stima per intervallo della durata di una partita di lampade di una data tipologia. In un campione casuale di ampiezza 85, la media e la deviazione standard assumono i valori:

Viene assunto un coefficiente di confidenza del 90%.

Poiché la dimensione del campione è sufficientemente grande, la normalità della popolazione non è un requisito necessario (peraltro, la nostra v.c. presenta, verosimilmente, un’asimmetria positiva).

.4,77 ;6,364 == sx

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 3 (continuazione)

Estremi dell’intervallo di confidenza:

Possiamo, dunque, affermare che la durata media delle

lampade in questione è compresa verosimilmente nell’inter-

vallo (350,79, 378,41). La credibilità dell’affermazione

è misurata dal coefficiente di confidenza 0,90.

;79,35085

77,41,6456,36495,01 =−=−=n

szxl

,645,105,02/10,02/ 95,02/1 ==⇒== − zz αα

.41,37885

77,41,6456,36495,02 =+=+=nszxl

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Quanto abbiamo visto per la media nel caso di grandi campioni può essere esteso alla caso di quella speciale media che è il parametro p della popolazione Bernoulliana, che chiameremo proporzione o frequenza relativa della popolazione. In questo caso, la statistica da utilizzare è

dove , stimatore di p, è la proporzione o la frequenza relativa nel campione.

Stima per intervallo di una proporzione nel caso di grandi campioni

,/])ˆ1(ˆ[

ˆˆ npp

ppZ p−

−=

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Poiché la v.c. si distribuisce in modo approssimato secondo una normale N(0, 1), procedendo come nei casi precedenti, possiamo scrivere

Da qui, con il consueto ragionamento, si perviene all’intervallo di confidenza per p, così delimitato:

Stima per intervallo di una proporzione nel caso di grandi campioni

.)ˆ1(ˆˆ e

)ˆ1(̂ˆ 2/122/11 nppzpl

nppzpl −

+=−

−= −− αα

.1)ˆ1(̂ˆ)ˆ1(ˆˆ 2/12/1 ααα −≈

−+<<

−− −− n

ppzppn

ppzpP

pZ ˆ

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 4: intervallo di confidenza per una proporzione nel caso di grandi campioni

In un’indagine sull’uso della posta elettronica in Italia, è stato trovato che il 15% degli adulti, che usano il computer a casa, in ufficio o a scuola, e non inviano o non ricevono e-mail. Qual è l’intervallo di confidenza al 95% per la proporzione degli italiani adulti che non inviano o non ricevono e-mail, sapendo che l’ampiezza del campione casuale osservato è 850?

.96,1z20,05/-12/-1 ;15,0ˆ 975,02/-1 ==⇒== zp αα

;126,0850

85,015,01,9615,0)ˆ1(ˆˆ 95,01 =×

−=−

−=n

ppzpl

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Esempio 4 (continuazione)

Cosicché si può ritenere, con un grado di fiducia del 95%,

che la proporzione di italiani adulti in questione si trovi

all’interno dell’intervallo (0,126, 0,174).

.174,0850

85,015,01,9615,0)ˆ1(ˆˆ 95,02 =

×+=

−+=

nppzpl

STATISTICA (canale B) - Scienze Politiche Luiss – Guido Carli – A.A. 2015-2016 Prof. Pierpaolo D’Urso ®

Cap. 18. Verifica delle ipotesi

- Introduzione: - Verifica di ipotesi sulla media di una popolazione normale con varianza nota - Verifica di ipotesi sulla media di una popolazione normale con varianza incognita - Verifica di ipotesi sulla media nel caso di grandi campioni