toetsende statistiek week 3. statistische betrouwbaarheid & significantie toetsing m, m & c

1

Toetsende Statistiek Week 3.

Statistische Betrouwbaarheid & Significantie Toetsing

M, M & C, Chapter 6, Introduction to Inference 6.1 Estimating with

Confidence 6.2 Tests of

Significance 6.3 Use and Abuse

of Tests

Francis Ysidro

Edgeworth

(1845-1926)

• Law of Diminishing Returns

• schreef Mathema- tical Psychics (1881)

• onwikkelde de significantie toets

2

Statistische Inferentie: Hoe trekken we conclusies uit data

rekening houdend met toevalseffecten?

toetsen:hypothesemet

schatten :hypothesezonder Inferentie

� Inferentie begint met schatten. De steekproef statistiek als

indicatie voor de parameter in de populatie (het model).

estimator (schatter): procedure om parameter te schatten estimate (schatting): resultaat van de procedure in bepaald geval estimation (schatting): het schatten (bezigheid, niet het resultaat)

� Een schatting zonder indicatie van de nauwkeurigheid heeft weinig

waarde. → Bepalen van statistische betrouwbaarheid (confidence).

NB Verschil met psychometrische betrouwbaarheid (reliability).

3

Steekproevenverdeling is het Basisinstrument

Stel we hebben testscores verzameld (σ = 90) in een steekproef met n = 400. De Centrale Limiet Stelling zegt dat x bij benadering

normaal verdeeld is: x ∼ N(µ, σ/√n)

• 5.4

20

90

400

90 ===xσ

• kans van 95% dat x niet meer dan 9 punten van µ af ligt. (Waarom ?)

• dus ook kans van 95% dat

µ niet verder dan 9 punten

van x af ligt

4

Betrouwbaarheidsintervallen: Algemene Redenering

Elk betrouwbaarheidsinterval bestaat uit 2 stukken:

puntschatting ± foutenmarge

• Het interval heeft de vorm (a, b)

waarbij a en b uit de data

worden berekend.

• Kansuitspraak zegt wat er zou

kunnen gebeuren bij herhaald

sampelen: in 95% (of 99%) van

de gevallen zal µ inderdaad

binnen de marges vallen

• Dit is betrouwbaarheidsnivo C.

5

Betrouwbaarheidsinterval voor Populatiegemiddelde met σ bekend

nzx

σ * ×±

standaard normale verdeling

Voorbeeld: Testscores hebben

een verdeling N(3, 0.8).

In nieuwe studie met n = 50

vinden we x = 2.36.

Wat is het 95% CI of 95%

betrouwbaarheidsinterval?

De oppervlakte C onder normale verdeling ligt in het interval [–z*, z*]. Opzoeken in Tabel A (of Tabel D, onderste rij, gelabeld ∞).

6

Het 95% CI of 95% betrouwbaarheidsinterval?

]58.2 ,14.2[

113.096.136.250

8.0 96.1 36.2

*

×±

×±

×±n

zxσ

7

Eigenschappen van Betrouwbaarheidsintervallen

Het interval is gebaseerd op de steekproevenverdeling van x en is exact wanneer de populatieverdeling normaal is. Anders is het interval bij benadering correct voor grote steekproeven.

• De steekproef moet een SRS zijn

• x is gevoelig voor uitbijters, dus interval ook → checken!

• foutenmarge houdt alleen rekening met random trekkingsfouten

Als data niet normaalverdeeld zijn en de steekproef klein is, kunnen we toch een betrouwbaarheids-interval bepalen door een steekproevenverdeling te simuleren.

8

Bootstrappen (optrekken aan ‘straps’, MM&C: 368)

We gaan er dan van uit dat populatieverdeling gelijk is aan verdeling in steekproef.

a) We trekken een groot aantal

nieuwe steekproeven en doen

dit met teruglegging.

b) We bepalen steeds x en

sorteren deze waarden van x

Het 95% bootstrap CI omvat alle waarden van x behalve de 2.5%

grootste en de 2.5% kleinste waarden.

9

Wat te doen als het Interval te breed is?

• Gebruik lager betrouwbaarheidsnivo (kleinere C → kleinere z*)

• Vergroot de steekproef (grotere n)

• Verklein σ (Hoe?)

Omgekeerde toepassing: Hoe kiezen we de

Steekproefgrootte?

Voor de foutenmarge m geldt:

2*

*

*

×=→×=→×=m

zn

m

zn

nzm

σσσ

Voorbeeld: Hoeveel observaties hebben we nodig om iemands gemiddelde reactietijd schatten met marge van 10ms en C = 95%?

[σ reactietijd = 25ms]

10

Hoeveel observaties hebben we nodig?

2501.24

9.410

2596.1

**

22

2

=→=

=

×=

×=→×=

nn

n

m

zn

nzm

σσ

11

Let op de interpretatie van een CI

Een random steekproef van 85

studenten aan de Chicago City High

School neemt deel aan een cursus

om hun SAT scores te verbeteren.

Gebaseerd op resultaten van deze

studenten wordt het 90% CI voor

de gemiddelde verbetering in SAT

scores berekend: [72.3; 91.4].

De correcte interpretatie van dit

interval is...

�� dat de kans 90% is dat de ware

gemiddelde verbetering tussen de 72.3 en

91.4 punten ligt.

�� dat 90% van de studenten in de

steekproef hun scores tussen de 72.3 en

91.4 punten verbeterden

�� dat 90% van de studenten in de populatie

hun scores tussen de 72.3 en 91.4 punten

zouden verbeteren

�� Geen van bovenstaande alternatieven is

correct

12

Statistisch Toetsen: Weerleggen van Toevalsfluctuatie als Oorzaak

Het resultaat dat in een steekproef gevonden wordt moet bestand

zijn tegen de tegenwerping: "Dit resultaat is het gevolg van toeval!".

De tegenwerping heet nul-hypothese. In de statistiek is een

hypothese een uitspraak over parameters in populatie of model.

A. Van onderzoekshypothese naar H0 en Ha (of H1)

B. Toetsingsgrootheid & steekproevenverdeling

C. Verwerpingsgebied & acceptatiegebied

D. P-waarde & statistische significantie

Ingrediënten Statistische toets

13

Ingrediënt A: H0 en Ha (of H1)

H0: Nul Hypothese Ha: Alternatieve Hypothese Betreft gespecificeerde parameterwaarde

• Uitspraak waarvan we de juistheid willen weerleggen.

• "geen effect” of "geen verschil” hypothese.

Kan 1-zijdig of 2-zijdig zijn.

• Uitspraak waarop we terugvallen als H0 niet houdbaar blijkt.

• De interessante hypothese, onderzoeksvraag.

Voorbeelden

• groep waarvan we bijzondere verbale begaafdheid verwachten

• twee groepen die random aan treatment/control zijn toegewezen

• twee variabelen waartussen men een verband veronderstelt

14

1-zijdige of 2-zijdige Alternatieve Hypothese?

De kennis en verwachting vooraf over het steekproefresultaat bepaalt de keuze voor 1- of 2-zijdige Alternatieve hypothese.

Stel een test met µ = 10. Dit wordt nu opnieuw onderzocht. De kennis / verwachting vooraf is beperkt tot:

steekproefresultaat wijst op afwijkende populatiewaarde → gebruik 2-zijdige hypothese.

H0: µ = 10 Ha: µ ≠ 10

De kennis / verwachting vooraf bevat een richting bijv.: steekproefresultaat wijst op grotere populatiewaarde → gebruik 1-zijdige hypothese.

H0: µ = 10 Ha: µ > 10

15

Ingrediënt B: Toetsingsgrootheid met Steekproevenverdeling

Een toetsingsgrootheid (test statistic) meet de verenigbaarheid tussen de steekproefstatistiek en de populatieparameter.

Bijv.: Om het verschil tussen x en µ te toetsen gebruiken we als toetsingsgrootheid het gestandaardiseerde verschil:

z =x − µσ

n

Als H0 waar is, dan ligt x dicht bij gespecificeerde µ.

Als Ha waar is, dan ligt x ver van gespecificeerde µ af.

Om H0 te kunnen verwerpen moeten we van de toetsstatistiek de steekproevenverdeling kennen als H0 waar is.

Bijv. Als H0: µ = 100 en X is normaal verdeeld, dan volgt z de

standaard normale verdeling N(0, 1) (waarom?).

16

Ingrediënt C: Verwerpingsgebied en Handhavingsgebied

In de eenvoudigste vorm bestaat een significantie toets uit het

verifiëren waar de steekproefwaarde van de toetsingsgrootheid (test

statistic) valt, met een vooraf gekozen verwerpingskans α (alfa).

1-zijdige toets, α = 5% 2-zijdige toets, α = 5%

z

-4 -3 -2 -1 0 1 2 3 4

z

-4 -3 -2 -1 0 1 2 3 4

Handhaaf Handhaaf H0 Verwerp H0 Verwerp H0 Handhaaf H0 Verwerp H0

Voor gegeven α is 1-zijdig toetsen altijd te prefereren (indien

mogelijk) boven 2-zijdig toetsen (waarom?).

17

Ingrediënt C: Verwerpingsgebied en Handhavingsgebied 2

-4 -3 -2 -1 0 1 2 3 4

Handhaaf H0 Verwerp H0

Handhavingsgebied: die waarden op de x-as uit een steekproeven-verdeling, waarvoor men H0 handhaaft.

Verwerpingsgebied: die waarden op de x-as uit een steekproeven-verdeling, waarvoor men H0 verwerpt.

De grens tussen beide gebieden wordt bepaald door α en de

bijbehorende waarde op de x-as (bijv. *x , te bepalen via z*).

Hoe groot eenzijdig tweezijdig

kies je α? α = 5% z* = 1.645 z* = 1.960

en dus z*? α = 1% z* = 2.326 z* = 2.576

18

Ingrediënt D : P-waarde en Statistische Significantie

De P-waarde is de waarschijnlijkheid onder de H0 verdeling dat de

toetsingsgrootheid (Z) een waarde zou aannemen, even extreem als

of extremer dan de uit de steekproef berekende waarde (bijv z=1.4).

NB Hoe kleiner de P-waarde, des te sterker de evidentie tegen H0.

Als P-waarde < α, dan spreken we van significantie op nivo α. Met

kennis van de P-waarde is toetsen op ieder niveau mogelijk.

1-zijdig toetsen

z

-3 -2 -1 0 1 2 3

z=1.4, P=0.08

2-zijdig toetsen

z

-3 -2 -1 0 1 2 3

z=1.4, P=0.08z=-1.4, P=0.08

19

Het Toetsen van een Gemiddelde: de z-toets

Deze toets is in voorafgaande als voorbeeld gebruikt. De toets is van

toepassing op alle kwantitatieve variabelen met bekende σ.

Bij een service-afdeling was de tijd om te reageren op een klacht normaal verdeeld met een gemiddelde van 2 uur en een standaarddeviatie van 0.25 uur. Men meent dat de tijd tegenwoordig gemiddeld wat langer is. Een random sample van 25 gevallen geeft een gemiddelde tijd van 2.10 uur. Is dit wel of niet in tegenspraak met de eerdere situatie (2 uur)? Wat is de P-waarde van de toets.

Hypothesen?

Waarde toetsingsgrootheid, α, verwerpingsgebied?

P-waarde?

Conclusie

20

Hypothesen?

H0: µ = 2

Ha: µ > 2

Waarde toetsingsgrootheid, verwerpingsgebied?

2

05.0

21.2

2525.0

21.2 =−=−=−=n

xz σ

µmet α = 5%

P-waarde?

P(Z > 2)=0.0228

Conclusie

Verwerp H0

21

Relatie tussen

Significantie Toets en Betrouwbaarheidsinterval

Een 2-zijdige significantie toets op nivo α verwerpt de nulhypothese

precies wanneer µ0 buiten het betrouwbaarheidsinterval 1-α valt.

Voorbeeld: zie sheet 5.

Gegeven:

populatie N(3, 0.8).

steekproef n = 50, x = 2.36. 95% CI = [2.14, 2.58].

Hoe hangen het 95%CI en de 2-zijdige significantie toets met elkaar samen?

22

a)

95% CI = [2.14, 2.58] en µ = 3. Conclusie?

b)

H0: µ = 3

Ha: µ ≠ 3

α=5% → z*=1.960

66.5

113.0

64.

508.0

336.2 −==−=−=n

xz σ

µ

in één figuur:

x

2.00 2.25 2.50 2.75 3.00 3.25 3.50

95%CI

23

Gebruik & Misbruik van Toetsen: Gedragsregels voor Evaluatie

1. Kiezen van het significantie nivo: er is geen scherpe grens tussen significant en niet significant, alleen maar sterkere evidentie tegen H0 naarmate de P-waarde kleiner is. Dus is P-waarde informatiever.

2. Significante effecten kunnen heel klein zijn. Denk aan de rol van n. Bijvoorbeeld een significant verschil in IQ van 1 punt.

3. Gebrek aan significantie betekent niet dat H0 waar is of Ha fout.

4. Zonder een vorm van randomisatie in het onderzoeksontwerp is een “significant” resultaat niet te interpreteren.

5. Een heleboel toetsen doen op dezelfde steekproef geeft altijd wel enig significant verschil. Hier zijn speciale maatregelen nodig (zie volgende sheet).

6. Geen exploratie en confirmatie op dezelfde data.

25

Voorbeeld: Verifiëren of een Steekproef Representatief is

Vaak moet men aannemelijk maken dat getrokken steekproef

inderdaad representatief is. Dit kan men doen door op een aantal

belangrijke eigenschappen (leeftijd, opleidingsniveau, en diverse

testscores) de gemiddelden te toetsen.

De Bonferroni procedure beschermt tegen te veel significante

resultaten: als k toetsen gezamenlijk α moeten hebben, wordt bij

elke afzondelijke toets α/k gebruikt. Hoe valt dit bij volgende 6 uit?

α = 0.05 → α/6 = 0.0083

toets-1 toets-2 toets-3 toets-4 toets-5 toets-6

P-waarde 0.476 0.032 0.241 0.008 0.010 0.001

α = 5% apart SIG SIG SIG SIG

Bonferroni SIG SIG

26

Tot Besluit

• SCHATTEN EN TOETSEN: Er zijn twee typen inferentie:

o voeg een foutenmarge toe aan een steekproefstatistiek,

o kijk of een toetsingsgrootheid in een staart van de steekproevenverdeling van H0 ligt (of niet)

• Bij toetsing gaat het om kwantificatie van de evidentie vóór of tegen de H0

• Met een betrouwbaarheidsinterval zijn alle mogelijke H0’s (tweezijdig) te toetsen

Stof Volgende Week: Moore, McCabe & Craig, hoofdstuk 7

Inference for Distributions

7.1 Inference for the Mean of a Population

7.2 Comparing Two Means

toetsende statistiek week 3. statistische betrouwbaarheid & significantie toetsing m, m & c

Documents