toetsende statistiek week 3. statistische betrouwbaarheid & significantie toetsing m, m & c
TRANSCRIPT
1
Toetsende Statistiek Week 3.
Statistische Betrouwbaarheid & Significantie Toetsing
M, M & C, Chapter 6, Introduction to Inference 6.1 Estimating with
Confidence 6.2 Tests of
Significance 6.3 Use and Abuse
of Tests
Francis Ysidro
Edgeworth
(1845-1926)
• Law of Diminishing Returns
• schreef Mathema- tical Psychics (1881)
• onwikkelde de significantie toets
2
Statistische Inferentie: Hoe trekken we conclusies uit data
rekening houdend met toevalseffecten?
toetsen:hypothesemet
schatten :hypothesezonder Inferentie
� Inferentie begint met schatten. De steekproef statistiek als
indicatie voor de parameter in de populatie (het model).
estimator (schatter): procedure om parameter te schatten estimate (schatting): resultaat van de procedure in bepaald geval estimation (schatting): het schatten (bezigheid, niet het resultaat)
� Een schatting zonder indicatie van de nauwkeurigheid heeft weinig
waarde. → Bepalen van statistische betrouwbaarheid (confidence).
NB Verschil met psychometrische betrouwbaarheid (reliability).
3
Steekproevenverdeling is het Basisinstrument
Stel we hebben testscores verzameld (σ = 90) in een steekproef met n = 400. De Centrale Limiet Stelling zegt dat x bij benadering
normaal verdeeld is: x ∼ N(µ, σ/√n)
• 5.4
20
90
400
90 ===xσ
• kans van 95% dat x niet meer dan 9 punten van µ af ligt. (Waarom ?)
• dus ook kans van 95% dat
µ niet verder dan 9 punten
van x af ligt
4
Betrouwbaarheidsintervallen: Algemene Redenering
Elk betrouwbaarheidsinterval bestaat uit 2 stukken:
puntschatting ± foutenmarge
• Het interval heeft de vorm (a, b)
waarbij a en b uit de data
worden berekend.
• Kansuitspraak zegt wat er zou
kunnen gebeuren bij herhaald
sampelen: in 95% (of 99%) van
de gevallen zal µ inderdaad
binnen de marges vallen
• Dit is betrouwbaarheidsnivo C.
5
Betrouwbaarheidsinterval voor Populatiegemiddelde met σ bekend
nzx
σ * ×±
standaard normale verdeling
Voorbeeld: Testscores hebben
een verdeling N(3, 0.8).
In nieuwe studie met n = 50
vinden we x = 2.36.
Wat is het 95% CI of 95%
betrouwbaarheidsinterval?
De oppervlakte C onder normale verdeling ligt in het interval [–z*, z*]. Opzoeken in Tabel A (of Tabel D, onderste rij, gelabeld ∞).
6
Het 95% CI of 95% betrouwbaarheidsinterval?
]58.2 ,14.2[
113.096.136.250
8.0 96.1 36.2
*
×±
×±
×±n
zxσ
7
Eigenschappen van Betrouwbaarheidsintervallen
Het interval is gebaseerd op de steekproevenverdeling van x en is exact wanneer de populatieverdeling normaal is. Anders is het interval bij benadering correct voor grote steekproeven.
• De steekproef moet een SRS zijn
• x is gevoelig voor uitbijters, dus interval ook → checken!
• foutenmarge houdt alleen rekening met random trekkingsfouten
Als data niet normaalverdeeld zijn en de steekproef klein is, kunnen we toch een betrouwbaarheids-interval bepalen door een steekproevenverdeling te simuleren.
8
Bootstrappen (optrekken aan ‘straps’, MM&C: 368)
We gaan er dan van uit dat populatieverdeling gelijk is aan verdeling in steekproef.
a) We trekken een groot aantal
nieuwe steekproeven en doen
dit met teruglegging.
b) We bepalen steeds x en
sorteren deze waarden van x
Het 95% bootstrap CI omvat alle waarden van x behalve de 2.5%
grootste en de 2.5% kleinste waarden.
9
Wat te doen als het Interval te breed is?
• Gebruik lager betrouwbaarheidsnivo (kleinere C → kleinere z*)
• Vergroot de steekproef (grotere n)
• Verklein σ (Hoe?)
Omgekeerde toepassing: Hoe kiezen we de
Steekproefgrootte?
Voor de foutenmarge m geldt:
2*
*
*
×=→×=→×=m
zn
m
zn
nzm
σσσ
Voorbeeld: Hoeveel observaties hebben we nodig om iemands gemiddelde reactietijd schatten met marge van 10ms en C = 95%?
[σ reactietijd = 25ms]
10
Hoeveel observaties hebben we nodig?
2501.24
9.410
2596.1
**
22
2
=→=
=
×=
×=→×=
nn
n
m
zn
nzm
σσ
11
Let op de interpretatie van een CI
Een random steekproef van 85
studenten aan de Chicago City High
School neemt deel aan een cursus
om hun SAT scores te verbeteren.
Gebaseerd op resultaten van deze
studenten wordt het 90% CI voor
de gemiddelde verbetering in SAT
scores berekend: [72.3; 91.4].
De correcte interpretatie van dit
interval is...
���� dat de kans 90% is dat de ware
gemiddelde verbetering tussen de 72.3 en
91.4 punten ligt.
���� dat 90% van de studenten in de
steekproef hun scores tussen de 72.3 en
91.4 punten verbeterden
���� dat 90% van de studenten in de populatie
hun scores tussen de 72.3 en 91.4 punten
zouden verbeteren
���� Geen van bovenstaande alternatieven is
correct
12
Statistisch Toetsen: Weerleggen van Toevalsfluctuatie als Oorzaak
Het resultaat dat in een steekproef gevonden wordt moet bestand
zijn tegen de tegenwerping: "Dit resultaat is het gevolg van toeval!".
De tegenwerping heet nul-hypothese. In de statistiek is een
hypothese een uitspraak over parameters in populatie of model.
A. Van onderzoekshypothese naar H0 en Ha (of H1)
B. Toetsingsgrootheid & steekproevenverdeling
C. Verwerpingsgebied & acceptatiegebied
D. P-waarde & statistische significantie
Ingrediënten Statistische toets
13
Ingrediënt A: H0 en Ha (of H1)
H0: Nul Hypothese Ha: Alternatieve Hypothese Betreft gespecificeerde parameterwaarde
• Uitspraak waarvan we de juistheid willen weerleggen.
• "geen effect” of "geen verschil” hypothese.
Kan 1-zijdig of 2-zijdig zijn.
• Uitspraak waarop we terugvallen als H0 niet houdbaar blijkt.
• De interessante hypothese, onderzoeksvraag.
Voorbeelden
• groep waarvan we bijzondere verbale begaafdheid verwachten
• twee groepen die random aan treatment/control zijn toegewezen
• twee variabelen waartussen men een verband veronderstelt
14
1-zijdige of 2-zijdige Alternatieve Hypothese?
De kennis en verwachting vooraf over het steekproefresultaat bepaalt de keuze voor 1- of 2-zijdige Alternatieve hypothese.
Stel een test met µ = 10. Dit wordt nu opnieuw onderzocht. De kennis / verwachting vooraf is beperkt tot:
steekproefresultaat wijst op afwijkende populatiewaarde → gebruik 2-zijdige hypothese.
H0: µ = 10 Ha: µ ≠ 10
De kennis / verwachting vooraf bevat een richting bijv.: steekproefresultaat wijst op grotere populatiewaarde → gebruik 1-zijdige hypothese.
H0: µ = 10 Ha: µ > 10
15
Ingrediënt B: Toetsingsgrootheid met Steekproevenverdeling
Een toetsingsgrootheid (test statistic) meet de verenigbaarheid tussen de steekproefstatistiek en de populatieparameter.
Bijv.: Om het verschil tussen x en µ te toetsen gebruiken we als toetsingsgrootheid het gestandaardiseerde verschil:
z =x − µσ
n
Als H0 waar is, dan ligt x dicht bij gespecificeerde µ.
Als Ha waar is, dan ligt x ver van gespecificeerde µ af.
Om H0 te kunnen verwerpen moeten we van de toetsstatistiek de steekproevenverdeling kennen als H0 waar is.
Bijv. Als H0: µ = 100 en X is normaal verdeeld, dan volgt z de
standaard normale verdeling N(0, 1) (waarom?).
16
Ingrediënt C: Verwerpingsgebied en Handhavingsgebied
In de eenvoudigste vorm bestaat een significantie toets uit het
verifiëren waar de steekproefwaarde van de toetsingsgrootheid (test
statistic) valt, met een vooraf gekozen verwerpingskans α (alfa).
1-zijdige toets, α = 5% 2-zijdige toets, α = 5%
z
-4 -3 -2 -1 0 1 2 3 4
z
-4 -3 -2 -1 0 1 2 3 4
Handhaaf Handhaaf H0 Verwerp H0 Verwerp H0 Handhaaf H0 Verwerp H0
Voor gegeven α is 1-zijdig toetsen altijd te prefereren (indien
mogelijk) boven 2-zijdig toetsen (waarom?).
17
Ingrediënt C: Verwerpingsgebied en Handhavingsgebied 2
-4 -3 -2 -1 0 1 2 3 4
Handhaaf H0 Verwerp H0
Handhavingsgebied: die waarden op de x-as uit een steekproeven-verdeling, waarvoor men H0 handhaaft.
Verwerpingsgebied: die waarden op de x-as uit een steekproeven-verdeling, waarvoor men H0 verwerpt.
De grens tussen beide gebieden wordt bepaald door α en de
bijbehorende waarde op de x-as (bijv. *x , te bepalen via z*).
Hoe groot eenzijdig tweezijdig
kies je α? α = 5% z* = 1.645 z* = 1.960
en dus z*? α = 1% z* = 2.326 z* = 2.576
18
Ingrediënt D : P-waarde en Statistische Significantie
De P-waarde is de waarschijnlijkheid onder de H0 verdeling dat de
toetsingsgrootheid (Z) een waarde zou aannemen, even extreem als
of extremer dan de uit de steekproef berekende waarde (bijv z=1.4).
NB Hoe kleiner de P-waarde, des te sterker de evidentie tegen H0.
Als P-waarde < α, dan spreken we van significantie op nivo α. Met
kennis van de P-waarde is toetsen op ieder niveau mogelijk.
1-zijdig toetsen
z
-3 -2 -1 0 1 2 3
z=1.4, P=0.08
2-zijdig toetsen
z
-3 -2 -1 0 1 2 3
z=1.4, P=0.08z=-1.4, P=0.08
19
Het Toetsen van een Gemiddelde: de z-toets
Deze toets is in voorafgaande als voorbeeld gebruikt. De toets is van
toepassing op alle kwantitatieve variabelen met bekende σ.
Bij een service-afdeling was de tijd om te reageren op een klacht normaal verdeeld met een gemiddelde van 2 uur en een standaarddeviatie van 0.25 uur. Men meent dat de tijd tegenwoordig gemiddeld wat langer is. Een random sample van 25 gevallen geeft een gemiddelde tijd van 2.10 uur. Is dit wel of niet in tegenspraak met de eerdere situatie (2 uur)? Wat is de P-waarde van de toets.
Hypothesen?
Waarde toetsingsgrootheid, α, verwerpingsgebied?
P-waarde?
Conclusie
20
Hypothesen?
H0: µ = 2
Ha: µ > 2
Waarde toetsingsgrootheid, verwerpingsgebied?
2
05.0
21.2
2525.0
21.2 =−=−=−=n
xz σ
µmet α = 5%
P-waarde?
P(Z > 2)=0.0228
Conclusie
Verwerp H0
21
Relatie tussen
Significantie Toets en Betrouwbaarheidsinterval
Een 2-zijdige significantie toets op nivo α verwerpt de nulhypothese
precies wanneer µ0 buiten het betrouwbaarheidsinterval 1-α valt.
Voorbeeld: zie sheet 5.
Gegeven:
populatie N(3, 0.8).
steekproef n = 50, x = 2.36. 95% CI = [2.14, 2.58].
Hoe hangen het 95%CI en de 2-zijdige significantie toets met elkaar samen?
22
a)
95% CI = [2.14, 2.58] en µ = 3. Conclusie?
b)
H0: µ = 3
Ha: µ ≠ 3
α=5% → z*=1.960
66.5
113.0
64.
508.0
336.2 −==−=−=n
xz σ
µ
in één figuur:
x
2.00 2.25 2.50 2.75 3.00 3.25 3.50
95%CI
23
Gebruik & Misbruik van Toetsen: Gedragsregels voor Evaluatie
1. Kiezen van het significantie nivo: er is geen scherpe grens tussen significant en niet significant, alleen maar sterkere evidentie tegen H0 naarmate de P-waarde kleiner is. Dus is P-waarde informatiever.
2. Significante effecten kunnen heel klein zijn. Denk aan de rol van n. Bijvoorbeeld een significant verschil in IQ van 1 punt.
3. Gebrek aan significantie betekent niet dat H0 waar is of Ha fout.
4. Zonder een vorm van randomisatie in het onderzoeksontwerp is een “significant” resultaat niet te interpreteren.
5. Een heleboel toetsen doen op dezelfde steekproef geeft altijd wel enig significant verschil. Hier zijn speciale maatregelen nodig (zie volgende sheet).
6. Geen exploratie en confirmatie op dezelfde data.
25
Voorbeeld: Verifiëren of een Steekproef Representatief is
Vaak moet men aannemelijk maken dat getrokken steekproef
inderdaad representatief is. Dit kan men doen door op een aantal
belangrijke eigenschappen (leeftijd, opleidingsniveau, en diverse
testscores) de gemiddelden te toetsen.
De Bonferroni procedure beschermt tegen te veel significante
resultaten: als k toetsen gezamenlijk α moeten hebben, wordt bij
elke afzondelijke toets α/k gebruikt. Hoe valt dit bij volgende 6 uit?
α = 0.05 → α/6 = 0.0083
toets-1 toets-2 toets-3 toets-4 toets-5 toets-6
P-waarde 0.476 0.032 0.241 0.008 0.010 0.001
α = 5% apart SIG SIG SIG SIG
Bonferroni SIG SIG
26
Tot Besluit
• SCHATTEN EN TOETSEN: Er zijn twee typen inferentie:
o voeg een foutenmarge toe aan een steekproefstatistiek,
o kijk of een toetsingsgrootheid in een staart van de steekproevenverdeling van H0 ligt (of niet)
• Bij toetsing gaat het om kwantificatie van de evidentie vóór of tegen de H0
• Met een betrouwbaarheidsinterval zijn alle mogelijke H0’s (tweezijdig) te toetsen
Stof Volgende Week: Moore, McCabe & Craig, hoofdstuk 7
Inference for Distributions
7.1 Inference for the Mean of a Population
7.2 Comparing Two Means