curs indicatori statistici+gauss-laplace biostatistica

24
BIOSTATISTICA CURS Tipuri de variabile, indicatori statistici, distributia Gauss-Laplace, interval de confidență Conf.dr. Lucian Boiculese

Upload: mihaela-acasandrei

Post on 14-Nov-2015

66 views

Category:

Documents


8 download

DESCRIPTION

vxgfhgg

TRANSCRIPT

  • BIOSTATISTICA

    CURS

    Tipuri de variabile, indicatori statistici, distributia

    Gauss-Laplace, interval de confiden

    Conf.dr. Lucian Boiculese

  • Eritrocite

    F: 4.200.000-5.000.000 /mm 3

    B: 4.500.000-5.500.000 /mm 3

    Copil la nastere: 4.500.000-6.000.000

    /mm 3

    Leucocite 5.000-8.000 /mm 3

    Granulocite

    Neutrofile Segmentate 2.500-5.500 /mm 3

    Nesegmentate 50-250 /mm 3

    Euzinofile 100-200 /mm 3

    Bazofile 20-40 /mm 3

    Limfocite 1.200-2.400 /mm 3

    Monocite 300-640 /mm 3

    Trombocite 150.000-300.000 /mm 3

    VARIABILIATATEA DATELOR MEDICALE

    Glicemia (a jeun) normala: 70-110 mg/dl

  • Statistica motivaie Statistica analiza probabilitii: 1 variaia intrinsec (imanent) a datelor, 2 studiul eantionului => concluzii aplicate pe ntreaga populaie.

    Tipuri de date Datele culese experimental urmeaz a fi analizate conform metodelor statistice. Datele se culeg n general dintr-o populaie statistic sau colectivitate statistic. Elementele populaiei sunt uniti statistice sau indivizi. La un anumit moment ne intereseaz o trstur comun a indivizilor, numit variabil sau caracteristic. Variabilele pot fi cantitative (i se exprim numeric prin valoarea msurat sau dedus experimental) sau calitative (categoriale,atributive). Acestea din urm se pot exprima prin aprecieri ca stadiul1, stadiul2, de exemplu i nu li se pot echivala valori numerice (n sens propriu valorile numerice pot fi ordonate).

    Variabilele cantitative pot fi mprite n continuare n variabile discrete i continue. Un exemplu de variabil discret ar fi numrul de nou nscui pe zi la o anumit maternitate. Un exemplu de variabil continu este nlimea persoanelor. n general informaiile ce se culeg sunt numai de la o parte din indivizi, nu din ntreaga populaie. Aceasta este o cercetare selectiv. Aceti indivizi formeaz eantionul sau selecia de lucru.

  • SCALE DE MSUR

    Pentru a msura o variabil de tip categorial se folosesc scale nominale. Acestea vor defini grupurile sau categoriile existente prin asignarea unor nume. Nefiind informaie de tip cantitativ este imposibil de realizat ordonarea acestora. De interes practic i posibil de studiat sunt frecvenele de apariie a categoriilor definite (anticipm aici i menionm c modul sau indicatorul statistic valoare modal poate prezenta interes n acest caz). Exemple: afilierea politic, preferina religioas, culoarea ochilor, starea civil etc.

    Datele sau variabilele de tip cantitativ se caracterizeaz prin variaie n magnitudine, de la element la element. Astfel, acestea pot fi ordonate, nct relaii de genul mai mic sau mai mare au sens n acest context. Dup fineea pasului de evaluare a relaiei mai mare sau mai mic, putem mpri variabilele cantitative n discrete i continue. O variabil discret poate lua valori numrabile sau izolate, cum ar fi: numrul de note de 10 la examenul de admitere, sau numrul de nou nscui ntr-o zi la o maternitate. O variabil de tip continuu poate lua orice valoare dintr-un interval definit. Spre exemplu temperatura, valoarea presiunii arteriale, sau nlimea unei persoane au valori de tip continuu. Evident, precizia de msurare depinde de utilitatea informaiei, astfel nct putem afirma c valoarea msurat cu o exactitate de o zecimal este suficient n exprimarea temperaturii, folosind scara Celsius de msur.

  • Variabilele de tip cantitativ folosesc trei scale (scri) de msur: ordinal, interval i raport.

    Scala de tip ordinal prezint n plus fa de scala nominal caracteristica de ordonare a claselor de grupare a datelor. Cu toate acestea, este greu sau imposibil de specificat dimensiunea

    distanei sau diferenei dintre clase. De exemplu, este imposibil de cuantificat diferena dintre clasele (depinde de cel ce apreciaz): foarte frumos, frumos, acceptabil, inacceptabil. Dar logic ordinea lor este clar. Scala de tip interval conine trsturile unei scale ordinale i n plus, diferenele dintre clasele scalei pot fi specificate. O unitate a intervalului scalei are aceeai interpretare, indiferent de clasa creia i aparine. Cu toate acestea, raportul este imposibil de interpretat. Nu exist punctul de referin 0 n cadrul acestei scale de msur. Acesta a fost ales doar arbitrar, dup o anumit logic empiric. De exemplu, n scala Celsius de temperatur, nivelul de 0 a fost definit empiric, ca punctul de nghe al apei pure. i scala Fahrenheit de msur este un bun exemplu. Dac temperaturile msurate sunt 300C, respectiv 600C nu putem afirma c temperatura de 60 este dublul celei de 30. Raportul nu poate fi corect interpretat. Iat, 300C nseamn 860F, iar 600C nseamn 1400F (F=C*9/5+32, Kelvin = Celsius + 273.15). Raportul de nu se menine i n scara Fahrenheit, cu toate c temperaturile sunt aceleai. Scala de tip raport are n plus fa de scala interval, definirea concret a originii sistemului de msur, astfel nct raportul are sens i se poate interpreta. Scara Kelvin este un exemplu corect n acest sens.

  • Scala

    nominal

    Scala

    ordinal Scala

    interval

    Scala

    raport

    Interpretarea este n sensul urmtor: oricnd o variabil ce poate fi msurat pe o scal ordinal poate fi tratat ca o variabil de scal nominal, dar o parte din informaie va fi pierdut i astfel avem anse s fim deficitari n concluziile obinute.

    Dup legtura existent ntre variabile, acestea se mpart n dependente, respectiv independente.

    Variabile independente (sau factori) sunt de obicei n cadrul experimentului manipulate de

    cercettor. Prin modificarea valorilor acestora, ca urmare a legturilor existente, se modific i variabilele dependente .

    Y = f(X) , Y este variabila dependent, X variabila independent (sau factor).

  • Numrul indivizilor ce aparin unui anumit interval (sau clas) formeaz frecvena absolut notat a1, a2, am (m numrul de clase ce este de obicei mai mic ca n numrul de indivizi). Avem relaia: , unde :

    aj frecvena absolut a clasei j. m numrul de clase. n numrul de indivizi. Frecvena relativ fi se obine raportnd frecvena absolut aj la numrul de indivizi.

    i avem relaia:

    Frecvena cumulat este numrul de indivizi cumulai pn la o anumit valoare a variabilei de studiu.

    La rndul ei frecvena cumulat poate fi absolut i relativ. Pentru frecvenele cumulate se folosesc de obicei la notaie literele mari.

    FRECVENE

    m

    j

    naj1

    n

    ajfj 1

    11

    n

    n

    n

    ajfj

    m

    j

    m

    j

    Pentru eantioane mari frecvena relativ tinde ctre probabilitatea evenimentului studiat LEGEA NUMERELOR MARI.

    Reprezentarea datelor statistice Grupa de vrst

    Frecvena absolut (ai)

    Frecvena relativ (fi)

    Frecvena absolut cumulat (Ai)

    Frecvena relativ cumulat (Fi)

    0 - 4 15 0.1163 15 0.1163

    5 - 9 17 0.1318 32 0.2481

    10 - 14 20 0.1550 52 0.4031

    15 - 19 25 0.1938 77 0.5969

    20 - 24 19 0.1473 96 0.7442

    25 - 29 18 0.1395 114 0.8837

    30 - 34 15 0.1163 129 1

    Total 129 1

  • HISTOGRAMA

    Histograma - Este reprezentarea sub form grafic folosind dreptunghiuri a frecvenelor relative.

    Putem reprezenta grafic frecvenele absolute, relative i cumulate.

    Forma graficului ce reprezint frecvena absolut seaman cu cel ce reprezint frecvena relativ ?

    1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

    Densitatea de probabilitate f(a)

    a1

    Element de Suprafaa total are dimensiunea 1

    D a

    a

    Eantionul este finit ca dimensiune i poate exprima o variabil cu domeniu finit. Aceasta este apoi interpretat folosind curba Gauss-Laplace ce se defnete pe un domeniu infinit, cum este posibil acest lucru ?

    0%

    5%

    10%

    15%

    20%

    0 -

    4

    5 -

    9

    10 -

    14

    15 -

    19

    20 -

    24

    25 -

    29

    30 -

    34

    11.63% 13.18%

    15.50%

    19.38%

    14.73% 13.95%

    11.63%

    Nu

    mr

    pac

    ien

    i

    Grupa de vrst (ani)

    Distribuia pacienilor dup vrst

    0%

    20%

    40%

    60%

    80%

    100%

    0 -

    4

    5 -

    9

    10 -

    14

    15 -

    19

    20 -

    24

    25 -

    29

    30 -

    34

    11.6

    3%

    24.8

    1%

    40.3

    1%

    59.6

    9%

    74.4

    2%

    88.3

    7%

    100.

    00%

    Nu

    m

    r p

    aci

    en

    i

    Grupa de vrst (ani)

    Frecvena relativ cumulat

  • Indicatori statistici

    n studiul distribuiei de frecvene a caracteristicii unei populaii se observ tendine ce prezint dou aspecte: 1 de localizare (de poziie) 2 de mprtiere (de variaie). Analiza cantitativ care s permit evaluri i comparaii din punct de vedere al localizrii sau al mprtierii datelor se poate efectua numai cu ajutorul indicatorilor statistici. Acetia exprim numeric, pe baza valorilor de studiu fie localizarea fie variaia datelor.

    Media aritmetic

    Media geometric

    Media armonic

    Media ptratic

    n

    xi

    n

    xnxxx

    n

    i

    1

    ...21

    Mediana

    Modul Fie irul format din elementele x1, x2, x3, ,xn. Valoarea xi corespunztoare frecvenei celei mai mari poart

    numele de modul.

    Valoarea central

    n

    n

    i

    nG xixnxxxM

    1

    ...321

    n

    i

    H

    xi

    n

    n

    xnxx

    M

    1

    11...2

    1

    1

    1

    1

    21

    2

    xn

    xi

    M

    n

    iP

    2

    11 nk xxMe

    22

    2/22/1

    nnkk

    xxxxMe

    2

    minmax XXXc

  • Proprietile caracteristicilor de localizare Mediile aritmetic i ptratic sunt influenate de valorile mari ale irului. Mediile geometric i armonic sunt mai puternic influenate de valorile mici ale irului. Mediana nu este influenat de valorile extreme. Valoarea central nu depinde de toate valorile irului de date ci numai de cele extreme. Relaie existent ntre medii: Cel mai des indicator de localizare folosit este media aritmetic.

    PGH MXMM

    2 - Indicatori de variaie Acetia reprezint o evaluare numeric a mprtierii datelor.

    Dispersia

    Abaterea ptratic medie

    Amplitudinea Este definit ca diferena valorilor extreme i se noteaz cu W sau A (n majoritatea cazurilor). W = A = Xmax - Xmin

    Intervalul intercuartilic

    Cuartilele mpart datele n 4 clase de frecvene egale cu 25%. Astfel sunt necesare 3 valori Q1, Q2, Q3 ce reprezint cuartilele. Presupunem c avem o distribuie a frecvenelor parametrului x (discret) conform graficului de mai jos:

    n

    xxi

    n

    xxnxxxx

    n

    i

    1

    2

    2222 .....21

    n

    xxi

    xD

    n

    i

    1

    2

    ][

  • 02

    4

    6

    8

    10

    12

    parametrul x

    Distributia de frecventa

    Q1 Q2 Q3

    Coeficientul de variaie Abaterea ptratic medie se interpreteaz prin compararea cu media valorilor de studiat. Dac avem o medie de 100 i o abatere ptratic standard de valoare 5, atunci avem mici variaii, dar dac avem aceeai abatere la o medie de 10, atunci variaia este foarte mare. n concluzie se definete coeficientul de variaie:

    xCx

  • Unimodal Bimodal Multimodal

    1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52

    Asimetrie dreapta

    Mo

    1 4 7 10 13 16 19 22 25 28 31 34 37 40

    Asimetrie la stnga

    M(x) Mo

    Asimetrie - Skewness

    1 Dac Sk>0 , avem asimetrie pozitiv sau la dreapta. 2 Dac Sk

  • 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

    Repartiie aplatizat sau platicurtic

    32

    1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

    Repartiie medie sau mezocurtic

    32

    1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

    Repartiie ascuit sau leptocurtic

    32

    Boltirea (Excesul, Kurtosis)

    0,3 22

    0,3 22

    Avem urmtoarele modaliti de caracterizare a distribuiilor: Mezocurtic

    Leptocurtic

    Platicurtic 0,3 22

  • Graficul de tip Box-and-Whiskers (sau Box-Plot)

    Este o metod ce prezint compact forma distribuiei unui set de date. Se folosete cu succes n compararea i determinarea simetriei repartiiei determinate de un lot de date (box cutie, whiskers musti , se refer la extremiti).

    Lot 1 Lot 2 Lot 3

    Variabila

    studiata

    Pentru realizarea graficului se calculeaz anumii indicatori statistici ce reprezint cele 5 limite. Mediana este valoarea din cadrul irului ordonat care se afl la jumtatea acestuia. Aceasta mparte setul de date in dou grupe egale i este reprezentat n grafic de linia notat cu valoarea 3. Limitele 2 respectiv 4 reprezint valorile cuartilelor. Acestea mpart distribuia de frecven n patru pri egale. Astfel n total sunt 3 ca numr. Cuartila a doua este chiar mediana (notat cu 3). Diferena dintre cuartila numit Q3 (notat cu 2 n grafic) i numit Q1(notat cu 4) reprezint intervalul intercuartilic. Acesta definete lungimea a 50% din setul de date, procent centrat pe median. Extremele 1 respectiv 5 sunt determinate de cuantile. Astfel nivelul 5 din grafic va prezenta cuantila pentru care 10% din date sunt sub aceast valoare, iar nivelul 1 din grafic va reprezenta valoarea pentru care 90% din date sunt sub acesta.

    Graficul este relevant prin faptul c scoate n eviden nivelul de simetrie al distribuiei. Dac distribuia nu este simetric mediana nu se va afla la mijlocul dreptunghiului (n cele mai multe cazuri). Mai mult laturile din afara dreptunghiului nu vor fi de dimensiuni egale.

    Simetria este o caracteristic important care poate s ne ajute n determinarea tipului de distribuie.

    1

    2 3

    4

    5

  • Repartiia Gauss-Laplace Este cunoscut faptul c n cadrul unui experiment oricte precauii s-ar lua pentru a controla diferii factori, rezultatele obinute vor prezenta o anumit variabilitate. Aceast variabilitate este cuprins n aproape toate domeniile de lucru, obligndu-ne s lucrm cu intervale ale parametrilor de studiu n loc de valori fixe.

    Variabila aleatoare este o noiune fundamental din domeniul statisticii, reprezentnd acea mrime de interes ce poate lua n cadrul realizrii experimentului o valoare oarecare necunoscut aprioric.

    1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

    Densitatea de probabilitate f(x)

    a1 a2

    Element de

    probabilitate

    Suprafaa total are dimensiunea 1 (probabilitatea evenimentului sigur

    este 1)

    D x

    x

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45

    F(a

    )

    a

    Funcia de repartiie

    1

    ,2

    1)(

    2

    2

    2 ateprobabilitdedensitateexf

    x

    ,x

    Se noteaz simbolic N(, ) , sau N(x, , ).

    Repartiia Normal (Gauss-Laplace)

    x

    dxxfxF )()(

    dxedxxfxFx

    xx

    2

    2

    2

    2

    1)()(

  • 02

    4

    6

    8

    10

    12

    14

    16

    18

    20

    F(x)

    m

    0,5

    1

    Funcia densitate de probabilitate Funcia de probabilitate

    Proprietile repartiiei normale

    1. Distribuia admite un singur maxim fiind astfel unimodal. Maximul se atinge n

    punctul x= i are valoarea

    *2*

    1)( f (n acest punct derivata este zero

    df/dx=0).

    2. Este simetric n raport cu dreapta x=. n orice repartiie normal mediana i modul coincid cu media aritmetic. Datorit simetriei suprafaa cuprins ntre

    curba densitii de probabilitate i axa xx pe intervalul , este egal cu cea din intervalul , i are valoarea 1/2. Evident suprafaa total[ are valoarea 1 reprezentnd probabilitatea evenimentului sigur.

    Suprafaa cuprins ntre dreptele x=- , x=+ , x=0 i curba densitii de probabilitate este egal cu 0,682. Conform calculelor i reprezentrii grafice

    majoritatea cazurilor n proporie de peste 95% se afl n intervalul (-2 , +2 )

    0

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    0.45

    3 2 2 3

    0,682

    0,954

    0,997

    f(x)

  • 00.2

    0.4

    0.6

    0.8

    1

    1.2

    Densitile de probabilitate pentru medii diferite dar aceleai dispersii

    f(x)

    m1 m2 m3

    0.00E+00

    1.00E-01

    2.00E-01

    3.00E-01

    4.00E-01

    5.00E-01

    6.00E-01

    7.00E-01

    8.00E-01

    9.00E-01

    Densitile de probabilitate pentru medii egale dar dispersii diferite

    f(x)

    m

    s1

    s2

    s3

    1. Punctele de pe abscis de valoare + respectiv de valoare - sunt puncte de inflexiune. n acestea curba densitii de probabilitate i modific convexitatea.

    Astfel derivata a doua este zero. 0)(

    2

    2

    xxd

    xfd.

    n punctele x i x funcia f(x) tinde la zero. Are form de clopot de unde i denumirea de clopotul lui Gauss.

    2. Asimetria i aplatisarea pentru o repartiie normal au valoarea 0. De asemenea momentele centrate de ordin impar sunt nule pentru o astfel de repartiie (diferenele ntre xi i medie i pstreaz semnul).

    3. Modificarea mediei duce la o translare a curbei pe direcia axei xx. Iat un exemplu realizat n graficul urmtor.

    Avem relaia ntre medii: 321

    Dispersiile sunt egale: 321

    boltirea

  • Exemplu de calcul al probabilitii pe interval S presupunem c ne intereseaz s caracterizm calitatea studenilor din anul 6 de studiu la facultatea de

    medicin, prin determinarea probabilitii pe grupele de calificative folosite. Probabilitatea va reflecta practic frecvena de apariie a unei grupe din cadrul calificativelor. Tabelul urmtor definete legtura ntre aprecierea calitativ i notele obinute n sistem zecimal: Not obinut Calificativ

    8.5 - 10 A

    6.5 8.4 B

    5.5 6.4 C

    5 5.4 D

    Sub 5 E Pentru determinarea probabilitii vom folosi funcia NORMDIST(x,mean,st_dev,cumulative) din Microsoft Excel. Acasta ne ajut s calculm densitatea de probabilitate sau probabilitatea cumulat pentru o distribuie normal. Parametrul cumulative al funciei poate lua 2 valori: TRUE sau FALSE (sau 1 respectiv 0).

    TRUE (sau 1) implic calculul probabilitii cumulate (suprafaa deci F(x)), FALSE (sau 0) implic calculul densitii de probabilitate (f(x)).

    Pentru cazul x=8.5 avem (deci descriem

    calificativul A): NORMDIST(8.5,7.8,0.8,1)=0.809. Astfel

    probabilitatea de a obine un calificativ A este de 1-0.809 = 0.191.

    Pentru a obine calificativul B probabilitatea este: NORMDIST(8.5,7.8,0.8,1)-

    NORMDIST(6.5,7.8,0.8,1)=0.809-0.052=0.757

    Se presupune c distribuia respect legea Gauss Laplace. Se cunoate media pe lotul de studiu =7.8 i de asemenea, deviaia standard =0.8

    Probabilitatea de a

    obine calificativul A este 1-0.809= 0.191

    2

    2

    2

    2

    1)(

    x

    exf

    Densitatea de probabilitate f(x)

  • Nr. Indicator statistic Funcie Excel Descriere / formula

    1. Media aritmetic Average() Averageif() Averageifs()

    Media setului selectat Media seleciei pentru celulele ce indeplinesc o singur condiie. Media seleciei pentru condiii multiple.

    2. Media aritmetic ajustat. Trimmean(domeniu,procent) Se calculeaz media aritmetic eliminnd din setul de date procentul specificat din valorile extreme att minim ct i maxim. Vor rmne : 100% 2 ..

    3. Media armonic Harmean()

    n

    i i

    H

    x

    nM

    1

    1

    4. Media cronologic Vei propune o metod de calcul.

    1

    2...

    2 121

    n

    XXX

    X

    M

    nn

    C

    5. Media geometric Geomean() n

    i

    n

    iG xM

    1

    6. Media ptratic Vei propune o metod de calcul.

    21

    2

    xn

    x

    M

    n

    i

    i

    P

    7. Mediana Median() Valoarea de mijloc a irului ordonat

    8. Valoarea modal (modul) Mode() Valoarea de frecven maxim

    9. Dispersia (pt. populaie) Varp()

    n

    xxm

    i

    i

    1

    2

    2

    10. Dispersia (pt. eantion) Var()

    1

    1

    2

    2

    n

    xxm

    i

    i

    11. Deviaia standard (pt. populaie)

    Stdevp()

    n

    xxm

    i

    i

    1

    2

    12. Deviaia standard (pt. eantion)

    Stdev()

    1

    1

    2

    n

    xxm

    i

    i

    13. Calcul cuartile Quartile(domeniu,valoare) Valoarea indic numrul cuartilei calculate: 0 minimul ; 1 Q1 ; 2 Q2 ; 3 Q3 ; 4 - maximul

    14. Intervalul cuartilic Vei calcula diferena. IQ = Q3 Q1

  • Nr. Indicator statistic Funcie Excel Descriere / formula

    1. Media aritmetic Average() Averageif() Averageifs()

    Media setului selectat Media seleciei pentru celulele ce indeplinesc o singur condiie. Media seleciei pentru condiii multiple.

    2. Media aritmetic ajustat. Trimmean(domeniu,procent) Se calculeaz media aritmetic eliminnd din setul de date procentul specificat din valorile extreme att minim ct i maxim. Vor rmne : 100% 2 ..

    3. Media armonic Harmean()

    n

    i i

    H

    x

    nM

    1

    1

    4. Media cronologic Vei propune o metod de calcul.

    1

    2...

    2 121

    n

    XXX

    X

    M

    nn

    C

    5. Media geometric Geomean() n

    i

    n

    iG xM

    1

    6. Media ptratic Vei propune o metod de calcul.

    21

    2

    xn

    x

    M

    n

    i

    i

    P

    7. Mediana Median() Valoarea de mijloc a irului ordonat

    8. Valoarea modal (modul) Mode() Valoarea de frecven maxim

    9. Dispersia (pt. populaie) Varp()

    n

    xxm

    i

    i

    1

    2

    2

    10. Dispersia (pt. eantion) Var()

    1

    1

    2

    2

    n

    xxm

    i

    i

    11. Deviaia standard (pt. populaie)

    Stdevp()

    n

    xxm

    i

    i

    1

    2

    12. Deviaia standard (pt. eantion)

    Stdev()

    1

    1

    2

    n

    xxm

    i

    i

    13. Calcul cuartile Quartile(domeniu,valoare) Valoarea indic numrul cuartilei calculate: 0 minimul ; 1 Q1 ; 2 Q2 ; 3 Q3 ; 4 - maximul

    14. Intervalul cuartilic Vei calcula diferena. IQ = Q3 Q1

  • Intervale de ncredere

    n cadrul realizrii experimentelor de un numr repetat de ori se obine un numr finit de evenimente. Observaiile ce se fac asupra populaiei pot fi totale (dac se studiaz toate evenimentele) i pariale (dac se studiaz doar un eantion din total).

    Cercetarea unitar a ntregii populaii n multe situaii este greu de realizat poate chiar impracticabil. Sunt cazuri n care chiar numrul datelor medicale este mic i bazat pe aceasta trebuie deduse caracteristici generale asupra fenomenului sau obiectivului de studiu.

    Eantionul este considerat mic dac volumul su are un numr de elemente mai mic de 30 i mare dac numrul numrul de elemente depete valoarea de 30. Astfel funcie de numrul de valori disponibile se aplic diferite teste i precizia estrimrilor este cu att mai bun cu ct avem mai multe date de studiu.

    Scopul principal n cadrul culegerii datelor const n a obine cu un effort minim (volum minim de date) un volum maxim de informaii.

    Estimarea const n operaia de determinare a parametrilor populaiei pe baza eantionului studiat. Datorit lipsei de informaie existent prin cercetarea neunitar ct i datorit dispersiei parametrilor dorii, se poate deduce pe baza unei anumite probabiliti (de obicei acceptat la valoarea de 95% n domeniul medical) un anumit interval de ncredere a parametrului de studiat.

    Obiectivul final al unui experiment const n majoritatea cazurilor n a msura valoarea unui parametru. Valoarea msurat (izolat de altfel) nu poate fi considerat satisfctoare sau ca valoare de referin dac nu se fac precizri la domeniul de variaie i la probabilitatea corespunztoare.

    n cadrul estimrii parametrilor unei populaii valoarea estimat este de fapt o variabil aleatoare determinat de eantionul studiat. Cu ct avem maio multe eantioane cu att avem mai multe valori ale parametrului dorit de a fi calculat.

    Intervalul de estimare a parametrului respectiv se deduce din formula de calcul a

    probabilitii.

  • Din formula de calcul a probabilitii avem: 195,096,196,1 ZP (1) Se poate demonstra c dac avem mai multe eantioane dintr-o populaie normal,

    media de selecie este o variabil aleatoare repartizat normal N(,2/2). Pentru a o centra i

    normaliza vom aplica formula: n

    xz

    /

    (2).

    Din prima i a doua formul putem scrie: 96,1/

    96,1

    n

    x

    (3)

    Dezvoltnd n continuare formula 3 obinem: n

    xn

    x

    96,196,1

    n

    x

    96,1 (4)

    n caz general pentru un risc simetric formula 4 devine:

    n

    zx

    2/ (5)

    Unde Z/2 este abscisa densitii de probabilitate f(x) pentru un nivel de semnificaie

    /2 (valori tabelate n anexe). Dac riscul este bilateral dar nu simetric avem urmtoarea formul dedus din (1):

    2121 1

    Z

    n

    xZZZZP

    n

    Zxn

    Zx

    21 (6)

    Exemplu de calcul - Interval de ncredere pentru media unei variabile

    aleatoare repartizat normal.

  • Data + Data Analysis + Descriptive statistics

    Eroarea standard (Standard Error) este :

    Nivelul de confiden (Confidence level) este : din formula (5). Pentru eantioane mici se folosete distribuia t(student) n loc de Z.