estadistica aplicada1.pdf

Upload: randolfo-alberto-santos-quiroz

Post on 06-Jul-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    1/32

    1

    INGENIEŔIA EN TECNOLOǴIAS DE LA

    INFORMACIÓN

    APOYO DIDÁCTICO

    ESTADISTICA APLICADA

    Por

    RANDOLFO ALBERTO SANTOS QUIRÓZ

    XICOTEPEC DE JUÁREZ, PUEBLA. ENERO 2011

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    2/32

    2

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    3/32

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    4/32

    4   CONTENIDO 

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    5/32

    Caṕıtulo 1

    ORGANIZACIÓN Y ANÁLISIS DE

    DATOS

    •  Resumen de Datos.

    •  Presentación de Datos.

    •  Interpretación de Datos.

    5

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    6/32

    6   CAP ́ITULO 1. ORGANIZACI ÓN Y AN ́ALISIS DE DATOS 

    1.1 Estad́ıstica Descriptiva

    1.1.1 Datos agrupados

    Variables aleatorias discretas y continuas

    Cuando alguna persona hispanohablante aprende el idioma inglés, siempre llega un momento en que le

    enseñan que el término inglés para la expresión “¿cuántos...?” (o Ş£cuántas...?Ť) depende de que se tratede cosas que se pueden contar o de cosas que no se pueden contar sino medir.

    En estad́ıstica se hace la misma distinción cuando se hace referencia a magnitudes variables: si setrata de magnitudes que se pueden contar (aunque pudieran quizás ser infinitas), se llaman variablesdiscretas. En cambio, si las magnitudes no se pueden contar, sino que se miden en alg ún tipo de unidades(cent́ımetros, litros, gramos, unidades de dinero, unidades de tiempo, etc.), entonces se llaman variablescontinuas. Ejemplos de variables aleatorias discretas serı́an: el número de huevos que pone cierta gallinacada semana, el número de veces que una moneda cae en águila al lanzarse quince veces al aire, el númerode reos que se escapan cada mes de las prisiones de México, el número de votantes que manifestaránpreferencia por cierto partido poĺıtico en una casilla electoral, el número de hijos que tiene una señoracualquiera que lleve 20 años de casada, etc. Por otra parte, ejemplos de variables aleatorias continuas son:el tiempo que tarda una persona en cobrar un cheque desde que llega a la sucursal del banco hasta quese lo pagan, la cantidad exacta de sangre que bombea el corazón de un adulto en un latido, la estatura

    exacta de un soldado elegido al azar, la cantidad exacta de dinero que reúne cada año el gobierno de unpáıs (de impuestos y otros ingresos) para ejercer su presupuesto, etc.

    1.2 Ordenamiento o arreglo de datos

    Glosario de Términos

    Arreglo de datos  Organización de los datos sinprocesar por observación, tomados en orden descen-dente o ascendente.

    Clase de extremo abierto  Clase que permite que

    el extremo superior o inferior de un esquema declasificación cuantitativo no tenga ĺımite.

    Conjunto de datos  Una colección de datos.

    Curva de frecuencias Poĺıgono de frecuencias ali-sado mediante el aumento de clases y puntos de datoa un conjunto de datos.

    Datos  Colección de cualquier número de observa-ciones relacionadas sobre una o más variables.

    Datos continuos  Datos que pueden pasar de unaclase a la siguiente sin interrumpirse y que puedenexpresarse mediante números enteros o fracciona-rios.

    Datos discretos Datos que no pueden pasar de unaclase a la siguiente sin que haya una interrupción;estos es, en donde las clases representan categoŕıaso cuentas distintas que pueden representarse medi-ante números enteros.

    Datos sin procesar  Información antes de ser or-ganizada o analizada por métodos estadı́sticos.

    Distribución de frecuencias   Despliegue organi-zado de datos que muestran el número de observa-ciones del conjunto de datos que entran en cada una

    de las clases de un conjunto de clases mutuamenteexclusivas y colectivamente exhaustivas.

    Distribución de frecuencias acumuladas   Des-pliegue de datos en forma de tabla que muestra

    cuántos datos están por encima o por debajo de cier-tos valores.

    Distribución de frecuencias relativas   Des-pliegue de un conjunto de datos en el que se mues-tra la fracción o porcentaje del total del conjuntode datos que entra en cada elemento de un conjuntode clases mutuamente exclusivas y colectivamenteexhaustivas.

    Histograma Gráfica de un conjunto de datos com-puesta de una serie de rectángulos, cada uno conun ancho proporcional al alcance de los valores yaltura proporcional al número de elementos que en-tran en la clase, o altura proporcional a la fracciónde elementos de la clase.

    Muestra  Colección de algunos elementos, pero node todos, de la población ba jo estudio, utilizadapara describir poblaciones.

    Muestra representativa Muestra que contiene lascaracteŕısticas importantes de la población en lasmismas proporciones en que están contenidas en lapoblación.

    Ojiva   Gráfica de una distribución de frecuencias

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    7/32

    1.2. ORDENAMIENTO O ARREGLO DE DATOS    7

    acumuladas.Población Colección de todos los elementos que seestán estudiando y sobre los cuales intentamos llegara conclusiones.Poĺıgono de frecuencias   Ĺınea que une los pun-

    tos medios de cada clase de un conjunto de datos,trazado a la altura correspondiente a la frecuenciade los datos.Punto de dato  Una sola observación de un con-

     junto de datos.

    Ecuación

    Ancho de intervalos de clase  = x1 −x2

    i  (1.1)

    Donde:

    x1  =  valor unitario siguiente después del valor más grande de los datos.

    x2  =  valor más pequeño de los datos.

    i =   número total de intervalos.

    Para organizar datos sin procesar, escoje el número de clases entre las cuales vas a dividir los datos (porlo general, entre seis y quince clases) y despúes utiliza la ecuación   (2.1)  para determinar el   ancho de 

    los intervalos de clase de igual tama˜ no.   Ésta fórmula utiliza el valor más alto siguiente de las mismasunidades debido a que mide el intervalo entre el primer valor de una clase y el primer valor de la siguiente.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    8/32

    8   CAP ́ITULO 1. ORGANIZACI ÓN Y AN ́ALISIS DE DATOS 

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    9/32

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    10/32

    10   CAP ́ITULO 2. MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSI ́ON 

    2.1 Glosario de Términos

    Alcance Distancia entre los valores más bajo y másalto de un conjunto de datos.Alcance intercuartil   Diferencia entre los valoresdel primer y tercer cuartil; esta diferencia representa

    el alcance de la mitad central del conjunto de datos.Alcance interfractil Medida de la dispersión entredos fractiles de una distribución; es decir, la difer-encia entre los valores de dos fractiles.Análisis exploratorio de datos (EDA)   Méto-dos para analizar datos que requieren de muy pocassuposiciones principales.Clase mediana  Clase de una distribución de fre-cuencias que contiene el valor mediano de un con-

     junto de datos.Codificación Método para calcular la media de losdatos agrupados mediante la recodificación de losvalores de los puntos medios de las clases a valores

    más sencillos.Coeficiente de variacíon   Medida relativa de ladispersión, comparable por medio de distribucionesdiferentes, que expresa la desviación estándar comoporcentaje de la media.Cuartiles Fractiles que dividen los datos en cuatropartes iguales.Curtosis  El grado de agudeza de una distribuciónde puntos.Deciles   Fractiles que dividen los datos en diezpartes iguales.Desviación estándar   Ráız cuadrada positiva dela varianza; medida de dispersión con las mismas

    unidades que los datos originales, más bien que enlas unidades al cuadrado en que esta la varianza.Dispersión  La extensión o variabilidad de un con-

     junto de datos.Distribución bimodal  Distribución de puntos dedatos en la que dos valores se presentan con m ásfrecuencia que los demás elementos del conjunto dedatos.Estadı́stica  Medidas numéricas que describen lascaracteŕısticas de una muestra. Representadas porcaracteres latinos.Estad́ıstica sumaria  Números solos que describenciertas caracterı́sticas de un conjuntode datos.Fractil   En una distribución de frecuencias, es laposición de un valor en, o por encima de, una frac-ción dada de los datos.Media Medida de tendencia central que representael promedio aritmético de un conjunto de observa-ciones.

    Media geométrica   Medida de tendencia centralutilizada para medir la tasa promedio de cambioo de crecimiento de alguna cantidad, se calculatomando la  n-ésima raı́z del producto de  n  valores

    que representan el cambio.Media pesada  Promedio que se calcula con el finde tomar en cuenta la importancia de cada valor conrespecto al total, esto es, un promedio en el que cadavalor de observación es pesado por algún ı́ndice desu importancia.Mediana Punto situado a la mitad del conjunto dedatos, medida de localización que divide al conjuntode datos en dos partes iguales.Medida de dispersión Medida que describe cómose dispersan o distribuyen las observaciones de unconjunto de datos.Medida de distancia Medida de dispersión en t́er-

    minos de la diferencia entre dos valores del conjuntode datos.Medida de tendencia central Medida que indicael valor esperado de un punto de datos t́ıpico o situ-ado en el medio.Moda  El valor que más a menudo se repite e n unconjunto de datos.   Ésta representado por el puntomás alto de la curva de distribución de un conjuntode datos.Parámetros   Valores numéricos que describen lascaracteŕısticas de una población completa, se lesrepresenta generalmente con letras griegas.Percentiles  Fractiles que dividen los datos en 100

    partes iguales.Resultado estándar   Expresión de una obser-vación en términos de unidades de desviación están-dar por encima o por debajo de la media; es decir,la transformación de una observación al restarle lamedia y dividirla entre la desviación estándar.Sesgo   Grado de una distribución de puntos estáconcentrada en un extremo o en el otro; falta desimetŕıa.Simétrica  Caracterı́stica de una distribución en laque la mitad es la imagen especular de la otra.Teorema de Chebyshev  No importa qué formatenga la distribución, al menos 75% de los valoresde la población caerán dentro de dos desviacionesestándar a partir de la media, y al menos 89% caerádentro de tres desviaciones estándar.Varianza  Medida de la distancia cuadrada prome-dio entre la media y cada observación de lapoblación.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    11/32

    2.2. F ́ORMULAS DE TENDENCIA CENTRAL Y DE DISTRIBUCI ÓN    11

    2.2 Fórmulas de tendencia central y de distribución

    Ecuaciones introducidas en el caṕıtulo

    µ = ΣX 

    N   (2.1)

    La media aritmética de la poblaci´ on  es igual a la suma de los valores de todos los elementos de la población(ΣX ) dividida entre el número total de elementos que compone la población (N ).

    x̄ = Σx

    n  (2.2)

    Para calcular la  media aritmética de la muestra,  sume los valores de todos los elementos de la muestra(Σx) y divida el resultado entre el número total de elementos contenidos en la muestra (n)

    x̄ = Σ(f  × x)

    n  (2.3)

    Para encontrar la,   calcule los puntos medios (n) de cada clase de la muestra. Luego multiplique cadapunto medio por la frecuencia (f ) de observaciones de cada clase, sume (Σ) todos estos productos y dividala suma entre el número total de observaciones de la muestra (n).

    x̄ =  x0 + wΣ(u × f )

    n  (2.4)

    Esta fórmula nos permite calcular la  media aritmética de la muestra para datos agrupados   mediante eluso de códigos, esto con el fin de evitarnos trabajar con puntos medios muy grandes o inconvenientes.Asigne estos códigos (u) de la manera siguiente: asigne el valor de cero al punto medio (denotado conx0), enteros positivos consecutivos a los puntos medios mayores a  x0   y enteros consecutivos negativos alos puntos medios menores. Luego multiplique el código asignado a cada clase (u) por la frecuencia (f )de las observaciones de cada clase y sume (Σ) todos los productos. Divida el resultado entre el númerototal de observaciones de la muestra (n), multiplique por el ancho numérico del intervalo de clase (w) ysume el valor del punto medio correspondiente al código cero (x0).

    x̄w  = Σ(w × x)

    Σw  (2.5)

    La  media pesada,  x̄w, es un promedio que toma en cuenta qué tan importante es cada valor con respectoal total. Podemos calcular este promedio multiplicando el peso, o proporción, de cada elemento (w) porel momento correspondiente (x), sumando el resultado de todos esos productos (Σ) y dividiendo estacantidad entre la suma de todos los pesos (Σw).

    M.G. =   n 

     producto de todos valores x   (2.6)

    La media geométrica  o M.G. es adecuada siempre que necesitemos medir la tasa promedio de cambio (tasade crecimiento) en un cierto periodo. En esta ecuación,  n  es igual al número de valores  x  que aparecenen el problema.

    Mediana =

    n + 1

    2

    ésimo término del arreglo de datos   (2.7)

    en donde  n= número de elementos del ordenamiento de datos

    La mediana  es un solo valor que mide el elemento central del conjunto de datos. La mitad de las observa-ciones quedan por arriba de la mediana y la otra mitad por debajo. Si el conjunto de datos contiene unnúmero impar de observaciones, el elemento de enmedio es la mediana. Para un número par de elementos,

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    12/32

    12   CAP ́ITULO 2. MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSI ́ON 

    la mediana es el promedio de las dos observaciones de un medio. Utilice esta ecuación cuando los datosno están agrupados.

    m̃ =

    (n+1)

    2  − (F  + 1)

    f m

    w + Lm   (2.8)

    Esta fórmula nos permite encontrar la  mediana de la muestra de datos agrupados . En ella, n  es igual alnúmero total de observaciones de la distribución;  F  es la suma de todas las frecuencias de clase hasta laclase mediana, sin incluir esta última;  f m  es la frecuencia de las observaciones de la clase mediana;  w  esel ancho de intervalos de clase, y  Lm  es el ĺımite inferior del intervalo de la clase mediana.

    Mo =  LMo +

      d1

    d1 + d2

    w   (2.9)

    La moda  es el valor que con más frecuencia se repite en el conjunto de datos. Para hallar la moda de datosagrupados (denotada con M o), utilice esta fórmula y tome a LMo igual al lı́mite inferior de la clase modal;d1  como la frecuencia de la clase modal menos la frecuencia de la clase que está inmediatamente debajode ella; d2  igual a la frecuencia de la clase modal menos la frecuencia de la clase que está inmediatamentepor encima de ella; y  w  como el ancho del intervalo de la clase modal.

    Alcance =  xmáx −xmin   (2.10)El alcance  es la diferencia entre el valor más alto xmáx  y más bajo xmin de una distribución de frecuencias.

    Alcance intercuartil =  Q3 −Q1   (2.11)El alcance intercuartil  mide aproximadamente qué tan lejos de la mediana debemos desplazarnos a amboslados antes de que podamos incluir una mitad de los valores del conjunto de datos. Para calcular estealcance, divida los datos en cuatro partes iguales. Los  cuartiles  (Q) son los valores más altos de cada unade esas cuatro partes.El  alcance intercuartil  es la diferencia entre los valores del primer y el tercer cuartil ( Q1  y  Q3).

    σ2 = Σ(X  − µ)2

    N   =

     ΣX 2

    N   − µ2 (2.12)

    Esta fórmula nos permite calcular la   varianza de la poblaci´ on , una medida de la distancia   cuadrada promedio entre la media y cada observación de la población. La expresión de en medio,

      Σ(X−µ)2

    N   es la

    definición de  σ2. La última expresión,   ΣX2

    N   − µ2 es matemáticamente equivalente a la definición, pero, a

    menudo, es mucho más conveniente de usar, debido a que nos libera del cálculo de las desviciones de lamedia.

    σ =√ 

    σ2 =

     Σ(X  −µ)2

    N   =

     ΣX 2

    N   − µ2 (2.13)

    La desviación estándar de la población,   σ, es la ráız cuadrada de la varianza de la población. Es unparámetro más útil que la varianza, debido a que se expresa en las mismas unidades que los datos (mientrasque las unidades de la varianza son el cuadrado de las unidades de los datos). La desviaci ón estándar essiempre la ráız cuadrada  positiva  de la varianza.

    Resultado estándar de la población = x − µ

    σ  (2.14)

    El resultado estándar de una observación es el número de desviaciones estándar que la observación estáseparada hacia abajo o hacia arriba de la media de la distribuci ón. El resultado estándar nos permitehacer comparaciones entre los elementos de la distribución que difieren por órdenes de magnitud o en lasunidades empleadas. Utilice la ecuación 3-14 para encontrar el resultado estándar de una observación deuna poblaci´ on .

    σ2 = Σf (X  − µ)2

    N   =

     Σf X 2

    N   − µ2 (2.15)

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    13/32

    2.2. F ́ORMULAS DE TENDENCIA CENTRAL Y DE DISTRIBUCI ÓN    13

    Esta fórmula, en cualquiera de sus formas, nos permite calcular la  varianza  de los datos ya  agrupados en una distribución de frecuencias. En ésta,  f  representa la frecuencia de la clase y  X  es el punto medio.

    σ =√ 

    σ2 =

     Σf (X  − µ)2

    N   =

     ΣfX 2

    N   − µ2 (2.16)

    Tome la ráız cuadrada de la varianza y obtendrá la desviaci´ on est´ andar utilizando datos agrupados .

    s2 = Σ(x − x̄)2

    n − 1   =  Σx2

    n − 1 −  nx̄2

    n − 1   (2.17)

    Para calcular la  varianza de la muestra , utilice la misma fórmula de la ecuación 3-12 , sustituyendo µ  conx̄  y  N   con n − 1.

    s =√ 

    s2 =

     Σ(x − x̄)2

    n − 1   = 

      Σx2

    n − 1 −  nx̄2

    n − 1   (2.18)

    La  desviaci´ on est´ andar  es la ráız cuadrada de la varianza de la muestra. Es parecida a la ecuación  3-13 ,sólo que µ  está sustituida por la media de la muestra x̄  y  N  se cambia por  n − 1.

    Resultado estándar de la ecuación = x − x̄

    s  (2.19)

    Utilice esta ecuación para encontrar el resultado estándar de una observación en una  muestra 

    Coeficiente de variación de la población = σ

    µ(100) (2.20)

    El coeficiente de variaci´ on  es una medida relativa de la dispersión que nos permite comparar dos distribu-ciones. Relaciona la desviación estándar como porcentaje de la media.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    14/32

    14   CAP ́ITULO 2. MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSI ́ON 

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    15/32

    Caṕıtulo 3

    PROBABILIDAD Y SUS

    DISTRIBUCIONES

    •  Conceptos probabiĺısticos básicos.

    • Distribuciones de probabilidad discreta.

    •  Distribuciones de probabilidad continua.

    •  Aplicación.

    15

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    16/32

    16   CAP ́ITULO 3. PROBABILIDAD Y SUS DISTRIBUCIONES 

    3.1 Conceptos Básicos de probabilidad

    Términos introducidos en el capı́tulo

    Árbol de probabilidades  Representación gráfica

    que muestra los resultados posibles de una serie deexperimentos y sus respectivas probabilidades.Dependencia estadı́stica   Condición en que laprobabilidad de presentación de un evento dependede la presentación de algún otro evento, o se ve afec-tado por ésta.Diagrama de Venn Representacíon gráfica de losconceptos de probabilidad en la que el espacio mues-tral está representado por un rectángulo y los even-tos que suceden en el espacio muestral se represen-tan como partes de dicho rectángulo.Espacio muestral  Conjunto de todos los resulta-dos posibles de un experimento.

    Evento   Uno o más de los resultados posibles dehacer algo, o uno de los resultados posibles de re-alizar un experimento.Evento exhaustivamente colectivos   Lista deeventos que representa todos los resultados posiblesde un experimento.Eventos mutuamente excluyentes  Eventos queno se pueden presentar juntos.Experimento Actividad que tiene como resultadoo que produce un evento.Frecuencia relativa de presentación   Fracciónde veces que a la larga se presenta un evento cuandolas condiciones son estables, o frecuencia relativa ob-

    servada de un evento en un número muy grande de

    intentos o experimentos.

    Independencia estad́ıstica Condición en la que lapresentación de algún evento no tiene efecto sobrela probabilidad de presentación de otro evento.Probabilidad  La posibilidad de que algo suceda.Probabilidad anterior Estimación de la probabil-idad hecha antes de recibir nueva información.Probabilidad clásica Número de resultados favor-ables a la presentación de un evento dividido entreel número total de resultados posibles.Probabilidad condicional Probabilidad de que sepresente un evento, dado que otro evento ya se hapresentado.Probabilidad conjunta   Probabilidad de que se

    presenten dos o más eventos simultáneamente o ensucesión.Probabilidad marginal   Probabilidad incondi-cional de que se presente un evento; probabilidadde que se presente un solo evento.Probabilidad posterior Probabilidad que ha sidorevisada y cambiada después de obtener nueva in-formación o información adicional.Probabilidad subjetiva  Probabilidad basada enlas creencias personales de quien hace la estimaciónde probabilidad.Teorema de Bayes  Fórmula para el cálculo de laprobabilidad condicional bajo condiciones de depen-

    dencia estad́ıstica.

    Ecuaciones

    Probabilidad de un evento = número de resultados en los que se presenta el evento

    número total de resultados posibles  (3.1)

    Ésta es la definición de probabilidad  cl´ asica  de que se presente un evento.

    P (A) =  probabilidad de que suceda el evento A

    Una probabilidad simple se refiere a la probabilidad de que se presente un evento en particular, y se llamaprobabilidad marginal .

    P (A ∪ B) =  probabilidad de que A o B sucedaEsta notación representa la probabilidad de que se presente un evento  o  el otro.

    P (A ∪ B) =  P (A) + P (B) (3.2)

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    17/32

    3.1. CONCEPTOS BÁSICOS DE PROBABILIDAD   17

    La probabilidad de que suceda   A   o  B   cuando los dos eventos son mutuamente exclusivos es igual a lasuma de la probabilidad de que suceda el evento A  y la probabilidad de que suceda el evento  B .  Ésta esla regla de adici´ on para eventos mutuamente excluyentes .

    P (A ∪ B) =  P (A) + P (B) − P (A ∩ B) (3.3)

    La regla de adici´ on para eventos que no son mutuamente excluyentes  muestra que la probabilidad de quesuceda A o B  cuando los dos eventos son mutuamente excluyentes es igual a la probabilidad de que sucedael evento  A  más la probabilidad de que se presente el evento  B, menos la probabilidad de que  A y B   sepresenten juntos, simbolizada por  P (A ∩ B)

    P (A ∩ B) =  P (A) × P (B) (3.4)en la que

    •   P (AB) = probabilidad conjunta de que se presenten los eventos A y B simultáneamente o en sucesión•   P (A) = probabilidad marginal de que se presente el evento  A•   P (B) = probabilidad marginal de que se presente el evento  B

    La probabilidad conjunta  de que dos o más eventos  independientes  se presenten de manera simultáneao en sucesión es el producto de sus probabilidades marginales.

    P (B|A) = probabilidad del evento  B ,  dado que se presentó el evento  AEsta notación muestra la probabilidad   condicional , la probabilidad de que un segundo evento (B)se presente si un primer evento (A) ya se ha presentado.

    P (B|A) =  P (B) (3.5)Para   eventos estadı́sticamente independientes , la probabilidad   condicional   de que se presente el eventoB, dado que el evento  A  ya se ha presentado, es simplemente la probabilidad del evento  B. Los eventosindependientes son aquellos cuyas probabilidades no se ven afectadas de ningún modo por la presentaciónde alguno de ellos.

    P (B|A) =  P (BA)P (A)

      (3.6)

    y

    P (A|B) =  P (AB)P (B)

    Para eventos estad́ısticamente   dependientes , la probabilidad   condicional  de que se presente el evento  B,dado que el evento A ya se ha presentado, es igual a la probabilidad conjunta de los eventos  A y B  divididaentre la probabilidad marginal de que suceda el evento  A.

    P (AB) =  P (A|B)

    ×P (B) (3.7)

    y

    P (BA) =  P (B|A) × P (A)En condiciones de   dependencia  estad́ıstica, la probabilidad   conjunta  de que se presenten los eventos  A  yB   simultáneamente o en sucesión es igual a la probabilidad de que se presente el evento  A, dado que elevento B  ya se ha presentado, multiplicada por la probabilidad de que se presente el evento  B .

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    18/32

    18   CAP ́ITULO 3. PROBABILIDAD Y SUS DISTRIBUCIONES 

    NOTA IMPORTANTE (MÉTODO CORTO) Si un problema de probabilidad involucra dos eventos,digamos A  y  B , entonces muchas de las probabilidades que entrañan estos dos eventos pueden expresarseinmediatamente una vez que completemos la caja rectangular mostrada en la Tabla 1.

    Tabla 1A A

    B P (A∩

    B)   P (A

    ∩B)   P (B)

    B P (A ∩ B)   P (A ∩ B)   P (B)P (A)   P (A) 1

    Aqúı  A y B denotan los complementos de los eventos  A  y  B . Nótese que si sumamos las columnas y losrenglones obtenemos sus totales finales respectivos, esto es,

    P (A ∩ B) + P (A ∩ B) =  P (A)

    P (A ∩ B) + P (A ∩ B) =  P (B)

    P (A) + P (A

    ) = 1

    P (A ∩ B) + P (A ∩ B) =  P (A)

    P (A ∩ B) + P (A ∩ B) =  P (B)

    P (B) + P (B

    ) = 1

    SUGERENCIA

    Haga la diferencia necesaria entre probabilidad condicional y probabilidad conjunta  mediante el uso correctode los términos, “dado que...” y “tanto... como”:   P (A|B) es la “probabilidad de que se presente  A dadoque ya se ha presentado  B” y  P (AB) es la “probabilidad de que   tanto A como B   se presenten,”. Y laprobabilidad marginal  P (A) es la “probabilidad de que se presente A, haya sucedido o no el evento  B ”.

    Tipo deprobabilidad

    Śımbolo Fórmula bajoindependencia

    estad́ıstica

    Fórmula bajo depen-dencia estadı́stica

    Marginal   P (A)   P (A)   Suma de la probabilidad delos eventos conjuntos en los

    que A  se presenta

    Conjunta   P (AB P (A) × P (B)   P (A|B) × P (B)o P (BA)   P (B) × P (A)   P (B|A) × P (A)

    Condicional   P (B|A)   P (B)   P (BA)P (A)

    o P (A|B)   P (A)   P (AB)P (B)

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    19/32

    3.2. DISTRIBUCIONES DE PROBABILIDAD   19

    3.2 Distribuciones de probabilidad

    Términos de distribución de probabilidad

    Distribución binomial  Distribución discreta que

    describe los resultados de un experimento conocidocomo proceso de Bernoulli.Distribución continua de probabilidad   Dis-tribución de probabilidad en la que la variable tienepermitido tomar cualquier valor dentro de un inter-valo dado.Distribución de Poisson Distribución discreta enla que la probabilidad de presentación de un eventoen un intervalo muy pequeño es un número tambiénmuy pequeño, la probabilidad de que dos o más deestos eventos se presenten dentro del mismo inter-valo es efectivamente igual a cero, y la probabili-dad de presentación del evento dentro del periodo

    dado es independiente de cuándo se presenta dichoperiodo.Distribución de probabilidad Lista de los resul-tados de un experimento con las probabilidades quese esperaŕıan ver asociadas con cada resultado.Distribución de probabilidad normal están-dar  Distribución normal de probabilidad con unamedia µ  = 0 y una desviación estándar σ  = 1.Distribución discreta probabilidad   Distribu-ción de probabilidad en la que la variable tiene per-mitido tomar solamente un número limitado de val-ores.Distribución normal Distribución de una variable

    aleatoria continua que tiene una curva de un solopico y con forma de campana. La media cae en el

    centro de la distribución y la curva es simétrica con

    respecto a una ĺınea vertical que pase por la media.Los dos extremos se extienden indefinidamente, sintocar nunca el eje horizontal.

    Factor de corrección de continuidad   Correc-ciones utilizadas para mejorar la precisión de laaproximación de una distribución binomial medi-ante una distribución normal.

    Proceso de Bernoulli  Proceso en el cual cada en-sayo tiene dos resultados posibles, la probabilidad deobtener el resultado en cualquier intento permanececonstante en el tiempo y los ensayos o intentos sonestadı́sticamente independientes.

    Valor esperado promedio pesado de los resultados

    de un experimento.Valor esperado de una variable aleatoria   Lasuma de los productos de cada valor de la varia-ble aleatoria por la correspondiente probabilidad depresentación de dicho valor.

    Variable aleatoria   Variable que toma diferentesvalores como resultado de un experimento aleato-rio.

    Variable aleatoria continua   Variable aleatoriaque puede tomar cualquier valor dentro de un in-tervalo dado de valores.

    Variable aleatoria discreta   Variable aleatoria

    que puede tomar sólo un número limitado de va-lores.

    Ecuaciones de distribución de probabilidad

    P robabilidad de r  éxitos en n ensayos de Bernoulli o binomiales =  n!

    r!(n − r)! prq n−r (3.8)

    en la que:

    •   r =número de éxitos deseados•   n =número de intentos realizados•   p =probabilidad de tener éxito (probabilidad caracterı́stica)•   q  =Probabilidad de un fallo (q  = 1 − p)

    Esta   f´ ormula binomial   nos permite calcular algebraicamente la probabilidad de obtener  r   éxitos. Pode-mos aplicarla a cualquier proceso de Bernoulli, en donde 1) cada intento o ensayo tiene únicamente dos

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    20/32

    20   CAP ́ITULO 3. PROBABILIDAD Y SUS DISTRIBUCIONES 

    resultados posibles: un éxito o un fracaso; 2) la probabilidad de éxito permanece constante de un ensayoa otro; y 3) los ensayos son estad́ısticamente independientes.

    µ =  np   (3.9)

    La media de una distribuci´ on binomial  es igual al número de ensayos multiplicado por la probabilidad deéxito.

    σ = √ 

    npq    (3.10)

    La  desviaci´ on est´ andar de una distribuci´ on binomial   es igual a la ráız cuadrada del producto de 1) elnúmero de ensayos, 2) la probabilidad de tener un éxito y 3) la probabilidad de tener un fracaso (que seencuentra tomando q  = 1 − p).

    P (x) = λx × e−λ

    x!  (3.11)

    Esta fórmula nos permite calcular la probabilidad de que una variable aleatoria discreta se presente en unadistribuci´ on de Poisson . La fórmula establece que la probabilidad detener exactamente x  presentaciones esigual a lambda (el número medio de presentaciones por intervalo en una distribución de Poisson), elevadaa la x  potencia y multiplicada por  e  = 2.71828 (la base del sistema de logaritmos naturales), elevada a la

    potencia lambda negativa, y el producto dividido entre  x  factorial.

    P (x) = (np)x × e−np

    x!  (3.12)

    Si en la ecuación 4.11 colocamos la media de la distribución normal (np) en lugar de la media de la distribu-ción de Poisson (λ), podemos utilizar la distribución de probabilidad de Poisson como una aproximaciónrazonable de la distribución binomial. La aproximación es buena cuando  n  es mayor o igual a 20 y  p  esmenor o igual a 0.05.

    z = x − µ

    σ  (3.13)

    en donde:

    •   x = valor de la variable aleatoria en la cual estamos interesados•   µ = media de la distribución de esta variable aleatoria•   σ = desviación estándar de esta distribución•   z  = número de desviaciones estándar desde x  hasta la media de la distribución

    Ya que se ha calculado z  utilizando esta fórmula, podemos usar la tabla de la distribución de probabilidadnormal estándar (que da los valores para las áreas bajo una mitad de la curva normal, empezando con 0.0en la media) y determinar la probabilidad de que la variable aleatoria que nos interesa esté dentro de esadistancia con respecto a la media de la distribución.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    21/32

    Caṕıtulo 4

    MUESTREO Y SUS

    DISTRIBUCIONES

    •  Conceptos básicos de muestro.

    •  Métodos de muestreo.

    •  Distribución normal.

    21

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    22/32

    22   CAP ́ITULO 4. MUESTREO Y SUS DISTRIBUCIONES 

    4.1 Conceptos básicos de Muestreo

    Términos introducidos en el capı́tulo

    Censo  Medición o examen de cada elemento de la

    población.Cuadrado latino   Eficiente diseño experimentalque hace innecesario usar un experimento factorialcompleto.Distribución de muestreo de la media Una dis-tribución de probabilidad de todas las medias posi-bles de muestras de un tamaño dado,   n, de unapoblación.Distribución de muestreo de una estad́ısticaPara una población dada, distribución de probabi-lidad de todos los valores posibles que puede tomaruna estadı́stica, dado un tamaño de muestra.Error de muestreo Error o variación entre estadı́s-

    ticas de muestra debido al azar; es decir, diferenciasentre cada muestra y la población, y entre variasmuestras que se deben únicamente a los elementosque elegimos para la muestra.Error estándar  La desviación estándar de la dis-tribución de muestreo de una estadı́stica.Error estándar de la media  La desviación están-dar de la distribución de muestreo de la media; unamedida del grado en que se espera que vaŕıen lasmedias de las diferentes muestras de la media de lapoblación, debido al error aleatorio en el proceso demuestreo.Estadı́sticas   Mediciones que describen las carac-teŕısticas de una muestra.Estratos   Grupos dentro de una población forma-dos de tal manera que cada grupo es relativamentehomogéneo, aunque existe una variabilidad más am-plia entre los diferentes grupos.Experimento factorial   Experimento en el quecada factor involucrado se usa una vez con cada unode los factores. En un experimento factorial com-pleto, se utiliza cada nivel de cada factor con cadanivel de todos los demás factores.Fracción de muestreo  La fracción o porción de lapoblación contenida en una muestra.

    Inferencia estad́ıtica Proceso de hacer inferenciassobre poblaciones, a partir de la información con-tenida en muestras.Muestra   Porción de elementos de una poblaciónelegidos para su examen o medición directa.Muestreo aleatorio simple Métodos de selecciónde muestras que permiten a cada muestra posibleuna probabilidad igual de ser elegida y a cada el-emento de la población completa una oportunidadigual de ser incluido en la muestra.

    Muestreo con remplazo   Procedimiento de

    muestreo en el que los elementos se regresan a lapoblación después de ser elegidos, de tal forma quealgunos elementos de la población pueden apareceren la muestra más de una vez.

    Muestreo de juicio  Método para seleccionar unamuestra de una poblacíon en el que se usa elconocimiento o la experiencia personal para iden-tificar aquellos elementos de la población que debenincluirse en la muestra.

    Muestreo de probabilidad o aleatorio  Métodopara seleccionar una muestra de una población en elque todos los elementos de la población tienen igualoportunidad de ser elegidos en la muestra.

    Muestreo de racimo Método de muestreo aleato-rio en el que la población se divide en grupos o raci-mos de elementos, y luego se selecciona una muestraaleatoria de estos racimos.

    Muestreo estratificado   Método de muestreoaleatorio en el que la población se divide en gru-pos homogéneos, o estratos, y los elementos dentrode cada estrato se seleccionan al azar de acuerdocon una de dos reglas: 1) Un número especı́fico deelementos se extrae de cada estrato correspondientea la porción de ese estrato en la población, o 2) igualnúmero de elementos se extraen de cada estrato, ylos resultados son valorados de acuerdo con la por-

    ción del estrato de la población total.Muestreo sin remplazo   Procedimiento demuestreo en el que los elementos no se regresan ala población después de ser elegidos, de tal formaque ningún elemento de la población puede apare-cer en la muestra más de una vez.

    Muestreo sistemático   Un método de muestreoaleatorio usado en estadı́stica en el que los elementosque se muestrearán se seleccionan de la población enun intervalo uniforme que se mide con respecto altiempo, al orden o al espacio.

    Multiplicador de población finita Factor que se

    utiliza para corregir el error estándar de la mediaen el estudio de una población de tamaño finito, pe-queño con respecto al tamaño de la muestra.

    Parámetros Valores que describen las caracterı́sti-cas de la población.

    Población finita   Población que tiene un tamañoestablecido o limitado.Población infinita Población en la que es teórica-mente imposible observar todos los elementos.Precisión El grado de exactitud con el que la media

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    23/32

    4.2. ECUACIONES DE MUESTREO    23

    de la muestra puede estimar la media de la pobación,según revela el error estándar de la media.Racimos Grupos dentro de una población que sonesencialmente similares entre sı́, aunque los gruposmismos tengan una amplia variación interna.Teorema del ĺımite central  Resultado que ase-

    gura que la distribución de muestreo de la mediase acerca a la normalidad cuando el tamaño de lamuestra se incrementa, sin importar la forma de ladistribución de la población de la que se seleccionala muestra.

    4.2 Ecuaciones de Muestreo

    Ecuaciones introducidos en el caṕıtulo

    σx̄  =  σ√ 

    n  (4.1)

    Utilice esta fórmula para derivar el error estándar de la media cuando la población es infinita, es decir,cuando los elementos de la población no pueden ser enumerados en un intervalo razonable, o cuandotomamos muestras con remplazo. Esta ecuacíon explica que la distribución de muestreo tiene unadesviación estándar, que también llamamos error estándar, igual a la desviación estándar de la población

    dividida entre la ráız cuadrada del tamaño de muestra.

    z  = x̄ − µ

    σx̄(4.2)

    Una versión modificada de la ecuación 4.13 , esta fórmula nos permite determinar la distancia de la  media de la muestra  x̄ de la media de la población µ  cuando dividimos la diferencia entre el error estándar de lamedia σx̄. Una vez que hemos derivado un valor  z, podemos usar la tabla de distribución de probabilidadnormal estándar y calcular la probabilidad de que la media de muestra esté a esa distancia de la mediade población. Debido al teorema del ĺımite central, podemos usar esta fórmula para distribuciones nonormales si el tamaño de muestra es de al menos 30.

    σx̄  =  σ√ 

    n × 

    N  − nN  −

    1  (4.3)

    en donde:

    •   N  = tamaño de la población•   n = tamaño de la muestra

    Ésta es la fórmula para encontrar el  error est´ andar de la media  cuando la población es finita, es decir, detamaño establecido o limitado, y el muestreo se hace  sin  remplazo.

    Multiplicador de población finita =

     N  − nN  − 1   (4.4)

    En la ecuación 5.3  el término  (N  − n)/(N  − 1), que multiplicamos por el error estándar de la ecuación5.1, se conoce como  multiplicador de poblaci´ on finita . Cuando la poblacíon es pequeña en relación conel tamaño de la muestra*, el multiplicador de la población finita reduce el tamaño del error estándar.Cualquier disminucíon en el error estándar aumenta la precisión con la que la media de la muestra puedeutilizarse para estimar la media de la población.

    Nota:  Los estadı́sticos se refieren a la fracción   nN 

      como la fraccci´ on de muestreo, porque es la fracciónde la población   N   contenida en la muestra. La regla generalmente aceptada es:   Si la fracción demuestreo es menor a 0.05, no se necesita usar el multiplicador de poblaci ón finita.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    24/32

    24   CAP ́ITULO 4. MUESTREO Y SUS DISTRIBUCIONES 

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    25/32

    Caṕıtulo 5

    ESTIMACIÓN

    •  Conceptos básicos .

    •  Estimación puntual.

    •  Estimación por intervalos.

    •  Cálculo del tamaño de la muestra.

    25

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    26/32

    26   CAP ́ITULO 5. ESTIMACI ́ON 

    5.1 Conceptos básicos de Estimación

    Términos introducidos en el capı́tulo

    Distribución t de Student   Familia de distribu-

    ciones de probabilidad que se distinguen por sus gra-dos de libertad individuales; es parecida, en formaa la distribución normal; y se utiliza cuando sedesconoce la desviación estándar de la población yel tamaño de la muestra es relativamente pequeño(n ≤ 30).Estimación  Valor espećıfico observado de un esti-mador.Estimación de intervalo Intervalo de valores uti-lizado para estimar un parámetro de población des-conocido.Estimación puntual  Un solo número que se uti-liza para estimar un parámetro de población des-

    conocido.Estimador  Estadı́stica de muestra utilizada paraestimar un parámetro de población.Estimador coherente   Estimador que producevalores que se acercan más al parámetro de lapoblación conforme aumenta el tamaño de la mues-tra.Estimador eficiente   Estimador con un menorerror estándar que algún otro estimador delparámetro de la población, esto es, cuanto más pe-

    queño sea el error estándar de un estimador, más

    efeciente será ese estimador.Estimador imparcial Estimador de un parámetrode población que, en promedio, asume valores porencima del parámetro de la población con la mismafrecuencia, y al mismo grado, con que tiende atomarlos por debajo del parámetro de la población.

    Estimador suficiente  Estimador que utiliza todala información disponible en los datos correspondi-entes a un parámetro.

    Grados de libertad   Número de valores de unamuestra que podemos especificar libremente, des-pués de que ya sabemos algo sobre dicha muestra.

    Intervalo de confianza   Intervalo de valores quetiene designada una probabilidad de que incluya elvalor real del parámetro de la población.

    Ĺımites de confianza   Ĺımites inferior y superiorde un intervalo de confianza.

    Nivel de confianza  Probabilidad que los estadı́s-ticos asocian con una estimación de intervalo de unparámetro de población, ésta indica qué tan segurosestán de que la estimación de intervalo incluirá alparámetro de la población.

    5.2 Ecuaciones de Estimación

    Ecuaciones introducidas en el caṕıtulo

    Estimación de la desviación estándar de la población

    σ̂ =  s  =

     Σ(x − x̄)2

    n − 1   (5.1)

    Esta fórmula indica que la desviación estándar de la muetra puede utilizarse para estimar la desviaciónestándar de la población.

    σ̂x̄  =  σ̂√ 

    n × 

    N  − nN  − 1   (5.2)

    Esta fórmula nos permite derivar un error estándar estimado de la media de una población finita  a partirde una  estimaci´ on  de la desviación estándar de la población.El śımbolo ,̂ conocido como gorro, indica que el valor es una estimación. La ecuación  6.6   es la fórmulacorrespondiente para una población infinita.

    µ¯ p  =  p   (5.3)

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    27/32

    5.2. ECUACIONES DE ESTIMACI ́ON    27

    Utilice esta formula para derivar la  media  de la distribución de muestreo de la porci´ on  de éxitos. La partederecha,  p, es igual a (n × p)/n, en donde el numerador es el número esperado de éxitos en  n  ensayos, yel denominador es el número de ensayos. Simbólicamente, la porción de éxitos de una  muestra  se escribecomo ¯ p  y se lee  p testada .

    σ¯ p  =   pq n

      (5.4)

    Para obtener el  error est´ andar de la porci´ on , tome la ráız cuadrada del producto de las probabilidades deéxito y de fracaso dividido entre el número de ensayos.

    σ̂¯ p  =

     ̄ pq̄ 

    n  (5.5)

    Ésta es la fórmula que se utiliza para derivar un error estándar estimado de la porción, cuando se desconocela porción de la población y uno se ve forzado a utilizar ¯ p  y q̄  de las porciones de la muestra de éxitos yfracasos.

    σx̄  =  σ̂√ 

    n  (5.6)

    Esta fórmula nos permite derivar un error estándar  estimado  de la media de una población   infinita   apartir de una  estimaci´ on  de la desviación estándar de la población. Es bastante parecida a la ecuacíon6.2 , excepto que carece del multiplicador de población finita.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    28/32

    28   CAP ́ITULO 5. ESTIMACI ́ON 

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    29/32

    Caṕıtulo 6

    REGRESIÓN SIMPLE, MÚLTIPLE

    Y CORRELACIÓN

    •  Conceptos básicos.

    •  Método de ḿınimos cuadrados.

    •  Estimación mediante la ĺınea de regresión.

    •  Análisis de correlación.

    •  Aplicaciones.

    29

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    30/32

    30   CAP ́ITULO 6. REGRESI ́ON SIMPLE, M ́ULTIPLE Y CORRELACI ÓN 

    6.1 Conceptos básicos de Regresión simple, múltiple y cor-

    relación

    Términos introducidos en el capı́tulo

    Análisis de correlación  Técnica para determinarel grado hasta el cual las variables están relacionadaslinealmente.Coeficiente de correlación Raı́z cuadrada del co-eficiente de determinación. Su signo indica la di-rección de la relación entre dos variables, directa oinversa.Coeficiente de determinación Medida de la por-ción de variación en Y, la variable dependiente, esexplicada por la ĺınea de regresión, esto es, por larelación de Y con la variable independiente.Diagrama de dispersión   Gráfica de puntos en

    una red rectangular: las coordenadas X  y  Y  de cadapunto corresponden a las dos mediciones hechas so-bre un elemento particular de la muestra, y el patrónde puntos ilustra la relación entre las dos variables.Ecuación de estimación   Fórmula matemáticaque relaciona la variable desconocida con las varia-bles conocidas en el análisis de regresión.Error estándar de la estimación  Medida de laconfiabilidad de la ecuación de estimación, que in-dica la variabliidad de los puntos observados alrede-dor de la l ı́nea de regresión, esto es, hasta qué puntolos valores observados difieren de sus valores predi-chos sobre la ĺınea de regresión.

    Error estándar del coeficiente de regresiónMedida de la variabilidad del coeficiente de regre-sión de muestra alrededor del verdadero coeficientede regresión de población.Intersección Y   Constante para cualquier ĺınearecta dada cuyo valor representa valor de la variableY   cuando la variable  X  tiene un valor de 0.Ĺınea de regresión Una ĺınea a justada a un grupo

    de puntos para estimar la relación entre dos varia-bles.Método de mı́nimos cuadrados   Técnica paraajustar una ĺınea recta a través de un conjunto depuntos de tal manera que la suma de las distanciasverticales cuadradas desde los  n  puntos a la ĺınea seminimiza.Pendiente   Constante para cualquier ĺınea rectadada cuyo valor representa qué tanto el cambio deunidad de la variable independiente cambia la varia-ble dependiente.Regresión  Proceso general que consiste en prede-

    cir una variable a partir de otra mediante mediosestadı́sticos, utilizando datos anteriores.Regresión múltiple  Proceso estadı́stico medianteel cual varias variables se utilizan para predecir otravariable.Relación curvilı́nea   Asociación entre dos varia-bles que es descrita por una ĺınea curva.Relación directa  Relación entre dos variables enlas que, al incrementarse el valor de la variable in-dependiente, se incrementa el valor de la variabledependiente.Relación inversa  Relación entre dos variables enlas que, al incrementarse el valor de la variable in-

    dependiente, decrece la variable dependiente.Relación lineal  Tipo particular de asociación en-tre dos variables que puede describirse matemática-mente mediante una ĺınea recta.Variable dependiente  La variable que tratamosde predecir en el análisis de regresión.Variable independiente   Variable(s) conocida(s)en el análisis de regresión.

    6.2 Ecuaciones de regresión simple y correlación

    Ecuaciones introducidas en el caṕıtulo

    Y   = a + bX    (6.1)

    Ésta es la ecuación para una ĺınea recta , donde la variable dependiente Y  esta“determinada”por la variableindependiente X . La  a  es llamada   intersecci´ on  Y   porque su valor es el punto en el cual la ĺınea cruza eleje Y  (el eje vertical). La b  es la   pendiente  de la l ı́nea, esto es, dice qué tanto cada cambio unitario de lavariable independiente X   cambia la variable dependiente  Y . Tanto  a  como  b   son constantes numéricas,puesto que, para cualquier ĺınea recta dada, sus valores no cambian.

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    31/32

    6.2. ECUACIONES DE REGRESI ́ON SIMPLE Y CORRELACI ÓN    31

    b =  Y 2 −Y 1X 2 −X 1 (6.2)

    Para calcular la constante numérica   b   para cualquier ĺınea dada, encuentre el valor de las coordenadasX   y  Y , para dos puntos que caen en la ĺınea. Las coordenadas para el primer punto son (X 1, Y 1) y elsegundo punto (X 2, Y 2). Recuerde que  b  es la pendiente de la ĺınea.

    Ŷ   = a + bX    (6.3)

    En el análisis de regresión,  Ŷ   (Y gorro) simboliza los valores individuales de  Y  de los puntos  estimados ,esto es, aquellos puntos que caen en la lı́nea de estimación. En consecuencia, la ecuación 7.3  es la ecuaciónpara la ĺınea de estimación.

    b = ΣXY  − n X̄  Ȳ 

    ΣX 2 − n X̄ 2   (6.4)

    La ecuación nos permite calcular la   pendiente de la ĺınea de regresi´ on de mejor ajuste   para cualquierconjunto de puntos de datos de dos variables. Se introducen dos nuevos śımbolos en esta ecuación,  X̄ e  Ȳ , que representan las medias de los valores de la variable independiente y la variable dependiente,respectivamente. Además esta ecuación contiene a  n  que, en este caso, representa el número de puntos

    de datos para los cuales estamos ajustando la lı́nea de regresión.

    a =  Ȳ  − b X̄    (6.5)Al utilizar esta fórmula, podemos calcular la   intersecci´ on Y de la ĺınea de regresi´ on de mejor ajuste  paracualquier conjunto de puntos de datos de dos variables.

    S e =

     Σ(Y  −  Ŷ )2

    n − 2   (6.6)

    El error est´ andar de la estimaci´ on , S e, mide la variabilidad o dispersión de los valores observados alrededorde la ĺınea de regresión. En efecto, indica la confiabilidad de la ecuación de estimación. El denominadores  n − 2 porque perdemos dos grados de libertad (para los valores  a  y  b) al estimar la lı́nea de regresión.

    S e  =

     ΣY 2 − aΣY  − bΣXY 

    n − 2   (6.7)

    Puesto que la ecuación 7.6  requiere tediosos cálculos, los estadı́sticos han ideado este  método de atajo para encontrar el error est´ andar de la estimaci´ on . Al calcular los valores para  b  y  a, ya hemos calculado cadacantidad de la ecuación 7.7 , excepto ΣY 2, que podemos hacer muy facilmente.

    V ariación de los valores de Y alrededor de la linea de regresión = Σ(Y  −  Ŷ )2 (6.8)La variación de los valores de  Y   en un conjunto de datos alrededor de la ĺınea de regresión ajustada esuna de dos cantidades a partir de las cuales se desarrolla el coeficiente de determinación. La ecuación 7.8 muestra como medir esta dispersión, que es la porción   inexplicada  de la variación total de los valores deY .

    V ariación de los valores de Y alrededor de su propia media = Σ(Y  −  Ȳ )2 (6.9)Ésta fórmula mide la  variaci´ on total  de un conjunto completo de valores de  Y , esto es, la variación deestos valores  Y   alrededor de su propia media.

    r2 = 1 −  Σ(Y  − Ŷ )2

    Σ(Y  −  Ȳ )2   (6.10)

    El  coeficiente de determinaci´ on de muestra ,  r2, da la fracción de la variación total de Y   que es explicadapor la ĺınea de regresión. Es una importante medida del grado d asociacíon entre  X   y  Y . Si el valor de

  • 8/17/2019 ESTADISTICA APLICADA1.pdf

    32/32

    32   CAP ́ITULO 6. REGRESI ́ON SIMPLE, M ́ULTIPLE Y CORRELACI ÓN 

    r2 es +1, entonces la lı́nea de regresión es un estimador perfecto.Si r2 = 0, no existe correlación entre X y Y  .

    r2 = aΣY   + bΣXY  − nȲ 2

    ΣY 2 − nȲ 2   (6.11)

    Ésta es una ecuación de atajo para calcular  r2.

    r =√ 

    r2 (6.12)

    El coeficiente de correlaci´ on de muestra  se denota mediante r  y se encuentra tomando la raı́z cuadrada delcoeficiente de determinación de muestra. Es una segunda medicíon (además de  r2) que podemos utilizarpara describir qué tan bien una variable es explicada por otra. El signo de r  es igual al signo de b; indicala dirección de la relación entre las dos variablesX  y  Y .

    Y   = A + BX    (6.13)

    Cada ĺınea de regresi  ́on de poblaci´ on  es la forma de la ecuación 7.13 , donde A  es la intersección Y   para lapoblación, y  B  es la pendiente.

    Y   = A + BX  + e   (6.14)

    Como todos los puntos individuales de una poblaci ón no caen en la l ı́nea de regresión de población, lospuntos de datos  individuales  satisfarán la ecuación 7.14, donde e  es una alteración aleatoria de la ĺınea deregresión de población. En promedio,  e  es igual a cero, porque las alteraciones por encima de la lı́nea deregresión de población son anuladas por las alteraciones que están por debajo.

    S b =  S e√ ΣX 2 − n X̄ 2 (6.15)

    Cuando tratamos con una muestra, podemos usar esta fórmula para encontrar el   error est´ andar del coeficiente de regresi´ on, b.