estadistica carlos (1)

88
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN ESTADISTICA Página 1 ESTADISTICA

Upload: giancarlo-salamanca-colque

Post on 12-Oct-2015

101 views

Category:

Documents


3 download

TRANSCRIPT

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 1

    ESTADISTICA

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 2

    1.- INTERVALO Y PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE MEDIA

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 3

    DIFERENCIA DE MEDIAS POBLACIONALES En ocasiones interesa definir un intervalo de valores tal que permita establecer cuales son los valores mnimo y mximo aceptables para la diferencia entre las medias de dos poblaciones. Pueden darse dos situaciones segn las muestras sean o no independientes; siendo en ambos casos condicin necesaria que las poblaciones de origen sean normales o aproximadamente normales: MUESTRAS INDEPENDIENTES Si puede suponerse que las varianzas de ambas poblaciones son iguales, el intervalo de confianza para la diferencia de medias poblacionales est centrado en la diferencia de las medias muestrales, siendo sus lmites superior e inferior:

    t /2 es el valor crtico correspondiente al grado de confianza 1- de la distribucin t de

    Student con n1+ n2-2 grados de libertad y es una estimacin de la desviacin tpica comn a ambas poblaciones obtenida a partir de las varianzas de las dos muestras. En la prctica si n1 y n2 son moderadamente grandes, el valor crtico t /2 se aproxima, como ya se ha visto anteriormente, a los valores de la distribucin normal. Si las varianzas poblacionales no pueden suponerse iguales los lmites del intervalo de confianza son:

    El valor crtico t /2 corresponde a una distribucin t cuyos grados de libertad se calculan en base a ambos tamaos muestrales y a las desviaciones tpicas de cada grupo segn la correccin propuesta por Dixon y Massey:

    Para obtener el intervalo de confianza en ambos casos la secuencia es: Analizar Comparar medias Prueba T para muestras independientes

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 4

    En el cuadro de dilogo hay que seleccionar en Contrastar variables la variable objeto de anlisis e indicar la Variable de agrupacin junto con el criterio para Definir grupos (las dos poblaciones).

    Los grupos pueden definirse en funcin de una variable cuantitativa o de una cualitativa. Si la variable de agrupacin presenta slo dos valores o modalidades, entonces se debe seleccionar Usar valores especificados e indicar la modalidad que define el grupo 1 y la del grupo 2. Si la variable tiene ms de 2 valores o modalidades se elige la opcin Punto de corteindicando el valor de la variable que induce una particin en dos grupos, uno de los cuales estar formado por todos los casos con valores menores que el especificado y el otro por el resto de casos. Al aceptar se obtienen:

    - resultados de la prueba de Levene para contrastar la igualdad de varianzas *

    - resultados de la prueba T para contrastar la igualdad de medias - intervalo de confianza para la diferencia de medias al 95% por defecto. Si se quiere cambiar el grado de confianza del intervalo, antes de aceptar hay que modificarlo con el botn Opciones.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 5

    MUESTRAS DEPENDIENTES. En este caso las muestras estn formadas por parejas de valores, uno de cada poblacin y el estadstico se obtiene a partir de las diferencias de los valores de las dos variables correspondientes a cada caso o di que se define como di= xi-yi. Para contrastar la hiptesis de igualdad de medias y obtener el intervalo de confianza la secuencia es: Analizar Comparar medias Prueba T para muestras independientes

    Las variables se deben seleccionar por parejas. Haciendo clic sobre las variables de la lista aparecen sus nombres en el cuadro Selecciones actuales; una vez seleccionadas las dos variables se trasladan al recuadro Variables relacionadas de la forma habitual. En cada sesin se pueden seleccionar tantos pares de variables como medias se quieran comparar. Al aceptar se obtienen para cada par de variables, los siguientes resultados: - Media, desviacin tipo y error tpico de la media de las di. - Intervalo de confianza, por defecto al 95%, para la diferencia de medias poblacionales que viene dado por:

    es el valor de la distribucin t de Student con n-1 grados de libertad que deja por encima una probabilidad de /2. - Estadstico t del contraste (contraste de dos colas).

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 6

    EJEMPLO 1 Con los datos de la encuesta Enctran.sav obtener la estimacin puntual y los intervalos de confianza del 95 y del 99% para la media de la poblacin de la variable Coste. En el cuadro de dilogo Explorar, que se obtiene con la secuencia Analizar > Estadsticos descriptivos > Explorar, se selecciona como variable dependiente la variable Coste. En Estadsticos comprobamos que est activada la opcinDescriptivos y que el intervalo para la media definido es el del 95%. Al aceptar se obtiene el siguiente cuadro de resultados:

    La estimacin puntual del valor esperado del coste es 5236,40 Pta. Esta estimacin tiene un error tpico de 365,97. Los lmites inferior y superior del intervalo de confianza del 95% son 4511,34 y 5951,46, respectivamente. Este resultado se interpreta como que de los intervalos obtenidos con este mtodo el 95% contendrn el verdadero valor esperado del coste. Una medida del grado de precisin con el que se est estimando el valor esperado es la amplitud del intervalo, que en este caso es igual a 1450,12 y la mitad de la amplitud, que es 725,06, es el error mximo de estimacin que puede garantizarse con una probabilidad de 0,95. Este

    error mximo es igual a donde t /2 , es el valor crtico para =0,05 de la

    distribucin t e Student, en este caso con 113 grados de libertad, y es el error tpico de la estimacin. Para obtener el intervalo del 99% de confianza modificamos el valor del grado de confianza en el cuadro Explorar:Estadsticos fijndolo en el 99%. Los lmites del intervalo de confianza del 99% son 4277,54 y 6195,27; la confianza de que este intervalo contenga el verdadero valor esperado del coste es 0,99. La amplitud de este intervalo es 2217,73 que es mayor que la amplitud del intervalo del 95%, por lo tanto, 1108,865, es el error mximo de estimacin que puede garantizarse con una probabilidad de 0,99. Como puede verse, a medida que aumenta el grado de confianza del intervalo disminuye la precisin de la estimacin.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 7

    EJEMPLO 2 . Para la misma variable Coste verificar si se puede aceptar el supuesto de que el valor esperado del Coste es superior a 6000. Con la secuencia Analizar > Comparar medias > Prueba T para una media se abre el cuadro de dilogo Prueba T para una muestra en el cual se selecciona la variable Coste y se indica como Valor de prueba 6000. Esto quiere decir que las hiptesis que se estn contrastando

    son Se trata por tanto de un contraste a una sola cola.

    El estadstico de prueba toma el valor t=-2,086, que en las tablas de la distribucin t de Student con 113 grados de libertad deja por debajo un rea de 0,0195. Esto quiere decir que se rechaza la hiptesis nula en favor de la alternativa para niveles de significacin superiores a 0,0195. Obsrvese que 0,0195 es la mitad del nivel de significacin para la prueba de dos colas que aparece en el cuadro de resultados.

    Por otra parte si las hiptesis hubieran sido se rechazara la hiptesis nula en favor de la alternativa para niveles de significacin superiores a 0,039. El intervalo del 95% de confianza para la media calculado en el apartado anterior no contena el valor 6000; lo que equivale a decir que para un nivel de significacin del 5% se rechaza la hiptesis nula. Por el contrario, el intervalo del 99% contena el valor 6000 y, por lo tanto, para un nivel de significacin del 1% no se rechazara la hiptesis nula.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 8

    EJEMPLO 3. Verificar si existe diferencia significativa entre el coste esperado en transporte de los alumnos que viven en Barcelona y el de los que viven fuera. Con la secuencia Analizar> Comparar medias > Prueba T para muestras independientes se abre el cuadro de dilogoPrueba T para muestras independientes en el cual se selecciona la variable Coste y se indica como Variable de agrupacinResid. En la opcin Definir grupos se asigna al Grupo 1 el valor 1 (vive en Barcelona) y al Grupo 2 el valor 2 (no vive en Barcelona). Aceptando se obtienen entre otros los siguientes resultados:

    Las hiptesis que se estn contrastando son frente Para realizar este contraste previamente se debe comprobar si es aceptable la hiptesis de

    varianzas poblacionales iguales para los dos grupos . El estadstico F de la prueba de Levene* no permite aceptar la igualdad de varianzas poblacionales, por lo cual el valor del estadstico de prueba es t=-3,750 que para cualquier nivel de significacin lleva a rechazar la hiptesis de igualdad de medias. El signo negativo del estadstico t indica que el coste del transporte es significativamente superior para los que viven fuera de Barcelona.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 9

    2.- INTERVALO Y PRUEBA DE HIPOTESIS PARA LA VARIANZA

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 10

    Pruebas de hiptesis. Prueba de hiptesis para una varianza De una poblacin con distribucin normal con media m y varianza s 2 se obtiene una muestra aleatoria de tamao n. Para obtener el intervalo de confianza para la varianza ( s 2 ) se parte de la expresin (1):

    (1) Se divide por ns2 :

    Se invierte:

    Reescribiendo:

    (2) Donde y pertenecen a una distribucin chi-cuadrado con (n-1) grado de libertad, por lo tanto, y son diferentes y < . Ejemplo La varianza de la resistencia a la rotura de 30 cables probados fu de 32.000 lbs 2. Halle un intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de sta marca. Solucin . Se utiliza la expresin 2. Los valores de y pertenecen a una distribucin chi-cuadrado con 29 grados de libertad. como puede observarse en la figura 2.3 el rea que hay por debajo de Z a /2 es 0,05, por lo tanto =17,71 y el rea que hay por debajo de es 0,95, por lo tanto =42,56

    Figura 2.3 Percentiles de la distribucin chi-cuadrado Reemplazando en la expresin 2.6 se obtiene:

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 11

    Por razones de utilidad se halla el intervalo de confianza para la desviacin estndar, sacando la raz cuadrada de los lmites, por lo tanto:

    INTERPRETACIN . El promedio de variacin o de dispersin de la rotura de los cables de dicha marca, est entre 150 y 233 lbs . con una confiabilidad del 90 por ciento. CONTRASTES DE HIPTESIS PARA LA VARIANZA DE UNA POBLACIN NORMAL

    Suponga que un fabricante de pernos esta produciendo pernos de 8 mm de dimetro, y que los dimetros de estas piezas se distribuyen normalmente ; con propsitos de control de calidad, se obtuvo una muestra de 25 pernos de una lnea de produccin para estimar la varianza de todos los dimetros , la cual result ser S2 = 0.009 mm2. Con un nivel de significancia de 0.05. Se puede concluir que la varianza poblacional es igual o menor 0.01 mm2? Solucin Datos n =25 S2 = 0.009 mm2 = .05 1. Establecer la hiptesis

    Ho: .01

    Ha:

    2

    01.2

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 12

    2. Establecer la estadstica de prueba.

    3. Definir el nivel de significancia y la zona de rechazo.

    g.l =24 36.415 Nivel de significancia = 0.05

    Zona de Rechazo = { > 36.415) 4. Calcular la estadstica de prueba.

    como la esta bajo la hiptesis nula entonces tenemos

    = 21.6 5. Como 21.6 es menor que 36.415 no se rechaza la hiptesis nula con un nivel de significancia de 0.05. 6. Conclusin Existe evidencia estadstica para decir que la varianza poblacional es igual o menor 0.01 mm2. Es frecuente que se desee comprobar si la variacin o dispersin de una variable ha tenido alguna modificacin, lo cual se hace con la prueba de hiptesis para la varianza. Hiptesis Se puede plantear uno de los siguientes tres tipos de hiptesis:

    2

    22 )1(

    Sn

    22 /

    2

    22 )1(

    Sn

    2

    01.0

    )009.()24(2

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 13

    - Prueba de hiptesis a dos colas H0 : = k H1 : k - Prueba de hiptesis a una cola superior H0 : = k H0 : k H1 : > k H1 : > k - Prueba de hiptesis a una cola inferior H0 : = k H1 : k H1 : < k H1 : < k En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida. Si se utiliza la varianza sin corregir ( ) la estadstica de trabajo es la expresin (1.4):

    (3.6) Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):

    (3.7) REGLA DE DECISION - Si se ha planteado la hiptesis alternativa como: H1 : k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura 3.8

    Figura 3.8 Regla de decisin para una prueba de hiptesis a dos colas

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 14

    y pertenecen a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo (T) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < T < no se rechaza H0. - Si se ha planteado la hiptesis alternativa como: H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, vease figura 3.9

    Figura 3.9 Regla de decisin para una prueba de hiptesis a una cola superior Z1- pertenece a una distribucin X

    2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo (T) es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si T < no se rechaza H0 . - Si se ha planteado la hiptesis alternativa como: H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, vease figura 3.10

    Figura 3.10 Regla de decisin para una prueba de hiptesis a una cola inferior Z pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de trabajo (T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si T >Z no se rechaza H0.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 15

    EJEMPLO Se supone que los dimetros de cierta marca de vlvulas estn distribudos normalmente con una varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7 Con sta informacin pruebe si lo que se cree es cierto. Solucin Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto: H0 : = 0,2 H1 : > 0,2 Para realizar esta prueba de hiptesis se utiliza la expresin 3.6

    Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 16

    3.- INTERVALO Y PRUEBA DE HIPOTESIS PARA PROPORCIONES

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 17

    INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES DE DOS POBLACIONES INDEPENDIENTES Sea y las proporciones de xitos de dos muestras aleatorias grandes independientes de tamaos seleccionadas respectivamente de dos poblaciones de Bernoulli y donde y son los respectivos parmetros proporciones de xitos en las poblaciones. La estimacin puntual de es , valor de la estadstica . Si son suficientemente grandes , entonces, tienen

    cada una distribuciones aproximadamente normales respectivas (

    ) y

    (

    ). Luego, por la propiedad reproductiva de la normal, la estadstica

    tendr distribucin aproximadamente normal Con media:

    Y con varianza: (

    ) (

    )

    Por consiguiente, la estadstica,

    Donde, y . Si sustituimos o estimamos, por y por , entonces, el error tpico de

    es

    y por consiguiente, la estadstica

    Es la estadstica del pivote para determinar el intervalos de confianza de . Dada la probabilidad , en la distribucin de Z, se halla el valor de

    tal

    que: [ ]

    Sustituyendo la estadstica de Z y luego de hacer operaciones convenientes se obtiene

    [

    ]

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 18

    Por tanto,

    Si y son las proporciones de xitos en dos muestras aleatorias grandes independientes de tamaos respectivamente, entonces, el intervalo de estimacin de con nivel de confianza del es:

    [

    ]

    Donde,

    es el error tpico de la estadstica

    EJEMPLOS 1 El nivel de colesterol es un factor de alto riesgo de enfermedades al corazn. Para comparar el nivel de colesterol de adultos divididos en dos grupos A de 25 a 40 aos y B ms de 40 aos, se escogi una muestra aleatoria de 200 adultos de A y otra de 250 de B encontrando que 120 y 175 respectivamente tenan niveles de colesterol alto (ms de 230 mg/dl). Aplicando un intervalo de confianza del 95% para la verdadera diferencia de proporciones de colesterol alto, se puede concluir que el riesgo de sufrir tal enfermedad es la misma para los dos grupos? SOLUCION: De las muestras se obtiene:

    De A,

    De B,

    Y El error estndar o tpico de la diferencia de proporciones es:

    Dado el nivel de confianza se tiene . Entonces, los lmites de tolerancia para son:

    En consecuencia, el intervalo de confianza del 95%, para es

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 19

    Dado que el intervalo resultante no contiene el valor cero, debemos concluir que las proporciones de colesterol alto son diferentes, esto es, y dado que el intervalo contiene valores negativos, hay razones para concluir que . EJEMPLO 2 Un fabricante afirma que su nuevo producto de consumo popular prefieren ms los hombres que las mujeres. Para comprobar tal afirmacin, se toma una muestra aleatoria de 250 hombres y otra de 200 mujeres, y se encuentra que 175 hombres y 120 mujeres prefieren el nuevo producto. Utilizando un intervalo de confianza del 95% para la verdadera diferencia de proporciones de preferencias entre los hombres y las mujeres, se puede concluir que el fabricante del nuevo producto tiene la razn? De los datos del problema se obtiene:

    ,

    ,

    La estimacin puntual del parmetro es la diferencia de proporciones muestrales El error estndar o tpico de la diferencia de proporciones es:

    Dado el nivel de confianza se tiene . Entonces, los lmites de tolerancia para son:

    En consecuencia, el intervalo de confianza del 95%, para es

    Dado que el intervalo resultante no contiene el valor cero, debemos concluir que las proporciones de colesterol alto son diferentes, esto es, y dado que el intervalo contiene valores positivos, hay razones para concluir que . PRUEBA DE HIPOTESIS DE LA DIFERENCIA DE DOS PROPORCIONES CON OBSERVACIONES INDEPENDIENTES Sean y el nmero de xitos en dos muestras aleatorias independientes de tamaos y seleccionadas respectivamente de dos poblaciones de Bernoulli y , donde los parmetros desconocidos y son las proporciones de xitos poblacionales respectivos. Sean adems la proporcin de xitos mustrales respectivas:

    Y

    Para y suficientemente grandes ( y ), la variable aleatoria

    Tiene distribucin aproximadamente normal Si se supone verdadera, la estadstica es;

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 20

    Donde es el valor comn de los parmetros y cuya estimacin insesgada (probar!) es:

    La estadstica

    Valor que resulta de dos muestras aleatorias, se utiliza para probar la hiptesis nula , contra una alternativa unilateral o bilateral. Las regiones crticas y las reglas de decisin de esta prueba Z son similares a los de la seccin. Prueba bilateral. Si la prueba es de contra regin critica en los valores de Z es el intervalo:

    Prueba unilateral cola derecha. Si la prueba es de contra , la regin critica en los valores de Z es el intervalo:

    Prueba unilateral cola izquierda. Si la prueba es de contra , la regin critica en los valores de Z es el intervalos:

    EJEMPLO 1: Un patrocinador de un programa especial de televisin afirma que el programa representa un atractivo mayor para los televidentes hombres que para las mujeres, pero, el personal de produccin del programa piensa que es igual el porcentaje de televidentes hombres y mujeres que ven el programa especial. Si una muestra aleatoria de 300 hombres y otra de 400 mujeres revelo que 120 hombres y 120 mujeres estaban viendo el programa especial de televisin. Puede considerarse significativa la diferencia al nivel ? SOLUCION. Sean y , respectivamente, las proporciones de hombres y mujeres que ven el programa especial de televisin. Hiptesis contra Nivel de significacin Estadstica. Si es verdadera y las muestras son grandes, la estadstica es:

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 21

    Que tiene distribucin aproximadamente normal Regin critica. Para una prueba unilateral cola a la derecha, la regin critica es:

    Calculo. Los datos de la muestra dan

    ,

    Decisin: como , deberamos rechazar . EJEMPLO 2: Con el fin de conocer el nivel de aceptacin de un producto un analista cuantitativo realizo un estudio de opinin en dos ciudades del interior del pas. En Chiclayo 120 consumidores de una muestra al azar de 300 opinaron aceptando el producto, mientras que en Arequipa 120 consumidores de una muestra al azar de 400 opinaron estar de acuerdo con el producto puede considerarse significativa la diferencia de dos proporciones muestrales con una probabilidad de error tipo I al nivel del 5%? SOLUCION: Sean y , respectivamente, las proporciones de consumidores que aceptan el producto en Chiclayo y Arequipa. De las muestras se obtiene:

    , ,

    , , ,

    Por lo tanto:

    Y el error tpico de es:

    (

    )

    1. Hiptesis contra

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 22

    2. estadstica y regin critica. La estadstica de la prueba cuando se supone verdadera est dada por:

    Dado el nivel de significacin y dado que la hiptesis indica una prueba unilateral cola derecha, en la distribucin de Z se halla el valor crtico .por lo tanto, la regin crtica de la prueba es el intervalo 3. decisin. El valor de Z calculado de la muestra es:

    Y dado que , deberamos rechazar he inferir que en Chiclayo el producto tiene ms aceptacin que en Arequipa. La probabilidad P de esta prueba es [ ] , por lo que se rechaza

    4.- INTERVALO Y PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE PROPORCIONES

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 23

    ESTADISTICA 1) INTRODUCCION: La presente investigacin se refiere al tema de la Estadstica, que se puede definir es la ciencia cuyo objetivo es reunir una informacin para facilitar al hombre el estudio de datos masivos de individuos, grupos, series de hechos, etc. y deducir de ello gracias al anlisis de estos datos unos significados precisos o unas previsiones para el futuro. Tambin se refiere a la importancia, mtodos e importancia de la estadstica ya que est relacionada con el estudio de proceso cuyo resultado es ms o menos imprescindible y con la finalidad de obtener conclusiones para tomar decisiones razonables de acuerdo con tales observaciones La Estadstica se ocupa de los mtodos cientficos para recolectar, organizar, resumir, presentar y analizar datos, as como de sacar conclusiones vlidas y tomar decisiones con base en este anlisis, as tambin realizar predicciones a cerca del conjunto del cual se han seleccionado dichos datos. Elemplo cuidadoso de los mtodos estadsticos permite obtener informacin precisa de los datos. 2) OBJETIVOS: Comprenderla importancia del estudio de la historia de la estadstica, para lo cual es necesario un recorrido por sus conceptos, mtodos e importancia y ms definiciones, con el fin de acercarnos un poco ms al tema de la Estadstica. Conocer sobre el tema con el cual se trabajara a lo largo del semestre en aplicable a la contabilidad. Aplicar apropiadamente los mtodos estadsticos en la recoleccin de informacin y procesos matemticos bsicos en clculos estadsticos. Adquirir los conocimientos y habilidades sobre el tema, ser capaz de reconocer los elementos habituales de la estadstica Aplicar los fundamentos bsicos para realizar un buen trabajo en clase. 3) MEDIDAS DE POSICION : Las medidas de posicin dividen un conjunto de datos en grupos con el mismo nmero de individuos. Para calcular las medidas de posicin es necesario que losdatos estn ordenados de menor a mayor. La medidas de posicin son: Cuartiles Los cuartiles son los tres valores de la variable que dividena un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 24

    Q2 coincide con la mediana. Clculo de los cuartiles: 1 Ordenamos los datos de menor a mayor. 2 Buscamos el lugar que ocupa cada cuartil mediante la

    expresin . Nmero impar de datos 2, 5, 3, 6, 7, 4, 9

    Nmero par de datos 2, 5, 3, 4, 6, 7, 1, 9

    Clculo de los cuartiles para datos agrupados:

    En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

    L i es el lmite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. F i-1 es la frecuencia acumulada anterior a la clase mediana. a i es la amplitud de la clase. Ejercicio de cuartiles Calcular los cuartiles de la distribucin de la tabla:

    f i F i

    [50, 60) 8 8

    [60, 70) 10 18

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 25

    [70, 80) 16 34

    [80, 90) 14 48

    [90, 100) 10 58

    [100, 110) 5 63

    [110, 120) 2 65

    65

    Clculo del primer cuartil

    Clculo del segundo cuartil

    Clculo del tercer cuartil

    Deciles: Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana. Clculo de los deciles

    En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

    L i es el lmite inferior de la clase donde se encuentra la mediana.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 26

    N es la suma de las frecuencias absolutas. F i-1 es la frecuencia acumulada anterior a la clase mediana. a i es la amplitud de la clase. Ejercicio de deciles Calcular los deciles de la distribucin de la tabla:

    f i F i

    [50, 60) 8 8

    [60, 70) 10 18

    [70, 80) 16 34

    [80, 90) 14 48

    [90, 100) 10 58

    [100, 110) 5 63

    [110, 120) 2 65

    65

    Clculo del primer decil

    Clculo del segundo decil

    Clculo del tercer decil

    Clculo del cuarto decil

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 27

    Clculo del quinto decil

    Clculo del sexto decil

    Clculo del sptimo decil

    Clculo del octavo decil

    Clculo del noveno decil

    Percentiles Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 28

    Clculo de los percentiles

    En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.

    L i es el lmite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. F i-1 es la frecuencia acumulada anterior a la clase mediana. a i es la amplitud de la clase. Ejercicio de percentiles Calcular el percentil 35 y 60 de la distribucin de la tabla:

    f i F i

    [50, 60) 8 8

    [60, 70) 10 18

    [70, 80) 16 34

    [80, 90) 14 48

    [90, 100) 10 58

    [100, 110) 5 63

    [110, 120) 2 65

    65

    Percentil 35

    Percentil 60

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 29

    4) MEDIDAS DE DISPERSION Las medidas de dispersin, tambin llamadas medidas de variabilidad, muestran la variabilidad de una distribucin, indicando por medio de un nmero, si las diferentes puntuaciones de una variable estn muy alejadas de la media. Cunto mayor sea ese valor, mayor ser la variabilidad, cuanto menor sea, ms homognea ser a la media. As se sabe si todos los casos son parecidos o varan mucho entre ellos. Para calcular la variabilidad que una distribucin tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmtica. Pero la suma de las desviaciones es siempre cero, as que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviacin media) y otra es tomando las desviaciones al cuadrado (varianza). Rango estadstico El rango o recorrido interarticular es la diferencia entre el valor mximo y el valor mnimo en un grupo de nmeros aleatorios. Se le suele simbolizar con R'. Requisitos del rango Ordenamos los nmeros segn su tamao. Restamos el valor mnimo del valor mximo

    Ejemplo Para la muestra (8, 7, 6, 9, 4, 5), el dato menor es 4 y el dato mayor es 9. Sus valores se encuentran en un rango de:

    Medio rango o Rango medio El medio rango o rango medio de un conjunto de valores numricos es la media del mayor y menor valor, o la tercera parte del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia, el medio rango es:

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 30

    Ejemplo Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolvindolo mediante la correspondiente frmula sera:

    Representacin del medio rango:

    Varianza La varianza es una medida estadstica que mide la dispersin de los valores respecto a un valor central (media), es decir, es el cuadrado de las

    desviaciones:

    Propiedades

    La varianza es siempre positiva o 0: Si a los datos de la distribucin les sumamos una cantidad constante la varianza no se modifica.

    [1] c

    Si a los datos de la distribucin los multiplicamos una constante, la varianza queda multiplicada por el cuadrado de esa constante.

    Propiedad distributiva: cov

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 31

    Desviacin tpica La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadrticas. Para evitar ese problema se define otra medida de dispersin, que es la desviacin tpica, o desviacin estndar, que se halla como la raz cuadrada positiva de la varianza. La desviacin tpica informa sobre la dispersin de los datos respecto al valor de la media; cuanto mayor sea su valor, ms dispersos estarn los datos. Esta medida viene representada en la mayora de los casos por S, dado que es su inicial de su nominacin en ingls. Desviacin tpica muestral

    Desviacin tpica poblacional

    -->x = [17 14 2 5 8 7 6 8 5 4 3 15 9] x = 17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9. -->stdev(x) ans = 4.716311 --> Primero hemos declarado un vector con nombre X, donde introduzco los nmeros de la serie. Luego con el comando stdev se hallar la desviacin tpica. Covarianza La covarianza entre dos variables es un estadstico resumen indicador de si las puntuaciones estn relacionadas entre s. La formulacin clsica, se simboliza por la letra griega sigma () cuando ha sido calculada en la poblacin. Si se obtiene sobre una muestra, se designa por la letra " ". La frmula suele aparecer expresada como:

    Este tipo de estadstico puede utilizarse para medir el grado de relacin de dos variables si ambas utilizan una escala de medida a nivel de intervalo/razn (variables cuantitativas). La expresin se resuelve promediando el producto de las puntuaciones diferenciales por su tamao muestral (n pares de puntuaciones, n-1 en su forma insesgada). Este estadstico, refleja la relacin lineal que existe entre dos variables. El resultado numrico flucta entre los rangos de +infinito a -infinito. Al no tener unos lmites establecidos no puede determinarse el grado de relacin lineal que existe entre las dos variables, solo es posible ver la tendencia.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 32

    Coeficiente de Correlacin de Pearson El coeficiente de correlacin de Pearson, r, permite saber si el ajuste de la nube de puntos a la recta de regresin obtenida es satisfactorio. Se define como el cociente entre la covarianza y el producto de las desviaciones tpicas (raz cuadrada de las varianzas).

    Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes: Ejemplo Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolvindolo mediante la correspondiente frmula

    sera:

    Propiedades El coeficiente de correlacin, r, presenta valores entre 1 y +1. Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La nube de puntos est muy dispersa o bien no forma una lnea recta. No se puede trazar una recta de regresin. Cuando r es cercano a +1, hay una buena correlacin positiva entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente positiva, ser creciente. Cuando r es cercano a -1, hay una buena correlacin negativa entre las variables segn un modelo lineal y la recta de regresin que se determine tendr pendiente negativa: es decreciente.es

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 33

    5) PROBABILIDADES (COMBINACIONES Y PERMUTACIONES ) Contamos posibilidades: Comenzamos con un sencillo ejemplo. En Espafia, los coches tienen una matricula que consta de cuatro digitos decimales, seguidos de tres letras sacadas de un alfabeto de 26. Cutas matriculas distintas puede Ilegar a haber? Cuando se da una situaci6n en la que cada uno de varios elementos puede tomar valores distintos, o diferentes tareas se pueden hacer de forma distinta, y todos ellos son independientes entre si, la forma de calcular el n"tm1ero total de posibilidades es multiplicar el n"umero de valores que puede tomar cada elemento, o el ntnI1ero total de formas en las que se puede realizar cada tarea. En nuestro caso, el primer digito puede tomar uno de 10 valores; para cada uno de estos valores, el Segundo digito puede tomar uno de 10 valores, y asi sucesivamente, hasta Ilegar a la tercera letra, que puede tomar, para cada uno de los casos que tengamos hasta ese momento, uno de 26 valores, para un total de I O x I O x 10 x I O x 26 x 26 x 26 = 175.760.000 posibles matriculas. Como se puede ver, itenemos matriculas para rato! Tomemos otro ejemplo sencillo. Cutos n"umeros hay cuya expresi6n decimal tiene exactamente 6 cifras? (Como es habitual, los ceros a la izquierda se eliminan) En este caso, uno de los elementos tiene una limitaci6n en su valor: la primera cifra no puede ser cero porque entonces ese cero a la izquierda se eliminaria y el ntm1ero tendria a lo sumo 5 cifras. Por lo tanto, la primera cifra s6lo puede tomar 9 posibles valores (I,2,...,9), para un total de 9 x I O x 10 x 10 x I O x I O = 900.000 ntmleros. Este problema se puede resolver Iambin de otra forma alternativa, ya que el menor ntm1ero que tiene exactamente 6 cifras es el 100.000, y el mayor es 999.999, y todos los numeros entre ambos, y ninguno ms, tiene exactamente 6 cifras, para un total de 999.999 - 100.000 + I = 900.000 numeros. Sumamos uno a la diferencia entre 999.999 y 100.000 porque ambos tienen 6 cifras y deben ser contados. Continuamos con otro ejemplo. En el mus se reparten a cada jugador 4 cartas de una baraja de 40 cartas distintas. De cutas formas distintas me pueden repartir 4 cartas en el mus? De cutas formas me pueden tocar los 4 reyes?

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 34

    Ahora, el resultado de la primera carta que se reparta afecta a las otras 3, porque ninguna de estas 3 puede ser igual a la primera, que ya es repartida. Por lo tanto, aunque la primera carta que me repartan es una de entre 40, la segunda carta deber ser una de entre las 39 restantes, la tercera una de las 38 restantes, y la cuarta una de entre las 37 restantes, para un total de 40 x 39 x 38 x 37 = 2.193.360 posibles formas de repartir 4 cartas. Para que me toquen los cuatro reyes, la primera carta debe ser uno de estos cuatro reyes, la segunda uno de los tres restantes, la tercera uno de los dos restantes, y la "uItima el rey que quede, para un total de 4 x 3 x 2 x I = 24 posibles formas de repartir los 4 reyes. iDe repente, tener cuatro reyes parece muy dificil! Importa el orden? Vamos a cambiar ligeramente el problema anterior: Cutas posibles manos existen en el mus? Es decir, como una vez que tengo mis cuatro cartas en la mano, la jugada no depende del orden en que me hayan Ilegado, cuntos son los posibles grupos de 4 cartas que puedo Ilegar a tener jugando al mus? Cutas manos tienen 4 reyes? La respuesta a la "uItima pregunta es claramente que s6lo I mano tiene 4 reyes, icuando tengo los 4! No importa en este caso el orden en que hayan Ilegado. Me han podido Ilegar primero el de oros, luego el de copas, el de espadas y finalmente el de bastos (OCEB), pero me han podido Ilegar tambin en cualquier otro orden, (CBEO, BOEC,...). De hecho, como el primero ha podido ser cualquiera de los 4, luego cualquiera de los tres restantes, luego cualquiera de los 2 restantes, y fmalmente el "unico que me falta, hay 4 x 3 x 2 x I = 24 posibles formas de ordenar los 4 reyes. iClaro, tantas formas como hay para que me repartan los 4 reyes si voy recibiendo las cartas de forma ordenada, de una en una! Vemos que el n"mnero total de manos con 4 reyes es el resultado de dividir el n"umero de formas de repartir los 4 reyes, entre el n"umero de formas de ordenar estos 4 reyes. En el caso de todas las posibles manos, sucede lo mismo; una vez que tengo 4 cartas en la mano, me han podido Ilegar en uno de 24 posibles 6rdenes, pero cada una de estas 24 formas de ordenarlas se corresponden con exactamente una mano, la formada por esas 4 cartas independientemente del orden en que me Ileguen. Formas de ordenar: permutaciones En este ejemplo sencillo, nos ha bastado con ir contando, pero hay alguna forma general de pensar y calcular que podamos aplicar en ejemplos ms complicados? Aunque parezca que estamos "dando ms vuelta", vamos a pensar de otra forma distinta. Cutas posibles formas hay de ordenar las 40 cartas de la baraja? Siguiendo el mismo razonamiento de antes para ordenar los 4 reyes, vemos que hay 40 x 39x 38 x 37 x 36x 35x . ..x 5x 4x 3x 2 x I formas de ordenar la baraja. Si calculamos este producto, es un nmero de 48 cifras que empieza por 8 Para abreviar, como este nmero es muy largo, incluso escrito como producto, lo escribimos 40!, y en general, el producto de los nmeros desde I hasta n lo escribimos como n!, y le llamaremos n factorial, o factorial de n; asi diremos que hay 4!-24 formas de ordenar los 4 reyes, o IO!-3.628.800 formas distintas de ordenar las 10 cartas de oros.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 35

    Se Hallan permutaciones de un conjunto, o permutaciones de los elementos de un conjunto, a las posibles formas de ordenar dichos elementos, y si el conjunto tiene n elementos distintos, el ntm1ero de permutaciones de estos n elementos es igual a n!= n x(n -I)x(n - 2)x ...x 3x 2x I . Factorial y suspropiedades El factorial de n, escrito n!, es el producto de los enteros entre I y n; asi, el factorial de 6 es 6!- 6 x 5 x 4 x 3x 2 x I - 720 . Defmimos O!-I, principalmente porque como ya hemos visto el factorial de n es igual al nmnero de formas de ordenar n elementos distintos. Si tenemos O elementos, hay exactamente una forma de ordenarlos, ino tomar ninguno! Adems, como veremos otras propiedades funcionan mejor asi. Por ejemplo es fcil ver que:

    (n+1)!-(n+1)xn!.

    En efecto, si multiplicamos el producto de los n primeros enteros positivos por n+1, tenemos claramente el producto de los n+1 primeros enteros positivos. Si adems hacemos n-0, esta propiedad tambin se cumple cuando defmimos, como lo hemos hecho, 0!-1, porque entonces 1!-Ixo!-1. Tambin es sencillo comprobar que

    (n+ m)' = (n + m)x (n + m -1)x (n+ m - 2)x ...x(n + 2)x(n+1), n! ` ' ` ' ` ' ` ' ` '

    ya que los nim1eros que aparecen en el producto (n+m)! pero no aparecen en n! son exactamente todos los enteros mayores que n pero menores o iguales que n+m. Asi, por ejemplo

    8 = 8 x 7 x 6 x 5 x 4 .

    Formas de repartir: combinaciones De qu nos sirve esto a la hora de calcular el n"mnero de posibles manos en el mus? Supongamos que ordenamos la baraja en una cualquiera de las 40! formas posibles, y que a mi se me reparten las 4 primeras cartas. Las 36 cartas que no me van a repartir, pueden estar ordenadas en una de las 36! posibles permutaciones de 36 elementos, y las 4 que me reparten pueden estar ordenadas en una de las 4! Posibles permutaciones de 4 elementos. Multiplicamos 36! y 4! para obtener el n"mnero de permutaciones de las 40 cartas para las que las 4 primeras cartas son las mismas, porque las formas de ordenar las 4 primeras cartas, y las formas de ordenar las 36 "uItimas, son independientes entre si. Para cada una de estas 36!4! formas de ordenar independientemente estos dos grupos de cartas, ilas 4 cartas que recibo son las mismas, las 4 primeras! Puedo entonces calcular tambin las posibles manos que recibo como

    40! 40 x 39 x 38 x 37

    36!4! 4 x x 2 x 1

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 36

    iObtengo el mismo resultado! A esta cantidad se le llama el nim1ero de combinaciones de 40 elementos tomados de 4 en 4, y se suele escribir para abreviar como

    | 40 ~

    4 )

    En general, si hay un conjunto de n elementos distintos, y quiero calcular todos los posibles subconjuntos de dicho conjnt que tengan m elementos, sin importar el orden de dichos m elementos, dir que hay

    I n \ n! | | = formas de tomar m elementos de entre n elementos distintos,

    m ) m!In - mJ

    y Ilamar a este simbolo y esta cantidad combinaciones de n elementos tomados de m en m, o Iambin se le llama n"umero combinatorio n sobre m. Veamos un ejemplo final: la plantilla de Osasuna tiene 3 porteros, 8 defensas, 7 centrocampistas y 4 delanteros. De cutas posibles formas podemos hacer un equipo con 4 defensas, 4 centrocampistas y 2 delanteros? (suponemos que no diferenciamos entre central o lateral, o entre diestro y zurdo) y si quiero calcular el n"mnero de posibles equipos con 4 defensas, y bien 4 centrocampistas y 2 delanteros, o 3 centrocampistas y 3 delanteros? La respueta I pr~mera prgunta es (3\ (8\ (7\ (4\ 3! 8! 7! 4! Como puedo tomar 1 de entre 3 porteros, 4 de entre 8 defensas, etc., y cada una de las elecciones es independiente de las dems, tengo que multiplicar entre si las formas posibles de elegir jugadores entre cada uno de los grupos, para obtener el n"mnero total de posibles equipos. Si ahoraq ier() los poibl quipos con 3 centrocampistas y 3 delanteros, entonces tendra

    (3\ (8\ (7\ (4\ 3! 8! 7! 4! | |x| |x | |x | | = x-x-x- = 3x 7Ox 35x 4 = 29.400 posibles equipos. I) 4 ) 3 ) 3) 2!1! 4!4! 3!4! 3!1!

    Los casos de 4 o 3 centrocampistas, no s6lo son independientes, tambin son disjuntos, es decir, o sucede uno, o sucede otro, pero no los dos a la vez. Por lo tanto, necesito sumar las posibilidades de ambos casos, para un total de equipos con alineaciones 4-4-2 o 4-3-3 igual a

    ~x~x/7x~ +~ x x~ x ~ = 44.100 + 29.400 = 73.500.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 37

    Este resultado tiene sin embargo una interpretaci6n muy clara: veamos cutos grupos distintos de m+1 elementos se pueden tomar de un conjunto de n+1 elementos; seleccionamos uno de los n+1 elementos, y diremos que es el"uItimo. Ahora bien, para elegir m+1 elementos de los n+1, hay dos maneras posibles y disjuntas: o tomamos este "uItimo elemento, y elegimos otros m elementos de los n restantes, o no tomamos este "uItimo elemento, y elegimos m+1 elementos de los n restantes. Sumando estas dos posibles maneras de generar grupos de m+1 elementos de entre n+1, debemos obtener todos los posibles grupos.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 38

    Ejercicios propuestos Cutos n"mneros de exactamente 5 cifras contienen al menos una vez la cifra 3? Cutos de ellos contienen exactamente una vez la cifra 3? Tenemos 5 rectas en el piano, de forma que no hay tres de ellas que coincidan en un punto. Si ninguna de las rectas es paralela a ninguna otra, cutos puntos de intersecci6n entre dos rectas hay? Cutos puntos de intersecci6n hay si exactamente 3 de ellas son paralelas y las otras 2 no lo son, ni entre si ni con las primeras? cules son todos los posibles valores que puede tomar el n"mnero de puntos de intersecci6n? Al p6ker se juega con una baraja francesa de 52 cartas (4 palos con ntmleros ordenados, de menor a mayor, 2,3,4,...,1O,J,Q,K,A), repartindose 5 cartas a cada jugador. Calcular el n"mnero total de manos que puede tener un jugador, y entre ellas el n"umero de formas en las que se pueden obtener las siguientes jugadas: *S6lo un trio (3 cartas iguales entre si y las otras 2 distintas entre si y distintas de las otras 3) *Full house (3 cartas iguales entre si y las otras 2 iguales entre si pero distintas de las primeras) *Escalera (las 5 cartas con n"mneros consecutivos, independientemente del palo) *Escalera de color (las 5 cartas del mismo palo, y con ntnrleros consecutivos) *S6lo color (las 5 cartas del mismo palo, pero no consecutivas) Calcular la suma de todos los n"mneros de 9 cifras en los que aparece exactamente una vez cada una de las cifras 1, 2, 3,..., 9. Una compafiia tiene 5 directores, y una caja fuerte guarda los secretos de la compafiia. Se quiere poner el minimo n"mnero de cerraduras que garantice que, dando el mismo n"umero de Haves a cada director, cualquier mayoria (3 o ms) de ellos pueda abrir la caja, y ninguna minoria (2 o menos) pueda abrirla.Cutas cerraduras hay que poner y cutas Haves recibir cada directivo?

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 39

    6) VARIABLE ALEATORIA DISCRETA Y CONTINUA Variables aleatorias discretas Distribucin uniforme La distribucin uniforme es la que corresponde a una variable que toma todos sus valores, x1, x2... , xk, con igual probabilidad; el espacio muestral debe ser finito. Si la variable tiene k posibles valores, su funcin de probabilidad sera:

    donde k es el parmetro de la distribucin (un parmetro es un valor que sirve para determinar la funcin de probabilidad o densidad de una variable aleatoria) La media y la varianza de la variable uniforme se calculan por las expresiones:

    El histograma de la funcin toma el aspecto de un rectngulo, por ello, a la distribucin uniforme se le suele llamar distribucin rectangular.

    Distribucin binomial La distribucin binomial es tpica de las variables que proceden de un experimento que cumple las siguientes condiciones: 1) El experimento est compuesto de n pruebas iguales, siendo n un nmero natural fijo. 2) Cada prueba resulta en un suceso que cumple las propiedades de la variable binmica o de Bernouilli, es decir, slo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como xito y fracaso.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 40

    3) La probabilidad del xito (o del fracaso) es constante en todas las pruebas. P(xito) = p ; P(fracaso) = 1 - p = q 4) Las pruebas son estadsticamente independientes, En estas condiciones, la variable aleatoria X que cuenta el nmero de xitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral estar compuesto por los nmeros enteros del 0 al n. Se suele decir que una variable binmica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento. La funcin de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el nmero de pruebas y p la probabilidad del xito. n y p son los parmetros de la distribucin.

    La manera ms fcil de calcular de valor de nmeros combinatorios, como los incluidos en la expresin anterior, es utilizando el tringulo de Tartaglia

    La media y la varianza de la variable binomial se calculan como: Media = = n p

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 41

    Varianza = 2 = n p q Grficamente el aspecto de la distribucin depende de que sea o no simtrica Por ejemplo, el caso en que n = 4:

    Distribucin multinomial La distribucin multinomial es esencialmente igual a la binomial con la nica diferencia de que cada prueba tiene ms de dos posibles resultados mutuamente excluyentes. Si tenemos K resultados posibles (Ei , i = 1, ... , K) con probabilidades fijas (pi , i = 1, ... , K), la variable que expresa el nmero de resultados de cada tipo obtenidos en n pruebas independientes tiene distribucin multinomial.

    La probabilidad de obtener x1 resultados E1, x2 resultados E2, etc. se representa como:

    Los parmetros de la distribucin son p1,..., pK y n.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 42

    Distribucin hipergeomtrica: Una variable tiene distribucin hipergeomtrica si procede de un experimento que cumple las siguientes condiciones: 1) Se toma una muestra de tamao n, sin reemplazamiento, de un conjunto finito de N objetos. 2) K de los N objetos se pueden clasificar como xitos y N - K como fracasos. X cuenta el nmero de xitos obtenidos en la muestra. El espacio muestral es el conjunto de los nmeros enteros de 0 a n, de 0 a K si K < n. En este caso, la probabilidad del xito en pruebas sucesivas no es constante pues depende del resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre s. La funcin de probabilidad de la variable hipergeomtrica es:

    Los parmetros de la distribucin son n, N y K. Los valores de la media y la varianza se calculan segn las ecuaciones:

    Si n es pequeo, con relacin a N (n

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 43

    el factor por el que difieren ser siempre menor que 1 y tan prximo a 1 como cierto sea que n

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 44

    La probabilidad de encontrar uno o ms xitos en una regin del tiempo o del espacio tiende a cero a medida que se reducen las dimensiones de la regin en estudio. Como consecuencia de estas condiciones, las variables Poisson tpicas son variables en las que se cuentan sucesos raros. La funcin de probabilidad de una variable Poisson es:

    El parmetro de la distribucin es que es igual a la media y a la varianza de la variable.

    Esta caracterstica puede servirnos para identificar a una variable Poisson en casos en que se presenten serias dificultades para verificar los postulados de definicin. La distribucin de Poisson se puede considerar como el lmite al que tiende la distribucin binomial cuando n tiende a y p tiende a 0, siendo np constante (y menor que 7); en esta situacin sera difcil calcular probabilidades en una variable binomial y, por tanto, se utiliza una aproximacin a travs de una variable Poisson con media l = n p. La varianza de la variable aproximada es ligeramente superior a la de la variable binomial.

    Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes es otra Poisson con media igual a la suma las medias. El aspecto de la distribucin depende muchsimo de la magnitud de la media. Como ejemplo, mostramos tres casos con = 0,5 (arriba a la izquierda), = 1,5 (arriba a la derecha) y = 5 (abajo) Obsrvese que la asimetra de la distribucin disminuye al crecer y que, en paralelo, la grfica empieza a tener un aspecto acampanado.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 45

    Variables aleatorias continuas Distribucin normal o de Gauss La distribucin normal fue definida por De Moivre en 1733 y es la distribucin de mayor importancia en el campo de la estadstica. Una variable es normal cuando se ajusta a la ley de los grandes nmeros, es decir, cuando sus valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto infinitesimal. Las variables normales tienen una funcin de densidad con forma de campana a la que se llama campana de Gauss. Su funcin de densidad es la siguiente:

    Los parmetros de la distribucin son la media y la desviacin tpica, y , respectivamente. Como consecuencia, en una variable normal, media y desviacin tpica no deben estar correlacionadas en ningn caso (como desgraciadamente ocurre en la inmensa mayora de las variables aleatorias reales que se asemejan a la normal.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 46

    La curva normal cumple las siguientes propiedades: 1) El mximo de la curva coincide con la media. 2) Es perfectamente simtrica respecto a la media (g1 = 0). 3) La curva tiene dos puntos de inflexin situados a una desviacin tpica de la media. Es convexa entre ambos puntos de inflexin y cncava en ambas colas.

    4) Sus colas son asintticas al eje X.

    Para calcular probabilidades en intervalos de valores de la variable, habra que integrar la funcin de densidad entre los extremos del intervalo. por desgracia (o por suerte), la funcin de densidad normal no tiene primitiva, es decir, no se puede integrar. Por ello la nica solucin es referirse a tablas de la funcin de distribucin de la variable (calculadas por integracin numrica) Estas tablas tendran que ser de triple entrada (, , valor) y el asunto tendra una complejidad enorme.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 47

    Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una correspondencia de sus valores con los de otra variable con distribucin normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la ecuacin:

    La funcin de distribucin de la variable normal tipificada est tabulada y, simplemente, consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos interese. De forma anloga a lo pasaba con las variables Poisson, la suma de variables normales independientes es otra normal.

    Histograma de una normal idealizada Histograma de una muestra de una variable normal

    Distribucin Gamma () La distribucin gamma se define a partir de la funcin gamma, cuya ecuacin es:

    La funcin de densidad de la distribucin gamma es:

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 48

    y son los parmetros de la distribucin. La media y la varianza de la variable gamma son:

    Distribucin exponencial Es un caso particular de la distribucin gamma cuando = 1. Su funcin de densidad es:

    Su parmetro es . La media y la varianza de la distribucin exponencial son:

    Distribucin Chi-cuadrado Es otro caso particular de la distribucin gamma para el caso = 2 y = n / 2, siendo n un nmero natural.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 49

    Su funcin de densidad es:

    El parmetro de la distribucin es y su media y su varianza son, respectivamente:

    Otra forma de definir la distribucin es la siguiente: Supongamos que tenemos n variables aleatorias normales independientes, X1,..., Xn, con media i y

    varianza (i = 1 ... n), la variable definida como

    tiene distribucin con n grados de libertad y se le denomina n.

    Variables chi-cuadrado con valores de progresivamente mayores son cada vez menos asimtricas.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 50

    Distribucin T de Student Supongamos dos variables aleatorias independientes, una normal tipificada, Z , y otra con distribucin con grados de libertad, la variable definida segn la ecuacin:

    tiene distribucin t con grados de libertad. La funcin de densidad de la distribucin t es:

    El parmetro de la distribucin t es , su nmero de grados de libertad. Esta distribucin es simtrica respecto al eje Y y sus colas se aproximan asintticamente al eje X. Es similar a la distribucin Z salvo que es platicrtica y, por tanto, ms aplanada. Cuando n tiende a infinito, t tiende asintticamente a Z y se pueden considerar prcticamente iguales para valores de n mayores o iguales que 30..

    Variables T con valores de progresivamente mayores son cada vez menos platicrticas

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 51

    Comparacin entre la variable T y la normal tipificado.

    Distribucin F de Snedecor Sean U y V dos variables aleatorias independientes con distribucin con 1 y 2 grados de libertad, respectivamente. La variable definida segn la ecuacin:

    tiene distribucin F con 1, 2 grados de libertad. La funcin de densidad de la distribucin F es:

    Los parmetros de la variable F son sus grados de libertad 1 y 2. Las distribuciones F tienen una propiedad que se utiliza en la construccin de tablas que es la siguiente: Llamemos f 1, 2 al valor de una distribucin F con 1 y 2 grados de libertad que cumple la condicin, P(F > f 1, 2) = ; llamemos f 1, 2 al valor de una distribucin F con 1 y 2 grados de libertad que cumple la condicin, P(F > f 1, 2) = 1- . Ambos valores estn relacionados de modo que uno es el inverso del otro.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 52

    Variables F con distintos valores de 1, 2

    7) CONCLUSIONES -Finalmente concluimos que la estadstica es una herramienta bsica de todos los trabajos que se pueden hacer en una poblacin a la vez concluimos que : a estadstica es comnmente considerada como una coleccin de hechos numricos expresados en trminos de una relacin sumisa, y que han sido recopilado a partir de otros datos numricos. -Los conceptos antes mencionados han sido analizados e investigados de tal manera de hacer ms fcil su comprensin y entendimientos ya que la estadstica es la ciencia que trata de entender, organizar y tomar decisiones que estn de acuerdo con los anlisis efectuados -Es recomendable tomar en cuenta que la estadstica es muy importante en la vida social y laboral del hombre ya que generaliza informacin. -Es una herramienta indispensable para la toma de decisiones. -Tambin es ampliamente empleada para mostrar los aspectos cuantitativos de una situacin 8) BIBLIOGRAFIA: -http://estadisticaorquestainstrumento.wordpress.com/2012/11/30/tema-1-introduccion-a-la-estadistica/ -http://es.wikibooks.org/wiki/Estad%C3%ADstica/Introducci%C3%B3n -http://www.hiru.com/matematicas/aplicaciones-de-la-estadistica -http://www.monografias.com/trabajos91/acerca-estadistica/acerca-estadistica.shtml

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 53

    9) TRABAJO ENCARGADO: DATA TM Y LEYES DE MINERAL DE MINA CHUQUICAMATA: N (aos) x (tonelaje) y 1 1915 4.962 2 1916 7.6 3 1917 7.9 4 1918 9.536 5 1919 12.265 6 1920 17.25 7 1921 22.654 8 1922 26.8 9 1923 34.65 10 1924 45.12 11 1925 45.012 12 1926 47.12 13 1927 79.256 14 1928 93.256 15 1929 105.1254 16 1930 106.25 17 1931 124.36 18 1932 135.24 19 1933 159.65 20 1934 157.36 21 1935 158.265 22 1936 162.326 23 1937 163.654 24 1938 164.365 25 1939 163.2654 26 1940 172.365 27 1941 179.3265 28 1942 186.3265 29 1943 189.66547 30 1944 190.265 31 1945 198.265 32 1946 203.1254 33 1947 197.2654 34 1948 212.235 35 1949 218.256 36 1950 214.865 37 1951 224.365 38 1952 227.654 39 1953 231.854

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 54

    40 1954 236.589 41 1955 238.264 42 1956 241.3 43 1957 248.56 44 1958 247.568 45 1959 249.3 46 1960 248.9 47 1961 249.6 48 1962 275.8 49 1963 274.8 50 1964 288 51 1965 252.7 52 1966 303.5 53 1967 276.9 54 1968 279.2 55 1969 283.4 56 1970 264.9 57 1971 285.5 58 1972 265.5 59 1973 297.1 60 1974 389 61 1975 304.6 62 1976 445.5 63 1977 477.8 64 1978 500.7 65 1979 507.2 66 1980 510.9 67 1981 472.4 68 1982 552.8 69 1983 558.8 70 1984 563 71 1985 549.1 72 1986 515.8 73 1987 502.9 74 1988 519 75 1989 660.4 76 1990 680.7 77 1991 641.4 78 1992 628.2 79 1993 616.7 80 1994 606.2 81 1995 610.2 82 1996 632.3

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 55

    83 1997 650.2 84 1998 650.2 85 1999 630.1 86 2000 630.1 87 2001 641.9 88 2002 596.8 89 2003 601.1 90 2004 691.8 91 2005 676.1 92 2006 634 93 2007 615 94 2008 469.9 95 2009 574 96 2010 528.4 97 2011 443.4 98 2012 355.9 SACAMOS EL TONELAJE: Tonelaje Maximo 691.8 Minimo 4.962 Rango 686.838 Intervalos 8 Amplitud C 85.85475 CUADRO DE RESULTADOS:

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 56

    CUADRO:

    Intervalos

    Marca de Clase Frecuencia Yi x ni (Yi-y)^2 x ni

    Y' i-1 Y' i Yi ni 1 4.962 90.81675 47.8894 13 622.562 29814.09909 2 90.81675 176.6715 133.744 13 1738.67 232537.3826 3 176.6715 262.52625 219.599 22 4831.18 1060920.65 4 262.52625 348.381 305.454 12 3665.44 1119623.004 5 348.381 434.23575 391.308 2 782.617 306244.4887 6 434.23575 520.0905 477.163 11 5248.79 2504531.126 7 520.0905 605.94525 563.018 8 4504.14 2535913.021 8 605.94525 691.8 648.873 17 11030.8 7157606.619 MEDIDAS DE DISPERSION: MEDIDAS DE DISPERSION

    Varianza 44711.2718 Desv. Estandar 211.4504 Coef. Variacion 0.6467391 Cuartil 1 166.365 Cuartil 2 265.2 Cuartil 3 526.05

    MEDIDAS DE POSICION: MEDIDAS DE POSICION

    Media 326.948531 Mediana 265.2 MODA 650.2

    PARTE GRAFICA

    98 32424.2 14947190.39

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 57

    HALLAMOS: Minimo 4.962 Cuartil 1 166.365 Cuartil 2 265.2 Cuartil 3 526.05 Maximo 691.8

    Primer Cuartil 166.365 Segundo Cuartil 98.835 Tercer Cuartil 260.85

    MAX 165.75 MIN 161.403

    0

    20

    40

    60

    80

    100

    120

    90.81675 176.6715 262.52625 348.381 434.23575 520.0905 605.94525 691.8

    4.962 90.81675 176.6715 262.52625 348.381 434.23575 520.0905 605.94525

    Frecuencia Acumulada Ni

    Frecuencia Acumulada Ni

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 58

    DATA TM Y LEYES DE MINERAL DE MINA CHUQUICAMATA: LEY DE MINERAL N (aos) x

    ley mineral (%)

    1 1915

    1.7 2 1916

    1.60

    3 1917

    1.70 4 1918

    1.62

    5 1919

    1.64 6 1920

    1.52

    7 1921

    1.70 8 1922

    1.68

    9 1923

    1.66 10 1924

    1.34

    11 1925

    1.56 12 1926

    1.51

    13 1927

    1.59 14 1928

    1.60

    15 1929

    1.47

    0

    100

    200

    300

    400

    500

    600

    Tonelaje

    Chart Title

    Series1 Series2 Series3

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 59

    16 1930

    1.45 17 1931

    1.34

    18 1932

    1.36 19 1933

    1.42

    20 1934

    1.42 21 1935

    1.47

    22 1936

    1.36 23 1937

    1.31

    24 1938

    1.29 25 1939

    1.32

    26 1940

    1.34 27 1941

    1.28

    28 1942

    1.29 29 1943

    1.34

    30 1944

    1.27 31 1945

    1.25

    32 1946

    1.27 33 1947

    1.29

    34 1948

    1.3 35 1949

    1.26

    36 1950

    1.25 37 1951

    1.34

    38 1952

    1.32 39 1953

    1.36

    40 1954

    1.25 41 1955

    1.31

    42 1956

    1.29 43 1957

    1.29

    44 1958

    1.34 45 1959

    1.32

    46 1960

    1.35 47 1961

    1.28

    48 1962

    1.24 49 1963

    1.29

    50 1964

    1.27 51 1965

    1.26

    52 1966

    1.31 53 1967

    1.24

    54 1968

    1.28 55 1969

    1.31

    56 1970

    1.36 57 1971

    1.32

    58 1972

    1.24

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 60

    59 1973

    1.3 60 1974

    1.29

    61 1975

    1.29 62 1976

    1.24

    63 1977

    1.16 64 1978

    1.14

    65 1979

    1.05 66 1980

    1.04

    67 1981

    1.17 68 1982

    1.16

    69 1983

    1.21 70 1984

    1.2

    71 1985

    1.18 72 1986

    1.12

    73 1987

    1.13 74 1988

    1.15

    75 1989

    1.06 76 1990

    1.08

    77 1991

    1.16 78 1992

    1.09

    79 1993

    1.13 80 1994

    1.1

    81 1995

    1.09 82 1996

    1.06

    83 1997

    1.09 84 1998

    1.05

    85 1999

    1.08 86 2000

    1.08

    87 2001

    1.04 88 2002

    1.01

    89 2003

    1.02 90 2004

    1.06

    91 2005

    1.03 92 2006

    0.94

    93 2007

    0.85 94 2008

    0.8

    95 2009

    0.89 96 2010

    0.8

    97 2011

    0.7 98 2012

    0.7

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 61

    LEY DE MINERAL: Ley Mineral Maximo 1.7 Minimo 0.7 Rango 1 Intervalos 8 Amplitud C 0.125

    HALLAMOS:

    RESULTADOS:

    Intervalos Marca de Clase Frecuencia Yi x ni (Yi-y)^2 x ni

    Y' i-1 Y' i Yi ni

    1 0.7 0.825 0.7625 4 3.05 2.325625

    2 0.825 0.95 0.8875 3 2.6625 2.36296875

    3 0.95 1.075 1.0125 10 10.125 10.2515625

    4 1.075 1.2 1.1375 18 20.475 23.2903125

    5 1.2 1.325 1.2625 34 42.925 54.1928125

    6 1.325 1.45 1.3875 14 19.425 26.9521875

    7 1.45 1.575 1.5125 5 7.5625 11.43828125

    8 1.575 1.7 1.6375 10 16.375 26.8140625

    98 122.6 157.6278125

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 62

    MEDIDA DE DISPERSION:

    Excel Varianza 0.04459554 Desv. Estandar 0.21117656 Coef. Variacion 0.16814513 Cuartil 1 1.1225 Cuartil 2 1.28 Cuartil 3 1.34

    MEDIDAS DE POSICION: MEDIDAS DE POSICION

    Media 1.25591837 Mediana 1.28 MODA 1.29

    PARTE GRAFICA:

    4 7

    17

    35

    69

    83 88

    98

    0.825 0.95 1.075 1.2 1.325 1.45 1.575 1.7

    0.7 0.825 0.95 1.075 1.2 1.325 1.45 1.575

    Frecuencia Acumulada Ni

    Frecuencia Acumulada Ni

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 63

    HALLAMOS: Minimo 0.7 Cuartil 1 1.1225 Cuartil 2 1.28 Cuartil 3 1.34 Maximo 1.7

    Primer Cuartil 1.1225 Segundo Cuartil 0.1575 Tercer Cuartil 0.06

    MAX 0.36 MIN 0.4225

    1.1225

    0.1575

    0.06

    Ley Mineral (%)

    Chart Title

    Series1 Series2 Series3

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 64

    5.-REGRESION LINEAL

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 65

    En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modela la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

    : variable dependiente, explicada o regresando.

    : variables explicativas, independientes o regresores.

    : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando.

    donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal. El modelo de regresin lineal El modelo lineal relaciona la variable dependiente Y con K variables explicitas (k = 1,...K), o cualquier transformacin de stas que generen un hiperplano de parmetros desconocidos:

    (2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explcita, el hiperplano es una recta: (3) El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos , de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin i-sima (i= 1,... I) cualquiera, se registra el comportamiento simultneo de la variable dependiente y las variables explicitas (las perturbaciones aleatorias se suponen no observables).

    (4)

    Los valores escogidos como estimadores de los parmetros , son los coeficientes de regresin sin que se pueda garantizar que coincida n con parmetros reales del proceso generador. Por tanto, en

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 66

    (5) Los valores son por su parte estimaciones o errores de la perturbacin aleatoria. Hiptesis modelo de regresin lineal clsico 1. Esperanza matemtica nula.

    Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone tomar algunos valores mayores que cero y otros menores que cero, de tal forma que su valor esperado sea cero. 2. Homocedasticidad

    para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada en torno a su valor esperado es siempre la misma. 3. Incorrelacin.

    para todo t, s con t distinto de s Las covarianzas entre las distintas perturbaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de las perturbaciones correspondientes a otras observaciones muestrales. 4. Regresores no estocsticos. 5. No existen relaciones lineales exactas entre los regresores. 6. Suponemos que no existen errores de especificacin en el modelo, ni errores de medida en las variables explicativas

    7. Normalidad de las perturbaciones

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 67

    Supuestos del modelo de regresin lineal Para poder crear un modelo de regresin lineal es necesario que se cumpla con los siguientes supuestos: Que la relacin entre las variables sea lineal. Que los errores en la medicin de las variables explicativas sean independientes entre s. Que los errores tengan varianza constante. (Homocedasticidad) Que los errores tengan una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). Que el error total sea la suma de todos los errores. Tipos de modelos de regresin lineal Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma: (6) donde es el error asociado a la medicin del valor y siguen los supuestos de

    modo que (media cero, varianza constante e igual a

    un y con ). Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

    (7)

    Derivando respecto a y e igualando a cero, se obtiene:

    (9)

    (10) Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:4

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 68

    (11)

    (12) La interpretacin del parmetro es que un incremento en Xi de una unidad, Yi incrementar en Regresin lineal mltiple La regresin lineal permite trabajar con una variable a nivel de intervalo o razn. De la misma manera, es posible analizar la relacin entre dos o ms variables a travs de ecuaciones, lo que se denomina regresin mltiple o regresin lineal mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionadas entre s, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:6

    (13)

    donde es el error asociado a la medicin del valor y siguen los supuestos

    de modo que (media cero, varianza constante e igual a

    un y con ). Rectas de regresin Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:7 La recta de regresin de Y sobre X:

    (14) La recta de regresin de X sobre Y:

    (15) La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 69

    6.- INTERVALO Y PRUEBA DE HIPOTESIS PARA LOS COEFICIENTES DE REGRESION LINEAL

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 70

    Cuando observamos las respuestas de un ensayo o los resultados de un plan de muestreo, tratamos de explicar los valores observados mediante un modelo estadstico. As, si estuviramos observando un ensayo comparativo de rendimientos para el cultivo de maz, trataremos de describir o justificar la mayor parte de la variacin de las observaciones de forma tal que podamos identificar cuales son los factores ms relevantes a la hora de pronosticar rendimientos o de mejorarlos. Otro ejemplo sera el volumen maderable de los ejemplares de una especie maderable, sometidos a distintos manejos. Aunque se espera que la una parte importante de la variacin en el volumen maderable sea explicada por el tipo de manejo, se sabe que la enfermedades, la calidad del sitio, los errores de implementacin del manejo, la carga gentica de cada ejemplar, etc., podran tambin modificar la respuesta. Los modelos que tratamos de construir son modelos para las esperanzas de la variable de respuesta y son simplificaciones del mundo real sujetas a un conjunto ms o menos grande de restricciones. Es muy difcil obtener modelos generales aplicables a cualquier situacin, al menos en el campo de lo biolgico o lo social, ya que existen muchos factores condicionantes de las respuestas que ni siquiera conocemos que existen. Por ejemplo la respuesta de un cultivo a la disponibilidad de agua depender del tipo de suelo, de la evapotranspiracin y de otros factores, a veces no cuantificados, como el estado sanitario de las plantas que puede aumentar o disminuir la capacidad del cultivo para soportar momentos de falta de agua. Estos argumentos implican que cuando buscamos modelos para predecir o simplemente comprender la variabilidad de una respuesta deberemos estar advertidos de los alcances pero tambin de las importantes limitaciones que estos modelos conllevan. Para iniciar con el desarrollo de los modelos de regresin lineal comencemos por decir que la variable respuesta las simbolizaremos con la letra Y , y que con los elementos del un vector, que llamaremos x , representaremos constantes observables que, de manera resumida, caracterizan la condicin en la que Y es observada. Luego diremos que ,Y x y leeremos como: La observacin Y es el

    resultado de sumar a su esperanza , x un trmino aleatorio . Donde , x es una funcin del vector de constantes observables x y de un vector de parmetros desconocidos. Adems, supondremos que el trmino aleatorio tiene

    esperanza cero y varianza 2 , usualmente, desconocida. Lo que caracteriza a este modelo como lineal es la forma de , x . Si , x es una combinacin lineal de los elementos de donde los coeficientes son

    funciones conocidas de x - jq x -, entonces decimos que ,Y x es un modelo de regresin lineal y su expresin general podra escribirse de la siguiente forma: 0 0 1 1 ... p pY q q q x x x (0.1) Aunque cuando pensamos en modelos de regresin lineal podemos anticipar que se trata de modelos muy restrictivos, la expresin (0.1) muestra que pueden ser muy ricos como instrumentos de modelacin.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 71

    Algunos ejemplo de modelos de regresin lineal Supongamos que 0 1, x x , esto es 0 1q x y 1q xx . En este caso la esperanza de |Y x tendr la forma de una recta con ordenada al origen

    0 y pendiente 1 . Aunque este es un ejemplo sencillo, las curvas y superficies

    que pueden modelarse pueden ser muy diversas como se muestra en la Figura 1. El problema de encontrar, mediante modelos lineales, expresiones para superficies muy estructuradas radica en la dificultad de identificar las funciones

    (.)jq que no siempre pueden justificarse. En general las formas ms comunes de

    (.)jq son: 0( ) 1q x y ( ) , 0j jq x j x . De esta manera, el modelo lineal queda

    expresado como: 0 1 1 ... p pY x x (0.2)

    o igualmente comunes, son los polinomios:

    1 1

    2 20 1 2 2 1 2... p p p pY x x x x (0.3)

    Figura 1: Curvas y superficies generadas por modelos lineales en una (arriba) y dos variables xs (abajo)

    0 2 4 6 8 10

    0

    100

    200

    300

    400

    500

    600

    700

    X

    Y

    Y=B0+B1*X+B2*X^2+B3*X^3

    0 2 4 6 8 10

    -10

    12

    34

    56

    78

    100

    X

    Y

    E(y)=B 1*sin((2*3.1415)/2*x)+B2*c os ((2*3.1415)/2*x)+B3 x+B4 x*x

    -20

    -10

    0

    10

    20

    -20

    -10

    0

    10

    20

    -50

    0

    50

    100

    X

    L

    Z

    z=10*SIN(X)+2*cos(L)+3*L-20

    -10

    0

    10

    20

    -20

    -10

    0

    10

    20

    -200

    -100

    0

    100

    200

    300

    X

    L

    Z

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 72

    Cuando se ajusta un modelo de regresin lineal pueden estar persiguindose dos objetivos diferentes: la prediccin y la identificacin del modelo. En el primer caso hay mayor flexibilidad en la eleccin de las funciones (.)jq , en la medida que el

    modelo provea buenas predicciones y que se estable. Por otra parte cuando el objetivo es la identificacin, lo que se est buscando es describir la funcin que relaciona Y con x de manera tal que se pueda inferir sobre las relaciones de causalidad. En este contexto la eleccin de (.)jq debe poder justificarse, por

    ejemplo, en alguna propiedad fsica o biolgica del sistema objeto de modelacin. Estimacin Como dijimos anteriormente el vector de parmetros es desconocido, por lo tanto, para cualquier aplicacin prctica debemos estimarlo. En el problema de estimacin lo que queremos encontrar son expresiones o procedimientos que nos permitan obtener valores plausibles para los parmetros. Estas expresiones se aplican a un conjunto de n observaciones 1 1 2 2, , , , , ,n nY Y Yx x x que constituyen una muestra aleatoria. A partir de ella se obtienen las estimaciones. Luego, para una muestra dada tendremos una coleccin de modelos, uno para cada observacin en la muestra. Entonces: 0 0 1 1 ... ; 1,..., .i i i p i p iY q q q i n x x x (0.4) Este conjunto de modelos, llamado modelo muestral, puede expresarse sintticamente mediante una expresin matricial como: y X (0.5)

    donde:

    1

    2

    n

    y

    y

    y

    y ,

    0 1 1 1 1 1

    0 2 1 2 1 2

    0 1 1

    ( ) ( ) ( )

    ( ) ( ) ( )

    ( ) ( ) ( )

    p

    p

    n n p n

    q x q x q x

    q x q x q x

    q x q x q x

    X ,

    0

    1

    1p

    y

    1

    2

    n

    Si agregamos a los supuestos bsicos de que los errores tienen esperanza 0 y varianza , el de que son conjuntamente normales e independientes, entonces

    la distribucin de I2~ ,nN 0 (que se lee: el vector de errores tiene distribucin normal multivariada con esperanza cero y matriz de covarianza sigma cuadrado

    identidad) y la distribucin de I2~ ,nN y X (que se lee: el vector de observaciones tiene distribucin normal multivariada con esperanza X y matriz de covarianza sigma cuadrado identidad). Estos supuestos distribucionales completan la especificacin del modelo de regresin lineal. Por lo tanto el modelo tiene dos partes, una fija, representada en (0.5) por X y otra aleatoria representada por . La particularidad de que la matriz de covarianzas de las

    observaciones sea I2 implica, bajo el supuesto de normalidad, que todas las observaciones son independientes y que adems tienen todas las misma varianza. Para modelar estructuras de covarianzas diferentes nos conduce a modelos

    2

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 73

    lineales ms generales como los modelos lineales mixtos que se caracterizan por la variedad de estructuras de covarianza entre observaciones que se pueden modelar con ellos. El tratamiento de estos modelos excede el propsito de este curso, por lo que, en lo que sigue no restringiremos a los modelos que suponen independencia entre observaciones e igualdad de varianzas. Cmo se estiman los parmetros de la distribucin conjunta de las Ys? Existen varias alternativas. La forma clsica de estimar los parmetros es minimizando la suma de cuadrados de los residuos

    ' 2 'scr y X y X y y y X XX . Para encontrar un mnimo derivamos con respecto a y luego buscamos la solucin que hace cero esa derivada:

    ' 2 '

    2 2d

    d

    y y y X XXX X X y

    (0.6)

    Si igualamos a 0 ambas derivadas tendremos: 2 2 0 X X X y XX X y (0.7) La expresin X X X y es conocida como Ecuaciones Normales. De (0.7) se deduce que

    1 XX X y (0.8)

    Utilizando , podemos escribir la suma de cuadrados de los residuos como

    y X y X y definiremos al estimador de la varianza de los errores como:

    2

    n p

    y X y X, (0.9)

    donde p es el nmero de parmetros en el modelo. Llamaremos a y a 2

    estimadores por mnimos cuadrados y 2 . Varianza del vector de coeficientes de regresin Aplicando propiedades de la varianza de combinaciones lineales se puede deducir que la matriz de varianzas y covarianza del vector de parmetros tiene la siguiente

    expresin: 12

    X'X . El estimador por mnimos cuadrados de esta expresin es

    12

    X'X . Luego los elementos diagonales de esta matriz son las varianzas de

    los coeficientes de regresin y los elementos no diagonales sus covarianzas.

  • UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

    ESTADISTICA Pgina 74

    Prueba de hiptesis Una forma simple de construir una prueba para los coeficientes de regresin es

    calcular un estadstico T como 12

    i

    ii

    T

    X'X donde 12

    ii

    X'X

    corresponde al i-simo elemento diagonal de la matriz de covarianzas del vector

    de coeficientes de regresin y 12ii

    X'X se conoce como el error estndar

    del i-simo componente del vector de estimadores. Intervalos de confianza para los parmetros Aunque el mtodo de mnimos cuadrados o cualquier otro mtodo de estimacin proveen estimaciones puntuales de los parmetros, es til obtener los intervalos de confianza. Estos se construyen basndose en propiedades distribucionales del vector de estimadoras y su expresin es: 1i in