ex_s08

11
EXAMEN DE ESTAD ´ ISTICA Septiembre 2008 Apellidos: DNI Nombre: GRUPO: 1. Sean las siguientes medidas de una distribuci´on: media aritm´ etica, mediana, moda, cuartiles,desviaci´ont´ ıpica, varianzaycoeficiente devariaci´on. Escribir, acontinuaci´on de las siguientes afirmaciones, la medida o medidas que se pueden aplicar a las mismas: (1 punto) Soluci´on a) Es una medida de distancia promedio de los valores observados respecto a su media aritm´ etica. Desviaci´ont´ ıpica y varianza. b) Dividen el conjunto de datos en cuatro conjuntos de igual tama˜ no. Cuartiles. c) Representa el centro de masa de los datos. Media aritm´ etica. d) Es la ´ unica medida de promedio que se puede usar cuando los datos no son num´ ericos. Moda. e) Es independiente de las unidades en que se mida la variable. Coeficiente de variaci´on. f) Es usualmente preferible usar ´ esta como medida de promedio cuando algunos datos tienen valores muy grandes o muy peque˜ nos. Mediana. 1

description

estadistica

Transcript of ex_s08

  • EXAMEN DE ESTADISTICA Septiembre 2008

    Apellidos: DNI

    Nombre: GRUPO:

    1. Sean las siguientes medidas de una distribucion: media aritmetica, mediana, moda,cuartiles, desviacion tpica, varianza y coeficiente de variacion. Escribir, a continuacionde las siguientes afirmaciones, la medida o medidas que se pueden aplicar a las mismas:

    (1 punto)

    Solucion

    a) Es una medida de distancia promedio de los valores observados respecto a sumedia aritmetica.

    Desviacion tpica y varianza.

    b) Dividen el conjunto de datos en cuatro conjuntos de igual tamano.

    Cuartiles.

    c) Representa el centro de masa de los datos.

    Media aritmetica.

    d) Es la unica medida de promedio que se puede usar cuando los datos no sonnumericos.

    Moda.

    e) Es independiente de las unidades en que se mida la variable.

    Coeficiente de variacion.

    f) Es usualmente preferible usar esta como medida de promedio cuando algunosdatos tienen valores muy grandes o muy pequenos.

    Mediana.

    1

  • 2. Explicar el concepto de nivel de significacion cuando, a partir de los datos de una mues-tra de tamano n, se estima la media poblacional mediante un intervalo de confianza.Indicar como variara la anchura del intervalo de confianza de la media poblacionalcuando: a) aumenta el nivel de significacion; b) aumenta n. (1 punto)

    Solucion

    El nivel de significacion, al estimar la media de una poblacion mediante un intervalode confianza, nos indica la probabilidad de que la media poblacional no este incluidaen el intervalo. Por ejemplo, cuando la varianza poblacional 2 es conocida, tenemos

    P

    (

    X z/2n< < X z/2

    n

    )

    = 1 ,

    donde es el nivel de significacion.

    Al aumentar el nivel de significacion , el valor de z/2 disminuye y, por tanto, tambienlo hace la anchura del intervalo de confianza.

    Al aumentar el numero de datos, la anchura del intervalo de confianza disminuye.

    2

  • 3. De las encuestas realizadas durante tres anos a alumnos de primer curso de una ciertalicenciatura se ha obtenido que solo 3 alumnos de 200 encuestados quieren estudiaruna determinada especialidad. Que distribucion de probabilidad sigue el numero dealumnos que escoge dicha especialidad? Razonar la respuesta. (1 punto)

    Solucion

    Se trata de una distribucion discreta, ya que la variable aleatoria numero de alumnosque escogen cierta especialidad toma los valores de 0, 1, 2,. . . Ademas se trata, en prin-cipio, de una distribucion binomial, ya que el suceso exito (escoger cierta especialidad)es dicotomico, y tendra una probabilidad p = 3/200 = 0.015. Sin embargo, dado queel numero de elementos observados es muy alto y la probabilidad de exito es pequena,se tratara de una distribucion de Poisson, con parametro pn = 0.015 200 = 3.Ejemplo: calcular la probabilidad de que, considerando otro conjunto similar de 200alumnos, 5 de ellos elijan la citada especialidad.

    Usando la distribucion binomial:

    P (x = 5) = b(5; 200, 0.015) = 0.1011

    Usando la distribucion de Poisson:

    P (x = 5) = p(5; 3) = 0.1008

    3

  • 4. Un da del mes de diciembre se produce un accidente en una carretera de montana.Historicamente se sabe que, como promedio, en dicho mes hay en esa zona 25 dasde niebla y que la probabilidad de accidente en da de niebla es 10 veces mayor quesin ella. Cual es la probabilidad de que el accidente se haya producido en un da deniebla? (1 punto)

    Solucion

    Definamos los siguientes sucesos:

    N , da de nieblaN , da de no nieblaA, accidenteA, no accidente

    A partir de los datos del enunciado calculamos de forma inmmediata:

    P (N) = 25/31

    P (N) = 6/31

    P (A|N) = 10 pP (A|N) = p

    donde la probabilidad p es desconocida (veremos mas abajo que no es necesario conocersu valor).

    Sabiendo que N y A son sucesos dependientes, podemos expresar las probabilidadescondicionadas como:

    P (N |A) = P (N A)P (A)

    P (A|N) = P (N A)P (N)

    Finalmente, utilizando el Teorema de Bayes, podemos calcular:

    P (N |A) = P (A|N)P (N)P (A)

    =P (A|N)P (N)

    P (A|N)P (N) + P (A/N)P (N) =

    =10p 25/31

    10p 25/31 + p 6/31 =10 25

    10 25 + 6 =250

    256= 0.976

    4

  • 5. Se extrae una muestra de n elementos de una poblacion con funcion de densidad:

    f(x, ) =

    {

    x1 > 0, 0 < x < 10 en caso contrario

    Hallar el estimador de maxima verosimilitud de . (1 punto)

    Solucion

    La funcion de maxima verosimilitud puede escribirse como

    L = n(x1 x2 . . . xn)(1)

    Tomando logaritmos

    lnL = n ln + ( 1) ln(x1 x2 . . . xn)

    Derivando con respecto a

    d lnL

    d= n

    1

    + ln(x1 x2 . . . xn) = 0

    Finalmente, despejando ,

    =n

    ln(x1 x2 . . . xn)=

    nn

    i=1

    ln(xi)

    5

  • 6. Para evaluar el rendimiento de una pintura protectora de superficies se selecciona ungrupo de 200 muestras situadas al aire libre. Se eligen aleatoriamente 100 de ellas y seles aplica la pintura; de ellas, 10 se deterioran. Construir un intervalo de confianza al95% para la probabilidad de deteriorarse si se ha aplicado la pintura. (1 punto)

    Solucion

    La formula para calcular el intervalo de confianza para proporciones es

    I =

    P z/2

    P (1 P )n

    siendo P el valor muestral de la proporcion, es decir, 10/100 = 0.10.

    I =

    0.10 1.96

    0.10 0.90100

    = [0.10 0.06] = [0.04, 0.16]

    6

  • 7. En la Antartida se esta realizando una toma de muestras de hielo para determinarsu contenido en oxgeno. Dadas las difciles condiciones del muestreo, solo el 15% delas muestras extradas resultan validas para el analisis. Para un cierto experimento senecesita disponer de un total de 6 muestras validas.

    a) Si se recogen 20 muestras, cual es la probabilidad de que al menos 6 de ellassean validas?

    b) Responder a la cuestion anterior, pero suponiendo que se recogen 60 muestras.(1 punto)

    Solucion

    Sabemos que la probabilidad de obtener una muestra valida viene dada por

    p(muestra valida) = 0.15

    a) El proceso sigue una distribucion binomial, con n = 20 y p = 0.15:

    P (xb 6) =20

    x=6

    b(x;n, p) = 0.067 (6.7%)

    b) Como el numero de ensayos n = 60 es muy alto, podemos aproximar la distribucionbinomial por la distribucion normal (con = np = 9 y =

    npq = 2.77), es decir,

    P (xb 6) P (xN > 5.5),

    donde hemos aplicado la correccion de continuidad. Podemos determinar la probabili-dad pedida mediante

    P (xN > 5.5) = P(

    z >xN

    )

    = P(

    z >5.5 92.77

    )

    = P (z > 1.26) =

    = 1 P (z > 1.26) = 1 0.1038 = 0.8962 (89.6%)

    7

  • 8. Grupos A, B, D y EDescribir las medidas de bondad de ajuste a una regresion lineal que conozca y larelacion que hay entre ellas. (1 punto)

    Solucion

    Coeficiente de correlacion (r), coeficiente de determinacion (r2), varianza residual (s2r).

    El coeficiente de determinacion viene dado por el cuadrado del coeficiente de cor-relacion.La varianza residual da una estimacion de la variacion de los datos originales respectoa la recta de regresion (y = ax + b). El coeficiente de determinacion y la varianzaresidual estan relacionados del siguiente modo:

    s2r =n 1n 2s

    2y (1 r2)

    siendo s2y la varianza de los valores de la ordenada y. Por lo tanto, si la correlaciones perfecta, el coeficiente de determinacion r2 = 1 y s2r = 0, es decir, el ajuste linealexplica por completo la variacion de los datos (y). Si no existe correlacion, r2 = 0 ys2r s2y, es decir, el ajuste lineal no reduce la variacion de los datos. Esto se ve conmayor claridad si se escribe la expresion anterior del siguiente modo:

    r2 =(n 2)s2r(n 1)s2y

    = 1 V NEV T

    =V E

    V T

    Es decir, el coeficiente de determinacion puede interpretarse como la fraccion de lavariacion total que se explica mediante la recta de regresion. Un coeficiente de cor-relacion proximo a 1 indica que casi todas las variaciones encontradas en y sonexplicadas por la recta de regresion lineal, teniendose una buena correlacion. Por elcontrario, si r = 0, la recta de regresion apenas sirve para explicar las variaciones de y,lo que implica que la correlacion lineal sera pobre. Como ejemplo, si r = 0.95, podemosdeducir que el 90.25% de las variaciones de y son debidas a la regresion lineal.

    8. Grupo CSe tienen datos de temperatura media del mes de mayo durante el perodo 1900-2007.Sabiendo que esta muestra sigue una distribucion normal con media y desviaciontpica , que analisis estadstico habra que realizar para saber si la temperatura mediade mayo del ano 2008 ha sido significativamente mayor, con un nivel de significacion ,al valor ?

    (1 punto)

    Solucion

    Habra que realizar un contraste unilateral de la media con varianza conocida bajohipotesis nula de que la media del perodo 1900-2007 es inferior o igual a la del ano2008.

    8

  • 9. Una compana fabrica resistencias con valor medio 300 y desviacion tpica 24 .Se piensa que variando el proceso de fabricacion conseguira aumentarse la resistenciamedia.

    a) Realizar un contraste de hipotesis que permita decidir, con un nivel de significaciondel 1%, cambiar o no el proceso de fabricacion, a partir de una muestra de 64resistencias.

    b) Determinar la probabilidad de aceptar el proceso primitivo si sabemos que conel nuevo proceso la resistencia media pasa a ser 310 y la desviacion tpica novara.

    (2 puntos)

    Solucion

    a) Se abandonara el proceso primitivo si al emplear el nuevo proceso aumenta laresistencia media significativamente (2 > 1), lo que equivale a rechazar la hipotesisnula de que el cambio de proceso de fabricacion no aumenta la resistencia H0 : 2 1.

    {

    H0 : 2 1H1 : 2 > 1

    : conocida z = x 1/

    n

    Region crtica: C = {z : z > z} ={

    x :x 1/

    n

    > z

    }

    Abandonaremos el proceso inicial si al emplear el nuevo proceso, la resistencia mediax de una muestra de n = 64 resistencias cumple

    x > 1 +z n

    = 300 +2.33 24

    64= 306.99 307

    Es decir, si x > xcrit = 307 abandonaramos el proceso de fabricacion inicial

    b)x : N(310, 24)

    P (x xcrit) = P(

    x /

    n xcrit

    /n

    )

    =

    = P

    (

    z 307 31024/

    64

    )

    = P (z 1) = P (z > 1) = 0.1587

    9

  • 10. El espesor de una muestra de 150 laminas de acero obtenidas en cierto proceso defabricacion se ha clasificado en cinco intervalos con los siguientes resultados (en m).

    Longitud Frecuencia10.00-10.05 2610.05-10.10 3210.10-10.15 3510.15-10.20 2910.20-10.25 28

    a) Dibujar el histograma de frecuencias.

    b) Calcular la media y la desviacion tpica.

    c) Sabiendo que los espesores mnimo y maximo son 10.00 y 10.25 m, comprobar siel espesor se distribuye uniformemente. Tomar un nivel de significacion = 0.05.

    (2 puntos)

    Solucion

    a) Histograma

    b)

    Intervalos Marcas de clase Frecuencia nici nic2i

    10.00-10.05 10.025 26 260.650 2613.0210.05-10.10 10.075 32 322.400 3248.1810.10-10.15 10.125 35 354.375 3588.0510.15-10.20 10.175 29 295.075 3002.3910.20-10.25 10.225 28 286.300 2927.42Sumas 150 1518.800 15379.05

    x =5

    i=1

    niciN

    = 1518.8/150 = 10.125 m

    s2 =

    5i=1 nic

    2i 1N (

    5i=1 nici)

    2

    N 1 = (15379.05 1518.82/150)/149 = 4.66 103

    s = 0.068 m

    c) H0: el espesor de las laminas se distribuye uniformemente.

    Longitud Frecuencia observada Frecuencia esperada10.00-10.05 26 3010.05-10.10 32 3010.10-10.15 35 3010.15-10.20 29 3010.20-10.25 28 30

    2 =5

    i=1

    (oi ei)2ei

    = 1.67

    2,k1 = 20.05,4 = 9.448 > 1.67

    No podemos rechazar la hipotesis nula de que el espesor de las laminas se distribuyeuniformemente.

    10

  • 11. Responder esta pregunta UNICAMENTE si NO se aprobo el examen depracticas o NO se tienen las practicas aprobadas de cursos anteriores:

    Sea la siguiente tabla de valores de la altura de (en m) de un grupo de alumnoscontenidas en el fichero altura.dat:

    1.85 1.80 1.62 1.78 1.71 1.88 1.67 1.89 1.61 1.781.71 1.65 1.71 1.63 1.68 1.70 1.63 1.55 1.63 1.631.75 1.80 1.60 1.81 1.63 1.80 1.62 1.65 1.73 1.631.80 1.59 1.75 1.80 1.62 1.85 1.83 1.69 1.74 1.741.81 1.70 1.82 1.65 1.84 1.90 2.01 1.60 1.74 1.63

    Indicar ordenadamente los comandos de matlab que emplearas para resolver las sigu-ientes preguntas:

    a) Considerando que los datos se ajustan a una distribucion Normal, obtener laprobabilidad de que un alumno mida mas de 1.80 m.

    b) Realizar una tabla de frecuencias, agrupando los datos en un numero adecuadode intervalos de clase y dibujar el histograma correspondiente.

    c) Calcular la desviacion tpica a partir del agrupamiento de datos.

    Solucion

    >> load altura.dat>> a=altura; % los datos se introducen en una matriz a>> a=a(:); % los datos se ordenan como un vector a

    a) Considerando que los datos se ajustan a una distribucion Normal, hay que calcularla media y desviacion tpica correspondientes:

    >> m=mean(a); % valor exacto de la media de los datos (1.7348)>> sig=std(a); % valor exacto de la desviacion tpica de los datos (0.1109)

    Por tanto:>> p=1-normcdf(1.80,m,sig) % probabilidad P (X > 1.80)

    b)

    >> ntot = length(a); % tamano de la muestra (50)>> int=round(sqrt(ntot)); % numero de intervalos de clase (7.0711 7)>> [n,x] = hist(a,int); % marcas de clase y frecuencias absolutas>> hist(a,int); % histograma agrupando en 7 marcas de clase

    n =

    6 12 10 11 5 3 3

    x =

    1.5829 1.6486 1.7143 1.7800 1.8457 1.9114 1.9771

    c)

    >> m1=sum(x.*n)/ntot; % media datos agrupados (1.7379)>> sig1=sqrt(sum(n.*(x-m1).^2)/(ntot-1)); % desv. tp. datos agrupados (0.1093)

    Firma del alumno:

    11