Teo estadist.

21
Dpto. Didáctico de Matemáticas. Estadística MODELOS DE TABLAS ESTADÍSTICAS. Variable: discreta. Dimensiones: unidimensional. TABLA 1 Datos Frecu en- cias ab- solut as Frecuenc ias absoluta s acumulad as Desviac iones Desviaci ones ponderad as Datos pondera dos Cuadrad os pondera dos Total es: Variable: continua. Dimensiones: unidimensional. TABLA 2 Interva- los de clase. Marcas de clase. Frecue ncias ab- solutas Frecuencia s absolutas acumuladas Desvia- ciones Desviaciones ponderadas Datos pon- derados Cuadrados pon- derados Definiciones y conceptos. Página.- i Modelos de tablas

Transcript of Teo estadist.

Page 1: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

MODELOS DE TABLAS ESTADÍSTICAS.

Variable: discreta.Dimensiones: unidimensional.

TABLA 1

Datos

Frecuencias ab-solutas

Frecuencias absolutas

acumuladas

Desviaciones

Desviaciones ponderadas

Datos ponderados

Cuadrados ponderados

Totales:

Variable: continua.Dimensiones: unidimensional.

TABLA 2Intervalos de clase.

Marcas de clase.

Frecuen-cias ab-solutas

Frecuencias absolutas acu-

muladas

Desviacio-nes

Desviaciones pon-deradas

Datos pon-derados

Cuadrados ponderados

Totales:

Variable: discreta.

Definiciones y conceptos. Página.- i Modelos de tablas

Page 2: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Dimensiones: bidimensional.

TABLA 3

Datos

Frecuencias ab-solutas

Datos ponderados

Cuadrados ponderados

Totales:

TABLA 4

Datos

Frecuencias ab-solutas

Datos ponderados

Cuadrados ponderados

Totales:

TABLA 5

Datos

Frecuencias ab-solutas

Datos ponderados

Totales:

Definiciones y conceptos. Página.- ii Modelos de tablas

Page 3: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Parámetros o medidas de centralización y dispersión.Definiciones, conceptos y fórmulas para su cálculo.

Variable: discreta.Dimensiones: unidimensional.

Parámetros de centralización:

Media aritmética: se representa por , y es el resultado de dividir la suma de todos los valores de la muestra entre el total de los mismos.

Expresión o fórmula para su cálculo:

Moda: es el valor de la variable que tiene mayor frecuencia. Puede haber más de una moda. Se representa por Mo.

Clase modal: en el caso de distribuciones lineales o con datos agrupados por intervalos, es el intervalo con mayor frecuencia.

Para su cálculo solo es necesario hacer el recuento de frecuencias, entonces:

Donde: Li= límite inferior del intervalo modala = ancho el intervalo.

son las frecuencias absolutas, respectivamente, de la clase modal, la anterior y la siguiente.

Mediana: una vez ordenados todos los datos en sentido creciente, es el dato que ocupa el lugar central de la misma. Si hubiera dos valores centrales, sería la media de ambos. Se representa por Me.

Clase mediana: en el caso de distribuciones lineales o con datos agrupados por interva-los, es el intervalo correspondiente al valor de frecuencia acumulada igual o mayor que el 50% de los datos.

Para su cálculo se puede tomar como mediana la marca de clase del intervalo, pero para una mayor aproximación tomaremos:

Donde: Li= límite inferior del intervalo medianoa = ancho el intervalo.N = número de datos totales

= frecuencia absoluta acumulada hasta el intervalo anterior

= frecuencia absoluta correspondiente al intervalo medianoCuartiles: agrupación de los datos en cuatro bloques, conteniendo cada bloque el 25%

de los datos. Es decir, el primer cuartil deja a su izquierda el 25% de los datos, el segundo deja a su izquierda el 50% (Coincide con le mediana), el tercer cuartil deja

Definiciones y conceptos. Página.- i Parámetros estadísticos

Page 4: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

a su izquierda el 75% de los datos y el cuarto es el valor máximo de los datos. Se representan por .

Deciles: agrupación de los datos en diez bloques, conteniendo cada bloque el 10% de los datos. El quinto decil vuelve a coincidir con la mediana, ya que deja a su iz-quierda el 50% de los datos. Se representan por Di.

Percentiles: agrupación de los elementos en cien bloques, conteniendo cada bloque el 1% de los datos. El percentil 50 coincide con la mediana. Se representan por Pi.

Parámetros de dispersión:

Rango o recorrido: es la diferencia entre el mayor y el menor de los datos de la mues-tra. Se representa por R.

Desviación media: es la media de las desviaciones de los datos respecto a la media de la muestra. Se representa por DM.

Expresión o fórmula para su cálculo:

Varianza: es la media aritmética de los cuadrados de las desviaciones de los datos res-pecto de la media de la muestra. Se representa por σ2.

Expresión o fórmula para su cálculo:

Desviación típica: es la raíz cuadrada de la varianza. Se representa por σ.

Coeficiente de variación:

ESTUDIO CONJUNTO DE

En casi todas las distribuciones estadísticas se considera Normal que:

En el intervalo estén el 68.27% de los datos de la muestra. En el intervalo estén el 95.45% de los datos de la muestra. En el intervalo estén el 99.73% de los datos de la muestra.

Para comparar datos de muestras distintas hay que tipificar, o nor-

malizar, dichos datos. Para ello se calculan las variables tipificadas, que son:

Ahora ya se pueden comparar las variables tipificadas, para ello:

La nueva distribución, para las variables tipificadas, no varía su forma respecto de la original.

La media aritmética de las puntuaciones normalizadas es nula, es decir, La desviación típica de las mismas es la unidad, es decir,

Definiciones y conceptos. Página.- ii Parámetros estadísticos

Page 5: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

NOTA: Para las distribuciones de variable continua todos los conceptos son los mis-

mos, y para las fórmulas o expresiones de cálculo hay que tener en cuenta que la variable xi es la marca de clase del intervalo en cuestión.

Parámetros o medidas de centralización y dispersión.Definiciones, conceptos y fórmulas para su cálculo.

Variable: discreta.Dimensiones: bidimensional.

NOTA: Las variables bidimensionales, al igual que los puntos del plano, se compo-

nen en realidad de dos variables discretas, xi e yi.Para cada una de ellas se emplean las tablas 3 y 4, con las mismas apli-caciones individuales, los mismos conceptos y las mismas fórmulas pa-ra su cálculo. Nuevos parámetros:

Coeficiente de Pearson, o correlación lineal: es un valor que nos permite cuantificar la mayor o menor dependencia existente entre las variables.

Expresión o fórmula para su cálculo:

Donde x y y son las desviaciones típicas de x e y por separado.xy es la covarianza para x e y, cuyo valor, o expresión para el cálculo, es:

COVARIANZA

Donde N es el número total de pares de valores de la muestra.

IMPORTANTE: El coeficiente de correlación lineal r, siempre toma valores

comprendidos entre –1 y 1, de modo que:

Si –1 < r < 0, existe correlación lineal negativa, y será más fuerte cuanto más se aproxime el valor de r a –1.

Si 0 < r < 1, existe correlación lineal positiva, y será más fuerte cuanto más se aproxime el valor de r a 1.

Si r = 1 ó r = -1, la correlación es perfecta, se dice entonces que hay una depen-dencia funcional.

Por último, si r = 0, entonces no hay correlación lineal, aunque pueden estar rela-cionadas de modo cuadrático o curvilíneo.

Recta de regresión: es la recta en torno a la cual, si hay correlación, se distribuyen los pares de valores de la muestra.

Definiciones y conceptos. Página.- iii Parámetros estadísticos

Page 6: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Recta de regresión de y sobre x:

Recta de regresión de x sobre y:

NOTA: A los cocientes y , se les llama coeficientes de regresión, de y sobre

x, y coeficiente de regresión de x sobre y, respectivamente.

Otra forma de calcular los parámetros de las rectas de regre-sión:Se denominan ecuaciones normales, se trata de resolver el sistema siguiente, donde las variables son a y b:

Para ello sería necesario construir previamente la tabla:

x1 y1

xN yN

Totales:

Parte de la cual podíamos haberla insertado ya en la tabla 5, suponiendo 1 la frecuencia absoluta para cada par, y nos habría quedado:

TABLA6

Datos Frecuencias 1ª variable 2ª variableCuadrados 1ª variable

Productos

fij xi

1 x1 y1

1 x2 y2

1 xN yN

Totales: N

Definiciones y conceptos. Página.- iv Parámetros estadísticos

Page 7: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Ejemplos de problemas resueltos.

Ejemplos de variable discreta.Ed1.-En una población de 25 familias se ha observado la variable número de coches que tiene la familia y se han obtenido los siguientes datos: calcular todos los parámetros básicos de la muestra.

0 1 2 3 1

0 1 1 1 4

3 2 2 1 12 2 1 1 12 1 3 2 1

iF0 2 2 0 01 12 14 12 122 7 21 14 28

3 3 24 9 27

4 1 25 4 16

25 39 83

Centralización DispersiónModa: 1,00 1 Varianza: 0,89 0,89Mediana: 1,00 1 Desviación: 0,94 0,96Media: 1,56 1,56

Ed2.-Un especialista en pediatría obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su consulta en el momento de andar por primera vez: calcular todos los parámetros.

Meses Niños

9 1 1 9 8110 4 5 40 40011 9 14 99 108912 16 30 192 230413 11 41 143 185914 8 49 112 156815 1 50 15 225

50 610 7526

Centralización Dispersión

Moda: 12,00 Varianza: 1,68

Mediana: 12,00 Desviación: 1,30Media: 12,20

Ed3.-Hallar todos los parámetros de la muestra de la tabla que

Definiciones y conceptos. Página.- i Ejemplos

Page 8: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

representan los goles por partido en la liga de fútbol 86-87.

Goles Partidos

0 32 32 0 01 71 103 71 71

2 80 183 160 320

3 62 245 186 558

4 36 281 144 576

5 15 296 75 375

6 6 302 36 216

7 2 304 14 98

8 2 306 16 128

306 702 2342

Centralización DispersiónModa 2,00 Varianza 2,39Mediana 2,00 Desviación 1,55Media 2,29

Ejemplos de variable continua.Ec1.-Se ha pasado un test de 79 preguntas a 600 personas. El número de respuestas correctas se refleja en la siguiente tabla. Calcular todos los parámetros básicos de la muestra.

Aciertos Marcas Personas

10,0 5 40 40 200 1000

15 60 100 900 13500

25 75 175 1875 46875

35 90 265 3150 110250

45 105 370 4725 212625

55 85 455 4675 257125

65 80 535 5200 338000

75 65 600 4875 365625

600 25600 1345000

Centralización Dispersión

Moda 45 Varianza 421,22

Mediana 43,33 Desviación 20,52

Media 42,67

Ec2.-Calcular todos los parámetros básicos del siguiente conjunto de datos.

10 13 4 7 811 10 16 18 12

Definiciones y conceptos. Página.- ii Ejemplos

Page 9: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

3 6 9 9 413 20 7 5 1017 10 16 14 818        

Intervalo

4,5 4 4 18 81

7,5 5 9 37,5 281,25

10,5 7 16 73,5 771,75

13,5 4 20 54 729

16,5 3 23 49,5 816,75

19,5 3 26 58,5 1140,75

26 291 3820,5

Centralización DispersiónModa 10,50 10 Varianza 21,67 21,75Mediana 10,71 10 Desviación 4,66 4,76Media 11,19 10,69

Ec3.-La dirección de tráfico ha recogido la siguiente información rela-tiva al número de multas diarias que sus agentes han impuesto en una autopista. Hallar todos los parámetros de la muestra e interpretar los.

Multas Marca Días

2,5 6 6 15 37,5

7,5 14 20 105 787,5

12,5 20 40 250 3125

17,5 10 50 175 3062,5

50 545 7012,5

Centralización Dispersión

Moda 12,5 Varianza 21,44

Mediana 11,25 Desviación 4,63

Media 10,9

Definiciones y conceptos. Página.- iii Ejemplos

Page 10: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

¿Cómo resolver problemas con las tablas?.

Calculadoras y estadística I: La estación meteorológica de Pueblaseca registró 88 días de lluvia el

pasado año, según se muestra en la siguiente tabla:Litros/m2

Nº de días 3 7 19 23 18 12 6

Calcula la precipitación media durante los días de lluvia, la varianza, la des-viación típica y el coeficiente de variación.

Calcula los intervalos modales y medianos, así como la moda y la mediana de la distribución dada de frecuencias.

Para hacerlo manualmente deberemos construir la tabla de valores siguiente:

Litros/m2 Marcas fi Fi

2.5 3 3 7.5 18.75

7.5 7 10 52.5 393.75

12.5 19 29 237.5 2968.75

17.5 23 52 402.5 7043.75

22.5 18 70 405 9112.50

27.5 12 82 330 9075.00

32.5 6 88 195 6337.50

Totales: N = 88 1630 34950.00

Con esta información podemos hacer uso de las fórmulas:

Media:

Varianza:

Desviación típica:

Coeficiente de variación:

Intervalo modal , con lo que lo moda será

Intervalo mediano , con lo que la mediana será

Definiciones y conceptos. Página.- i La calculadora para el estadístico

Page 11: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Todo esto, ¿Qué quiere decir?. Pues que durante ese año los días que llovió lo hizo con una intensidad media de 18.52 l/m2, aunque lo más frecuente, la moda, es que lo hiciera con una intensidad de 17.2 l/m2. Por otro lado, la mediana, nos dice que el 50% de los días llovió con una intensidad mayor de 18.26 l/m2, y el resto de los días fue menor. Por último, el CV nos dice que la distribución es algo dispersa respecto de la media, en con-creto, un 20%.CON CALCULADORA: Marca CASIO, modelo fx-570S

Ajustar el MODE a SD, para ello pulsar secuencialmente MODE 2. Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente

SHIFT C Introducir los datos del estadístico, para ello debemos tener en cuenta que en

este caso los valores son las marcas de clase. Se teclea el valor y a continuación la frecuencia, en este orden, 2.5 X 3 M+ , el por indica que el valor se repite tres veces, al pulsar M+ el valor pasa a la memoria del estadístico, ya que bajo él estará escrito DT o DATA. Se procede así con todos los datos.

Para recuperar la información del estadístico, procedemos de la siguiente manera:

RCL 3 devuelve el número de datos introducidos, en este caso 88.

RCL 2 devuelve la suma de los productos ponderados , 1630

RCL 1 devuelve la suma de los productos ponderados , 34950

SHIFT 1 devuelve la media, 18.52

SHIFT 2 devuelve la desviación típica, 3.75

El resto de valores han de calcularse manualmente, aunque siempre tendremos en la memoria la información básica y podemos operar con ella desde ahí.

Marca CASIO, modelo fx-570MS

Ajustar el MODE a SD, para ello pulsar secuencialmente MODE MODE 1 Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente

SHIFT CLR 1 = Introducir los datos del estadístico, para ello debemos tener en cuenta que en

este caso los valores son las marcas de clase. Se teclea el valor y a continuación la frecuencia, en este orden, 2.5 SHIFT າ 3 M+ , la coma indica que el valor se repite tres veces, al pulsar M+ el valor pasa a la memoria del estadístico, ya que bajo él estará escrito DT o DATA. Se procede así con todos los datos.

Para recuperar la información del estadístico, procedemos de la siguiente manera:

SHIFT 1 3 = devuelve el número de datos introducidos, en este caso 88.

SHIFT 1 2 = devuelve la suma de los productos ponderados

SHIFT 1 1 = devuelve la suma de los productos ponderados

SHIFT 2 1 = devuelve la media.

SHIFT 2 2 = devuelve la desviación típica.

Definiciones y conceptos. Página.- ii La calculadora para el estadístico

Page 12: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Calculadoras y estadística II: Una empresa dedicada a la elaboración y vente de ropa para jóvenes ha realiza-

do los gastos en publicidad y ha obtenido las ventas que figuran en la siguiente tabla. Los datos vienen expresados en millones de pesetas y se refieren a los últimos diez años.Publicidad 7.5 8 8.5 10 10.5 12 13 14 15 18Ventas 200 205 230 240 250 270 280 300 310 325

Si denominamos X a la variable gastos de publicidad e Y a los beneficios de ventas, halla: Las medias y desviaciones típicas para cada variable independientemente. La covarianza de las variables. El coeficiente de correlación lineal o de Pearson, y analiza la dependencia

de ambas variables. La recta de regresión de Y sobre X. La empresa decide invertir el próximo año 25 millones en publicidad. Si se

mantiene la misma tendencia, ¿Cuál es el volumen de ventas esperado?. Si la empresa desea obtener 500 millones en ventas, ¿Cuánto debe invertir

en publicidad?.Como todos los pares de valores tienen frecuencia absoluta igual a la unidad no tiene sentido construir una tabla de doble entrada. Así pues pasamos directamente a lo que nos interesa para las medias y varianzas.

xi yi

7.5 7.5 56.25 200 200 40000 15008 8 64 205 205 42025 1640

8.5 8.5 72.25 230 230 52900 195510 10 100 240 240 57600 2400

10.5 10.5 110.25 250 250 62500 262512 12 144 270 270 72900 324013 13 169 280 280 78400 364014 14 196 300 300 90000 420015 15 225 310 310 96100 465018 18 324 325 325 105625 5850

Totales: 116.5 1460.75 2610 698050 31700

Con esta información podemos hacer uso de las fórmulas:

Medias:

Desviaciones típicas:

Covarianza:

Coeficiente de Pearson: hay una buena correlación, dependen

estrechamente la una de la otra.

Definiciones y conceptos. Página.- iii La calculadora para el estadístico

Page 13: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Recta de regresión Y→X:

Recta de regresión X→Y:

Volumen de ventas esperado para una inversión de 25 millones: (fiabilidad 96%) millones en ventas.

Inversión que se ha de realizar para un beneficio de 500 millones: millones en publicidad.

CON CALCULADORA: Marca CASIO, modelo fx-570S

Ajustar el MODE a LR, para ello pulsar secuencialmente MODE 3. Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente

SHIFT C Introducir los datos del estadístico, para ello debemos tener en cuenta que en

este caso los valores son pares x,y. Se teclea el valor X, a continuación [(··· , y luego el valor Y, en este orden, 7.5 [(··· 200 M+ , así con todos los pares de datos del estadístico.

Para recuperar la información del estadístico, procedemos de la siguiente for-ma:

RCL 6 devuelve la suma de los productos ponderados , 31700

RCL 5 devuelve la suma de los productos ponderados , 2610

RCL 4 devuelve la suma de los productos ponderados , 698050

RCL 3 devuelve el número de datos introducidos, en este caso 10.

RCL 2 devuelve la suma de los productos ponderados , 1165

RCL 1 devuelve la suma de los productos ponderados , 1460.75

SHIFT 1 devuelve la media de X, 11.65

SHIFT 2 devuelve la desviación típica de X, 3.22

SHIFT 4 devuelve la media de Y, 261

SHIFT 5 devuelve la desviación típica de Y, 41.04

SHIFT A devuelve el valor del término independiente de la recta de regre-sión Y→X.

SHIFT B devuelve el valor del coeficiente de X en la recta de regresión.

SHIFT Γ devuelve el valor del coeficiente de Pearson o correlación.

Recuerda Y→X

El resto de valores han de calcularse manualmente, aunque siempre tendremos en la memoria la información básica y podemos operar con ella desde ahí.

Marca CASIO, modelo fx-570MS

Definiciones y conceptos. Página.- iv La calculadora para el estadístico

Page 14: Teo estadist.

Dpto. Didáctico de Matemáticas. Estadística

Ajustar el MODE a REG, para ello pulsar secuencialmente MODE MODE 2 Limpiar las memorias, ponerlas a cero, para ello pulsar secuencialmente

SHIFT CLR 1 = Introducir los datos del estadístico, para ello debemos tener en cuenta que en

este caso los valores pares x,y. Se teclea el valor X, a continuación la າ , segui-damente el valor de Y, este orden 7.5 າ 200 M+. Se procede así con todos los pares de datos del estadístico.

Para recuperar la información del estadístico, procedemos de la siguiente manera:

SHIFT 1 1 = devuelve la suma de los productos ponderados

SHIFT 1 2 = devuelve la suma de los productos ponderados

SHIFT 1 3 = devuelve el número de datos introducidos, en este caso 10

SHIFT 1 ► 1 = devuelve la suma de los productos ponderados

SHIFT 1 ► 2 = devuelve la suma de los productos ponderados

SHIFT 1 ► 3 = devuelve la suma de los productos ponderados

SHIFT 2 1 = devuelve la media de X.

SHIFT 2 2 = devuelve la desviación típica de X.

SHIFT 2 ► 1 = devuelve la media de Y.

SHIFT 2 ► 2 = devuelve la desviación típica de Y.

SHIFT 1 ► ► 1 = devuelve el término independiente de la recta de regresión Y→X.

SHIFT 1 ► ► 2 = devuelve el coeficiente de X en la recta de regresión.

SHIFT 1 ► ► 3 = devuelve el coeficiente de Pearson o correlación.

Recuerda Y→X

Definiciones y conceptos. Página.- v La calculadora para el estadístico