Estad Descriptiva Ing Usach Nuevop 1 196247

65
Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 1 ESTADÍSTICA DESCRIPTIVA Introducción Qué es la Estadística: La estadística es una ciencia que tiene como finalidad facilitar la solución de problemas en los cuales es necesario conocer algunas características sobre el comportamiento de algún suceso o evento. conocer o mejorar el conocimiento de ese suceso predecir el comportamiento de sucesos iguales o similares sin que estos ocurran La Estadística posee un conjunto de técnicas que se emplean para la recopilación, organización, presentación, análisis e interpretación de los datos para tomar decisiones y resolver problemas. ¿Por qué hay que estudiar Estadística? Si se revisan las mallas curriculares de las distintas carreras profesionales, veremos que en la mayoría existe por lo menos una asignatura de Estadística. Básicamente los contenidos de un primer curso de Estadística en diferentes carreras son los mimos, la mayor diferencia radica en los ejemplos utilizados. La principal razón es que el rol más destacado de la Estadística es la recopilación, presentación, análisis de un conjunto de datos, a partir de los cuales se obtienen conclusiones y se toman decisiones. Saber Estadística es de gran utilidad en cualquier área del conocimiento y en particular en Ingeniería. Ejemplos: - Diseño y desarrollo y mejora en los proceso productivos como control de calidad, control de la variabilidad del proceso, … - Estudios de materiales en cuanto a duración, dureza, elasticidad, …. - Control de inventarios, con la estadística se analiza la tendencia de flujo de ciertos materiales y ciertos productos. - Comparar los tiempos de ejecución de 3 algoritmos de ordenación (algoritmo de la burbuja, de selección, de inserción, quicksort, treesort)- … … …

Transcript of Estad Descriptiva Ing Usach Nuevop 1 196247

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 1

ESTADÍSTICA DESCRIPTIVA

Introducción

Qué es la Estadística: La estadística es una ciencia que tiene como finalidad

facilitar la solución de problemas en los cuales es necesario conocer algunas

características sobre el comportamiento de algún suceso o evento.

∙ conocer o mejorar el conocimiento de ese suceso ∙ predecir el comportamiento de sucesos iguales o similares sin que estos

ocurran La Estadística posee un conjunto de técnicas que se emplean para la recopilación, organización, presentación, análisis e interpretación de los datos para tomar decisiones y resolver problemas.

¿Por qué hay que estudiar Estadística?

Si se revisan las mallas curriculares de las distintas carreras profesionales, veremos que en la mayoría existe por lo menos una asignatura de Estadística. Básicamente los contenidos de un primer curso de Estadística en diferentes carreras son los mimos, la mayor diferencia radica en los ejemplos utilizados.

La principal razón es que el rol más destacado de la Estadística es la recopilación, presentación, análisis de un conjunto de datos, a partir de los cuales se obtienen conclusiones y se toman decisiones.

Saber Estadística es de gran utilidad en cualquier área del conocimiento y en particular en Ingeniería.

Ejemplos: - Diseño y desarrollo y mejora en los proceso productivos como control de

calidad, control de la variabilidad del proceso, …

- Estudios de materiales en cuanto a duración, dureza, elasticidad, ….

- Control de inventarios, con la estadística se analiza la tendencia de flujo de ciertos materiales y ciertos productos.

- Comparar los tiempos de ejecución de 3 algoritmos de ordenación (algoritmo de la burbuja, de selección, de inserción, quicksort, treesort)…

- … … …

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 2

La mayor contribución de la Estadística en la resolución de problemas en ingeniería es su utilización como herramienta de aprendizaje. El aprendizaje que se obtiene mediante la estadística forma parte del denominado “Método Científico” El método científico es la estrategia de la investigación científica: afecta a todo ciclo completo de investigación y es independiente del tema en estudio. Al ser la Ingeniería la aplicación del conocimiento científico, todo proyecto en ingeniería debe contener los rasgos del método científico.

La estadística se puede clasificar como:

Estadística descriptiva

Tiene como objetivo caracterizar, describir y extraer conclusiones sobre una muestra de datos o de la población de interés.

Probabilidad

Mide la incertidumbre, deduce las leyes que rigen a los fenómenos que se investigan. Es la herramienta a partir de la que se desarrolla la inferencia estadística

Estadística Inferencial

Implica realizar inferencias acerca de la de la población a partir de datos muestrales y requiere cálculo de probabilidades. La inferencia de conclusiones generales a partir de datos de muestrales

es siempre incierta Uno de los objetivos principales de la

estadística es medir esa incertidumbre

Conocer los conceptos fundamentales

La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes numéricos

Para realizar cualquier estudio estadístico, hay que tener en cuenta:

Cómo y de donde se recolectó la información

Qué se midió ¿atributos o cantidades?

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 3

CONCEPTOS FUNDAMENTALES

Población: Conjunto de elementos a los que se les estudia una característica” Tamaño población: N

- Los estudiantes de nuestra universidad - Las personas activa en Chile (población activa) - La flota de aviones de aviones de una compañía aérea

Censo: estudio completo de la población

A las medidas de resúmenes poblacionales como la media poblacional μ,

desviación estándar poblacional σ, …, se les denominan parámetros.

Muestra: subconjunto de elementos de la población sobre el cual se va a llevar el estudio). Tamaño muestra: n

Debería ser “representativo”

Está formado por miembros “seleccionados” de la población (individuos,

unidades de estudio, unidades de obseservación, unidades

experimentales).

A las medidas de resúmenes muestrales como la media de la muestra

“ x ”, desviación estándar de la muestra “s”…, se les denomina

estadísticos.

¡De una población existen muchas muestras posibles, pero sólo observamos una!

Nota: A la hora de decidir sobre la forma de recoger la información de la muestra se utilizan distintos criterios, originando distintos tipos de muestreos. (Anexo 2)

Encuesta: Técnica de investigación para obtener información de grupos de

personas mediante el uso de instrumentos como cuestionarios diseñados en

forma previa.

Diseño de experimentos: Metodología estadística que permite identificar y

cuantificar las causas de un efecto en un estudio experimental. El objetivo del

diseño de experimento es estudiar si utilizar un determinado tratamiento produce

mejora en el proceso o no.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 4

Variable: una variable es una característica observable que varía entre los

diferentes individuos de una población. La información que disponemos de cada

individuo es resumida en variables.

En la población de alumnos de Ingeniería de una universidad, es variable:

- El género: {Femenino, Masculino} ← var. cualitativa dicotómica

- Especialidad :{Informática, Industrial, Obras Civiles, …} ← var. cualitativa – politómica

- El número de asignatura aprobadas: {0,1,2,3,...} ← var. cuantitativa discreta

- Nivel de Educ. del padre: {Básica, Media Superior} ←var. cualitativa ordinal

- La altura (en cm.): {162 , 156, 170 ...} ← var. cuantitativa continua

- Edad (años): {17, 18, 19, …} ← var. cuantitativa continua

.

.

.

Obs.: Se acostumbra denotar a las variables con letras mayúsculas. X, Y, Z

Dato: valor de la variable asociado a un elemento de la población o muestra. (los valores de las variables se denotan con letras minúsculas)

Ejemplo: (archivo de datos)

Sujeto Sexo Edad Especialidad ……… (X1) (X2) (X3)

01 M 21 IND observación 1

02 M 22 INF

03 F 31 OC

. . . .

. . . . . . . .

HAY QUE CONOCER EL TIPO DE

VARIABLE PARA UTILIZAR LA

HERRAMIENTA ESTADÍSTICA

ADECUADA

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 5

La primera observación indica que el sujeto es de sexo masculino, tiene 21 años y

estudia Ingeniería Industrial. Cada una de estas tres mediciones es un dato para

cada una de las variables medidas para el sujeto 1.

El alumno de Ingeniería es la unidad de observación

Datos primarios

Son aquellos que el investigador obtiene directamente de la realidad,

recolectándolos con sus propios instrumentos.

Datos secundarios

Son registros escritos que proceden también de un contacto con la práctica,

pero que ya han sido elegidos y procesados por otros investigadores.

Las fuentes son información de datos secundarios deben ser fidedignas.

Los datos primarios y secundarios no son dos clases esencialmente diferentes

de información, sino partes de una misma secuencia: todo dato secundario ha

sido primario en sus orígenes, y todo dato primario, a partir del momento en

que el investigador concluye su trabajo, se convierte en dato secundario para

los demás.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 6

Clasificación de variables

Para realizar un análisis de datos, es indispensable saber cómo es la variable

que consideramos, pues ello determina el tipo de método estadístico que se

debe utilizar. Las variables se clasifican como:

Según su naturaleza

Cualitativas o atributos

No toman valores numéricos

(modalidades) y describen

cualidades. (no se pueden hacer

operaciones algebraicas con ellos).

Ejemplos: Estado Civil Profesión

Cuantitativas

Sus valores son numéricos (tiene

sentido hacer operaciones

algebraicas con ellos).

Ejemplos: Estatura

Número de errores

Según tamaño del recorrido

Dicotómicas

Toman uno de

dos valores.

Ejem.: Sexo

Discretas Corresponden en general a

contar el número de veces

que ocurre un suceso.

Tienen un recorrido finito o

infinito numerable.

Ejem.: Número de cargas familiares.

.

Continuas Entre dos valores,

son posibles infinitos

valores intermedios

Ejemplo: Altura (cm)

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 7

Según el nivel de medición

La medición es el proceso mediante el cual se les asignan valores numéricos

a objetos siguiendo unas determinadas reglas. Los instrumentos que se

utilizan para llevar a cabo tal medición se les denominan escalas de medición.

El criterio utilizado convencionalmente para clasificar las escalas de medida es

el propuesto por Stevens (1946), quien establece cuatro tipos de escala:

nominal, ordinal, de intervalo y de razón.

ORDINAL

INTERVALAR

RAZÓN

Únicamente permiten establecer relaciones de igualdad/desigualdad entre los objetos que se están midiendo.

NO INDICA ORDEN O JERARQUÍA

Ejemplos

SEXO:

Masculino (1) Femenino (2) PROFESIÓN:

Ingeniero (1) Profesor (2) Médico (3)

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 8

NOMINAL

INTERVALAR

RAZÓN

Además de permitir relaciones de igualdad /desigualdad, permite establecer relaciones de orden (mayor o menor que) entre los objetos que se están midiendo.

EXISTE UN ORDEN O JERARQUÍA

Ejemplo

NIVEL EDUCACIONAL:

Univ. con doctorado (5) Univ. con Magister (4) Superior (3) Media (2) Básica (1)

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 9

NOMINAL

ORDINAL

RAZÓN

Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala

permite establecer relaciones de igualdad /desigualdad y de orden entre los objetos

que se miden. Los intervalos entre los números de la escala son iguales, por lo

tanto se puede realizar las operaciones suma y resta. Este tipo de escala carece de

un cero absoluto, por lo que no están permitidas ni la multiplicación ni la división

entre los números de la escala. Una escala de intervalo es, por ejemplo, la utilizada

para medir la temperatura. Como los intervalos de la escala son iguales, se puede

afirmar que la diferencia de temperatura que existe entre 25 y 28 grados es la

misma que existe entre 30 y 33 grados. Sin embargo, dado que el punto 0 de la

escala es arbitrario -no existe ausencia de temperatura- no se puede afirmar,

por ejemplo, que 20 grados es exactamente la mitad de 40 grados.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 10

NOMINAL

ORDINAL

INTERVALAR

Es la escala que permite el nivel más alto de medición.

Además de las operaciones que permiten las escalas

anteriores, en una escala de razón existe el cero (0)

empírico, por lo cual se puede efectuar cualquier operación

aritmética con los números de la escala. El tiempo de

reacción, por ejemplo es una variable medida en escala

de razón. No sólo se puede afirmar que la diferencia entre

3 y 6 segundos es la misma que entre 6 y 9 segundos

(afirmación válida también en la escala de intervalos), sino,

además, que 6 s es el doble de 3 s Afirmación que es

posible establecer gracias a que en la escala de tiempo de

reacción existe el cero absoluto: cero significa ausencia de

tiempo de reacción.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 11

Clasificación de variables según su función

Ejemplo: Los hábitos de estudios influyen en el rendimiento académico de los

Estudiantes

VI = hábitos de estudio

VD = Rendimiento académico

V interv. = Aptitud personal

Nivel nutricional

… … …. … …

Ejercicios I

Ejercicio I-1 Determine en cada caso, si se trata o no de una variable.

- La edad mínima para poder votar por primera vez en Chile. - Número de errores diarios en una central telefónica. - Tiempo (en años) de experiencia laboral. - Profesión de los clientes de un banco. - Sueldo de los Ingenieros.

VI Independiente

Introduce o manipula el investigador

VD Dependiente

Se observa y se miden los cambios

Interviniente Es la que puede mediar en la relación entre VI y VD y que

puede influir en los resultados

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 12

Ejercicio I-2

Se quiere analizar el número de horas de estudio semanal que dedican los alumnos postgrado del área Ingeniería de esta Universidad. Para ello se selecciona a 35 alumnos que están participando en postgrado.

Indique cual es la:

Población: Variable: Muestra:

Ejercicio I-3

El coeficiente intelectual (CI) promedio en la población adulta chilena es 100 puntos. Un investigador educacional está interesado en probar que las personas adultas que hablan más de un idioma tienen un CI superior a la media poblacional. En una muestra de 250 personas que hablan más de un idioma se obtuvo un promedio (CI medio) de 102.

Complete: Variable de interés (nombre)

X

Clasificación de la variable

Naturaleza Recorrido Medición

Promedio poblacional

μ

Promedio muestral

x

Ejercicio I-4

¿Qué situaciones se representan estadísticamente con una variable discreta y cuáles con una variable continua?

a. El número de defectuosos en la fabricación b. Los tipos de defectos encontrados c. El tiempo de vida de las unidades que se fabrican d. El costo de fabricación e. El nivel de satisfacción de los clientes f. Nº de pedidos que se hacen al mes g. El tiempo que transcurre desde que llega un pedido hasta que llega el

siguiente

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 13

Ejercicio I-5

En el departamento de personal de una empresa con 10.000 trabajadores se quiere estimar los gastos familiares en salud de sus empleados para determinar la posibilidad de proporcionarles un plan de seguro médico.

Si el gasto mensual ($) en salud de 10 empleados elegidos al azar fue:

71.060 233.852 158.916 54.910 329.460 134.368 111.758 274.550 204.136 115.634

Indique: Población: _______________________ Tamaño N =

Unidad de observación:

Variable: X =

Muestra: _________________________ Tamaño: n =

Interprete 1

n

i

i

x

Calcule 2

1i

n

i

x

FMS

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 14

Ejemplo 1 .Estadística descriptiva

Ejemplo 1 (ArmadoA12.xls): El reporte de la inspección final de defectos de 150 productos para la línea de armado A12 se muestra en la tabla siguiente:

Producto Defecto Producto Defecto Producto Defecto Producto Defecto Producto Defecto

1 Rayado 31 Manchado 61 Manchado 91 Manchado 121 Manchado

2 Abollado 32 Rayado 62 Astillado 92 Doblado 122 Manchado

3 Astillado 33 Rayado 63 Rayado 93 Manchado 123 Rayado

4 Astillado 34 Manchado 64 Astillado 94 Manchado 124 Manchado

5 Otros 35 Manchado 65 Astillado 95 Astillado 125 Abollado

6 Manchado 36 Doblado 66 Manchado 96 Rayado 126 Astillado

7 Rayado 37 Manchado 67 Rayado 97 Manchado 127 Manchado

8 Astillado 38 Manchado 68 Rayado 98 Abollado 128 Manchado

9 Doblado 39 Manchado 69 Manchado 99 Manchado 129 Astillado

10 Rayado 40 Rayado 70 Manchado 100 Manchado 130 Doblado

11 Rayado 41 Astillado 71 Manchado 101 Doblado 131 Abollado

12 Manchado 42 Rayado 72 Manchado 102 Astillado 132 Manchado

13 Manchado 43 Otros 73 Manchado 103 Astillado 133 Rayado

14 Otros 44 Astillado 74 Otros 104 Rayado 134 Doblado

15 Abollado 45 Rayado 75 Rayado 105 Manchado 135 Astillado

16 Manchado 46 Rayado 76 Manchado 106 Astillado 136 Manchado

17 Rayado 47 Rayado 77 Manchado 107 Rayado 137 Rayado

18 Manchado 48 Doblado 78 Rayado 108 Manchado 138 Rayado

19 Otros 49 Manchado 79 Astillado 109 Manchado 139 Astillado

20 Rayado 50 Manchado 80 Rayado 110 Abollado 140 Manchado

21 Doblado 51 Manchado 81 Astillado 111 Manchado 141 Rayado

22 Doblado 52 Rayado 82 Manchado 112 Abollado 142 Rayado

23 Rayado 53 Otros 83 Manchado 113 Rayado 143 Rayado

24 Manchado 54 Rayado 84 Doblado 114 Manchado 144 Rayado

25 Manchado 55 Doblado 85 Manchado 115 Manchado 145 Manchado

26 Rayado 56 Manchado 86 Astillado 116 Astillado 146 Rayado

27 Abollado 57 Rayado 87 Manchado 117 Rayado 147 Manchado

28 Manchado 58 Rayado 88 Manchado 118 Rayado 148 Rayado

29 Rayado 59 Doblado 89 Manchado 119 Manchado 149 Rayado

30 Rayado 60 Rayado 90 Astillado 120 Astillado 150 Astillado

Identifique

Unidad de estudio: ______________

Variable de Interés: ___________________ y clasifíquela según:

Naturaleza:____________ T Recorrido:___________ N Medición:_________

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 15

Defectos en línea de armado A12 (150 productos examinados)

Fre

cu

en

cia

60

50

40

30

20

10

0

6

45

56

12

23

8

Defecto del producto

OtroRayadoManchadoDobladoAstilladoAbollado

Reporte de la inspección final de defectos de 150 productos para la línea de armado A12.

Rayado Manchado Manchado Manchado

Abollado Astillado Doblado Manchado

Astillado Rayado Manchado Rayado

Astillado Astillado Manchado Manchado

Otros Astillado Astillado Abollado

Manchado Manchado Rayado Astillado

Rayado Rayado Manchado Manchado

Astillado Rayado Abollado Manchado

Doblado Manchado Manchado Astillado

Rayado Manchado Manchado Doblado

Rayado Manchado Doblado Abollado

Manchado Manchado Astillado Manchado

Manchado Manchado Astillado Rayado

Otros Otros Rayado Doblado

Abollado Rayado Manchado Astillado

Manchado Manchado Astillado Manchado

Rayado Manchado Rayado Rayado

Manchado Rayado Manchado Rayado

Otros Astillado Manchado Astillado

Rayado Rayado Abollado Manchado

Doblado Astillado Manchado Rayado

Doblado Manchado Abollado Rayado

Rayado Manchado Rayado Rayado

Manchado Doblado Manchado Rayado

Manchado Manchado Manchado Manchado

Rayado Astillado Astillado Rayado

Abollado Manchado Rayado Manchado

Manchado Manchado Rayado Rayado

Rayado Manchado Manchado Rayado

Rayado Astillado Astillado Astillado

Defectos en línea de armado A12 (150 productos examinados)

Defecto del producto Frecuencia Porcentaje

Abollado 8 5,3

Astillado 23 15,3

Doblado 12 8,0

Manchado 56 37,3

Otros 6 4,0

Rayado 45 30,0

Total 150 100,0

El defecto más frecuente en la línea de armado es Manchado

Moda = manchado

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 16

Ejemplo 2: : Datos sobre el números de averías en Febrero.2012 de 40 centrales eléctricas.

0 1 0 0 2 0 0 1 1 0

2 1 3 1 1 3 1 1 1 0

0 1 1 3 1 0 2 3 4 2

2 0 0 0 1 2 0 3 2 2

Identifique Unidad de estudio: ______________ Variable de Interés: ___________________ y clasifíquela según: Naturaleza:____________ T Recorrido:___________ N Medición:_________

Números de averías en Febrero.2012 de 40 centrales Eléctricas.

0 1 0 0 2

2 1 3 1 1

0 1 1 3 1

2 0 0 0 1

0 0 1 1 0

3 1 1 1 0

0 2 3 4 2

2 0 3 2 2

Tabla de frecuencias

N° de averías Frecuencia Porcentaje

Porcentaje acumulado

0 13 32,5 32,5

1 13 32,5 65,0

2 8 20,0 85,0

3 5 12,5 97,5

4 1 2,5 100,0

Total 40 100,0

Centrales eléctricas (40). Febrero 2012

Gráfico

Centrales eléctricas (40). Febrero 2012

N° de averías

43210

Recu

en

to

14

12

10

8

6

4

2

0

1

5

8

1313

Centrales eléctricas (40). Febrero 2012

Estadísticos (Medidas de resumen)

N° de averías

40

0

1,20

1,00

0a

1,114

,637

,374

-,445

,733

0

4

,00

1,00

2,00

Válidos

Perdidos

n

Media

Mediana

Moda

Desv. típ.

As imetría

Error típ. de as imetría

Curtos is

Error típ. de curtosis

Mínimo

Máximo

25

50

75

Percentiles

Existen varias modas. Se mostrará el menor de los

valores .

a.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 17

Gráficos Nota de Estadística

Semestre 2 - 2011

Nota

7,06,05,04,03,02,01,0

Fre

cu

en

cia

100

80

60

40

20

0

61

86

96

74

53

30

Histograma

Ejemplo 3

Nota de Estadística 400 alumnos

Semestre 2 - 2011

Tabla de frecuencias

Semestre 2 - 2012

Nota de Estadística

30 7,5 7,5

53 13,3 20,8

74 18,5 39,3

96 24,0 63,3

86 21,5 84,8

61 15,3 100,0

400 100,0

1 - 2

2 - 3

3 - 4

4 - 5

5 - 6

6 - 7

Total

Válidos

Frecuencia Porcentaje

Porcentaje

acumulado

Medidas de resumen

Nota de Estadística

Semestre 2 - 2011

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 18

Identifique (ejemplo 3) Unidad de estudio: ______________

Variable de Interés: ___________________ y clasifíquela según: Naturaleza:____________ T Recorrido:___________ N Medición:_________

Ejemplo 4: Grafico de tendencia

Consumo humano de leche de cabra en España. (millones de litro)

Año 1990 1991 1992 1993 1994 1995 1996 1997 1998

Consumo 62,5 29,9 31,3 25,2 20,8 16,1 15,8 15,9 16,6

Año 1999 2000 2001 2002 2003 2004 2005 2006

Consumo 16,2 17,1 15,5 17,6 11,9 11,8 12,3 13,1

- El consumo anual de leche de cabra en el año 1991 disminuyó en 52,16% con respecto al consumo del año 1990 (variación porcentual)

- Determine la variación porcentual entre los años 2001 y 2002.

Variación porcentual = Final

- 1 100Inicial

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 19

1Estadística Descriptiva Univariada

Organización de los datos

La estadística descriptiva, entrega las técnicas que permiten condensar grandes

grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas

de resumen como media, desviación estándar, correlación.

Nota: Para resumir los datos siempre hay que tener en cuenta de que tipo es la variable que queremos analizar

Datos “en bruto” o directos

Cuando la información es recolectada, sea de una muestra o de una población,

esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos

registrados se encuentra desorganizada, lo que no permite extraer información

fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de

los datos.

Datos en bruto: Datos registrados en la secuencia en que fueron

recolectados, antes de ser procesados u ordenados.

Ejemplo pág. 15: (ArmadoA12.xls): El reporte de la inspección final de defectos de 150 productos para la línea de armado A12 se muestra en la tabla siguiente:

Ejemplo 2 pág. 17: : Datos sobre el números de averías en Febrero.2012 de 40 centrales Eléctricas.

0 1 0 0 2 0 0 1 1 0

2 1 3 1 1 3 1 1 1 0

0 1 1 3 1 0 2 3 4 2

2 0 0 0 1 2 0 3 2 2

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 20

Ejemplo 3: En abril. 2012 se recolectó información sobre la edad (en años) de 50 estudiantes diurnos seleccionados de una universidad. El valor de los datos, en el orden en que fueron recolectados se presenta a continuación.

21 24 29 26 36

18 19 19 25 25

25 31 23 23 23

22 21 22 21 19

25 18 27 21 21

19 25 34 27 33

20 22 19 22 23

19 19 18 19 26

28 20 22 20 21

23 36 23 25 24

Tabla o distribución de La presentación gráfica frecuencias puede revelar de un Es una tabla que constituye vistazo las el resumen básico de principales los datos características de un conjunto de datos

Descripción estadística de una variable cualitativa

Gráficos

- Sectorial - Barras Separadas

- Diagrama

de Pareto

- Pictograma

Medida de resumen

Moda: es el dato o

modalidad de mayor

frecuencia ≡ dato

más representativo

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 21

Ejemplo 1: (p 15) El reporte de la inspección final de defectos para la línea de armado A12

se muestra en la tabla siguiente: Defectos_Linea A12

Defectos del producto

Frecuencia absoluta ni

Frecuencia Relativa

fi = in

n

Porcentaje %

Abollado 8 0,05 5,33

Astillado 23 0,15 15,33

Doblado 12

Manchado 56 37,33

Rayado 45

Otros

Total 150 1,00 100%

Complete la tabla de frecuencias

Frecuencia absoluta (ni): Número de veces que ocurre la modalidad i. i = 1,2, …,k

Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del total de datos. 0 < fi < 1 ; i = 1,2, …,k

Gráfico sectorial:

Círculo dividido en porciones que

representan las frecuencias relativas o

porcentajes de una población o muestra

perteneciente a diferentes categorías.

Como sabemos, un círculo contiene 360 grados. Para

construir un gráfico sectorial, se multiplica por 360 la

frecuencia relativa de cada categoría, para obtener la

medida del ángulo correspondiente

Defectos en línea de armado A12 (150 productos examinados)

Defectos del producto

¿Cuál es Defecto más frecuente? ¿Cuánto mide el ángulo de sector Defecto Manchado?

Abollado 5,33%

Astillado 15,33%

Doblado 8,00%

Manchado 37,33%

Rayado 30,00%

Otros 4,00%

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 22

Gráfico de Barras Separadas

Defectos en línea de armado A12 (150 productos examinados)

Diagrama de Pareto

Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan.

Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre él.

Centrales eléctricas (40). Febrero 2011

Fre

cuen

cia

60

50

40

30

20

10

0

6

45

56

12

23

8

Defecto del producto

OtroRayadoManchadoDobladoAstilladoAbollado

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 23

Defecto frecuencia % frec. Acum. % acumulado

Manchado 56 37,33 56 37,33

Rayado 45 30,00 101 67,33

Astillado 23 15,33 124 82,67

Doblado 12 8,00 136 90,67

Abollado 8 5,33 144 96,00

Otros 6 4,00 150 100

TOTAL 150 100,0%

Se calculan solamente para el diagrama Pareto (en este tipo de variable)

Descripción estadística de una variable cuantitativa

TABLAS Y GRÁFICOS

Si las observaciones en un conjunto de datos cuantitativos son discretos

(contables) o si los valores de la variable asumen sólo unos pocos valores

distintos, puede ser apropiado armar tablas de frecuencia con valores únicos.

La distribución de frecuencias (tabla)

- La distribución de frecuencias para variables cuantitativas discretas es

similar a la de variables cualitativas. Los valores que toma la variable se

ordenan de de menor a mayor lo que permite registrar en la tabla las

frecuencias acumuladas. La representación gráfica que se utiliza para este

tipo de variables es “barras separadas”

Distribución de frecuencias de la variable X

Nombre de la variable

X

Frec. Absoluta

ni

Frec. Relativa

ii

nf =

n

Frec. Abs. Acumulada

Ni

Frec. Relat. Acumulada

ii

NF=

n

x1 n1 f1 N1 = n1 F1

x2 n2 f2 N2 = n1 + n2 F2

x3 n3 f3 N3 = n1 + n2 + n3 F3

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

xk nk fk Nk = n Fk = 1

Total n 1

xi= valor que toma la variable. i= 1,2, …,k

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 24

Variable X =

Unidad de observación =

¿Cuántas centrales tienen menos de 2 averías?

¿Qué porcentajes de centrales tienen 3 o menos averías?

Qué porcentaje de centrales tienen más de 3 averías?

Interprete:

n2 ≡

f3 ≡

N4 ≡

F4 ≡

N° de averías

43210

1

5

8

1313

de centrales12

10

8

5

2

0

Ejemplo 2: (p 18) Datos sobre el número de averías de 40 centrales eléctricas en Feb.2012 se resumen en la tabla siguiente:

N° de averías Frec.

Absoluta ni

Frec. Relativa

fi

Frec. Abs. Acumulada Ni

Frec. Relat. Acumulada

Fi

0 13 13 0,325

1 13 26

2

3 5

4 1 40

Total 40 1,000

GRÁFICO DE BARRAS SEPARADA

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 25

Cuando la variable es continua o el número de valores posibles de una variable discreta sea grande, para construir la tabla de frecuencias, conviene agrupar los datos intervalos reales. Éstos agrupan todos aquellos casos contenidos entre dos valores, conocidos como el límite superior e inferior.

Ejemplo: (p 21) En abril. 2012 se recolectó información sobre la edad (en años) de 50

estudiantes seleccionados de una casa de estudio superior. El valor de los datos, en el orden en que fueron recolectados se presenta a continuación. (Este es un ejemplo de datos cuantitativos en bruto)

21 24 29 26 36

18 19 19 25 25

25 31 23 23 23

22 21 22 21 19

25 18 27 21 21

19 25 34 27 33

20 22 19 22 23

19 19 18 19 26

28 20 22 20 21

23 36 23 25 24

Construyendo tablas de frecuencias

Al construir tablas de frecuencias es necesario tomar las siguientes 3 decisiones:

i) Número de clases (intervalos) Usualmente el número de intervalos de una distribución de frecuencias varía entre 5 y 20, dependiendo principalmente del número de casos con los cuales se cuente. La decisión del número de clases es decidida arbitrariamente por quien organiza la información. Reglas que puede ayudar a decidir el número de clases o intervalos:

- Número de intervalos = n ; n = número de datos, o - Número de intervalos = [1 + 3,3· log n] (fórmula de Sturge) ii) Amplitud de intervalo: Aunque no es común tener clases o intervalos

de diferentes tamaños o amplitud, la mayoría del tiempo es preferible tener la misma amplitud de intervalo en todos ellos.

Para determinar esta amplitud cuando las clases o intervalos tienen el mismo tamaño, primero se debe encontrar la diferencia entre el mayor y el menor de los

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 26

datos en los datos. Luego, la amplitud aproximada es obtenida dividiendo esta diferencia por el número deseado de clases o intervalos.

valor máximo - valor mínimoAmplitud del intervalo =

número de intervalos

iii) Límite inferior de la primera clase o punto de partida

Cualquier número que sea igual o menor que el más bajo de los valores del conjunto de datos será conveniente para ser usado como el límite inferior del primer intervalo.

En el ejemplo (Edad): n = 50 máx = 36 mín = 18

Si utilizamos número de intervalos = [1 + 3,3· log (50)] = 6

Amplitud = 36 18

= 36

Se lee

Edad

n° de alumnos

14 alumnos con edades entre 18 y menos de 21 años 18 – 21 14 17 alumnos con edades entre 21 y menos de 24 años 21 – 24 17

24 – 27 10 27 – 30 4 30 – 33 1

4 alumnos con edades entre 33 y 36 años 33 – 36 4

Total = 50

Frecuencias relativas y porcentaje

Es posible calcular la frecuencia relativa y el porcentaje de las distribuciones cuantitativas del la misma forma que en las distribuciones cualitativas o discretas.

Edad Marca de clase

xi

Frec. Absoluta

ni

Frec. Relativa

fi

Porcentaje

18 – 21 19,5 14 0,28 28

21 – 24 22,5 17 0,34 34

24 – 27 25,5 10 0,20 20

27 – 30

30 – 33

33 – 36

Total = 50 1,00 100% También se pueden registrar las frecuencias acumuladas

limite inferior + limite superiormarca de clase =

2

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 27

Representación gráfica de distribuciones de frecuencias con datos en intervalos

Las representaciones gráficas más frecuentes de una tabla de frecuencias donde los datos han sido agrupados en intervalos son el histograma o el polígono de frecuencias.

Edad en años

Muestra de 50 estudiantes de una universidad (abril 2012)

Donde cada rectángulo corresponde con una clase y la altura es proporcional a la frecuencia de dicha clase o intervalo.

Formas de histogramas

Un histograma puede asumir diferentes formas. Las más comunes son: simétricos, asimétricos y uniforme o rectangular.

Simétrico Asimetría Positiva Asimetría Negativa

Interprete los tres histogramas

Edad

393633302724211815

estudiantes

20

15

10

5

0

4

1

4

10

17

14

Histograma

x

32.527.522.517.512.57.52.5

Simétrica10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 28

Observación: Describir datos utilizando gráficos puede ayudar a iluminarnos acerca de las características principales de la información. Desafortunadamente, también pueden ser utilizados, casual o intencionadamente, para distorsionar información y desorientar a quien la recibe. Las siguientes son dos formas de hacerlo: 1. Cambiar la escala en uno o en ambos ejes (esto es alargando o acortando los ejes) 2. Truncando las frecuencias, es decir, comenzando el eje en un número mayor que

cero.

Polígono de frecuencias

Gráfico alternativo al histograma Los polígonos de frecuencias se realizan trazando los puntos formados por las marcas

de clase y las frecuencias, y uniéndolos mediante segmentos.

Polígono de frecuencias (Edad en años)

Muestra de 50 estudiantes de una universidad (abril 2012)

Ejercicios II

En cada uno de los siguientes ejercicios debe indicar cuál es: unidad de observación, la variable de interés y clasificarla según naturaleza, T_recorrido y N_medición.

Ejercicio II-1

El Ingeniero a cargo del control de calidad del agua de una ciudad, es responsable del nivel de cloración del agua. Dicho nivel debe acercarse bastante al que exige el Departamento de Sanidad. Para vigilar el cloro, sin necesidad de verificar cada galón de agua que sale de la planta, el Ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y saca una conclusión sobre el nivel promedio de cloración que tiene el agua tratada ese día. La tabla anexa exhibe las concentraciones de cloro correspondiente a 30 galones seleccionados como muestra de un día. A partir de esta muestra diaria el Ingeniero obtiene sus conclusiones respecto a la población total a la que se le aplicó la cloración.

Edad

39,037,536,034,533,031,530,028,527,025,524,022,521,019,518,016,515,0

N° alumnos

20

15

10

5

00

4

1

4

10

17

14

0

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 29

Diagrama de “tallo-hojas”

Tabla de Concentraciones de Cloro

en partes por millón (ppm) 16.2 15.7 16.4 15.4 16.4 15.8 16.0 15.2 15.7 16.6 15.8 16.2 15.9 15.9 15.6 15.8 16.1 15.9 16.0 15.6 16.3 16.8 15.9 16.3 16.9 15.6 16.0 16.8 16.0 16.3

(Utilice una amplitud de 0.3 ppm).

Construya una tabla de distribución de frecuencias y un gráfico adecuado.

Ejercicio II-2

En un centro de computación, el número de veces que el computador se detiene, por error de máquina, diariamente, fue recolectado por un período de 70 días. Los datos obtenidos fueron los siguientes.

Nº de detenciones del computador por día. 0 1 0 2 0

0 8 3 2 1

2 5 1 0 6

0 0 1 0 4

0 0 0 0 3

0 4 1 1 3

3 3 0 2 1

3 0 1 1 2

0 6 1 2 4

0 2 0 0 0

1 0 2 0 2

0 2 2 5 0

0 3 1 2 0

0 0 0 1 4

- Tabule y grafique los datos adecuadamente. - ¿Cuál es la proporción de días en que ocurren más de 3 detenciones? -

Ejercicio II-3

Un fabricante de envases de plástico desea analizar cuáles son las causas que generan los envases defectuosos que se producen. Se observan 248 envases defectuosos obteniendo:

Stem-and-Leaf Plot

Frequency Stem & Leaf

,00 15 .

1,00 15 . 2

1,00 15 . 4

5,00 15 . 66677

7,00 15 . 8889999

5,00 16 . 00001

5,00 16 . 22333

2,00 16 . 44

1,00 16 . 6

3,00 16 . 889

Stem width: 1,0

Each leaf: 1 case(s)

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 30

Coloque los ni en las barras. Interprete el gráfico

Ejercicio II-4

En un proceso de fabricación de circuitos integrados las causas más comunes de fallas son: la contaminación (1), óxido(2), metalización (3), la corrosión(4), doping (5) ,los defectos del silicio (6) y varios (7). En un proceso de control de calidad de estos circuitos las causas de falla de 31 de ellos han resultado las siguientes:

corrosión óxido contaminación óxido

óxido varios óxido contaminación

metalización óxido contaminación contaminación

óxido contaminación contaminación contaminación

corrosión silicio varios contaminación

contaminación contaminación varios contaminación,

contaminación doping óxido óxido

metalización contaminación contaminación

Se pide: Construir una distribución de frecuencias y confeccione dos gráficos adecuados.

Defectos

ColorFuera de medida

RoscaRoturaDesbalanceoAplastamiento

Frec

uenc

ia

100

80

60

40

20

0

Porcentaje

100%

80%

60%

40%

20%

0%

100,00%99,60%97,18%

92,34%

76,61%

60,48%

Diagrama de Pareto

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 31

Ejercicio II-5

Al responsable en control de industrial de una empresa, debe analizar información entregada en un histograma de la duración (tiempo hasta fallo en horas) de un test de fiabilidad 150 dispositivos electrónicos idénticos.

a. Construya la tabla de frecuencias (absolutas, relativas, absolutas acumulada y relativas

acumulada)

b. Aproximadamente, ¿cuál es la duración más frecuente? c. ¿Qué porcentaje de dispositivos duraron entre 600 y menos de 1400 horas? d. ¿Qué porcentaje de dispositivos duraron menos de 900 horas? (aprox.) e. ¿Qué porcentaje de dispositivos duraron entre 400 y 1500 horas? (aprox.) f. Determine entre que intervalo se encuentra el 50% de los dispositivos con mayor

duración.

| 50% | 50% | Duración (hrs) 0 1600

Mín Máx

g. Complete la tabla siguiente y realice un gráfico adecuado:

Duración Frecuencia Porcentaje

Poca ( < 400 h)

Media (400 y menos de 1000 h)

Bastante ( > 1000 h)

Total 150 100

Duracion

2000180016001400120010008006004002000

de dispositivos

60

50

40

30

20

10

0

33

6

18

2121

27

51

Histograma

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 32

Ejercicio II-6 Se seleccionaron de un proceso de fabricación, aleatoriamente 270 ladrillos y se llevó a cabo una prueba para determinar la resistencia transversal de éstos. Se obtuvieron los siguientes datos:

Resistencia (MN/m2) X

ni

1.5 – 3.5 3.5 – 4.5 4.5 – 5.5 5.5 – 6.5 6.5 – 7.5 7.5 – 8.5 8.5 – 9.5 9.5 – 10.5 10.5 – 11.5 11.5 – 14.5

2 4 24 81 78 51 18 9 2 1

Construya un gráfico adecuado

El histograma es especialmente adecuado para representar tablas de frecuencias en el caso de variables de de nivel por lo menos intervalar (o discretas con un gran número de valores observados distintos). Este gráfico consiste en una serie de barras adyacentes cuyas superficies son proporcionales a la frecuencia del intervalo sobre el cual se levantan. Si los intervalos son de igual amplitud, los rectángulos serán de altura proporcional a la frecuencia correspondiente. Es decir, si la amplitud del i-ésimo intervalo es ai y su frecuencia ni la barra deberá tener una altura hi que satisfaga:

i i i

ii

i

a ·h = k·n

n h = k

a

donde k es cualquier constante, aunque la misma para cada intervalo. ni ≡ frecuencia absoluta del intervalo i; hi ≡ frecuencia absoluta corregida

Se corrige la frecuencia solamente para graficar el histograma, cuando existen intervalos de distinta amplitud (no es usual intervalos de distinta amplitud)

Determine el porcentaje de ladrillos con resistencia inferior a 8,5 MN/m2

Determine el porcentaje de ladrillos con resistencia superior a 5 MN/m2

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 33

Ejercicio II-7 En un estudio sobre el nivel de ruido en un concierto de rock se toma una muestra de 60 valores, medidos en decibelios y en distintos momentos del concierto. Los datos obtenidos se encuentran el el diagrama tallo-hojas siguiente

NIVEL DE RUIDO

Frequency Stem & Leaf

1,00 8 . 3

3,00 8 . 789

22,00 9 . 0000111123333334444444

21,00 9 . 555566677777777889999

11,00 10 . 00001122234

2,00 10 . 57

Encuentre:

Valor mínimo

Valor máximo

El % de mediciones inferior a 91 db.

El % de mediciones superior a 100 db.

Ejercicio II-8

Con el propósito de mejorar el tiempo de entrega desde una embotelladora de refrescos a máquinas vendedoras de una universidad, se ha obtenido 40 datos.

X:Tiempo de entrega en minutos

9,45 24,45 31,75 35,00 25,02 16,86 14,38 9,60 24,35 37,50

17,08 37,00 41,95 11,66 21,65 17,89 69,45 10,30 34,93 46,59

44,88 54,12 56,63 22,13 21,15 10,02 14,88 16,97 17,73 21,84

24,45 33,66 37,10 39,73 44,29 55,12 56,63 29,41 24,45 9,45

Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un gráfico adecuado

Tiempo de entrega (min)

xi

Frecuencia Absoluta

ni

Porcentaje

9,45 - 19,45 14,45 13 32,5

59,45 - 69,45 64,45 1 2,5

Total 40 100,0

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 34

Ejercicio II-9

En el departamento de montaje de una industria se producen diariamente cierta

cantidad de productos defectuosos. Para estudiar ese fenómeno se decidió realizar

un análisis de Pareto.

Durante cuatro meses de observación se recogieron datos sobre el tipo de defectos de los productos y se contabilizaron un total de 350 defectos.

a. ¿Qué representa el 84% (polígono)?

b. Complete la tabla de frecuencias siguiente:

Tipo de defectos N° de defectos porcentaje

Piezas erróneas Revestimiento arañado Montaje defectuoso Pieza faltante Rugosidad superficial Otras causas

Total

de d

efectos

100

80

60

40

20

0

Po

rcentaje

100%

80%

60%

40%

20%

0%

100%98%

92%

84%

74%

42%

Tipos de defectos

Otras causasRugosidad superficial

Pieza faltanteMontaje defectuoso

Revestimiento arañado

Piezas erróneas

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 35

Estadística Descriptiva (2 variables) Tablas y Gráficos

Los datos que tratamos de analizar pueden incluir valores de dos variables relacionadas entre sí, por lo que es interesante su estudio conjunto. Los elementos de una muestra o de una población pueden clasificarse con dos criterios o variables diferentes. Observación: Se pueden analizar en forma conjunta más de dos variables.

Caso 1: Descripción conjunta de dos variables cualitativas - Tabla de doble entrada o tabla de contingencia

Existen dos tipos de tablas de contingencia: i) Cuando el objetivo es analizar la posible relación entre dos

variables cualitativas ii) Comparar dos o más grupos en una variable cualitativa

- Gráficos adecuados: Barras agrupadas, Sectorial, Barras divididas. - Medidas de resumen: Asociación (se estudiarán en la unidad de Inferencia) -

Ejemplo i) La información que se presenta a continuación en la tabla y gráfico, corresponde a una parte de un estudio realizado con una muestra de 400 trabajadores de una industria metalúrgica con el objeto de investigar si el “desempeño en el programa de capacitación” y el “rendimiento en el trabajo” están relacionados.

Tabla 1

Calificación en el trabajo

Desempeño en el programa de capacitación

Total Bajo Medio Alto

Deficiente 23 60 29 112

Promedio 28 79 60 167

Muy buena 9 49 63 121

Total 60 188 152 400

- De los trabajadores que obtuvieron bajo desempeño en el programa de capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?

- De los trabajadores que obtuvieron un desempeño alto en el programa de capacitación, ¿qué porcentaje tiene calificación muy buena en el trabajo?

- De los trabajadores que obtuvieron un desempeño alto en el programa de capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 36

Ejemplo ii) Se desarrollan dos métodos para fabricar discos de un material superconductor. Se elaboran 50 discos con cada método y se comprueba su superconductividad al enfriarlos con nitrógeno líquido.

Superconductores (Sin fallas)

Fallas Total

Método 1 31 19 50

Método 2 42 8 50

Total 73 27 100

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 37

Caso 2: Una variable cuantitativa y una variable cualitativa (grupo) Tabla de de distribución de frecuencias (si n es grande) Gráficos adecuados:

- Diagrama de puntos paralelos (muestras pequeñas) - Polígonos de frecuencias en un mismo gráfico (hay que tener los datos

tabulados en intervalos, para comparar los grupos es conveniente utilizar porcentaje)

- Diagramas de cajas paralelas (datos directos, es un gráfico basado en los cuartíles)

Medidas de resumen: Tendencia central, Percentiles, Dispersión

Ejemplo: Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones de magnesio:

Y = grado de dureza Brinell

Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2

Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

Ejemplo: Comparación de resistencia de un tipo de alambre de dos fabricantes

Caso 3: Dos variables cuantitativas, gráfico adecuado “diagrama de dispersión”

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 38

Medidas de Resumen

Entre las medidas que permiten resumir información proveniente de una

población o muestra, podemos considerar: medidas de posición, de dispersión o

variabilidad, de forma y de asociación

Medidas de posición: Tendencia Central - Percentiles

Tendencia Central: Moda - Promedio - Mediana

Son índices de localización central, empleados en la descripción de las

distribuciones de frecuencias. Las más usadas son la moda, la mediana y el

promedio.

Moda (Mo) : Es el valor de la variable que ocurre más frecuentemente

Ejemplo (variable cualitativa): En una empresa se ha medido la satisfacción

laboral de una muestra de empleados.

Satisfacción Laboral Nº de empleados

Muy satisfechos 20

Satisfechos 25

Moderadamente satisfechos 22

Insatisfechos 18

Muy insatisfechos 10

En este caso la moda corresponde a la categoría “satisfechos”. Mo = satisfechos

Si la variable se encuentra es cuantitativa, la moda será la magnitud más frecuente.

Ejemplo (variable cuantitativa) : En la medición de responsabilidad en un grupo de

postulante a un cargo de ejecutivo, se han encontrado los siguientes puntajes : 81, 83,

83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108,

109, 110, 115, 118, 120.

En este caso, la moda corresponde al puntaje 95.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 39

Y si los datos están agrupados en intervalos de clase, la moda será el punto medio del

intervalo más frecuente. La moda para datos agrupados en intervalos en tablas de

frecuencia, no es un valor exacto porque varía con las diferentes maneras de agrupar

una distribución.

Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como

indica la tabla a continuación.

Sueldo Marca de clase xi

Nº de trabajadores ni

300.000 – 350.000 325.000 13

350.000 – 400.000 375.000 18

400.000 – 450.000 425.000 24

450.000 – 500.000 475.000 20

500.000 – 550.000 525.000 15

En este caso la moda es 425.000 pesos, por ser el punto medio del intervalo más

frecuente.

A menudo encontramos distribuciones bimodales (con dos modas).

Limitación de la moda: no sabemos qué ocurre con el resto de la distribución de

datos.

Promedio Aritmético (o media Aritmética)

La media aritmética o promedio aritmético:

En general se utiliza letras mayúsculas para denotar a las variables, y

letras minúsculas para los valores que toma las variables (datos).

Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores

que posee dicha variable. El promedio aritmético se obtiene sumando los

valores de X y dividiendo luego por el número de datos.

n

i

1 2 3 n i =1

xx +x +x ...+x total

x = = n n n

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 40

Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para

llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio

público.

25 30 50 60 35 65 48 90 75 50 22 45 25 35 50

X = Tiempo necesario en min. para llegar al trabajo

n = 15 Sumatoria =

n

1i

ix = 705 705

x = 15

= 47 min

Observación: La media de la población se define de la misma forma que

la media muestral pero se utiliza el símbolo para denotarla:

N

i

1 2 3 Ni 1

xx +x +x ...+x

N N

total

N

Si los datos se encuentran en una distribución de frecuencias, es

necesario modificar la fórmula: n

nx

x

k

1i

ii donde xi representa el

valor de la variable si es discreta o la marca de clase si los datos

están tabulados en k intervalos.

Ejemplo: En un estudio de consumo de frutas, se entrevistó a 250 personas, una de las preguntas realizadas fue ¿aproximadamente, cuantas frutas consumes diariamente? La información obtenida a esa pregunta se muestra a continuación:

n = 250

i i

i

xn

x =

= 2,184 frutas

Cantidad de frutas

Xi

nº de personas ni

i ix n

0 1 2 3 4 5

22 50 90 49 26 13

0 50

180 147 104 65

Total n = 250

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 41

Ejemplo: Datos agrupados en intervalos (datos secundarios)

Sueldo mensual (X) de un grupo de trabajadores textiles.

Sueldo (miles de $)

Marca de clase xi

Nº de trabajadores

ni

xini

300 – 350 325 13 4225

350 – 400 375 18

400 – 450 425 24

450 – 500 475 20

500 – 550 525 15 7875

Total 90 38550

X = Sueldo mensual

n Total = i i

i

x n x

90 38550 38550 = 428,33

90 ≡ $428.333

Propiedades de la media aritmética o promedio aritmético:

i. mínimo < x < máximo

ii. El promedio de una constante es la constante. (demostración tarea)

iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en esa misma magnitud. (demostración tarea)

iv. Si los valores de una variable son multiplicados por una constante, el promedio se amplificarán en la misma magnitud constante.

a, b ctesY = a + bX Y = a + bX ; . (Demostración tarea)

Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:

Complete

(Caso 1) $50.000,0 (Caos 2) 15% (caso 3) 7% + un bono fijo de $30.000

Sueldo actual

Y(1) = X + 50

(1) = Y

Y(2) = 1,15X

(3) = Y

Y(3) = 1,07X + 30

(3) = Y

(m $)x = 428,333

Y = Sueldo aumentado

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 42

Mediana (Me)

Mediana: es un valor tal que, ordenados en magnitud los n datos de una

variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

Para el cálculo de la mediana la variable debe ser por lo menos ordinal

En datos no agrupados (directos), con n impar, el valor central es la mediana.

Ejemplo: 3, 5, 7, 8, 9, 12, 13, 15, 20. n = 9 datos. La mediana es el valor 9.

Se puede observar que la mediana es el valor que ocupa el lugar 1+ n

2

En datos no agrupados con n par, el valor de la mediana será el punto medio

entre los dos valores centrales.

Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. n = 8 datos; la mediana es el valor 12.

Es preciso ordenar los datos de menor a mayor para hacer el cálculo.

Ejemplo: Datos tabulados. Variable discreta

"X: Número de avería diarias en un taller

X

Frec. abs.

ni

Frec. abs. acum.

Ni

0 1 2 3 4 5 6

40 26 14 6 3 0 1

40 66

Total n = 90

El valor de la mediana en datos tabulados (agrupados) en intervalos

se analizará junto con el tema PERCENTILES. El cálculo de la Me es

aproximado y se determina a través de una fórmula que se obtiene de

la tabla de distribución de frecuencias acumuladas.

Me es el valor que ocupa el

lugar 1+ n

= 45,52

Mediana = 1 avería.

Interpretación:

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 43

Comparación entre x , Me y Mo

Desde un punto de vista descriptivo las tres medidas proporcionan

información complementaria, sus propiedades son distintas:

Estadísticos de tendencia central Observaciones

Media aritmética

x

n

i

i =1

xtotal

x = = n n

- El nivel de medición de la variable X sea por lo menos en escala de intervalos.

- La media es muy sensible cuando existen datos atípicos o extremos.

- Es preferible utilizar el promedio aritmético como medida de resumen si los datos son homogéneos.

Mediana Me

Es un valor tal que, ordenados en magnitud los n datos de una variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

- La mediana utiliza menos información que la media, ya que solo tiene en cuenta el orden de los datos y no su magnitud, por lo tanto, para poder calcular la mediana el nivel de medición de la variable X debe ser por lo menos en escala ordinal.

- La mediana se ve menos alterada por los datos atípicos o extremos.

Moda Mo

Es el valor de la variable que ocurre más frecuentemente

- Para el cálculo de la moda la variable puede tener cualquier nivel de medición, luego es la única medida de tendencia central que se puede calcular si el nivel de medición de la variable X es en escala nominal.

X Mediana asimetría, lo que sugiere heterogeneidad en los datos.

en este caso la Mediana es la medida de tendencia central adecuada para resumir los datos.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 44

Simétrica

X = Me = Mo

Asimetría positiva

Mo < Me < X

Asimetría Negativa

X < Me < Mo

Ejercicios III

Ejercicio III-1

Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda que la vida útil de su producto es superior a 5 años. Una muestra aleatoria de 90 unidades vendidas hace 10 años, reveló la siguiente distribución de las duraciones:

Duración Frecuencia

0 - 2 10

2 – 4 20

4 – 6 25

6 – 8 22

8 – 10 13

a. Determine la duración promedio b. ¿Qué porcentaje de unidades duraron más de 5 años? Aprox.

Ejercicio III-2 En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el silicio de la parte trasera de las obleas antes de la metalización. En este proceso es importante la rapidez con la que actúa la sustancia. Se han comparado dos soluciones químicas, utilizando para ello dos muestras de obleas para cada solución. La rapidez de acción observada es la siguiente

Solución 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1

Solución 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3

a. Indique cuales son las variables involucradas en el problema y clasifíquelas.

b. Complete el cuadro siguiente (realice comentarios):

Solución n Promedio Mediana 1 2

aaaaaaa

x

32.5 27.5 22.5 17.5 12.5 7.5 2.5

Simétrica

10

8

6

4

2

0

X 32.5 27.5 22.5 17.5 12.5 7.5 2.5

10

8

6

4

2

0

X

32.527.522.517.512.57.52.5

10

8

6

4

2

0

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 45

Ejercicio III-3

Media Ponderada o Promedio Ponderado

Sean x1 ,x2,....,xn , n datos y sea los número w1 ,w2,....,wn, los pesos correspondiente a cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los

datos, está dado por:

Si cada observación tiene la misma ponderación, entonces el promedio y el promedio ponderado son iguales.

Ejemplo: Las notas parciales de Estadística I de un alumno son:

P1 (25%) P2 (35%) P3 (40%)

4,2 5,7 2,1

Promedio =

Ejercicio III-4

Promedio estratificado

X = Sueldo mensual (miles de $)

Planta Santiago (1) Concepción (2) Antofagasta (3)

Promedio 1

x = 568,320 2

x = 665,210 3

x = 480,715

N° de trabajadores n1 = 215 n2 = 180 n3 = 96

n = n1 + n2+ n3

(suponga que se observó una muestra representativa de cada planta)

k

i i

i=1estr

n x

X = = n

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 46

Cuartiles – Quintiles – Deciles - PERCENTILES

Son medidas estadísticas que dividen una serie ordenada de observaciones en 4, 5, 10, 100 partes iguales. Si dividimos en 4 partes iguales, tenemos los cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un 25%. | 25% | 25% | 25% | 25% | Mín Q1 Q2 Q3 Máx

Si dividimos en 5 partes iguales, tenemos los quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%. | 20% | 20% | 20% | 20% | 20% | Mín q1 q2 q3 q4 Máx

Si dividimos en 10 partes iguales tenemos los deciles (Dk) Los Percentiles Pp son los valores que dividen un conjunto de datos ordenados de menor a mayor en 100 partes con igual (aproximadamente) número de datos.

p% (100 - p)% | | |

x(1) Pp x(n) Mín Máx

Si dividimos en 10 partes iguales tenemos los deciles (D) y en 100 partes

iguales, los percentiles (Pp).

p% (100 - p)%

| | |

x(1) Pp x(n)

Mín. Máx.

Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se

encuentra el (100 – p)% de los datos.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 47

Recordemos se dividimos la serie de datos ordenada en dos partes iguales, tenemos

la mediana (Me)

Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75

q1 = D2 = P20

q2 =

q3 =

q4 =

Cálculo de Percentiles (datos directos)

Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14 alumnos en un examen de Física II. (0 – 100 puntos)

84 52 85 61 74 77 65 63 57 64 72 55 68 76

Diagrama de puntos

Puntaje

Cálculo percentiles Pp

En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”, puede que ningún valor cumpla exactamente la definición. Existen diversas formas de interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery y George C. Runger (1996)

1ro) Se ordenan los n datos de menor a mayor

2do) Pp es el valor que ocupa el lugar j = np

100 . El método AEMPIRAL asigna la media

de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la

posición siguiente a la parte entera de j cuando j = np

100 es un número decimal

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 48

Del ejemplo: P50 n = 14 p = 50 → percentil 50 está se encuentra en el

lugar j= 14 50

= 7100

→ P50 =

65 68

2

= 66,5 = Me ≡ “el 50% de los estudiante

obtuvieron puntaje entre 52 y 66,5 puntos” - ¿Entre qué valores e encuentra el 25% de los mejores puntajes?

- Determine el percentil 75 e interprete. (Resp: P75 = 76 AEMPIRAL)

Cálculo de percentiles datos tabulados en intervalos:

Los valores que toman los percentiles cuando tenemos la información agrupada

(intervalos reales) en una tabla de frecuencias de una variable cuantitativa son

aproximados.

Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se

llega a la fórmula del percentil Pp.

j-1

p inf j

j

np

100 - NP = lim +amplitud

nj

Ejemplo: cálculo percentil 50 (mediana)

Puntaje en un test de aptitud

Puntaje X

N° de sujetos

ni

Frecuencias acumuladas

Ni

(absoluta)

Fi (relativa)

15 – 20 8 8 0,200

20 – 25 7 15 0,375

25 - 30 14 29 0,725

30 – 35 6 35 0,875

35 – 40 3 38 0,950

40 – 45 2 40 1,000

n = 40

n = 40

lugar np

100=

n 5020

100

el percentil 50 o mediana aproximadamente se encuentra en el lugar 20, observando la columna Ni de frec. acumuladas o el gráfico ojiva, el valor que ocupa el lugar 20 se encuentra en el tercer intervalo.

P50 = Me [25, 30)

Pp se encuentra en el intervalo j → lugar np/100

liminfj = valor inferior de intervalo j Nj-1 frec. Abs. acumulada anterior al intervalo j nj= frecuencia abs. del intervalo j

Intervalo j

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 49

DISTRIBUCIÓN DE FRECUENCIA ACUMULADA

Puntaje X

Frec. Abs. Acumulada Ni

< 15 0

< 20 8

< 25 15

< 30 29

< 35 35

< 40 38

< 45 40

OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)

Puntaje

P50 [25, 30) ← 25 es el límite inferior del intervalo j

30 – 25 = 5 es la amplitud del intervalo j

intervalo j Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j

frec. abs. acumulada anterior al intervalo j es 15

La fórmula que entrega la interpolación lineal para el cálculo de percentiles con datos agrupados en intervalos reales es:

j-1

p inf j

j

np

100 - NP = lim +amplitud

nj

Interpolando Linealmente

Se utiliza cuando no se

tienen los datos de

cada unidad de

observación

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 50

Aplicando la fórmula de percentil para datos agrupados

50

20 15P 25 5 26,79

14puntos

Interpretación …………………………….

- Suponga que al 15% de los puntajes más altos pasan a una segunda etapa, ¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos sujetos?.

- Determine e interprete el valor del percentil 10.

Ejercicios IV

Ejercicio IV-1

El responsable en control de industrial de una empresa somete a un test de fiabilidad 150 dispositivos electrónicos idénticos y anota su duración (tiempo hasta fallo en horas).

La recogida de datos lleva al histograma siguiente:

Duracion

2000180016001400120010008006004002000

de d

isp

ositiv

os

60

50

40

30

20

10

0

33

6

18

2121

27

51

Histograma

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 51

a. Indique la variable de interés y clasifíquela según naturaleza, tamaño del recorrido y nivel de medición.

b. ¿Entre qué valores se encuentra el 30% de los dispositivos de mayor duración? c. ¿Qué porcentaje de dispositivos tienen duración entre 200 y menos de 1000

horas? d. ¿Qué porcentaje de dispositivos tienen duración entre 600 y 950 horas? e. Dibuje en el histograma el tiempo medio de fallo, la mediana y la moda. f. ¿El promedio es una medida adecuada para resumir la duración de los

dispositivos? Justifique su respuesta.

Ejercicio IV-2

En una industria, se realizan periódicamente un análisis de la medición del trabajo con el fin de determinar el tiempo requerido para generar una unidad de producción. En una planta de procesamiento se registró durante 20 días el número de horas-trabajador totales requeridas para realizar cierta tarea. Los datos recogidos son:

128 119 95 97 113 109 124 132 146 128 103 135 124 131 133 131 100 112 111 150

a) Determine las medidas de tendencia central. Interpreta resultados. b) ¿Cuánto tiempo (horas-trabajador) requieren como máximo el 25% de los días que

demoraron menos en realizar la tarea?. ¿Cuánto tiempo (horas-trabajador) requieren como mínimo el 25% de los días con mayor demora en realizar la tarea?

c) Indique qué medida de tendencia central puede ser representativa d) Determine el valor de (cuartil 3 – cuartil 1). ¿Cómo puede interpretar esa diferencia? e) Construya un diagrama de caja (gráfico basado en los cuartiles)

Gráfico de cajas (Tukey fue su creador)

Es un gráfico que suministra información sobre los valores mínimo y máximo, los

cuartiles de Tukey Q1, Q2 o mediana Q3, la existencia de valores atípicos y la

simetría de la distribución.

Se sabe que un dato es atípico, si su valor no se encuentra en el intervalo

(Q1 – 1,5RI , Q3 + 1,5RI)

RI = Q3 – Q1

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 52

Es necesario tener datos directos (sin agrupar en intervalos) para realizar el gráfico de cajas.

Este gráfico es útil para hacer comparaciones rápidas entre 2 o más conjuntos de datos.

La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la posición intermedia entre la mediana el valor más pequeño de la distribución; la segunda bisagra es la mediana; la tercera bisagra (similar al cuartil 3) es el valor que ocupa la posición intermedia entre la mediana y el valor más grande de la distribución.

MEDIDAS DE DISPERSIÓN ( O VARIABILIDAD)

Las medidas de tendencia central (promedio, mediana, moda) y los percentiles, dan información incompleta, acerca de las observaciones. Ejemplo: Los puntajes (X) obtenidos en una Test que mide capacidad de abstracción por 2 grupos de alumnos son los siguientes:

Grupo 1 4 3 5 6 4 5 5 7 5 6

Grupo 2 1 4 3 5 6 8 2 7 5 9

En ambos casos el promedio aritmético o media aritmética es 5 (x = 5) , pero sus

gráficos son distintos

Diagramas de puntos

Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.

Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo. Cuando están altamente dispersos se dice que es heterogéneo. Las medidas de dispersión más utilizadas son las siguientes:

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 53

Amplitud o rango o recorrido, rango intercuartílico, desviación estándar, varianza y coeficiente de variación.

Rango o recorrido: Es la distancia en la escala de medidas entre los valores mayor y menor. Rango = valor máximo – valor mínimo

En el grupo 1: rango es 7 – 3 = 4 y en el grupo 2 rango es 9 – 1 = 8 lo que implica que el segundo grupo tiene puntajes más dispersos. El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribución se tendrá la impresión de que la dispersión es grande, cuando en realidad si omitiésemos ese valor podríamos concluir que es una distribución compacta.

Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos

Q3 = P75 Q1 = P25

RI se usa con mayor frecuencia acompañando a la mediana cuando la presencia de valores extremos hace poco recomendable el uso del promedio.

Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución. No interviene en relaciones matemáticas importantes en la inferencia estadística.

Desviación estándar o desviación típica (medida de dispersión asociada al promedio aritmético)

Es la raíz cuadrada de la media de las desviaciones al cuadrado.

Dado un conjunto (o muestra) de datos x1, x2, …,xn de una variable X con nivel de medición en escala de intervalos o de razón, se define la desviación estándar o desviación típica como el promedio de las desviaciones di de los valores xi respecto a su promedio aritmético.

Desviación estándar:

n2

i

i =1

(x - x)

s = n

La desviación estándar toma valores no negativos y mide la dispersión: a mayor desviación estándar mayor dispersión.

El cuadrado de la desviación estándar s2, se denomina varianza.

Las desviaciones

di = (xi - x ) se elevan al cuadrado para convertirlas en positivas, además recuerde que

n

i

i =1

(x - x) = 0

y se extrae la raíz cuadrada para que la medida resultante tenga la misma unidad de medición de la variable.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 54

n2

i2 i 1s

(x x)

n

Observaciones:

Notación de la varianza poblacional

N2

i2 i 1

(x μ)

σN

= media de la población N = tamaño de la población

- En algunos textos de Estadística la fórmula de la varianza (S2)

de la muestra viene dada por:

2

2

i

n

i=1=

(x -x)

n -1s

Del ejemplo Puntaje de un Test:

Grupo 1 Grupo 2

x x - x 2(x - x) x x - x 2

(x - x)

3 -2 4 1 -4 16

4 -1 1 2 -3 9

4 -1 1 3 -2 4

5 0 0 4 -1 1

5 0 0 5 0 0

5 0 0 5 0 0

5 0 0 6 1 1

6 1 1 7 2 4

6 1 1 8 3 9

7 2 4 9 4 16

Total 50 0 12 50 0 60

llamada varianza corregida o cuasivarianza y se utiliza en Inferencia Estadística como la

estimación de la varianza poblacional 2, es la fórmula que vamos a utilizar en este

curso como varianza muestral

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 55

i=1

2n

in2 i=1

i2

2n

i=1i

x

x - n

= n-1

(x -x)

n -1 s

Grupo

n

Promedio

Desviación estándar

Varianza

1 10 50

5 ptos10

12 = 1,1547 ptos

9

(1,1547)2

2 10 50

5 ptos10

60 = 2,5820 ptos

9

(2,5820)2

Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor dispersión o variabilidad.

Ventajas de la desviación estándar - Permite una interpretación precisa de los valores dentro de una distribución. - La desviación como el promedio pertenece a un sistema matemático que

permite su uso en métodos estadísticos más avanzados.

Propiedades de la desviación estándar (demostración tarea) - Si se suman a todos los valores de la variable un valor constante, el

promedio queda aumentado en ese valor, pero la desviación estándar permanece igual.

- Si se multiplica cada valor original por una constante, tanto el promedio como la desviación estándar queda amplificados por ese valor.

- La desviación estándar de una constante es cero.

Si los datos se encuentran tabulados las fórmulas de la varianza y desviación estándar son:

Varianza

k2

i i2 i 1x

(x x) n

n - 1s ;

k2

i i

i 1Desviación estándar: s

(x -x) n

n - 1

xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales)

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 56

Si los datos se encuentran tabulados las fórmulas de la varianza y desviación estándar son:

Varianza

k2

i i2 i 1x

(x x) n

n - 1s

k2

i i

i 1Desviación estándar: s

(x -x) n

n - 1

xi es el valor de la variable discreta en una tabla o la marca de clase en el intervalo i (datos agrupados en intervalos reales)

Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de resistencias que no cumplían con las especificaciones, resultando la siguiente tabla

X = N° de resistencia defectuosas en cada paquete

X ni i ix n 2

i i(x - x) n

0 5 0 31,25

1 10 10 22,50

2 16 32 4,00

3 15 45 3,75

4 9 36 20,25

5 3 15 18,75

6 2 12 24,50

Total n = 60 150

150x =

60

125,00

2 125s =

59 = 2,119 ← varianza

Desviación estándar s = varianza

= 2,119 1,456

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 57

2k

i ik2 i=1

i ii i=1

2k

i=1i

x n

x n - nn

= = n -1

(x -x)

n -1

Desviación est andar: Datos tabulados

s

Coeficiente de variación (CV): Es una medida relativa de variabilidad

XXCV =

|x|

s Se utiliza para comparar la dispersión de variables que

aparecen en unidades distintas de medición o que toman valores de magnitudes muy diferentes, ya que no depende de la unidad de medición de las variables.

Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos

sujeto 1 2 3 4 5 6 7 8 9 10

Estatura (X) 172 175 168 178 159 166 176 180 179 171

Peso (Y) 78 75 70 68 44 66 72 95 70 74

Del ejemplo de resistencia de película de óxido metálico: i

2

i iixn = 150 ; x n = 500

2(150)500

60 1,45659

s

2k

i ik2 i=1

i ii2 i=1

2k

i=1i

x n

x n - nn

= = n-1

(x -x)

n -1

Varianz a: Datos tabulados

s

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 58

Para analizar cuál distribución de datos es más homogénea, se debe determinar los coeficientes de variación de cada variable

Variable Media Desv. típ. CV 100*CV

(% de variabilidad)

Estatura (X) 172,40 6,620 0,038 3,840%

Peso (Y) 71,20 12,541 0,176 17,614%

Interpretación: La variable estatura es más homogénea (menor % de variabilidad)

Ejercicios V

Ejercicio V-1

En un banco se realizó un estudio para medir el tiempo de atención necesario para que un cliente realice una transacción entre las 12:00 y 14:00 horas. Durante una semana se tomaron los tiempos de atención de 10 clientes diariamente, obteniéndose los siguientes datos:

Tiempo de atención (min)

0 – 2 2 – 4 4 – 6 6– 8 8 – 10 10 – 12 12 -14

Cantidad de clientes

17 11 7 7 4 2 2

a. Complete el siguiente cuadro interprete los resultados

Cuartil 1 Mediana Cuartil 3 RI Moda

b. Determine (aprox.) qué porcentaje de clientes demoraron a lo más tres min en su atención.

50 p- 17

100 p = 45%11

Resp.: 3 = 2 +

c. Grafique adecuadamente la tabla de frec, y muestre la ubicación del la mediana y

promedio (realice comentarios)

Ejercicio V-2

Si a es constante, demuestre que: 2n

i=1x es mínimo para a = x

ia

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 59

Ejercicio V-3

Se ha hecho un seguimiento durante una serie de días del número de mensajes spam al día que un cierto usuario recibe en su correo electrónico. Los datos obtenidos se muestran a continuación:

N° de spam diario 0 1 2 3 4 5 6

Frecuencia observada 35 42 55 40 15 10 3

a. n = (interprete)

b. Determine e interprete las medidas de tendencia central

c. Determine una medida de dispersión adecuada

d. Realice un gráfico adecuado

Ejercicio V-4

Se realizó un estudio sobre los costos operacionales (Y), en millones de dólares anuales, en empresas de dos rubros distintos( A ; B ). Se tomaron muestras de 25 empresas de cada rubro, obteniéndose:

Rubro Y = Costo operacional i

i

y i

2

i

y

A 5,3 4,4

4,4 8,2

2,8 1,5

7,5 6,2

8,5 4,8

4,2 7,2

3,9 6,4

5,3 5,4

2,7 7,1

8,2 5,9

3,9 6,4

4,2 7,5

5,2

137,1 833,9

B 3,5 6,1

4,5 4,0

4,1 4,8

3,6 5,4

5,2 3,5

4,6 5,4

2,9 4,3

4,0 4,8

4,7 2,6

5,5 5,4

2,9 3,5

5,9 3,8

4,9 109,9 505,4

Rubro A Frecuencia Tallo & Hoja 1,00 1 . 5 2,00 2 . 78 2,00 3 . 99 5,00 4 . 22448 5,00 5 . 23349 3,00 6 . 244 4,00 7 . 1255 3,00 8 . 225 Multiplicar por 10

-1

Rubro B Frecuencia Tallo & Hoja 3,00 2 . 699 0,00 3 . 5,00 3 . 55568 4,00 4 . 0013 6,00 4 . 567889 4,00 5 . 2444 2,00 5 . 59 1,00 6 . 1 Multiplicar por 10

-1

a. Compare la dispersión de los costos de operación, entre los dos rubros.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 60

Rubro n y s CV % de variabilidad

A

B

Comentarios: b. ¿Entre qué costos operacionales se ubica el 50% central de las empresas del rubro B? c. Según estimaciones, realizadas en las empresas del rubro A, los costos operacionales

aumentarán en un 3%. Determine e interprete la nueva mediana y la nueva desviación estándar.

Ejercicio V-5

Se toman muestras, de barras planas de dos tipos de acero, de tamaño 80 y 100 respectivamente, para analizar la resistencia a la ruptura. Los siguientes gráficos muestran los tiempos máximos (Y), en minutos que soportan dichas barras antes de fragmentarse, cuando son sometidos a la tensión:

Muestra 1 Muestra 2

minutos

minutos

a. En base a la información contenida en los gráficos, determine que distribución es más homogénea y que tipo de acero resistió en mejor forma la tensión aplicada. Justifique utilizando medidas de resumen adecuadas.

b. Si las barras de acero tipo 1, se clasifican de acuerdo a su resistencia en {RB, RM, RA}

Baja resistencia (RB) : si soportan un tiempo máximo inferior a 5,5 minutos Alta resistencia (RA) : si soportan un tiempo máximo de por lo menos 14 minutos Resistencia media (RM) : en otro caso.

Muestre gráficamente la distribución de las barras de acuerdo a la nueva clasificación.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 61

Ejercicio V-6

Una industria metalúrgica compra grandes cantidades de alambre de acero en rollos de 150 metros, hasta la fecha esta compra la realiza en la empresa Alfha, otra empresa llamada Delta quiere también vender sus productos y hace una oferta bastante interesante porque el precio de cada rollo es muy inferior. Sin embargo es importante considerar la resistencia a la tracción (Y). Por ello se toman muestras al azar de rollos de acero provenientes de ambas empresas.

Los resultados se presentan en la tabla siguiente:

Resistencia (en Newton)

yi

Empresa

Alfha Delta

10,00 – 10,25 10,125 2 0

10,25 – 10,50 10,375 12 17

10,50 – 10,75 10,625 14 25

10,75 – 11,00 10,875 11 11

11,00 – 11,25 11,125 5 9

11,25 – 11,50 11,375 4 9

11,50 – 11,75 11,625 0 3

- Si la variabilidad de la resistencia del alambre de la empresa Delta no es superior a la de la empresa Alfha y además la resistencia promedio es superior en al menos 1,5 Newton sería aconsejable cambiar de proveedor.

¿Qué decisión se debería tomar en base a la información obtenida? Fundamente con cálculo de medidas adecuadas.

EMPRESA Media

(promedio) n

Desv. estandar

C.V. % de variabilidad

Alfha 10,71354 48 0,32815 0,03063 3,063%

Delta

Respuesta: _______________

- ¿Qué porcentaje de los rollos de alambre de acero de la empresa Delta supera la resistencia media de los rollos de alambre de acero de la empresa Alfha

- ¿Cuál es la representación gráfica adecuada para este caso?

Y = resistencia a la tracción del alambre

Empresa n i i

i

y n i

2

i

i

y n

Alfha 48 514,25 5514,5 Delta 74 799,00 8636,90625

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 62

Ejercicio V-7

Un Gerente de producción de una gran industria automovilística norteamericana cree que los trabajadores de la planta A hacen un promedio salarial por hora menor con una mayor variabilidad que los trabajadores de la planta B. Muestras de 12 trabajadores de la planta A y 10 trabajadores de la planta B dieron los siguientes valores:

Salario (um ) por hora de un trabajador (Y) Planta A (1) 12.2 18.2 19.4 15.3 18.6 16.4 15.5 18.7 17.1 18.3 14.5 15.8

Planta B (2) 15.1 14.8 16.9 17.2 18.2 18.5 18.7 19.3 19.2 19.8

a. ¿Apoyan los datos al Gerente de producción? (utilice medidas de resumen)

n Promedio Desv. Estandar C.V.

b. Corrobore la conclusión de (a) con Box-Plots paralelos (diagrama de caja)

c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:

Planta

Aumento

Determine (después del aumento):

Promedio aritmético

Desviación estándar (sn-1)

C.V

A

5% + 0.8 um

B

1,5 um

Ejercicio V-8

Se están estudiando dos tipos de tubos para la utilización en cierta aplicación industrial. Se

seleccionaron 12 ejemplares de cada tipo y se anotó su duración en semanas.

Tubo Semanas de duración

Tipo 1 26,3 32,7 29,6 25,6 34,6 40,3 39,1 32,3 28,2 36,7 32,6 38,8

Tipo 2 38,9 27,6 23,6 25,0 33,7 31,4 29,5 32,5 30,6 20,0 31,8 29,3

Analice en forma descriptiva ambos tipos de tubos e indique cuál debería seleccionarse para la

aplicación industrial (Justifique con medidas de tendencia central y de dispersión) Ejercicio V-9

En una empresa constructora se debe decidir por una de dos mezclas, para preparar concreto. Se tiene una mezcla estándar que es la que se ha utilizado en los últimos cuatro años, pero debido a nuevas exigencias para que las construcciones sean más resistentes, por ejemplo a los terremotos, es que los ingenieros a cargo experimentan con distintas mezclas y después de meses de experimentación, al parecer logran una mezcla que cumple con los estándares exigidos. Por otro lado, la mezcla estándar tiene costos de producción muy inferiores a la nueva mezcla, razón por la

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 63

cual utilizarán la nueva mezcla solo si cumple de mejor manera con las exigencias mínimas requeridas, las cuales son:

i. La resistencia mínima a la compresión debe ser de 17,2 MN/m2. Esta resistencia mínima a considerar debe ser superada por el 96% o más de las muestras de prueba.

ii. La variabilidad de la resistencia debe ser inferior al 18%.

Se probaron 50 probetas con muestras de cada tipo de mezcla, las resistencias obtenidas se presentan en la tabla siguiente.

Resistencia MN/m2

N° de probetas

Mezcla Estándar Mezcla Nueva

14 – 17 17 – 20 20 – 23 23 – 26 26 – 29 29 – 32

1 9 13 18 7 2

2 8 19 14 5 2

a. Utilizando medidas estadísticas adecuadas pruebe si se cumplen las condiciones i) y ii) adecuadas y en base a los resultados decida cuál de las dos mezclas es más adecuada.

b. Construya un gráfico adecuado que permita comparar la resistencia del concreto para estos dos tipos de mezclas.

Ejercicio V-10

Se está investigando la resistencia (en miles ohms) de cierto tipo de resistor. Para ello se probaron 80 resistores con el siguiente resultado:

Resistencia (miles ohms)

N° de resisteros

5,0 – 5,5 5,5 – 6,0 6,0 – 6,5 6,5 – 7,0 7,0 – 7,5 7,5 – 8,0 8,0 – 8,5

14 36 14 6 4 3 3

80

Con la información de la tabla de frecuencias, determine el porcentaje de resistores con resistencia atípica (outlier).

P75 = 6,36 (miles ohms)

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 64

Ejercicio V-11

Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un proceso químico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se puede sustituir por el catalizador 2, más barato, pero que, según el fabricante provoca un descenso del rendimiento. Se llevan a cabo 24 reacciones obteniendo para cada catalizador los rendimientos en porcentaje:

Catalizador

Y = rendimiento (%)

i

i

y i

2

i

y

1

93,1 91,7 99,9 90,3 96,2 92,7 92,7 89,0

2237,6 208924,80 92,0 94,0 98,2 96,1 97,9 87,0 89,4 92,6

93,8 90,3 92,8 91,1 91,1 89,4 94,2 102,1

2

91,5 89,2 92,8 95,3 95,1 96,4 87,0 91,7

2196,3 201164,17 87,2 90,9 91,3 92,6 91,4 91,5 91,4 95,5

90,6 88,2 87,8 89,9 90,4 90,6 91,0 97,0

a. Se aceptaría el cambio de catalizador, si los resultados de la pruebas arrojan una

diferencia promedio de ambos catalizadores inferior a 4 (%) y el catalizador alternativo debe tener rendimiento más homogéneo del que se utiliza actualmente. Con los resultados muestrales, ¿es aconsejable realizar el cambio?

b. Sabiendo que el 75% de las reacciones obtenidas con el Catalizador 2 tienen un rendimiento igual o superior a 90,15. Determine si existe algún resultado (reacción) atípica. Utilice regla de Tukey.

Cecilia Larraín R. Estadística Descriptiva Ingeniería Página 65

Ejercicio VI-6

En una planta embotelladora de bebidas de fantasía, utilizan envases fabricados con 2 tipos de plástico, de similares condiciones. ( A y B ). Con muestras de 25 botellas fabricadas con cada tipo de plástico se midió la resistencia (en psi). Algunos resultados parciales se encuentran a continuación:

X = Resistencia x

2x

Plástico A 5087 1038093

Plástico A 4898 963332

a. Se estima que las botellas fabricadas con el plástico B presentan una resistencia

más homogénea, que las fabricadas con el plástico A. Utilizando una medida

estadística adecuada, ¿qué puede comentar de esta estimación?

b. Determine para cada tipo de envase entre que valores (psi) se encuentran el 50%

de las botellas con mayor resistencia

Resist_A Stem-and-Leaf Plot Freq Stem & Leaf 1,00 18 . 2 2,00 18 . 59 1,00 19 . 0 4,00 19 . 5679 7,00 20 . 1222234 4,00 20 . 5689 2,00 21 . 01 1,00 21 . 9 2,00 22 . 14 1,00 22 . 5 Stem width: 10 Each leaf: 1 case(s)

Resist_B Stem-and-Leaf Plot Freq Stem & Leaf 1,00 Extremes (=<171) 2,00 17 . 38 3,00 18 . 349 11,00 19 . 22344556679 5,00 20 . 35668 2,00 21 . 05 1,00 22 . 4 Stem width: 10 Each leaf: 1 case(s)

Atípico = 171