Capítulo 1. Vistazo y Estadística Descriptiva

87
Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 1 Capítulo 1. Vistazo y Estadística Descriptiva I Parte 1.0 .Introducción 1.1 Poblaciones, Muestras y Procesos 1.2 Métodos Gráficos y Tabulares

description

Capítulo 1. Vistazo y Estadística Descriptiva I Parte 1.0 .Introducción 1.1 Poblaciones, Muestras y Procesos 1.2 Métodos Gráficos y Tabulares. ¿Estadística?. - PowerPoint PPT Presentation

Transcript of Capítulo 1. Vistazo y Estadística Descriptiva

Page 1: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 1

Capítulo 1. Vistazo y Estadística Descriptiva I Parte1.0 .Introducción1.1 Poblaciones, Muestras y Procesos1.2 Métodos Gráficos y Tabulares

Page 2: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 2

¿Estadística?• Ejemplo 1. Para la población de USA de más de 18 años. La

propiedad de interés podría ser el peso aquellos que estudian ingeniería y que además son estudiantes universitarios.

• Ejemplo 2. La tragedia del Challenger de enero 28, 1986. Los datos incluyen las temperaturas de los anillos O para cada encendido de prueba o lanzamiento real del transbordador. Estamos interesados en si la temperatura ambiente al lanzamiento, tiene algún efecto sobre la posibilidad de un lanzamiento exitoso o fallido.

Page 3: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 3

Page 4: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 4

Page 5: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 5

Page 6: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 6

Page 7: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 7

Mmm … ¿Qué

respondo? ¿Si? o ¿No?

Page 8: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 8

1.1

Poblaciones,Muestras, y Procesos

Page 9: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 9

Poblaciones y muestras

Una población (population) es una colección bien definida de objetos, sobre la cual hay interés de obtener información. Normalmente es demasiado grande como para poder abarcarla

Cuando al información está disponible para la población entera se tiene un censo (census). Un subconjunto de la población es una muestra (sample). Generalmente es el subconjunto al cual se tiene acceso y sobre el cual se hacen realmente las observaciones o mediciones

Page 10: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 10

Variable Una variable es cualquier característica cuyo valor

puede cambiar de objeto en objeto. Es decir, es una característica observable que varía entre los diferentes objetos de una población. La información de la cual se dispone de cada objeto se resume en variables

Género, altura, ingreso, y PGB

Page 11: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 11

Unidades de Observación

• Los elementos de una población se llaman en general unidades de observación. Las características de interés (edad, consumo, resultado) se denominan variables pues su valor varía en función de la unidad observada

Page 12: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 12

Propiedades deseables de las Muestras

• Deberían ser “representativas”• Están formadas por objetos “seleccionados” de

la población (individuos, unidades experimen-tales)

Estos dos puntos son básicos para hacer lo esencial de esta disciplina: hacer inferencia (inducción) hacia lo general.

El proceso de extraer muestras de la población se llama Muestreo

Page 13: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 13

Variables según variación

• Las variables pueden ser de acuerdo a su variación:– Determinísticas cuando varían de objeto en

objeto de la población de un modo completamente predecible.

– Aleatorias cuando varían de objeto en objeto de la población de un modo impredecible o de un modo que parece o se supone depende del azar.

Page 14: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 14

Datos y Observaciones

Los datos univariados constan de observaciones de una sola variable (multivariable – más de dos variables).

Page 15: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 15

Notación• Las variables se denotarán por su inicial mayúscula

(A, B, R ...) o de un modo más general por X, Y, Z, etc. Los valores numéricos o no numéricos (ver ejemplos más adelante) o modalidades de una variable serán indicados por la misma letra pero minúscula tal vez subindiciada: x1, x2, . . ., y1, y2, ... Las modalidades de una variable X son todas diferentes

• Si no hay lugar a confusión, se utilizan las mismas notaciones x1, x2, . . ., xn para indicar los n valores observados de X para una muestra particular. En este caso, ciertos valores podrán ser idénticos. Se dirá que x1, x2, . . ., xn son n observaciones de X.

Page 16: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 16

Tipos de variables• Por características• variable cuantitativa: cuando puede asumir

cualquier valor numérico las modalidades son números que expresan cantidades, con las cuales tiene sentido realizar operaciones algebraícas con ellos (ingresos de 300 pesos, altura 185 cm, etc..);

• variable cualitativa o categórica (nominal): cuando las modalidades representan cualidades o atributos (sexo : masculino, femenino, genotipo, fenotipo, etc) ; Es decir, cuando no se les puede asociar naturalmente números a los valores (y en consecuencia, no es posible realizar operaciones algebraícas con ellos).

Page 17: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 17

Variables Cuantitativas

• variable cuantitativa continua (o de intervalo): si el conjunto de valores o modalidades es un intervalo (posiblemente no acotado) de los números reales (pesos entre 0 y 300 Kg, talla entre 20 y 50 cm, etc.), surgen de mediciones;

• variable cuantitativa discreta: si el conjunto de los valores posibles es finito o infinito numerable (número de hermanos, número de accidentes de un seguro), es decir puede sumir valores numéricos aislados, surgen de conteos;

Page 18: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 18

Variables Cualitativas

• variable cualitativa o categórica (nominal): cuando las modalidades representan cualidades o atributos (sexo : masculino, femenino, genotipo, fenotipo, etc);

• variable categórica ordinal: cuando las modalidades no son cantidades numéricas pero pueden ser ordenadas de un modo natural (el estado de un paciente: si va mal, delicado, está estable, si le va mejor).

Page 19: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 19

Variables• Una variable es una característica observable que varía entre

los diferentes individuos de una población. La información que disponemos de cada individuo es resumida en variables.

• En los individuos de la población chilena, de uno a otro es variable:

– El grupo sanguíneo • {A, B, AB, O} Var. Cualitativa

– Su nivel de felicidad “declarado” • {Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

– El número de hijos• {0,1,2,3,...} Var. Numérica discreta

– La altura• {1’62 ; 1’74; ...} Var. Numérica continua

Page 20: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 20

• Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador.

• Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos.

– Sexo (Cualit: Códigos arbitrarios)• 1 = Hombre• 2 = Mujer

– Raza (Cualit: Códigos arbitrarios)• 1 = Blanca• 2 = Negra,...

– Felicidad Ordinal: Respetar un orden al codificar.

• 1 = Muy feliz• 2 = Bastante feliz• 3 = No demasiado feliz

• Se pueden asignar códigos a respuestas especiales como

• 0 = No sabe• 99 = No contesta...

• Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)

Page 21: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 21

• Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico.

• No todo está permitido con cualquier tipo de variable.

Page 22: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 22

¿Para qué sirve la estadística?

• La Ciencia se ocupa en general de fenómenos observables

• La Ciencia se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes

• Los modelos que crea la ciencia son de tipo determinista o de tipo aleatorio (estocástico)

• La Estadística se utiliza como tecnología al servicio de las ciencias puras e ingenieriles donde la variabilidad y la incertidumbre forman parte de su naturaleza; es decir, donde estas no son la excepción sino la regla

Page 23: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 23

Page 24: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 24

DefiniciónLa Estadística es la Ciencia de la

• Sistematización, recogida, ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones (inducción).

Descrip

tiva

Probabili

dad

Infe

rencia

Page 25: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 25

Pasos en un estudio estadístico• Plantear hipótesis sobre una población

• Los fumadores tienen “más licencias” laborales que los no fumadores• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

• Decidir qué datos recoger (diseño de experimentos)– Qué individuos pertenecerán al estudio (muestras)

• Fumadores y no fumadores en edad laboral.• Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen

enfermedades crónicas?– Qué datos recoger de los mismos (variables)

• Número de licencias• Tiempo de duración de cada licencia• ¿Sexo? ¿Sector laboral? ¿Otros factores?

• Recoger los datos (muestreo)– ¿Estratificado? ¿Sistemáticamente?

• Describir (resumir) los datos obtenidos• tiempo medio de licencia en fumadores y no (estadísticos)• % de licencias por fumadores y sexo (frecuencias), gráficos,...

• Realizar una inferencia sobre la población• Los fumadores están de licencia al menos 10 días/año más de media que los

no fumadores.

• Cuantificar la confianza en la inferencia– Nivel de confianza del 95%– Significación del contraste: p=2%

Todavía no es necesario

entender esto

Page 26: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 26

Plantear hipótesis

Obtenerconclusiones

Recoger datosy analizarlos

Diseñar experimento

Método científico y estadística(Primera aproximación)

Page 27: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 27

Ramas de la Estadística

Estadística descriptiva – resumen y descripción de los datos recolectados.

Estadística inferencial – generalización de una muestra a una población.

Probabilidad

Page 28: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 28

Relaciones entre Probabilidad y Estadística Inferencial

Población Muestra

Probabilidad (deducción)

Estadística inferencial(inducción)

Page 29: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 29

Page 30: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 30

Ejemplo 1: Datos del Challenger>STEM C1 Stem and Leaf Plot of variable: C1, N = 36 Minimum: 31.000 Lower hinge: 59.000 Median: 67.500 Upper hinge: 75.000 Maximum: 84.000 3 1 * * * Outside Values * * * 4 0 4 59 5 23 5 H 788 6 0113 6 M 6777789 7 000023 7 H 556689 8 0134

Min. 1st Qu. Median Mean 3rd Qu. Max.

31.00 59.50 67.50 65.86 75.00 84.00

 

The decimal point is 1 digit(s) to the right of the |

  3 | 1 4 | 059 5 | 23788 6 | 01136777789 7 | 000023556689 8 | 0134

Page 31: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 31

Histograma>DENSITY C1/ HIST

30 40 50 60 70 80 90C1

0

4

8

12

16

Cou

nt

0.0

0.1

0.2

0.3

0.4

Prop

ortion p

er Ba

r

Programa Comercial

R

Page 32: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 32

Ejemplo 2: Resistencia del concreto + superplatificantes

>STEM C1 Stem and Leaf Plot of variable: C1, N = 27 Minimum: 5.900 Lower hinge: 7.000 Median: 7.700 Upper hinge: 8.850 Maximum: 11.800 5 9 6 33 6 588 7 H 00234 7 M 677889 8 12 8 H 7 9 0 9 77 10 10 7 11 3 11 6 * * * Outside Values * * * 11 8

5 6 7 8 9 10 11 12C1

0

5

10

15

Cou

nt

0.0

0.1

0.2

0.3

0.4

0.5

Prop

ortio

n p

er B

ar

C1 = Presión en mega pascales

Page 33: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 33

1.2

Métodos gráficos y Tabulares de la

Estadística Descriptiva

Page 34: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 34

Page 35: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 35

Page 36: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 36

Page 37: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 37

Page 38: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 38

Page 39: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 39

Page 40: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 40

Page 41: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 41

Page 42: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 42

Page 43: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 43

Datos reales

Page 44: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 44

Diagrama de puntos

Los datos se representan con puntos. Para pocos datos con relativamente pocos valores distintos de los datos. .

Temperatura de los anillos O (para los pernos de junturas)

Temperatura de los anillos O

Page 45: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 45

Page 46: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 46

Page 47: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 47

Diagramas de Tallo y Hojas

1. Selecciones uno o más dígitos iniciales para valores del tallo. El dígito, o dígitos, final(es) se convierte(n) en hojas.

2. Haga una lista de los valores de tallos en la columna vertical.

3.Registre una hoja por cada observación junto al valor correspondiente del tallo.

4. Indique las unidades para tallos y hojas en algún lugar del diagrama

Page 48: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 48

Page 49: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 49

Page 50: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 50

Page 51: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 51

Otro ejemplo de tallo y hojas

9, 10, 15, 22, 9, 15, 16, 24,11 Valores observados:

0 9 9

1 0 1 5 5 6

2 2 4

Tallo: Decenas Hojas: unidades

Page 52: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 52

Despliegues de los Diagramas de Tallo y hojas

• Identificación de un valor característico o representativo.

• Grado de dispersión respecto al valor característico.

• Presencia de huecos en los datos.

• Grado de simetría en los valores de la distribución

• Cantidad y ubicación de los picos

• Presencia de cualquier valor alejado o atípico.

Page 53: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 53

Otro ejemplo de tallo y hojas

Porcentaje de alumnos que consumen alcohol en 140 colegios, 1994 (P12)

0 | 4 1 | 1345678889 2 | 1223456666777889999 3 | 0112233344555666677777888899999 4 | 111222223344445566666677788888999 5 | 00111222233455666667777888899 6 | 01111244455666778 6 | 2 se lee 62

Decenas Unidades

Page 54: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 54

0 9 = 900 pies 0 987665621 977196302 699877665444222110098503 8766554120995514264 99988443319264333611075 97666666554422210097781

Diagramas de tallo y hoja 6 898665441077761065Altura de 218 volcanes, unidad = 100 pies 7 98855431100652108073

8 6533221229379 377655421000493

10 098443316521211 496320163112 4542116413 4783014 0015 67616 5217 9218 5

19 3 = 19300 pies 19 39730

Diagrama de Tallos y Hojas

La idea que está detrás del diseño de los diagramas de tallo y hojas es hacer efectivo todo elemento gráfico de la información. Al presentar su invención, John Tukey escribió “Si uno hace una marca, puede que tenga algún sentido. La marca mas simple, con mayor sentido y más útil es un dígito”.

Decodificar los datos para:

Calcular estadísticos básicos.

¿Qué tipo de distribución es esta?

¿Normal?

Page 55: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 55

...No siempre conviene el stem

stem(ventas,.5)

3 | 5666699 4 | 11122444444 4 | 5678899 5 | 0223334 5 | 5

1 5 9 13

17

21

25 29

Tiempo

Sin tomar en cuenta el tiempo

Tomando en cuenta el tiempo

Producción de cerveza

Page 56: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 56

Tipos de Variables

Una variables es discreta si su conjunto de valores posibles constituye un conjunto finito o una secuencia infinita. Una variable es continua si su conjunto de valores posibles consiste de un intervalo entero de la recta numérica.

Page 57: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 57

1867: Una dama victoniana..

Page 58: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 58

La estadística (posterior enfermera) Florence Nightingale recogió las estadísticas de los hospitales militares británicos, produciendo histogramas como este que se presenta aquí:

El eje radial indica los muertos –en hospitales como también en el campo de batalla de soldados británicos en la guerra de Crimea.

Sus esfuerzos estadísticos mejoraron directamente las condiciones de los hospitales y la reducción de las tazas de mortalidad.

Page 59: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 59

Histogramas de Datos Discretos

Determine las frecuencias absolutas y relativas para cada valor de x. Después marque los valores posibles de x sobre una escala horizontal. Arriba de cada valor, dibuje un rectángulo cuya altura relativa es la frecuencia de ese valor.

Page 60: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 60

Ej. A 150 estudiantes de un pequeño CFT se les pregunta sobre cuando cambios de tarjetas de crédito realizaban. x es la variable que representa el número de tarjetas y resultados de abajo.

x #personas

0 12

1 42

2 57

3 24

4 9

5 4

6 2

Frec. Rel.

0.08

0.28

0.38

0.16

0.06

0.03

0.01

Distribución de frecuencia

Page 61: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 61

Histogramas

x Rel. Freq.

0 0.08

1 0.28

2 0.38

3 0.16

4 0.06

5 0.03

6 0.01

Resultados de las tarjeta de crédito:

Frecuencia relativa

0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6

Número de Tarjetas

ix

Page 62: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 62

Histogramas

Datos Continuos: Caso de Anchos Iguales

Determine la frecuencia absoluta y relativa de cada clase. Marque los límites de clase en el eje de medición horizontal. Arriba de cada intervalo de clase, dibuje un rectángulo cuya altura es la frecuencia relativa.

Page 63: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 63

Histogramas Datos Continuos: Caso de Anchos Desiguales

Después de determinar las frecuencias absolutas y relativas, calcule la altura de cada rectángulo usando:

Las alturas que resultan se llaman densidades y la escala vertical se llama escala de densidad.

relative frequency of the classrectangle height =

class widthAltura del rectángulo

Frecuencia relativa de la clase

Ancho de clase

Page 64: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 64

Formas de Histogramas

Unimodal Simétrica Bimodal

Asimétrica Positiva Asimétrica Negativa

Page 65: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 65

Ejemplo• Población: conjunto de estudiantes de en la UACH en

1981.

• Unidad de observación: estudiantes de primer año en la UACH 1981.

• Variables: Sexo (S, cualitativa), Talla en cm (T, cuantita-tiva continua), Pesos en Kg (P, cuantitativa continua), Número de hermanos y de hermanas (F, cuantitativa discreta), Color de los ojos (C, cualitativa).

• Modalidades o valores de las variables: S: {hombre, mujer}; T: [120, 210]; P: [40, 200]; F: {0, 1, . . . , 10}; C: { café, azul, verde, negro, gris}.

Page 66: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 66

EjemploLas observaciones obtenidas de una muestra de tamaño n = 45 dispuestas en la siguiente tabla:

T P S F C T P S F C T P S F C 180 70 h 2 café 190 66 h 1 café 168 52 m 0 café 177 57 h 3 café 183 78 h 0 azul 157 47 m 1 verde 180 60 h 1 azul 167 60 h 4 azul 167 53 m 2 verde 180 66 h 0 café 181 67 h 0 café 168 57 m 4 azul 183 62 h 6 verde 179 98 h 2 café 163 65 m 1 café 184 68 h 0 café 173 75 h 1 verde 167 60 m 2 café 185 65 h 1 negro 170 68 h 1 gris 166 68 m 2 azul 184 72 h 2 café 170 59 h 3 café 164 49 m 7 verde 174 65 h 3 negro 183 72 h 2 azul 172 57 m 3 café 180 72 h 1 café 179 73 h 3 verde 165 59 m 2 azul 168 52 h 3 café 180 72 h 3 azul 158 62 m 0 café 180 75 h 0 azul 188 70 h 2 café 161 65 m 1 café 183 75 h 2 café 176 65 h 1 verde 160 61 m 1 azul 181 68 h 0 azul 178 72 h 1 café 162 58 m 2 café 180 65 h 4 café 185 71 h 1 azul 165 58 m 5 café

Page 67: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 67

Distribución de una variable cualitativa

Sea {x1, x2, . . ., xk} el conjunto de las modalidades de X. Para una muestra de tamaño n, sea ni el número de individuos que tiene la modalidad (valor) xi. Se llama

– frecuencia absoluta de xi, el número ni;

– frecuencia relativa de xi, el número fi = ni/ n;

– distribución de frecuencias de X, el conjunto de los pares (xi, ni) o de los pares (xi, fi).

A menudo, se dice simplemente frecuencia en lugar de “frecuencia absoluta” o “frecuencia relativa”. Los ni son también llamados conteos.

Propiedades: nni ; 1if .

Page 68: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 68

Ejemplo

Ejemplo: distribución de frecuencia de la variable Color de los ojos.

Modalidad Frecuencia absoluta Frecuencia relativa Café 23 0.511 Azul 12 0.267

Verde 7 0.156 Negro 2 0.044 Gris 1 0.022

Total 45 1.000

Page 69: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 69

Una distribución de frecuencias puede ser representada gráficamente con la ayuda de un diagrama en columnas (o en bastones) o un diagrama de sectores. Las columnas están separadas por espacios para distinguir este tipo de diagrama de los histogramas (ver Sección 1.3).

Frecuencia

Color Café Azul Verde Negro Gris

10

20

15

5

Diagrama de columnas

Histograma de color de ojos

Page 70: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 70

Distribución de una variable cuantitativa

Primer caso: El número n de observaciones es pequeño (por ejemplo, n < 20). En este caso nos limitamos a dibujar las observaciones sobre un eje. Esto se hace especialmente para poner en evidencia los valores extremos o aberrantes, denominados observaciones inusuales (outliers). A menudo se trata de errores de codificación o de trascripción que es necesario corregir. A veces se trata de valores excepcionales en los cuales es bueno poner especial y particular atención (el comportamiento es “anormal”?)

Ejemplo. Las alturas de las mujeres en la muestra de estudiantes

La mayor parte de las tallas están comprendidas entre 157 y 168 cm.

Page 71: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 71

Número de observaciones << nSegundo caso: el número de observaciones diferentes es pequeño con respecto a n. En este caso, el este caso el estudio se hará de la misma manera que el caso de una variable cualitativa. Para la representación gráfica, se utilizará un diagrama de columnas (bastones) que tienen en cuenta el orden natural de las modalidades.

Ejemplo. Distribución del número de hermanos y hermanas en la muestra de 45 estudiantes.

Page 72: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 72

n > 20Tercer caso: el número de modalidades como el número de observaciones es grande (por ejemplo, n > 20). Los datos son todos diferentes o casi: caso en el cual todas las diferencias absolutas se sitúan en torno a 1. Conviene entonces reagrupas los datos en clases.

Una clase es un intervalo semi abierto que se denotará (bi - 1, bi] donde bi - 1 es el extremo inferior y bi el extremos superior de esta clase. El extremo bi - 1 se excluye de la clase, mientras que el extremo bi se incluye.

El medio de la clase i (marca de clase) es mi = (bi + bi - 1)/2.

El largo de la clase i es bi – bi - 1

Page 73: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 73

Recomendaciones para histogramasAl realizar un histograma conviene observar las siguientes recomendaciones:

1. Número de clases entre 5 y 20 ; Si n es grande, el número de clases puede ser más grande, que casi todas las clases contengan un número elevado de observaciones.

2. b0 es menor que el más pequeño de los datos; bH es mayor que el mayor de los datos; cada dato pertenece a una clase (¡son partición!).

3. Las clases son de largos iguales. El largo se elige de preferencia de modo que sus puntos medios (marcas de clase) sean números enteros o “fáciles” (con pocos decimales) que representen las clases. Se puede llegar a una o dos clases tengan frecuencias muy altas con respecto a las demás clases. Se puede entonces utilizar clases de largos desiguales. En la medida de lo posible se evitará tener clases sin bordes, es decir, no acotadas.

Page 74: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 74

Organización de los datosLa altura de los estudiantes de primer año.

1 . O rganizar los datos agrupándolos en clases:

2 . por ejemplo se pueden definir las clases “ 156”= (155 , 157], “ 158”= (157 , 159] , etc.

3 . (Aquí “ 156”, “ 158” etc. son simplemente etiquetas.)

4 . Calcular:

in = núm ero de datos en la c lase i

nnf ii (frecuencia relativa);

Page 75: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 75

Tabla de frecuenciasClase Frec. ni Frec. Rel. fi

155-157 1 1/45 157-159 1 1/45 159-161 2 2/45 161-163 2 2/45 163-165 3 3/45 165-167 4 4/45 167-169 3 3/45 169-171 2 2/45 171-173 2 2/45 173-175 1 1/45 175-177 2 2/45 177-179 3 3/45 179-181 9 9/45 181-183 4 4/45 183-185 4 4/45 185-187 0 0/45 187-189 1 1/45 189-191 1 1/45

Page 76: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 76

El histograma de las tallas es bimodal, es decir, tiene dos protuberancias. Esta muestra puede estar repartida en dos grupos:

Page 77: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 77

Histograma alisado

A menudo es conveniente utilizar una versión continua (alisada) del histograma (“alisada”) del histograma. Para construir un histograma alisado de un modo simple se puede unir los puntos medios consecutivos vértice de las columnas. Por supuesto que hay técnicas más sofisticadas (por ejemplo suavisamiento (Smoothing LOWESS )).

Talla

fi

Page 78: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 78

Curva de distribución de una población

Si imaginamos que el número de observaciones de cierta variable continua crece a infinito, que se forma un número más y más grande de clases y que la forma de la distribución se mantiene, entonces el histograma alisa las frecuencia relativas que “tienden” (en el sentido de un proceso límite) a una curva de distribución de la población. El área bajo la curva es igual a 1.

Page 79: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 79

Función de distribución acumulativa empíricaPara un conjunto de observaciones x1, . . . , xn de una variable X se define la función de distribución acumulativa (empírica) como la función:

xx de númeron

xF in 1

La función de distribución acumulativa es una función creciente y comprendida entre 0 y 1. Es discontinua: su gráfico es “en escalera” y los escalones (discontinuidades) corresponde a los valores x1, . . ., xn. (Los trazos verticales del gráfico tienen una razón estética)

Talla

Page 80: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 80

Fn(x) suavisada

A veces es deseable utilizar una función continua como aproximación. Para obtener una versión suavizada de xFn

~ de Fn(x) se puede por ejemplo unir los puntos medios de los escalones consecutivos.

Talla

Page 81: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 81

Características principales de una distribución

Interesan sobre todo las siguientes características para las variables cuantitativas:

1.el centro y por extensión toda otra característica que determine la posición;

2.la dispersión (extensión, desparrame, despliegue); 3.la simetría o disimetría con respecto al centro; 4. el número de modos (protuberancias).

Page 82: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 82

Ej. 1.9: Distribución de los hits de los juegos de beisball de 9 entradas desde 1989 a 1993

Hit/juego

Frecu

enci

a r

ela

tiva

Page 83: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 83

Ejemplo 1.10: Consumos de energía en BTU

0 5 10 15 20C1

0

10

20

30

Cou

nt

0.0

0.1

0.2

0.3P

roportion p

er Ba

r

C1= Consumo de energía en BTU

Page 84: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 84

Ejemplo 1.11: Corrosión del acero reforzado en estructuras de

concretoStem and Leaf Plot of variable:

C1, N = 48 Minimum: 3.400 Lower hinge: 4.500 Median: 5.950 Upper hinge: 10.700 Maximum: 25.500 3 466667889 4 H 01289 5 M 0112224567 6 26 7 068 8 259 9 339 10 H 77 11 5 12 16 13 148 14 2 15 2 16 17 1 * * * Outside Values * * * 20 6 25 5

0 10 20 30C1

0

5

10

15

20

Cou

nt0.0

0.1

0.2

0.3

0.4

Proportio

n per B

ar

Page 85: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 85

En la tabla que sigue se muestran 109 intervalos de tiempo observados de los días transcurridos entre 110 explosiones en minas que involucraron a más de 10 hombres muertos, desde el 6 de diciembre de 1875 al 29 de mayo de 1951. Los primeros ocho tiempos se dan en la primera fila, los segundos ocho en la segunda fila, etc. (los datos son de Macguire, Pearson y Wynn Biometrika (1952). Tabla 1. Intervalos de tiempo observados (en días) entre accidentes mineros (Inglaterra), entre el 6 diciembre 1875 y el 29 de mayo de 1951|.

378 36 15 31 215 11 137 415 72 96 124 50 120 203 17655 93 59 315 59 61 1 13

189 345 20 81 286 114 108 188233 28 22 61 78 99 326 275

54 217 113 32 23 151 361 312354 58 275 78 17 1205 644 467871 48 123 457 498 49 131 182255 195 224 566 390 72 228 271208 517 1613 54 326 1312 348 745217 120 275 20 66 291 4 369338 336 19 329 330 312 171 145

75 364 37 19 156 47 129 163029 217 7 18 1357

Page 86: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 86

Histograma de los accidentes

Page 87: Capítulo 1.                 Vistazo y Estadística                         Descriptiva

Cap 01 Sec 01 y 02 Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02 87

Tarea

Cap 1. Sec 1. Problemas: 4, 6, 8.

Cap 1. Sec 2. Problemas: 10, 12, 14, 16, 22, 24, 26, 28, 32.