Post on 03-Feb-2016
Estadística I
Estadística I
Asistencia Puntualidad Conducta Evaluación Bibliografía Mail: consulta_estadistica@hotmail.com
La estadística surgió como una necesidad del estado: el censo y su descripción política, geográfica y económica.
En el siglo XVII y XVIII nace la probabilidad aplicada a los juegos de azar que ejerce una fuerte influencia sobre la estadística.
En el XIX empieza a aplicarse a cuestiones sociales.
Estadística
Dos significados:
1.- Colección de datos numéricos (una estadística).
2.- Método de análisis de datos (la estadística).
Estadística
Estadística
La Estadística es la ciencia que estudia los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.
Definiciones
Una población (universo) es la colección de todos los miembros de un grupo.
Un parámetro es una medida numérica que describe una característica de la población.
Definiciones
Una muestra es una porción de la población seleccionada para analisis. Debe ser representativa y seleccionada de manera aleatoria.
Un estadístico es una medida numérica que describe una característica de una muestra.
Ramas de la Estadística
Estadística Descriptiva
Recolección, resumen y presentación de datos.
Estadística Inferencial Obtiene conclusiones acerca de una población a
partir de una muestra.
Estadística Descriptiva
Recolección de datos
Ej. Cuestionario
Presentación de datos
Ej. Tablas y gráficos
Tratamiento de datos
Ej. Media muestral = iX
n
Estadística Inferencial
Estimación
Pruebas de Hipótesis
Obtiene conclusiones acerca de una población a partir de una muestra.
Fuente de Datos
Fuentes SecundariasCompilación de datos
Observación
Experimentación
Impreso o eletrónico
Encuesta
Fuentes PrimariasColección de datos
Tipo de datos
Dato: Valores observados de las variables.
Variables categóricas: producen datos cualitativos. Ej: Estatus Marital, Color de ojos
Variables numéricas: generan datos numéricos V. Numérica discreta: Respuesta numéricas que resultan
de un conteo. Ej. Número de Hijos, defectos por hora
V. Numérica contínua : Respuesta numérica que resulta de un medición.
Ej. Peso, Estatura
Ejercicio1
Para cada una de las variables, determine si es categórica o numérica. Si la variable es numérica, indique si es discreta o contínua.
1. Número de aparatos telefónicos en casa.
2. Duración (en minutos) de la última llamada.
3. Si existe en la casa una línea telefónica conectada a un módem.
4. Si hay un fax en la casa.
Ejercicio 2
De acuerdo con una encuesta de Goldman, cerca del 4% de los hogares estadounidense utilizan servicios bancarios online. Una encuesta realizada por Cyber Dialogue investigó las razones por las que la gente abandona esta opción . A continuación se ofrece los resultados obtenidos:
¿Por qué abandonó el banco online?Demasiado tiempo... 40%No lo necesita ..........30%No confía en el sistema..20%.Demasiado costoso........10%
Describa la población de la encuesta Goldman Describa la población de la encuesta Cyber
Dialogue. La respuesta a la pregunta ¿ Por qué abandonó
el banco online? ¿Es categórica o numérica? El 40% de quienes respondieron indicaron que el
banco en línea era demasiado complicado .¿Es esto un parámetro o un estadístico?
Niveles de Medición
Nominal: Nombres o clasificaciones que se utilizan para datos en categorías distintas y separadas Ej: Tipo de bebida que prefiere
Ordinal: Clasifican observaciones en categorías con un orden significativo pero no es posible determinar la diferencia numérica entre los valores. Ej: Riesgo: alto medio bajo
Niveles de Medición
De intervalo: Nivel ordinal donde podemos determinar magnitudes de diferencia entre los datos. El cero no indica ausencia de valor. Ej: Temperatura, Años
De razón: Nivel de intervalo modificado para que el cero indique un punto de partida Ej: Peso de equipaje, estatura de un niño
Ejercicio
Indique el nivel de medición utilizado: Preferencia de vehículo según su estilo:camion,
van,etc. Temperatura corporal de una muestra de clientes
enojados. Numero de cédula. Contenido de nicotina (mg) de un cigarrillo. Calificación de una cita a ciegas : sobresaliente, común
y horrible. Ingreso anual de los gerentes en una compañía.
Ejercicio
Indique el nivel de medición utilizado: Años en que ha ocurrido el Fenómeno “EL niño” Calificaciones finales : MB, B, R, P Automóviles descritos como subcompactos, compactos,
medianos o grandes. Temperatura del ambiente en el aula. Edad de los clientes. Año de nacimiento de sus padres
Presentación de datos en tablas y gráficos
Presentación de datos categóricos: Tabla resumen Gráficos: Barras, Pastel y Diagrama de Pareto
Presentación de datos numéricos Tabla de frecuencia Gráficos: Histograma, Polígono, Ojiva
Datos Categóricos
La tabla resumen indica la frecuencia, cantidad o porcentaje de objetos en un conjunto de categorías para observar las diferencias que hay entre ellas.
Nivel De Riesgo Número de Fondos Porcentaje
Bajo 58 47,93
Promedio 46 38,02
Alto 17 14,05
Total 121 100
Datos Categóricos
Gráficos de barras :Cada barra muestra una categoria, su longitud representa la cantidad, frecuencia o porcentaje de los valores que caen en cada categoría.
Nivel de Riesgo
0
20
40
60
80
Bajo Promedio Alto
Frec
uenc
ia
Datos Categóricos
Gráfico de Pastel: Es un círculo que se divide en partes para representar las categorías. El tamaño de cada rebanada varía de acuerdo con el porcentaje de cada categoría.
Alto 14%
Bajo 48%Promedio
38%
Los gastos de un estudiante en un semestre académico fueron: alimentación $600,alquiler $500, diversión $300, ropa $200, libros $200, otros $200. A partir de esta información: Construya una tabla resumen Dibuje un gráfico de barras de frecuencia y %.
Diagrama de Pareto
El principio de Pareto indica que en todo grupo de elementos o factores que contribuyen a un mismo efecto, unos pocos son responsables de la mayor parte de dicho efecto.
Diagrama de Pareto
Es un gráfico de barras, donde las categorías
son mostradas en orden descendente.
Un polígono acumulado se presenta en el
mismo gráfico. Utilizado para separar lo “poco vital” de lo
“mucho trivial”.
Pasos del desarrollo delDiagrama de Pareto
1. Ordenar los datos de mayor a menor frecuencia
2. Calcular el porcentaje y porcentaje acumulado.
3. Dibujar un gráfico de barras con las frecuencias.
4. Dibujar un eje secundario de %.
5. Trazar un gráfico lineal cuyos puntos representan el porcentaje acumulado.
6. Identificar los elementos más importantes.
Tabla de Pareto
Tipo de Inversión
Monto (en miles $)
Porcentaje (%)
% Acumulado
Acciones 46,50 42% 42%
Bonos Globales 32,00 29% 71%
Bonos Locales 16,00 15% 86%
Banco 15,50 14% 100%
Total 110,00 100%
Diagrama de Pareto
Ejemplo
Los siguientes datos presentan el tipo de daños en teclados defectuosos:
Realice el análisis de Pareto
Tipo de defecto Frecuencia
Mancha 413
Daño 1039
Impacto en el molde 275
Raya plateada 413
Hundimiento 371
Marca de spray 292
Ejemplo Un gran almacén con elevados costes por hurtos,
encargó a un grupo de trabajo a resolver el problema. Se recopiló la información por áreas con los siguientes resultados:
Sección Costo
Joyería 62
Alimentación 15
Perfumería 58
Electrodomésticos 22
Música 47
Ropa 16
Deportes 50
Hogar 14
Tablas y gráficos para datos categóricos
Datos Categóricos
Gráficos
Gráfica de pastel
Diagrama de Pareto
Gráfico de Barras
Tabulación de Datos
Tabla resumen
Arreglo Ordenado
Una secuencia de datos ordenados: Muestra el rango (min y max)
Provee el grado de variabilidad de los datos
Permite identificar observaciones inusuales
Si el conjunto de datos es grande, el arreglo ordenado es menos útil.
Datos recolectados :
24, 26, 24, 21, 27, 27, 30, 41, 32, 38
Datos en arreglo ordenado del menor al mayor:
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
Arreglo Ordenado
Diagrama Tallo y Hoja
Permite ver cómo se distribuyen y donde están las concentraciones de datos.
Se organiza los datos en grupos (llamados tallos), para que los valores dentro de cada grupo (las hojas) ramifiquen hacia la derecha de cada fila.
Ejemplo
Efectúe el diagrama de tallo hoja para los siguientes conjuntos de datos 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 613, 632, 658, 717,722, 750, 776, 827,841, 859, 863,
891,894, 906, 928, 933,955, 982, 1034, 1047,1056, 1140, 1169, 1224
Tallo Hoja 6 1 3 6
7 2 2 5 8
8 3 4 6 6 9 9
9 1 3 3 6 8
10 3 5 6
11 4 7
12 2
Datos:
613, 632, 658, 717,722, 750, 776, 827,841, 859, 863, 891,894, 906, 928, 933,955, 982, 1034, 1047,1056, 1140, 1169, 1224
Ejemplo 2
Los siguientes datos representan las cuotas en $ de cheques rechazados de una muestra de 23 bancos:
28 20 20 21 22 25 25 18 25 15 20
18 20 25 25 22 30 30 30 30 15 20 29 Coloque los datos en un arreglo ordenado Elabore un diagrama tallo hojas ¿Cuál de estos diagramas ofrece más información? ¿Alrededor de que valor se concentran los datos?
Ejemplo 3
El siguiente diagrama de tallo hojas representa la cantidad de gasolina (con un decimal) comprada en galones para una muestra de 25 autos
Coloque los datos en un arreglo ordenado ¿Cuál de estos diagramas ofrece más información? ¿Cuánta gasolina es más probable que se compre?
La distribución de frecuencias es una lista o una tabla…
Que contiene clases agrupadas (rangos en los cuales se ubican los datos ) ...
Y la correspondiente frecuencias.
Tabulación de datos numéricos: Distribución de frecuencias
Intervalos de clase
Cada clase tiene el mismo ancho y se lo calcula de la siguiente manera:
Se sugiere no menos de 5 pero no más de 15 agrupaciones. Número de clases=3.32*log(n)
Las clases nunca se traslapan.
clases de deseado número
rangointervalo de Ancho
Distribución de frecuencia
Ejemplo: Cierto fabricante selecciona aleatoriamente 20 días de invierno y toma la temperatura con los siguientes resultados :
24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Ordene los datos :12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Calcule el rango: 58 - 12 = 46
Seleccione el número de clases:5 (usualmente entre 5 y 15)
Calcule el ancho de clase: 10 (46/5 )
Determine los límites de clases: 10, 20, 30, 40, 50, 60
Calcule el punto medio de cada clase: 15, 25, 35, 45, 55
Cuente las observaciones y asigne a la clase que corresponda
Distribución de frecuencia
Distribución de frecuencia
Clase Frecuencia
10 pero menos que 20 3 .15 15
20 pero menos que 30 6 .30 30
30 pero menos que 40 5 .25 25
40 pero menos que 50 4 .20 20
50 pero menos que 60 2 .10 10
Total 20 1.00 100
Frecuencia Relativa Porcentaje
Datos ordenados
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Frecuencia Acumulada
Clase
10 pero menos que 20 3 15 3 15
20 pero menos que 30 6 30 9 45
30 pero menos que 40 5 25 14 70
40 pero menos que 50 4 20 18 90
50 pero menos que 60 2 10 20 100
Total 20 100
Porcentaje Porcentaje Acumulado
Datos ordenados:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Frecuencia
Frecuencia Acumulada
En cierto país se desea investigar el crecimiento de los jóvenes y se seleccionó una muestra aleatoria de 25 jóvenes y se los midió.
Construya la tabla de distribución de frecuencia incluyendo el porcentaje acumulado.
Gráfico de datos numéricos: Histograma
Gráfica de barras para datos numéricos agrupados en los que las frecuencias o los porcentajes de cada grupo de datos numéricos están representados por barras individuales.
El punto medio de cada clase se muestra en el eje de las x.
El eje vertical representa la frecuencia o el porcentaje de los valores por intervalo de clase.
Punto medio
Histograma
(Ningun espacio
entre barras)
Clase
10 pero menos que 20 15 3
20 pero menos que 30 25 6
30 pero menos que 40 35 5
40 pero menos que 50 45 4
50 pero menos que 60 55 2
FrecuenciaPunto
medio
Polígono de Frecuencia
Punto medio de clase
Clase
10 pero menos que 20 15 3
20 pero menos que 30 25 6
30 pero menos que 40 35 5
40 pero menos que 50 45 4
50 pero menos que 60 55 2
FrecuenciaPunto
Medio
En el polígono de porcentaje el eje vertical debería de estar definido como el porcentaje de las observaciones por clase)
Ejercicios
Polígono de frecuencia Acumulada
Límite de clases
Temperatura FrecFrec
Acum%
Acum
Menos que 10 0 0 0%
10 pero menos de 20 3 3 15%
20 pero menos de 30 6 9 45%
30 pero menos de 40 5 14 70%
40 pero menos de 50 4 18 90%
50 pero menos de 60 2 20 100%
Chap 1-53
Polígono de frecuencia Acumulada
Ojiva: Temperatura diaria
0
2
4
6
8
10
12
14
16
18
20
10 20 30 40 50 60
Límite de Clase
Fre
c. A
cum
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
% A
cum
.
A 40 estudiantes en la cafetería se les pidió que estimaran el número de horas que habían dedicado a estudiar en la semana anterior. El registro de respuestas aparece en la tabla.
Complete la tabla y dibuje la ojiva.
Tiempo de estudio semanal en horas Frecuencia
10 y menos que 20 6
20 y menos que 30 11
30 y menos que 40 9
40 y menos que 50 7
50 y menos que 60 4
60 y menos que 70 2
70 y menos que 80 1
Ejercicios
Datos Bivariados
Tabla de contingencia
Investment Investor A Investor B Investor C Total Category
Acciones 46.5 55 27.5 129
Bonos G. 32.0 44 19.0 95
Bonos Loc. 15.5 20 13.5 49
Bancos 16.0 28 7.0 51
Total 110.0 147 67.0 324
Gráfica de barras agrupadas
Datos Bivariados
Diagrama de Dispersión
Volumen por dia
Costo por dia
23 131
24 120
26 140
29 151
33 160
38 167
41 185
42 170
50 188
55 195
60 200
Permite examinar las posibles relaciones entre dos variable numéricas.
En el diagrama de dispersión , las variables pueden estar relacionadas de las siguientes formas:
0
50
100
150
200
250
300
350
0 50 100 150Variable A
Var
iabl
e B
0
20
40
60
80
100
120
140
160
0 50 100 150Variable A
Var
iabl
e B
Variable A aumenta y Variable B aumenta Variable A aumenta y variable B disminuye
Determine el tipo de relación que existe entre las siguientes variables: 1) Un almacén recopiló las ventas y gastos de publicidad de 5 de sus sucursales.
VENTAS GASTOS DE PUBLICIDAD
264000 550
384000 590
400200 680
422400 700
543000 750
2) Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la tabla se describen el nº de errores que corresponden a los intentos realizados.
Número de intentos
Número de errores
1 15
2 12
3 10
4 8
5 7
6 5
7 5
8 2
3) A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que figuran en la siguiente tabla:
Distancia (Km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3
Nota Prom. 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1
Diagrama de Serie de tiempo
AñoVentas
(miles $)
1996 43
1997 54
1998 60
1999 73
2000 82
2001 95
2002 107
2003 99
2004 95
Se usa para estudiar patrones de las variables a través del tiempo .
AñoTasa de
desempleo
1998 4,7
1999 4,3
2000 4
2001 4,2
2002 5,6
2003 5,9
2004 6
2005 6,1
2006 6
2007 6,5
Tasa de desempleo por año
0
2
4
6
8
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Año
Ta
sa
de
de
se
mp
leo
(%
)
Los datos de la siguiente tabla representan el promedio de espectadores de televisión por juego (en millones ) para la Liga de Futbol Nacional (NFL), Asociación Nacional de Basketball (NBA), la Liga de Baseball (MLB) y la Liga nacional de Jockey (NHL). Para cada uno de los cuatro deportes realice un
diagrama de series de tiempo. ¿Qué patrón si lo hay está presente en los datos ?
Año NFL NBA MLB NHL
1995 19,6 10,6 15,9 3,6
1996 18,5 10,2 9,8 3,2
1997 17,4 10,8 10,4 2,4
1998 18,1 7,8 9,4 2,6
1999 18,3 7,2 10 3,3
2000 17 6,7 7,7 2,8
2001 16,9 6,8 9,8 3,1
2002 18,6 5,8 8,9 2,6
Organización de Datos numéricos
Datos Numéricos
Arreglo Ordenado
Diagrama de Tallo-Hoja Histograma Polígono Ojiva
Distribución de Frecuencias
Uso inadecuado de gráficas y consideraciones éticas
Algunas directrices para desarrollar buenas gráficas son :
La gráfica no debe distorsionar los datos La gráfica no debería contener adornos
innecesarios Cualquier gráfica de dos dimensiones debe
contener una escala para cada eje. Todos los ejes deben estar debidamente
rotulados La gráfica debe tener un título
Los datos normalmente no son fáciles de usar para la toma de decisiones. Algunas organizaciones necesitan Tablas Gráficos
Las técnicas repasadas en este tema son:
Diagramas de barras, De pastel, De Pareto Arreglo ordenado y diagrama de tallo-hoja Distribuciones de frecuencia, histogramas y polígonos Distribuciones acumulativas y ojivas Tabla de contingencia y Gráficas de barras agrupadas Diagrama de dispersión y Serie de tiempo
Resumen