Post on 09-Nov-2015
description
INTRODUCCIN A LA ESTADISTICA
Nimia TorresJulio-agosto, 2014
Maestra en Evaluacin de la Calidad Educativa
Definicin
La Estadstica es la Ciencia de la
Recoleccin, sistematizacin, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de
deducir las leyes que rigen esos fenmenos,
y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
Divisin de la Estadstica
ESTADISTICA DESCRIPTIVA: se estudian los mtodos de recoleccin, elaboracin, anlisis bsico y presentacin de los datos numricos.
INFERENCIA ESTADISTICA: Tiene por fin describir las caractersticas de un conjunto, estudiando solo una parte del mismo. Permite as llegar a conclusiones vlidas con el mnimo de recursos disponibles.
En la prctica....
Cambia de nombre segn el campo de aplicacin..
En el estudio de la poblacin humana...Estadstica Demogrfica
En las ciencias biolgicas... Bioestadstica
En el estudio de la economa... Estadstica Econmica
En la educacin... Estadstica Educativa
Pasos en un estudio estadstico Plantear hiptesis sobre una poblacin
Los fumadores tienen ms bajas laborales que los no fumadores En qu sentido? Mayor nmero? Tiempo medio?
Decidir qu datos recoger (diseo de experimentos) Qu individuos pertenecern al estudio (muestras)
Fumadores y no fumadores en edad laboral. Criterios de exclusin Cmo se eligen? Descartamos los que padecen
enfermedades crnicas? Qu datos recoger de los mismos (variables)
Nmero de bajas Tiempo de duracin de cada baja Sexo? Sector laboral? Otros factores?
Recoger los datos (muestreo) Estratificado? Sistemticamente?
Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadsticos) % de bajas por fumadores y sexo (frecuencias), grficos,...
Realizar una inferencia sobre la poblacin Los fumadores estn de baja al menos 10 das/ao ms de media que los
no fumadores.
Cuantificar la confianza en la inferencia Nivel de confianza del 95%
Poblacin y muestra
Poblacin o universo es el conjunto de individuos u objetos sobre el que estamos interesados en obtener conclusiones (posee una caracterstica comn observable). Es el nmero de elementos que definen la cobertura de un estudio.
Normalmente es demasiado grande para poder abarcarlo.
Muestra es una parte o subconjunto de la poblacin en estudio, al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin
(individuos, unidades experimentales).
Dato: es el valor o respuesta que adquiere la variable en cada unidad de anlisis. Es el resultado de la observacin, entrevista o recopilacin en general.
Informacin: es el resultado de los datos procesados de acuerdo a ciertos criterios objetivos. Sin datos no hay informacin
Parmetro: es un valor obtenido para describir en forma resumida las caractersticas pertinentes o ms importantes acerca de una poblacin. Son las medidas de resumen de una poblacin, en tanto que las medidas de resumen de una muestra se llaman estadsticos o estimadores. Una poblacin puede tener muchas caractersticas y por tanto muchos parmetros.
Otras definiciones
Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables.
En los individuos de la poblacin paraguaya, de uno a otro es variable:
El grupo sanguneo {A, B, AB, O}
El nmero de hijos {0,1,2,3,...}
La altura {162 ; 174; ...}
Promedio aos de estudio {6, 10, 12, 13 ...}
Variables
Clasificacin de las variablesa) SEGN SU NATURALEZA (TIPO)
CUANTITATIVA CUALITATIVAEl valor de la variable se expresa Expresan una cualidad,por una cantidad, es de carcter caracterstica o atributo,numrico; el valor puede resultar sus datos se expresande contar o medir mediante una palabra,
es no numrico.
Sexo, nivel educativoDiscretas: Si toma valores enteros
Nmero de hijos, Nmero alumnos aplazados
Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
Altura, edad, peso
Clasificacin de las variablesb) SEGN SUS NIVELES DE MEDICION (ESCALA)
Nominales:Variables que establecen la distincin de los elementos en diversas categoras, sin implicar algn orden entre ellas.Ej.: sexo, lugar de nacimiento
Ordinales:
Variables que implican orden entre sus categoras, pero no grados de distancia entre ellas; estn referidas a un orden o jerarqua.
Ej.: grado de instruccin, clases sociales
De intervalo:Variables que suponen a la vez orden y grados de distancia iguales entre las diversas categoras, pero no tienen un origen natural, sino convencional, tiene un cero relativo.Ej.: coeficiente de inteligencia, temperatura, puntuacin de una escala
De razn:Las variables comprenden a la vez a
todos los casos anteriores, distincin, orden, distancia y origen nico natural; el valor se expresa con un nmero real,tiene un cero absoluto.
Ej.: edad, peso, ingresos, n de hijos
La investigacin estadstica
Objetivo: Descubrir respuestas a determinadas interrogantes a travs de la aplicacin de procedimientos cientficos.
Punto de partida: existencia de un problema que habr que definir, examinar, valorar y analizar crticamente, para poder formular y entender su solucin
La investigacin estadstica se preocupa de la confiabilidad, validez y significacin de los datos, de las muestras, as como de los mtodos y tcnicas de recoleccin y anlisis estadstico
1. Definicin del problema, que da origen al estudio o investigacin, de sus objetivos y de la poblacin
2. Planeamiento y ejecucin de la recoleccin de datos
3. Elaboracin y presentacin de los datos
4. Anlisis e interpretacin de los resultados
5. Formulacin de conclusiones y preparacin del informe
Etapas de la investigacin estadstica
Fuentes de datos
Primarias
Corresponden a la investigacin
estadstica, permite obtener datos originales, intencionales y de 1 mano:
Censos
Encuestas
Elementos o sujetos(poblacin o muestra)
Secundarias
Son de tipo administrativo
Registros administrativos (Registro Civil, padrones electorales de contribuyentes, etc.)
Documentos (estudios o publicaciones de organismos especializados)
Oficinas de estadsticas
MEC, MSPyBS, etc.
Mtodos de recoleccin de datos
Se puede realizar mediante dos modalidades:
Investigacin documental o bibliogrfica
Trabajo de campo
Observacin:
Entrevistas:
Es uno de los puntos principales de la investigacin, por lo que debe evitarse las desviaciones y falta de representatividad.
Conteo o medicin en el laboratorio o en el campo, sin intervencin alguna
Datos suministrados por otras personas, calidad depende del encuestador, entrevista directa, correo o telfono
Muestreo
Tcnicas de muestreo
No probabilstico Probabilstico
Por conveniencia
Por juicio
Por Cuota
De bola de nieve
Sistemtico Estratificado Conglomerados OtrasMuestreo aleatorio simple (MAS)
ELABORACION DE LOS DATOS
Organizacin
y
Presentacin de los datos
Principios generales
Luego de la recopilacin, se tiene una gran cantidad de datos, algunas veces estn en su forma natural (fuentes primarias) y otras ya estn organizadas (fuentes secundarias).
Para facilitar el anlisis estadstico y la interpretacin de las caractersticas socioeconmicas, es necesario organizar los datos.
Pasos generales para la organizacin y presentacin de los datos estadsticos
Evaluacin y crtica: Revisin de los datos, para corregir errores, omisiones e incongruencias.
Codificacin: Trascripcin o resumen de las respuestas a cdigos (letras o nmeros). Implica la definicin de criterios de clasificacin y de categorizacin de las variables con miras a formular el plan de tabulaciones.
Clasificacin: establecimiento de las categoras de las variables
Procesamiento o tabulacin de los datos: registro y ordenacin del nmero de casos (frecuencia o repeticin) en cada una de las categoras de la variable, de acuerdo al plan de tabulaciones previamente establecido.
Unidimensional: sexo, edad, nivel educativo, etc.
Bidimensional: sexo y edad del alumno, sueldo y nivel educativo, etc.
Presentacin de los datos: presentacin de los resultados de la tabulacin en cuadros, tablas y grficos.
Lo ideal es codificar las variables con nmeros para poder procesarlas con facilidad en una computadora.
Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos. Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre 2 = Mujer
Raza (Cualit: Cdigos arbitrarios) 1 = Blanca 2 = Negra,...
Felicidad Ordinal: Respetar un orden al codificar.
1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz
Se pueden asignar cdigos a respuestas especiales como
0 = No sabe 99 = No contesta...
Estas situaciones debern ser tenidas en cuenta en el anlisis. Datos perdidos(missing data)
Aunque se codifiquen como nmeros, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de clculo estadstico.
Tabulacin de los datos
El resultado de la tabulacin son las llamadas distribuciones de frecuencias
Puede llevarse a cabo en forma
Manual: Ej. de los palotes (eficiente solo con pocos datos)
Mecnica
Electrnica
El plan de tabulaciones debe hacerse en la etapa del diseo de la investigacin, porque debe coincidir con sus objetivos
Distribuciones o tablas de frecuencias
Es un conjunto de elementos ordenado, resumido o distribuido en las diferentes categoras de una caracterstica determinada.
La suma de las frecuencias o elementos de todas las categoras de la misma caracterstica, debe ser igual al nmero de elementos o unidades que estn en observacin. Por ellos la importancia de que las categoras sean exhaustivas y mutuamente excluyentes.
Exhaustivo: No podemos olvidar ningn posible valor de la variable
Mal: Cul es su color del pelo: (Rubio, Negro)?
Bien: Cul es su grupo sanguneo?
Excluyente: Nadie puede presentar dos valoressimultneos de la variable
Estudio sobre el ocio
Mal: De los siguientes, qu le gusta: (deporte, cine)?
Bien: Le gusta el deporte: (S, No)
Bien: Le gusta el cine: (S, No)
Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)
Presentacin de los datos
En forma tabular: cuadros y tablas estadsticas
Mediante grficos y diagramas
Los grficos se utilizan en forma complementaria para ilustrar mediante figuras el comportamiento de las variables y facilitar la comprensin de los fenmenos estudiados.
01
2
3
4
5
6
7
Hombre Mujer
Las tablas de frecuencias y las representaciones grficas son dos maneras equivalentes de presentar la informacin. Las dos exponen ordenadamente la informacin recogida en una muestra.
Gnero Frec.
Hombre 4
Mujer 6
Presentacin de los datos
Tablas de frecuencia
Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad
Frecuencias relativas (porcentajes): el nmero de individuos de cada modalidad dividido por el total (por 100)
Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas Muy tiles para calcular cuantiles (se ver ms adelante)
Nivel de fel icidad
467 30,8 31,1 31,1
872 57,5 58,0 89,0
165 10,9 11,0 100,0
1504 99,1 100,0
13 ,9
1517 100,0
Muy f eliz
Bastante f eliz
No demasiado f eliz
Total
Vlidos
No contestaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
v lido
Porcentaje
acumulado
Sexo del encuestado
636 41,9 41,9
881 58,1 58,1
1517 100,0 100,0
Hombre
Mujer
Total
Vlidos
Frecuencia Porcentaje
Porcentaje
v lido
Nmero de hijos
419 27,6 27,8 27,8
255 16,8 16,9 44,7
375 24,7 24,9 69,5
215 14,2 14,2 83,8
127 8,4 8,4 92,2
54 3,6 3,6 95,8
24 1,6 1,6 97,3
23 1,5 1,5 98,9
17 1,1 1,1 100,0
1509 99,5 100,0
8 ,5
1517 100,0
0
1
2
3
4
5
6
7
Ocho o ms
Total
Vlidos
No contestaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
v lido
Porcentaje
acumulado
Tablas de frecuencia
Qu porcentaje de individuos tiene menos de 3 hijos?
Entre 4 y 6 hijos?
Datos desordenados y ordenados en tablas
Variable: Sexo Categoras:
H = Hombre
M = Mujer
Muestra:
M H H M M H M M M H
equivale aHHHH MMMMMM
Gnero Frec. Frec. relat.
porcentaje
Hombre 4 4/10=0,4=40%
Mujer 6 6/10=0,6=60%
10=tamao muestral
Nmero de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
Porcent.
(v lido)
Porcent.
acum.
Ejemplo
Qu porcentaje de individuos tiene 6 hijos o menos?
Cuntos individuos tienen menos de 2 hijos?
Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?
Nmero de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
Porcent.
(v lido)
Porcent.
acum.
Ejemplo
Qu porcentaje de individuos tiene 6 hijos o menos?
50%
Cuntos individuos tienen menos de 2 hijos?
frec. indiv. sin hijos +
frec. indiv. con 1 hijo = 419 + 255= 674 individuos
Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?
97,3%
2 hijos
Cuando realizamos el estudio emprico de una variable se suelemanejar un gran nmero de datos; a veces, incluso, la variable puedeser de naturaleza continua. Ambas razones unidas o por separadoobligan a la elaboracin de dos tipos de distribuciones de frecuencias:
la distribucin no agrupada (asocia a cada valor de la variable consu frecuencia absoluta) y
la distribucin agrupada en intervalos (en los que se agrupan losvalores de la caracterstica que se est analizando, producindoseuna prdida de informacin que queda compensada al facilitar losclculos sobre la distribucin).
Observacin
Cuadros estadsticos
Partes principales:
Nmero del cuadro: Ej.: Cuadro N 1.2.
Ttulo: descripcin resumida del contenido del cuadro.
Encabezamiento: descripcin de las filas y columnas, se ubica en la parte superior del cuerpo del cuadro. Indica las variables y sus categoras
Cuerpo: contenido numrico del cuadro
Nota de pie o llamadas: se usa para aclarar algunos trminos o siglas, y elementos incluidos o no en algunos conceptos
Fuente: indicacin al pie del cuadro que indica de donde se obtuvieron los datos (publicacin, institucin, estudio, etc.)
Nota de unidad de medida: se escribe debajo del ttulo original cuando se abrevia la escritura de las cifras y para expresar en que unidades est expresada la variable