Introducción a La Estadistica I

32
INTRODUCCIÓN A LA ESTADISTICA Nimia Torres Julio-agosto, 2014 Maestría en Evaluación de la Calidad Educativa

description

material facilitado en el marco de una maestria en evaluacion, en la misma se encuentran los datos de la autora

Transcript of Introducción a La Estadistica I

  • INTRODUCCIN A LA ESTADISTICA

    Nimia TorresJulio-agosto, 2014

    Maestra en Evaluacin de la Calidad Educativa

  • Definicin

    La Estadstica es la Ciencia de la

    Recoleccin, sistematizacin, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de

    deducir las leyes que rigen esos fenmenos,

    y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.

  • Divisin de la Estadstica

    ESTADISTICA DESCRIPTIVA: se estudian los mtodos de recoleccin, elaboracin, anlisis bsico y presentacin de los datos numricos.

    INFERENCIA ESTADISTICA: Tiene por fin describir las caractersticas de un conjunto, estudiando solo una parte del mismo. Permite as llegar a conclusiones vlidas con el mnimo de recursos disponibles.

  • En la prctica....

    Cambia de nombre segn el campo de aplicacin..

    En el estudio de la poblacin humana...Estadstica Demogrfica

    En las ciencias biolgicas... Bioestadstica

    En el estudio de la economa... Estadstica Econmica

    En la educacin... Estadstica Educativa

  • Pasos en un estudio estadstico Plantear hiptesis sobre una poblacin

    Los fumadores tienen ms bajas laborales que los no fumadores En qu sentido? Mayor nmero? Tiempo medio?

    Decidir qu datos recoger (diseo de experimentos) Qu individuos pertenecern al estudio (muestras)

    Fumadores y no fumadores en edad laboral. Criterios de exclusin Cmo se eligen? Descartamos los que padecen

    enfermedades crnicas? Qu datos recoger de los mismos (variables)

    Nmero de bajas Tiempo de duracin de cada baja Sexo? Sector laboral? Otros factores?

    Recoger los datos (muestreo) Estratificado? Sistemticamente?

    Describir (resumir) los datos obtenidos tiempo medio de baja en fumadores y no (estadsticos) % de bajas por fumadores y sexo (frecuencias), grficos,...

    Realizar una inferencia sobre la poblacin Los fumadores estn de baja al menos 10 das/ao ms de media que los

    no fumadores.

    Cuantificar la confianza en la inferencia Nivel de confianza del 95%

  • Poblacin y muestra

    Poblacin o universo es el conjunto de individuos u objetos sobre el que estamos interesados en obtener conclusiones (posee una caracterstica comn observable). Es el nmero de elementos que definen la cobertura de un estudio.

    Normalmente es demasiado grande para poder abarcarlo.

    Muestra es una parte o subconjunto de la poblacin en estudio, al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin

    (individuos, unidades experimentales).

  • Dato: es el valor o respuesta que adquiere la variable en cada unidad de anlisis. Es el resultado de la observacin, entrevista o recopilacin en general.

    Informacin: es el resultado de los datos procesados de acuerdo a ciertos criterios objetivos. Sin datos no hay informacin

    Parmetro: es un valor obtenido para describir en forma resumida las caractersticas pertinentes o ms importantes acerca de una poblacin. Son las medidas de resumen de una poblacin, en tanto que las medidas de resumen de una muestra se llaman estadsticos o estimadores. Una poblacin puede tener muchas caractersticas y por tanto muchos parmetros.

    Otras definiciones

  • Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables.

    En los individuos de la poblacin paraguaya, de uno a otro es variable:

    El grupo sanguneo {A, B, AB, O}

    El nmero de hijos {0,1,2,3,...}

    La altura {162 ; 174; ...}

    Promedio aos de estudio {6, 10, 12, 13 ...}

    Variables

  • Clasificacin de las variablesa) SEGN SU NATURALEZA (TIPO)

    CUANTITATIVA CUALITATIVAEl valor de la variable se expresa Expresan una cualidad,por una cantidad, es de carcter caracterstica o atributo,numrico; el valor puede resultar sus datos se expresande contar o medir mediante una palabra,

    es no numrico.

    Sexo, nivel educativoDiscretas: Si toma valores enteros

    Nmero de hijos, Nmero alumnos aplazados

    Continuas: Si entre dos valores, son posibles infinitos valores intermedios.

    Altura, edad, peso

  • Clasificacin de las variablesb) SEGN SUS NIVELES DE MEDICION (ESCALA)

    Nominales:Variables que establecen la distincin de los elementos en diversas categoras, sin implicar algn orden entre ellas.Ej.: sexo, lugar de nacimiento

    Ordinales:

    Variables que implican orden entre sus categoras, pero no grados de distancia entre ellas; estn referidas a un orden o jerarqua.

    Ej.: grado de instruccin, clases sociales

    De intervalo:Variables que suponen a la vez orden y grados de distancia iguales entre las diversas categoras, pero no tienen un origen natural, sino convencional, tiene un cero relativo.Ej.: coeficiente de inteligencia, temperatura, puntuacin de una escala

    De razn:Las variables comprenden a la vez a

    todos los casos anteriores, distincin, orden, distancia y origen nico natural; el valor se expresa con un nmero real,tiene un cero absoluto.

    Ej.: edad, peso, ingresos, n de hijos

  • La investigacin estadstica

    Objetivo: Descubrir respuestas a determinadas interrogantes a travs de la aplicacin de procedimientos cientficos.

    Punto de partida: existencia de un problema que habr que definir, examinar, valorar y analizar crticamente, para poder formular y entender su solucin

    La investigacin estadstica se preocupa de la confiabilidad, validez y significacin de los datos, de las muestras, as como de los mtodos y tcnicas de recoleccin y anlisis estadstico

  • 1. Definicin del problema, que da origen al estudio o investigacin, de sus objetivos y de la poblacin

    2. Planeamiento y ejecucin de la recoleccin de datos

    3. Elaboracin y presentacin de los datos

    4. Anlisis e interpretacin de los resultados

    5. Formulacin de conclusiones y preparacin del informe

    Etapas de la investigacin estadstica

  • Fuentes de datos

    Primarias

    Corresponden a la investigacin

    estadstica, permite obtener datos originales, intencionales y de 1 mano:

    Censos

    Encuestas

    Elementos o sujetos(poblacin o muestra)

    Secundarias

    Son de tipo administrativo

    Registros administrativos (Registro Civil, padrones electorales de contribuyentes, etc.)

    Documentos (estudios o publicaciones de organismos especializados)

    Oficinas de estadsticas

    MEC, MSPyBS, etc.

  • Mtodos de recoleccin de datos

    Se puede realizar mediante dos modalidades:

    Investigacin documental o bibliogrfica

    Trabajo de campo

    Observacin:

    Entrevistas:

    Es uno de los puntos principales de la investigacin, por lo que debe evitarse las desviaciones y falta de representatividad.

    Conteo o medicin en el laboratorio o en el campo, sin intervencin alguna

    Datos suministrados por otras personas, calidad depende del encuestador, entrevista directa, correo o telfono

  • Muestreo

    Tcnicas de muestreo

    No probabilstico Probabilstico

    Por conveniencia

    Por juicio

    Por Cuota

    De bola de nieve

    Sistemtico Estratificado Conglomerados OtrasMuestreo aleatorio simple (MAS)

  • ELABORACION DE LOS DATOS

    Organizacin

    y

    Presentacin de los datos

  • Principios generales

    Luego de la recopilacin, se tiene una gran cantidad de datos, algunas veces estn en su forma natural (fuentes primarias) y otras ya estn organizadas (fuentes secundarias).

    Para facilitar el anlisis estadstico y la interpretacin de las caractersticas socioeconmicas, es necesario organizar los datos.

  • Pasos generales para la organizacin y presentacin de los datos estadsticos

    Evaluacin y crtica: Revisin de los datos, para corregir errores, omisiones e incongruencias.

    Codificacin: Trascripcin o resumen de las respuestas a cdigos (letras o nmeros). Implica la definicin de criterios de clasificacin y de categorizacin de las variables con miras a formular el plan de tabulaciones.

    Clasificacin: establecimiento de las categoras de las variables

    Procesamiento o tabulacin de los datos: registro y ordenacin del nmero de casos (frecuencia o repeticin) en cada una de las categoras de la variable, de acuerdo al plan de tabulaciones previamente establecido.

    Unidimensional: sexo, edad, nivel educativo, etc.

    Bidimensional: sexo y edad del alumno, sueldo y nivel educativo, etc.

    Presentacin de los datos: presentacin de los resultados de la tabulacin en cuadros, tablas y grficos.

  • Lo ideal es codificar las variables con nmeros para poder procesarlas con facilidad en una computadora.

    Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos. Sexo (Cualit: Cdigos arbitrarios)

    1 = Hombre 2 = Mujer

    Raza (Cualit: Cdigos arbitrarios) 1 = Blanca 2 = Negra,...

    Felicidad Ordinal: Respetar un orden al codificar.

    1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz

    Se pueden asignar cdigos a respuestas especiales como

    0 = No sabe 99 = No contesta...

    Estas situaciones debern ser tenidas en cuenta en el anlisis. Datos perdidos(missing data)

  • Aunque se codifiquen como nmeros, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de clculo estadstico.

  • Tabulacin de los datos

    El resultado de la tabulacin son las llamadas distribuciones de frecuencias

    Puede llevarse a cabo en forma

    Manual: Ej. de los palotes (eficiente solo con pocos datos)

    Mecnica

    Electrnica

    El plan de tabulaciones debe hacerse en la etapa del diseo de la investigacin, porque debe coincidir con sus objetivos

  • Distribuciones o tablas de frecuencias

    Es un conjunto de elementos ordenado, resumido o distribuido en las diferentes categoras de una caracterstica determinada.

    La suma de las frecuencias o elementos de todas las categoras de la misma caracterstica, debe ser igual al nmero de elementos o unidades que estn en observacin. Por ellos la importancia de que las categoras sean exhaustivas y mutuamente excluyentes.

  • Exhaustivo: No podemos olvidar ningn posible valor de la variable

    Mal: Cul es su color del pelo: (Rubio, Negro)?

    Bien: Cul es su grupo sanguneo?

    Excluyente: Nadie puede presentar dos valoressimultneos de la variable

    Estudio sobre el ocio

    Mal: De los siguientes, qu le gusta: (deporte, cine)?

    Bien: Le gusta el deporte: (S, No)

    Bien: Le gusta el cine: (S, No)

    Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)

  • Presentacin de los datos

    En forma tabular: cuadros y tablas estadsticas

    Mediante grficos y diagramas

    Los grficos se utilizan en forma complementaria para ilustrar mediante figuras el comportamiento de las variables y facilitar la comprensin de los fenmenos estudiados.

  • 01

    2

    3

    4

    5

    6

    7

    Hombre Mujer

    Las tablas de frecuencias y las representaciones grficas son dos maneras equivalentes de presentar la informacin. Las dos exponen ordenadamente la informacin recogida en una muestra.

    Gnero Frec.

    Hombre 4

    Mujer 6

    Presentacin de los datos

  • Tablas de frecuencia

    Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad

    Frecuencias relativas (porcentajes): el nmero de individuos de cada modalidad dividido por el total (por 100)

    Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas Muy tiles para calcular cuantiles (se ver ms adelante)

  • Nivel de fel icidad

    467 30,8 31,1 31,1

    872 57,5 58,0 89,0

    165 10,9 11,0 100,0

    1504 99,1 100,0

    13 ,9

    1517 100,0

    Muy f eliz

    Bastante f eliz

    No demasiado f eliz

    Total

    Vlidos

    No contestaPerdidos

    Total

    Frecuencia Porcentaje

    Porcentaje

    v lido

    Porcentaje

    acumulado

    Sexo del encuestado

    636 41,9 41,9

    881 58,1 58,1

    1517 100,0 100,0

    Hombre

    Mujer

    Total

    Vlidos

    Frecuencia Porcentaje

    Porcentaje

    v lido

    Nmero de hijos

    419 27,6 27,8 27,8

    255 16,8 16,9 44,7

    375 24,7 24,9 69,5

    215 14,2 14,2 83,8

    127 8,4 8,4 92,2

    54 3,6 3,6 95,8

    24 1,6 1,6 97,3

    23 1,5 1,5 98,9

    17 1,1 1,1 100,0

    1509 99,5 100,0

    8 ,5

    1517 100,0

    0

    1

    2

    3

    4

    5

    6

    7

    Ocho o ms

    Total

    Vlidos

    No contestaPerdidos

    Total

    Frecuencia Porcentaje

    Porcentaje

    v lido

    Porcentaje

    acumulado

    Tablas de frecuencia

    Qu porcentaje de individuos tiene menos de 3 hijos?

    Entre 4 y 6 hijos?

  • Datos desordenados y ordenados en tablas

    Variable: Sexo Categoras:

    H = Hombre

    M = Mujer

    Muestra:

    M H H M M H M M M H

    equivale aHHHH MMMMMM

    Gnero Frec. Frec. relat.

    porcentaje

    Hombre 4 4/10=0,4=40%

    Mujer 6 6/10=0,6=60%

    10=tamao muestral

  • Nmero de hijos

    419 27,8 27,8

    255 16,9 44,7

    375 24,9 69,5

    215 14,2 83,8

    127 8,4 92,2

    54 3,6 95,8

    24 1,6 97,3

    23 1,5 98,9

    17 1,1 100,0

    1509 100,0

    0

    1

    2

    3

    4

    5

    6

    7

    Ocho+

    Total

    Frec.

    Porcent.

    (v lido)

    Porcent.

    acum.

    Ejemplo

    Qu porcentaje de individuos tiene 6 hijos o menos?

    Cuntos individuos tienen menos de 2 hijos?

    Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?

  • Nmero de hijos

    419 27,8 27,8

    255 16,9 44,7

    375 24,9 69,5

    215 14,2 83,8

    127 8,4 92,2

    54 3,6 95,8

    24 1,6 97,3

    23 1,5 98,9

    17 1,1 100,0

    1509 100,0

    0

    1

    2

    3

    4

    5

    6

    7

    Ocho+

    Total

    Frec.

    Porcent.

    (v lido)

    Porcent.

    acum.

    Ejemplo

    Qu porcentaje de individuos tiene 6 hijos o menos?

    50%

    Cuntos individuos tienen menos de 2 hijos?

    frec. indiv. sin hijos +

    frec. indiv. con 1 hijo = 419 + 255= 674 individuos

    Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?

    97,3%

    2 hijos

  • Cuando realizamos el estudio emprico de una variable se suelemanejar un gran nmero de datos; a veces, incluso, la variable puedeser de naturaleza continua. Ambas razones unidas o por separadoobligan a la elaboracin de dos tipos de distribuciones de frecuencias:

    la distribucin no agrupada (asocia a cada valor de la variable consu frecuencia absoluta) y

    la distribucin agrupada en intervalos (en los que se agrupan losvalores de la caracterstica que se est analizando, producindoseuna prdida de informacin que queda compensada al facilitar losclculos sobre la distribucin).

    Observacin

  • Cuadros estadsticos

    Partes principales:

    Nmero del cuadro: Ej.: Cuadro N 1.2.

    Ttulo: descripcin resumida del contenido del cuadro.

    Encabezamiento: descripcin de las filas y columnas, se ubica en la parte superior del cuerpo del cuadro. Indica las variables y sus categoras

    Cuerpo: contenido numrico del cuadro

    Nota de pie o llamadas: se usa para aclarar algunos trminos o siglas, y elementos incluidos o no en algunos conceptos

    Fuente: indicacin al pie del cuadro que indica de donde se obtuvieron los datos (publicacin, institucin, estudio, etc.)

    Nota de unidad de medida: se escribe debajo del ttulo original cuando se abrevia la escritura de las cifras y para expresar en que unidades est expresada la variable