Modulo I Complementario

69
Clase 2: Clase 2: MÉTODOS DE INVESTIGACIÓN MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE BASADOS EN EL ANÁLISIS DE VARIABLES. VARIABLES. ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA DESCRIPTIVA METODOLOGÍA DE INVESTIGACIÓN METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia Titular: Agustín Salvia

Transcript of Modulo I Complementario

  • Clase 2: MTODOS DE INVESTIGACIN BASADOS EN EL ANLISIS DE VARIABLES. ESTADSTICA DESCRIPTIVAMETODOLOGA DE INVESTIGACINTitular: Agustn Salvia

  • Medicin de variablesVariable: cualidad o caracterstica de un objeto (o evento) que contenga, al menos, dos atributos en los que pueda clasificarse un objeto o eventoMedicin de una variable: asignar valores o categoras a las distintas caractersticas que conforman el objeto de estudioRequisitos bsicos:Exhaustividad: debe comprender el mayor nmero de atributos posible. Toda observacin debe ser clasificadaExclusividad: los distintos atributos de la variable deben ser mutuamente excluyentes. Una observacin solo puede clasificarse en trminos de un solo atributoPrecisin: realizar el mayor nmero de distinciones posibles. Las categoras pueden agruparse ms tarde, el camino inverso no es posible...

  • Tipologa segn el nivel de medicin

    Variables Nominales:Ejemplos: sexo, nacionalidad, estado ocupacional, grupo sanguneo, partido poltico, estado civil, religin, plan social al que pertenece, localidad donde reside, etc.No se puede establecer ningn tipo de relacin Anlisis estadstico limitado

  • Tipologa segn el nivel de medicin

    Variables Ordinales:Ejemplos: estrato social, orden de mrito, nivel educativo, opinin acerca de un hecho/situacin/gobiernoLos atributos, adems de poseer las caractersticas mencionadas, tienen la propiedad de poder establecer un ordenNo puede conocerse la magnitud de la diferencia entre un atributo y otroSon variables no mtricas o cualitativasAnlisis estadstico limitado

  • Tipologa segn el nivel de medicin

    Variables Cuantitativas o mtricas:Variables de intervalo:Adems de establecer un orden, la diferencia entre dos atributos puede cuantificarseLa distancia que separa a personas de 15 y 16 aos, es la misma que la existente entre personas de 72 y 73 aosPermite realizar la mayora de las operaciones aritmticasEjemplos: temperatura en CNo tiene cero absoluto. El cero no implica la ausencia de atributo

  • Tipologa segn el nivel de medicin

    Variables Cuantitativas o mtricas:Variables de razn:Adems de las caractersticas de las variables de intervalo, se suma la posibilidad de contar con un cero absolutoEl cero absoluto indica ausencia de la caractersticaPermite clculo de proporcionesPermite realizar cualquier operacin aritmticaEjemplos: ingreso, altura, peso, nmero de habitantes, todas las variables que consideren tiempo y distancia

  • Tipologa segn el nivel de medicin

    Variables Cuantitativas o mtricas:Variables discretas:Entre dos valores dados, no existen valores intermedios Ejemplos: nmero de hijos, nmero de elementos vendidos, nmero de beneficiarios de un planVariables continuas:Entre dos valores dados, existen valores intermedios Ejemplos: edad, peso, altura, ingreso

  • HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

  • La organizacin de los datosDistribucin de frecuenciasDistribucin porcentualDistribucin acumuladaProporcionesRazonesRepresentaciones grficas

  • HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVACantos jvenes de 15 a 29 aos del total del pas estn en hogares en situacin de pobreza?

    Indicador: hogares por debajo de la lnea de Pobreza

    Fuente: EPH

    Variable : lphogD85 (hogar bajo la lnea de pobreza)

    Valores : 1 SI (hogar pobre) 2 NO (hogar no pobre)

  • N nmero de casossuma de las respectivas frecuencias de cada dato (N=Xi). frecuencia totalTabla de distribucin de frecuencias

    Resume en una tabla la informacin de la muestra

  • Valores / Categoras frecuencias absolutas :(fi.) representan el nmero de veces que aparece cada valor de la variableTabla de distribucin de frecuencias

    Variable

  • frecuencias relativas: (fr) Representan la relacin entre la frecuencia absoluta y el tamao de la muestra. (porcentajes y proporciones)

    Tabla de distribucin de frecuencias

  • frecuencia relativa acumulada: relacin entre la frecuencia absoluta acumulada dividido por el tamao de la muestra (N).Tabla de distribucin de frecuencias

  • Otras medidas resumenProporciones: es el cociente entre la frecuencia absoluta del valor y el N fi Valor (1) 7389959 N 23523661 La proporcin de jvenes pbres es de 0,31Razones: es el cociente entre la frecuencia absoluta de un valor y la frecuencia absoluta del otrofi Valor 2 16133702 fi Valor 1 7389959 2,18Hay 1 jven pobre por cada 2 jvenes no pobres

  • GRFICOS ESTADSTICOSDiagrama de barras: Se utilizan rectngulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia absoluta o relativa de ese dato. fifr

  • Grfica de Torta: Se forma al dividir un crculo en sectores de manera que: a)cada sector equivale al porcentaje correspondiente al dato o grupo que representa; y b)la unin de los sectores forma el crculo y la suma de sus porcentajes es 100. GRFICOS ESTADSTICOS

  • HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

    INFORMACIN RESUMEN DE VARIABLES ALEATORIASFormas ms compactas para caracterizar las distribucionesTENDENCIA CENTRALHETEROGENEIDAD O DESVOFORMA DE LA DISTRIBUCIN

  • Medidas de tendencia centralRefiere a los valores de las variables que suelen estar en el centro de la distribucin.

    Posicin donde se centra una distribucin en una escala de valores

    ModaMediana Media

  • TEMPORARY .SELECT IF (h12>25 AND h12
  • Unimodal Bimodal

  • MedianaEs el punto o valor numrico que deja por debajo (y por encima) a la mitad de las puntuaciones de la de la distribucin

    La mediana se calcula en primer lugar ordenando los datos y luego:

    - Si el nmero de datos es impar, la mediana es el dato central- Si el nmero de datos es par, la mediana se considera como el promedio de los dos datos centrales

    Medidas de tendencia central

  • Mediana

    Medidas de tendencia central

  • Medidas de tendencia centralVARIABLE CUANTITATIVAMediana

  • Medidas de tendencia centralMediaLa MEDIA ARITMTICA O PROMEDIO es una medida estadstica de tendencia central. De una cantidad finita de nmeros, es igual a la suma de todos ellos dividida entre el nmero de sumandos.

    Tambin la media aritmtica puede ser denominada como centro de gravedad de una distribucin, el cual no es necesariamente la mitad.

  • Propiedades de la media

    La media es sensible al valor exacto de todos los datos en la distribucinLa suma de las desviaciones con respecto a la media es ceroLa media es muy sensible a los datos extremosNOTA:Dado que cualquier valor extremo distorsiona la media aritmtica, no es una buena medida de tendencia central en esas circunstancias. Por ello en presencia de valores extremos, es mas apropiado usar la mediana como medida de tendencia central. La mediana no se afecta con la presencia de valores extremos.

  • Medidas de posicin no centralesPercentiles/cuartiles/deciles/n tiles

  • Medidas de posicin no centralesPercentiles/cuartiles/deciles/n tilesPercentil 1Percentil 992 CuartilPercentil 505 decil1 Cuartil3 Cuartil1 decilDecil 10

  • Medidas de posicin. Ejemplo. Ingreso horario

  • Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variacin de ingresos entre familias.Estamos interesados en la dispersin o variabilidad de los ingresos, adems de estarlo en sus centros. Distribucin con baja dispersinDistribucin con alta dispersinMedidas de Dispersin

  • Medidas de DispersinLos datos tambin se deben caracterizar en trminos de su dispersin o variabilidad.

    Las medidas de variabilidad cuantifican la extensin de la dispersin

    La variabilidad tiene que ver con qu tan alejados estn los datos de la media.

  • Medidas de dispersin / desviacin respecto a la mediaMiden el grado de cercana o lejana de las puntuaciones respecto a la mediaPermiten describir el grado de homogeneidad / heterogeneidad de la distribucin de una variable

    Mximo y MnimoRangoAmplitud IntercuartlicaVarianzaDesvo tpicoCoeficiente de variabilidad

  • Medidas de dispersin / desviacin respecto a la mediaMnimo Mximo rango o recorrido y amplitud intercuartlica

    MnimoMximoMximo - Mnimo2240 - 20 = 2220

    rango o recorridoDistancia entre el mximo valor y el mnimo valor que puede asumir la variable

    Amplitud intercuartlicaDistancia entre el valor del primer cuartil y el valor del tercero3cuartil - 1cuartil800 - 300 = 500

  • Medidas de dispersin / desviacin respecto a la mediaVarianza y desvo tpico

    La desviacin estndar (o desviacin tpica) y la varianza son medidas de dispersin para variables de razn y de intervalo. Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmtica, expresada en las mismas unidades de medida que la variable de origen. Ambas medidas estn estrechamente relacionadas ya que se define una a partir de la otra.

    N: 54(Xi u)2

  • Medidas de dispersin / desviacin respecto a la mediaVarianza y desvo tpico

    (Xi u)2Expresin de la varianza:(Xi u)2(Xi u)2(Xi u)2(Xi u)2XExpresin de la desviacin estndar:N: 54

  • Medidas de dispersin / desviacin respecto a la mediaEn dos poblaciones con distinta media qu grupo presenta mayor heterogeneidad ???????

  • Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de datos con medias diferentes. El coeficiente de variabilidad es una medida relativa que se expresa en porcentaje en vez de en trminos de las unidades de los datos.Es una forma de estandarizar el desvoIndica la relacin entre el desvo y la media

    Medidas de dispersin / desviacin respectoa la mediaCoeficiente de variabilidad

  • Coeficiente de variabilidadMedidas de dispersin / desviacin respecto a la mediaSXSi se multiplica por 100 se obtiene el grado de variabilidad respecto de la media4,3 / 21,9= 0,19Existe una variabillidad de + - 19% respecto de la mediaEl coeficiente de variacin mide la dispersin con relacin a la media y se calcula dividiendo la desviacin estndar por la media, multiplicando este resultado por 100.

  • CV= S/X M= 477,6 / 441,7 V= 723 / 688,9 1,051,08Medidas de dispersin / desviacin respecto a la media

  • Una tercera caracterstica de un conjunto de datos es la forma, es decir, la manera en que estn distribuidas las observaciones.La distribucin de los datos puede ser o no simtrica. Si la distribucin de los datos no es simtrica, se llama asimtrica o sesgada.Para describir la forma se puede comparar la media y la mediana.Tambin puede observarse a travs del coeficiente de asimetra Mide el grado de Simetra / Asimetra de la distribucin

    La Forma de la distribucin

  • Si es + indicar muchos casos en los valores ms bajos y pocos en los ms altos positivamente asimtrica . Media > Mediana: Positivos o con sesgamiento a la derecha

    La Forma de la distribucin.

  • Si es - indicar muchos casos en los valores ms altos y pocos en los ms bajos negativamente asimtrica. Media < Mediana: Negativos o con sesgaminto a la izquierda.

    La Forma de la distribucin

  • En la distribucin Normal es 0 SimtricaMedia = Mediana: Simtricos o con sesgamiento cero.

    La Forma de la distribucin

  • .

    La Forma de la distribucinEl coeficiente de kurtosis mide el grado de apuntamiento de la curva mesocrticaleptocrtica (menor dispersin)Platicrtica (mayor dispersin)Otra manera de apreciar la forma de una distribucin es observar el nivel de apilamiento o llanura de la curva

  • Si es + indicar un grado de apilamiento mayor que en la normal leptocrtica (menor dispersin)Mide el grado de apuntamiento de la curvaEn la distribucin Normal es 0 mesocrticaSi es indicar que es ms aplanada que la normal platicrtica (mayor dispersin)

    El coeficiente de kurtosisLa Forma de la distribucin

  • UN TIPO PARTICULAR DE DISTRIBUCIN PARA VARIABLES ALEATORIAS MTRICAS

    LA CURVA NORMALSUS PROPIEDADES

    HERRAMIENTAS BSICAS EN LA ESTADSTICA DESCRIPTIVA

  • ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL

    Es un tipo particular de distribucin de frecuencias.

    En los casos en que los valores que asume una variable depende de mltiples factores sin que ninguno de ellos sesgue la distribucin, es de esperar que los valores se distribuyan homogneamente alrededor de la media la mediana y la moda.

    Estas variables aleatorias presentan una distribucin que es aproximadamente simtrica y cuya grfica tiene forma de campana (mesocrtica).

    Esta distribucin es utilizada en aplicaciones estadsticas como modelo o parmetro de comparacin dada la frecuencia o normalidad con la que ciertos fenmenos tienden a parecerse a esta distribucin.

  • ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMALLa distribucin normal queda definida por dos parmetros:

    LA MEDIA Y EL DESVIACIN ESTNDAR

  • El rea total bajo la curva es igual a 100 % o 1. El rea bajo la curva comprendido entre los valores situados a una desviaciones estndar de la media es aproximadamente igual al 68%.

    El rea bajo la curva comprendido entre los valores situados a dos desviaciones estndar de la media es aproximadamente igual al 95%.ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL =1= -1 = -3 =-22,142,14 =2 =3

  • ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMAL =1= -1 = -3 =-22,14 =2 =3Se puede determinar el rea entre dos ordenadas cuales quiera a travs del calculo de las unidades de desviacin en que se encuentra una porcin de la poblacin y su correspondencia en la tabla de reas bajo la curva normalZ = X X S

  • ESTADSTICA DESCRIPTIVA LA DISTRIBUCIN NORMALX= 1432,14168S= 12Se requiere conocer la porcin de poblacin que gana hasta $143Clculo de Z Z= (143 168) / 12 Z= -2,08

    c) 0,5 0,4812 = 0,0188 aprox 1,9%b) Correspondencia en la tablaDe reas bajo la curva normal0,4812 48%

  • TIPO DE ANLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA ANLISIS DE PERFILES O CARACTERSTICAS POBLACIONALES ANLISIS DESCRIPTIVO DE GRUPOS O SEGMENTOS DE POBLACIN Anlisis de tablas de contingencia

  • Componentes Tabla de una contingencia3070N: total poblacional o muestralMarginales(de fila)Marginales(de columna)Celdas condicionalesDISTRIBUCIONES MARGINALES DISTRIBUCIONES CONDICIONALES UN TOTAL POBLACIONAL O MUESTRAL

    PobresNo pobresTotalAprobaron40No aprobaron60Total100

  • Anlisis bivariados Tablas de contingenciaFuncin descriptiva

    Aprobaron10010037,562,5% fila% fila91,68,4%Col%Col%Col21,478,67010040601001001003083,316,7No aprobaron% fila% del total% del total15% del total

    Rendimiento educativo/cond. Socioec.PobresNo pobresTotal15254055560Total7030100

  • TIPO DE ANLISIS QUE PERMITE UNA TABLA DE CONTINGENCIA ANLISIS DE ASOCIACINAnlisis de tablas de contingencia

  • Anlisis bivariados Tablas de contingenciaExiste una relacin entre los logros educativos de los alumnos y su contexto sociofamiliar. hiptesis

  • Variables:aprobSituacin de pobrezaSinoSinocategorasv. Nominal dicotmicav. Nominal dicotmicaAnlisis bivariados Tablas de contingenciaHiptesis Existe una relacin entre los logros educativos de los alumnos y su contexto sociofamiliar.

  • Anlisis bivariados Tablas de contingenciaH1: Los nios que no hayan aprobado el exmen se encontrarn mayoritariamente en situacin de pobrezaHiptesis rinconal

    No PobresPobresTotalAprobaronXXxNo aprobaronXXXXXXXXXXTotal

  • Anlisis bivariados Tablas de contingencia H2: Los nios que no hayan aprobado el exmen se encontrarn mayoritariamente en situacin de pobreza Mientras que los que lo han aprobado se encontrarn en hogares por encima de la lnea de pobrezaHiptesis Diagonal

    No PobresPobresTotalAprobaronXXXXXXXXXXNo AprobaronXXXXXXXXXXTotal

  • Anlisis bivariados Tablas de contingencia La idea de asociacin / relacin entre variables se define por lo general en oposicin al de independencia estadstica y se evala examinando el sentido y la fuerza de las regularidades empricas

  • Anlisis bivariados Tablas de contingenciaSi conozco la distribucin esperada bajo el supuesto de independencia estadstica lo puedo contrastar con la distribucin real y ver si las diferencias son estadsticamente significativas XXXXXXXXXXXX

    PobresNo pobresTotalAprobaron252550No aprobaron252550Total5050100

  • Anlisis bivariados Tablas de contingenciaLas variables X e Y (situacin de pobreza y aprobacin del exmen ) son estadsticamente independientes si el porcentaje o nmero de de observaciones que poseen el atributo Y1 ( no aprob) es el mismo entre X1 (pobres) que entre X2 (no pobres).

    PobresNo pobresTotalAprobaron (Y1)(40 * 70) / 10028(40 * 30) / 1001240No aprobaron (Y2)(60 * 70) / 10042(60 * 30) / 1001860Total7030100

  • Anlisis bivariados Tablas de contingenciaLas variables X e Y (situacin de pobreza y aprobacin del exmen ) son estadsticamente independientes si el porcentaje o nmero de de observaciones que poseen el atributo Y1 ( no aprob) es el mismo entre X1 (pobres) que entre X2 (no pobres).

    PobresNo pobresTotalAprobaron (Y1)2815122540No aprobaron (Y2)425518560Total7030100

  • Anlisis bivariados Tablas de contingencia

  • Para medir el grado de dependencia o asociacin entre las variables X e Y se utillizan medidas de asociacinSi existe la relacin cal es la fuerza y el sentido de dicha relacin?Existen diferentes medidas segn las caractersticas de la tabla, el tipo de hiptesis y las caractersticas de las variables

  • Coeficiente phiMedida de asociacin para dos variables dicotmicasBasada en el coeficiente ji cuadradoAsume valores entre 0 y 1 Coeficiente V de CramerExtensin de PHIVariables nominales de ms de 2 categAsume valores entre 0 y 1 Medidas de asociacin para dos variables de escala nominalCoeficientes LambdasCoeficiente KappaBasada en reduccin del errorInterpretacin distinta de los anterioresAsume valores entre 0 y 1 Proporcin en que se reduce el error al predecir los valores de una variable a partir de los de la otraCompara los valores de dos variables nominales tales que sus valores pueden ser los mismosTablas cuadradasMide el grado de acuerdo entre las dos variables Asume valores entre -1y 1 Valores prximos a 1 : total acuerdo. Valores prximos a -1 : total desacuerdo

  • Medidas de asociacinMedidas de asociacin para dos variables de escala ordinalCoeficiente GammaMedida de asociacin para dos variables cualitativas de escala ordinalAsume valores entre -1 y 1 Valores prximos a 1 : fuerte asociacin positiva: a medida que aumentan los valores de una variable aumentan los de la otraValores prximos a -1 : fuerte asociacin negativa: a medida que aumentan los valores de una variable disminuyen los de la otra0 indica que no hay relacin ni positiva ni negativa aunque puede haber otro tipo de relacin.Puede alcanzar valores extremos cuando la asociacin no es total

  • Medidas de asociacinMedidas de asociacin para dos variables de escala ordinalCoeficiente Tau-b de KendallExtensin del GammaAsume valores entre -1 y 1 Alcanza valores extremos (-1 y 1) cuando la asociacin es totalAlcanza valores extremos (-1 y 1) slo cuando las dos variables tienen el mismo nmero de categoras (la tabla es cuadrada)Coeficiente Tau-c de KendallCorreccin del tau-b para variables con distinto tipo de categorasPuede subestimar el grado de asociacin.

  • MEDIDAS DE ASOCIACIN

    Medida deasociacinTablaEscala deMedidaObservacionesPhi

    V de Cramer2 x 2

    f x cNominales

    NominalesMedidas basadas en chi cuadrado.Toman valores comprendidos entre 0 y 1.Evala hiptesis lineales (diagonal principal). Son tiles para estimar grados de asociacinentre pares de variables, sobre un mismoconjunto de individuos para n filas y columnas.Lambdaf x cNominalesToma valores entre 0 y 1. Disponen versin asimtrica.Es fcil de interpretar en trminos de laproporcin que se reduce le error deprediccin del valor de una variable a partirde los valores de la otra (pero puede tomarvalores muy bajos en tablas con asociacin).Gamma

    Tau b / c de Kendallf x c

    f x cOrdinales

    OrdinalesToma valores entre -1 y 1, pasando por 0. Gamma es ms fcil de interpretar. Asumerelaciones curvilineales. Tau b slo alcanza valores extremos cuandohay asociacin total y f y c son iguales.Tau c tiende a subestimar la relacin.