Sesión 3 Abril

36
Universidad Alberto Hurtado Distribuciones de Frecuencia Tablas y Gráficos Paulina Gajardo Serrano 1

description

Curso Estadística UAH 2014

Transcript of Sesión 3 Abril

  • Universidad Alberto Hurtado

    Distribuciones de Frecuencia

    Tablas y Grficos

    Paulina Gajardo Serrano 1

  • Sntesis de contenido

    Repaso de la clase anterior:

    Categorizaciones de variables Variables cualitativas vs. variables cuantitativas Variables y Escala de medida Categorizacin de variables cuantitativas:

    Variables discretas Variables continuas

    Estructura de una base de datos

    Diccionario de datos

    Bases de datos y software: Estructura en Excel y en SPSS

  • VARIABLES Y ESCALAS DE

    MEDIDA

    En general:

    Las variables que se miden en escala de medida nominal y ordinal son clasificadas

    como cualitativas (categricas)

    Las variables que se miden en escala de intervalo y de ratio son clasificadas como

    cuantitativas

  • Variables discretas vs. continuas

    Las unidades de medida de variables

    discretas no pueden ser subdivididas

    Las unidades de medida de variables

    continuas pueden ser subdivididas sin

    lmites

  • Matriz de datos

    La informacin de variables para cada

    observacin se presenta en lo que se

    denomina una Matriz de Datos

    Tambin se le llama Base de datos

    4/15/2014 Footer Text 5

  • Frecuencias

    Frecuencias Absolutas:

    Cantidad de repeticiones de cada valor observado de la variable

    Se denota generalmente como ni o fi

    La suma de las frecuencias absolutas es igual al tamao de la muestra (o de la

    poblacin segn sea el caso)

    Valor mnimo = 0 y mximo = n

  • Frecuencias Relativas:

    Proporcin (porcentaje) que cada valor de la variable tiene en relacin con el total de las

    observaciones

    Se denota generalmente por hi La suma de todas las frecuencias

    relativas es igual a 1 (o 100%)

    Valor mnimo = 0 y mximo = 100

    4/15/2014 Footer Text 7

    Frecuencias

  • TABLAS DE DISTRIBUCIN DE

    FRECUENCIAS,

    EJEMPLOS

    4/15/2014 Footer Text 8

  • Tabla de distribucin de frecuencias para

    EDUC

    Frecuencias

    Absolutas ni

    Frecuencias

    Relativas hi

  • Grfico de Barras (EDUC)

    Las barras muestran frecuenci as

    SIN

    ED

    UC

    . FO

    RM

    AL

    BASIC

    A IN

    CO

    M.

    BASIC

    A C

    OM

    PL.

    M.H

    UM

    . INC

    OM

    PLE

    TA

    M.T

    EC

    .PR

    OF.

    INC

    OM

    PLE

    TA

    M.H

    UM

    . CO

    MPLE

    TA

    M.T

    EC

    CO

    MPLE

    TA

    TEC

    . O U

    NIV

    . IN

    CO

    MPLE

    TA.

    TEC

    NIC

    A O

    UN

    IV. C

    OM

    PLE

    TA

    NIVEL EDUCACIONAL

    0

    10

    20

    30

    Rec

    uent

    o

  • Tabla de Distribucin de Frecuencias para Ingreso

    Autnomo Individual (1)

    Frecuencia PorcentajePorcentaje

    vlido

    Porcentaje

    acumulado

    Vlidos 494 1 0,5 1,0 1,0

    988 1 0,5 1,0 2,1

    6667 1 0,5 1,0 3,1

    25000 1 0,5 1,0 4,2

    29290 1 0,5 1,0 5,2

    35000 1 0,5 1,0 6,3

    39520 2 1 2,1 8,3

    50000 1 0,5 1,0 9,4

    50500 1 0,5 1,0 10,4

    50670 1 0,5 1,0 11,5

    78820 1 0,5 1,0 12,5

    5226750 1 0,5 1,0 97,9

    8255160 1 0,5 1,0 99,0

    10251675 1 0,5 1,0 100,0

    Total 96 48 100,0

    Perdidos Sistema 104 52

    Total 200 100

  • Intervalos de Ingreso autnomo

    22 11,0 22,9 22,9

    35 17,5 36,5 59,4

    17 8,5 17,7 77,1

    5 2,5 5,2 82,3

    4 2,0 4,2 86,5

    1 ,5 1,0 87,5

    2 1,0 2,1 89,6

    1 ,5 1,0 90,6

    9 4,5 9,4 100,0

    96 48,0 100,0

    104 52,0

    200 100,0

    0-100.000

    100.001-200.000

    200.001-300.000

    300.001-400.000

    400.001-500.000

    500.001-600.000

    600.001-700.000

    900.001-1.000.000

    1.000.000 y ms

    Total

    Vlidos

    SistemaPerdidos

    Total

    Frecuencia Porcentaje

    Porcentaje

    vlido

    Porcentaje

    acumulado

    Tabla de Distribucin de Frecuencias para Ingreso

    Autnomo Individual (2)

  • Histograma para Ingreso Autnomo

    Individual

    2500000 5000000 7500000 10000000

    Ingreso Autnomo

    0

    25

    50

    75

    Rec

    uent

    o

  • Resumiendo:

    Para variables continuas con muchos valores

    Las tablas de distribucin de frecuencias y los grficos de barra funcionan mejor para una pequea cantidad de valores observados de la variable (variables en escalas de medida nominal, ordinal o variables discretas).

    Cuando los valores son muchos (especialmente en el caso de variables continuas) se necesitan modificaciones

    Solucin: resumir la informacin para valores de la variables agrupados Tablas de distribucin de frecuencias con intervalos Histogramas en lugar de grficos de barras

  • Tablas de contingencia

    Dos o ms variables en una sola tabla

    Frecuencias absolutas (n)

    Frecuencias relativas (%)

    En relacin con el total

    Por fila

    Por columna

    Al cruzar una variable con n categoras

    en las filas y m categoras en las

    columnas se crean n*m subcategoras

  • Pobreza vs. educacin

    Frecuencias ABSOLUTAS

    Presenta las cantidades en cifras absolutas (18 subcategoras)

    Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales

    no?

    Nivel educacional y nivel de pobreza

    Pobres

    no

    extremos

    No

    pobresTotal

    Sin Educ. Formal 3 9 12

    Bsica Incom. 3 17 20

    Bsica Compl. 1 14 15

    M. Hum. Incompleta 2 19 21

    M. Tc. Prof. Incompleta 0 2 2

    M. Hum. Completa 3 14 17

    M. Tc Completa 0 3 3

    Tcnico Nivel Superior o Profesional Incompleta 2 11 13

    Tcnico Nivel Superior o Profesional Completa 0 9 9

    Total 14 98 112

  • Pobreza vs. educacin

    Frecuencias relativas (totales)

    Presenta cantidades en porcentaje

    Proporciona la importancia relativa de cada subcategora en relacin con el total de

    observaciones

    Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales no?

    Pobres

    no

    extremos

    No

    pobresTotal

    Sin Educ. Formal 2,7% 8,0% 10,7%

    Bsica Incom. 2,7% 15,2% 17,9%

    Bsica Compl. 0,9% 12,5% 13,4%

    M. Hum. Incompleta 1,8% 17,0% 18,8%

    M. Tc. Prof. Incompleta 0,0% 1,8% 1,8%

    M. Hum. Completa 2,7% 12,5% 15,2%

    M. Tc Completa 0,0% 2,7% 2,7%

    Tcnico Nivel Superior o Profesional Incompleta1,8% 9,8% 11,6%

    Tcnico Nivel Superior o Profesional Completa 0,0% 8,0% 8,0%

    Total 12,5% 87,5% 100,0%

  • Pobreza vs. educacin

    Frecuencias relativas (filas =100)

    Presenta cantidades en porcentaje

    Proporciona la importancia relativa de cada subcategora en relacin cada categora de las filas

    Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales no?

    Pobres

    no

    extremos

    No

    pobresTotal

    Sin Educ. Formal 25,0% 75,0% 100,0%

    Bsica Incom. 15,0% 85,0% 100,0%

    Bsica Compl. 6,7% 93,3% 100,0%

    M. Hum. Incompleta 9,5% 90,5% 100,0%

    M. Tc. Prof. Incompleta 0,0% 100,0% 100,0%

    M. Hum. Completa 17,6% 82,4% 100,0%

    M. Tc Completa 0,0% 100,0% 100,0%

    Tcnico Nivel Superior o Profesional Incompleta15,4% 84,6% 100,0%

    Tcnico Nivel Superior o Profesional Completa 0,0% 100,0% 100,0%

    Total 12,5% 87,5% 100,0%

  • Pobreza vs. educacin

    Frecuencias relativas (colm. =100)

    Presenta cantidades en porcentaje

    Proporciona la importancia relativa de cada subcategora en relacin cada categora de las

    columnas

    Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales no?

    Pobres

    no

    extremos

    No

    pobresTotal

    Sin Educ. Formal 21,4% 9,2% 10,7%

    Bsica Incom. 21,4% 17,3% 17,9%

    Bsica Compl. 7,1% 14,3% 13,4%

    M. Hum. Incompleta 14,3% 19,4% 18,8%

    M. Tc. Prof. Incompleta 0,0% 2,0% 1,8%

    M. Hum. Completa 21,4% 14,3% 15,2%

    M. Tc Completa 0,0% 3,1% 2,7%

    Tcnico Nivel Superior o Profesional Incompleta14,3% 11,2% 11,6%

    Tcnico Nivel Superior o Profesional Completa 0,0% 9,2% 8,0%

    Total 100,0% 100,0% 100,0%

  • REPRESENTACIN GRFICA DE

    VARIABLES

    Distribucin grfica de frecuencias

    Conceptos bsicos

    Grficos de barras

    Histogramas

    Ojivas

    Diagramas de dispersin (nube de puntos)

    Series de tiempo

    Ejemplos: Excel y SPSS

  • CONCEPTO

    Un grfico es una representacin pictrica del comportamiento de variables

    Sintetiza informacin en una forma que debe resultar ms sencilla de entender y/o ms atractiva a quin lo observa

    Pueden presentar (entre otras): Distribuciones de frecuencias de variables: grficos de

    barras, histogramas, grficos de torta, etc.

    El comportamiento de una variable cuantitativa en funcin del tiempo (series de tiempo)

    El comportamiento (asociacin) de dos variables cuantitativas (diagramas de dispersin o nubes de puntos)

  • Caractersticas para graficar datos

    (Edward R. Tufte)

    Las caractersticas bsicas de una presentacin grfica adecuada incluyen:

    a. Mostrar los datos

    b. Hacer que el observador se concentre en lo sustancial del grfico, y no en como se desarroll

    c. Evitar distorsiones

    d. Facilitar la comparacin de datos

    e. Cumplir con un objetivo claro

    f. Que estn integradas las descripciones estadsticas y verbales de las grficas

  • Principios de excelencia grafica

    (Edward R. Tufte)

    a. La excelencia estadstica es una presentacin bien diseada de los datos que proporciona sustancia, estadsticas y diseo.

    b. La excelencia grfica comunica ideas complejas con claridad, precisin y eficiencia.

    c. La excelencia grfica proporciona al observador el mayor nmero de ideas en el menor tiempo y con el mnimo de tinta.

    d. La excelencia grfica casi siempre involucra varias dimensiones.

    e. La excelencia grfica requiere decir la verdad acerca de los datos.

  • Variables que se trabajarn

    EDUC: Variable cualitativa ordinal que representa el nivel educacional de las personas.

    ESC: Variable numrica en escala de medida de ratio (discreta) que representa los aos de estudio completos de las personas.

    CORTE: Variable categrica que indica si la persona pertenece a un hogar no pobre pobre no indigente (o extremo).

    IAI: Variable numrica en escala de ratio (continua) que representa el Ingreso autnomo individual de cada encuestado.

  • Grfico de barras(1)

    Caractersticas:

    Puede aplicarse a cualquier tipo de variable

    Relacionado con lo anterior el eje horizontal no necesariamente requiere estar ordenado.

    Eje horizontal: valores de la variable.

    Eje vertical: Frecuencias (absolutas o

    relativas).

  • Grfico de barras(2)

    Eje horizontal: valores de la variable

    Eje vertical: Frecuencias (absolutas o relativas)

  • Grfico de barras (3)

    Variante(1):

    Dos variables por barra: Cada barra suma las frecuencias absolutas para cada categora de una

    variable en el eje horizontal y la segunda variable

    se representa mediante subcategoras de la

    primera

    0

    5

    10

    15

    20

    25

    No pobres

    Pobres no extremos

  • Grfico de barras (4)

    Variante(2):

    Dos variables por barra: Similar a la anterior slo que cada barra representa el 100% de cada

    categora del eje horizontal y en su interior se

    presenta el % para cada categora de la 2 variable

    0%10%20%30%40%50%60%70%80%90%

    100%

    No pobres

    Pobres no extremos

  • Grfico de barras (5)

    Observacin: Cada una de las barras del

    grfico anterior puede representarse tambin

    mediante una torta que totaliza 100% para

    cada nivel educacional. Ej:

    25%

    75%

    Sin Educ. Formal

    Pobres no

    extremos

    No pobres

    7%

    93%

    Bsica Compl.

    Pobres no

    extremos

    No pobres

    15%

    85%

    Bsica Incom.

    Pobres no

    extremos

    No pobres

  • HISTOGRAMA(1)

    Eje horizontal: valores de la variable CUANTITATIVA

    Eje vertical: Frecuencias (absolutas o relativas)

    Algunas observaciones:

    La variable IAI toma muchsimos valores en las 64 obs.

    por lo que no tendra sentido hacer un histograma de los datos sin agruparlos en

    intervalos

    La seleccin de un ancho de intervalo no era necesaria en el caso de variables cualitativas

    En este caso, cada intervalo tiene base de $250.000

    Observe que no hay separacin entre las barras porqu?

  • HISTOGRAMA(2)

    Algunas observaciones:

    Ej: La primera barra indica que hay 34 personas con ingresos entre $0 y $250.000

    Al disponer la informacin de esta forma no sabemos cuanto gana cada uno de ellos

    Podramos escoger el punto medio de cada intervalo(valor de la variable) como el

    representante del intervalo.

    As para el 1 intervalo sera $125.000, el 2 $375.000, el 3 $625.000 y as

    sucesivamente

    Cada uno de dichos puntos recibe el nombre genrico de Marca de Clase

    Se puede unir las marcas de clase con una lnea a la que denominaremos poligonal

    Un tipo especial de poligonal es aquel que surge al graficar las frecuencias acumuladas

  • HISTOGRAMA(3)

    La poligonal que une las frecuencias acumuladas se denomina OJIVA

    LAS OJIVAS NUNCA SON

    DECRECIENTES

  • Diagramas de dispersion (1)

    En muchas ocasiones resulta til observar el comportamiento simultaneo de dos variables (no slo de una y sus frecuencias)

    Por ejemplo, se trata de analizar si los aos de estudio de las personas tienen algn efecto sobre sus ingresos

    Al igual que en los histogramas se utiliza un grfico con un eje vertical y otro horizontal

    Eje vertical (y) para la variable dependiente. Ej: IAI

    Eje horizontal(x) para la variable independiente. Ej: EDUC

  • Diagramas de dispersion (2)

    Algunas observaciones:

    Observe que no tiene sentido unir los puntos cual sera el orden correcto

    para unirlos?

    Si slo las personas con mayor cantidad de aos de escolaridad

    pueden acceder a los mayores ingresos

    ello constuitira una evidencia de que

    existe relacin directa entre ambas

    variables

    Respalda el grfico dicha intuicin?

    Qu forma tendra la nube de puntos si la relacin entre ambas variables no

    existiese o bien si existiese una relacin inversa?

    Nota: Los diagramas de dispersin se utilizan generalmente para variables cuantitativas

  • Series de tiempo(1)

    Es un tipo especial de grfico de dos dimensiones.

    Una serie de tiempo est constituda por un nmero

    determinado de mediciones efectuadas sobre una variable

    durante un perodo de tiempo.

    Los grficos de series de tiempo representan la evolucin

    de una variable (eje y) para varios aos (eje x)

    A diferencia de los diagramas de dispersin los puntos

    suelen unirse mediante una lnea ya que existe una sola

    observacin para cada periodo de tiempo analizado.

    Estos grficos son particularmente usados para describir el

    comportamiento de variables econmicas y financieras

  • Series de tiempo(2)

    Algunas observaciones:

    El eje horizontal representa el tiempo medido con la periodicidad con que la

    variable fue medida

    Por ello el eje puede estar expresado en aos, en meses, etc.