Diez Garcia Rafael - Guia Didactica de Estadistica Descriptiva Para Las Cs

296
Rafael Díez Vicente Coll Olga Mª Blasco G G u u í í a a d d i i d d á á c c t t i i c c a a d d e e E E s s t t a a d d í í s s t t i i c c a a D D e e s s c c r r i i p p t t i i v v a a p p a a r r a a l l a a s s C C i i e e n n c c i i a a s s S S o o c c i i a a l l e e s s Eumed.net Universidad de Málaga 2008

description

ciencias sociales

Transcript of Diez Garcia Rafael - Guia Didactica de Estadistica Descriptiva Para Las Cs

  • Rafael Dez Vicente Coll

    Olga M Blasco

    GGuuaa ddiiddccttiiccaa ddee

    EEssttaaddssttiiccaa DDeessccrriippttiivvaa ppaarraa llaass

    CCiieenncciiaass SSoocciiaalleess

    Eumed.net Universidad de Mlaga 2008

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales Rafael Dez Garca, Vicente Coll Serrano y Olga M Blasco Blasco Diseo de cubierta: Rafael Dez Garca

    Vicente Coll Serrano Olga M Blasco Blasco

    Reservados los derechos para todos los pases. De conformidad con lo dispuesto en el artculo 270 del Cdigo penal vigente, podrn ser castigados con multas y privacin de libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artstica o cientfica fijada en cualquier tipo de soporte sin la preceptiva autorizacin. Ninguna parte de esta publicacin, incluido el diseo de la cubierta, puede ser reproducida, almacenada o transmitida de ninguna forma, ni por ningn medio, sea ste electrnico, qumico, mecnico, electro-ptico, grabacin, fotocopia o cualquier otro, sin la previa autorizacin escrita por parte de los autores. ISBN: Depsito Legal: Maquetacin: Rafael Dez Garca

    Vicente Coll Serrano Olga M Blasco Blasco

  • ndice

  • ndice analtico.

    Rafael Dez, Vicente Coll y Olga Blasco

    6

    Pgina

    TEMA 1. INTRODUCCIN.

    Ficha del tema 1. 16 Objetivos de aprendizaje. 17 Bibliografa bsica para complementar el tema. 18 Programacin de la gua didctica: 1.1. Estadstica: concepto, contenido y relaciones con el rea econmi-ca y empresarial. 19 1.2. La investigacin estadstica. Anlisis descriptivo, modelizacin e in-ferencia. 28 1.3. Datos estadsticos: naturaleza, descripcin numrica y representa-cin grfica. 32 Conceptos clave. 43 Ejemplos. 44 TEMA 2. ANALISIS DE DATOS UNIDIMENSIONALES.

    Ficha del tema 2. 53 Objetivos de aprendizaje. 54

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    7

    Pgina

    Bibliografa bsica para complementar el tema. 55 Programacin de la gua didctica: 2.1. Principales medidas de posicin, dispersin y de forma o perfil. 56 2.2. Transformaciones lineales y tipificacin de variables. 76

    2.2.1. Transformaciones lineales. 76 2.2.2. Tipificacin de variables. 83 2.2.3. Regla de Tchebysheff. 86

    2.3. Otras medidas de posicin: moda y cuantiles (mediana). 88 Conceptos clave. 95 Ejemplos. 96 TEMA 3. MEDIDAS DE CONCENTRACIN.

    Ficha del tema 3. 116 Objetivos de aprendizaje. 117 Bibliografa bsica para complementar el tema. 118 Programacin de la gua didctica: 3.1. Introduccin: concepto, instrumentos, concentracin mnima y mxima. 119

    3.2. Curva de Lorenz. 122

  • ndice analtico.

    Rafael Dez, Vicente Coll y Olga Blasco

    8

    Pgina

    3.3. ndice de Gini. 123 Conceptos clave. 124 Ejemplos. 125 TEMA 4. ANLISIS DE DATOS BIDIMENSINALES.

    Ficha del tema 4. 128 Objetivos de aprendizaje. 129 Bibliografa bsica para complementar el tema. 130 Programacin de la gua didctica: 4.1. Representacin de datos multidimensionales: matriz de datos, ta-blas de correlacin y contingencia, grfico de dispersin. 131 4.2. Distribuciones conjuntas, marginales y condicionadas. Indepen-dencia estadstica. 134 4.3. Momentos. Vector de valores medios y matriz de varianzas-covarianzas. 146 4.4. El coeficiente de correlacin lineal simple. Matriz de correlacin. 155 4.5. Asociacin. 158 Conceptos clave. 163 Ejemplos. 164

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    9

    Pgina

    TEMA 5. ANLISIS DE REGRESIN.

    Ficha del tema 5. 176 Objetivos de aprendizaje. 177 Bibliografa bsica para complementar el tema. 178 Programacin de la gua didctica: 5.1. Introduccin. 179 5.2. Regresin mnimo-cuadrtica: caso lineal. 187 5.3. Anlisis de la bondad de un ajuste: capacidad explicativa de una ecuacin de regresin. Coeficiente de determinacin. Caso lineal. 199 5.4. Regresin no lineal: potencial y exponencial. 211 Conceptos clave. 216 Ejemplos. 217 TEMA 6. TASAS DE VARIACIN Y NMEROS NDICE.

    Ficha del tema 6. 224 Objetivos de aprendizaje. 225 Bibliografa bsica para complementar el tema. 226

  • ndice analtico.

    Rafael Dez, Vicente Coll y Olga Blasco

    10

    Pgina

    Programacin de la gua didctica: 6.1. Introduccin. 227 6.2. Tasas de variacin. 229 6.3. Nmeros ndices: clasificacin y propiedades. 230

    6.3.1. Definicin y clasificacin. 230 6.3.2. ndices simples. 231 6.3.3. ndices complejos. 233 6.3.4. Propiedades. 236

    6.4. ndices de precios y cantidades ms importantes. 237 6.4.1. ndice de precios complejo ponderado. 239 6.4.2. ndice de cantidad complejo ponderado. 240 6.4.3. ndice complejo de valor. 241

    6.5. Cambio de base, renovacin y enlace. 242 6.6. Deflactacin de series estadsticas. 244 Conceptos clave. 248 Ejemplos. 249 TEMA 7. ANLISIS CLSICO DE SERIES TEMPORALES.

    Ficha del tema 7. 256

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    11

    Pgina

    Objetivos de aprendizaje. 257 Bibliografa bsica para complementar el tema. 258 Programacin de la gua didctica: 7.1. Introduccin. 259 7.2. Componentes de una serie. Descomposicin. 260 7.3. Anlisis de la tendencia. 262

    7.3.1. Tendencia anual. 265 7.3.2. Tendencia k-esimal. 267

    7.4. Anlisis de la variacin estacional. Desestacionalizacin. 270 7.4.1. Obtencin de los IVE. 272 7.4.2. Desestacionalizacin. 275

    7.5. Prediccin. Correccin por estacionalidad. 276 7.5.1. Prediccin de la tendencia. 276 7.5.2. Correccin por estacionalidad. 277

    Conceptos clave. 278 Ejemplos. 279

  • Rafael Dez, Vicente Coll y Olga Blasco

    12

    PRLOGO

    El texto de Estadstica que se presenta con el nombre de Gua Didctica de Estadstica Descripti-

    va para las Ciencias Sociales, tiene una estructura que lo sita entre un conjunto de fichas resu-

    men de los contenidos de una materia y un libro de texto. Es mucho ms amplio que un mero re-

    sumen de conceptos y frmulas, pero no supone un desarrollo exhaustivo de los epgrafes de una

    programacin; tampoco contiene demostraciones salvo alguna conveniente excepcin. No por ello

    deja de ser un texto riguroso y sistemtico, ajustado a una programacin. Hemos diseado esta

    Gua didctica de forma que su contenido sirva de refuerzo a la clase presencial de un curso de in-

    troduccin de Estadstica.

    La Gua Didctica pretende ser un texto que acompae y encamine a los estudiantes en el estu-

    dio de la materia, aportndoles informacin concreta y precisa sobre los conceptos clave y tcni-

    cas de la Estadstica Descriptiva. Cada uno de estos conceptos viene acompaado por ejemplos

    ilustrativos que ayudarn al estudiante a asimilarlos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    13

    Se encuentra tambin disponible, como material complementario de esta Gua Didctica, las Fi-

    chas Tcnicas de Estadstica Descriptiva para las Ciencias Sociales.

    Cmo utilizar la Gua Didctica de Estadstica Descriptiva para las Ciencias Sociales.

    La Gua Didctica se compone de un total de 7 temas. En cada tema se facilita una ficha que

    presenta su estructura-organizacin:

    Objetivos de aprendizaje.

    Bibliografa bsica para complementar el tema.

    Programacin del tema.

    Conceptos clave.

    Ejemplos.

    Los apartados de la ficha estn hipervinculados. Tambin estn vinculados los ejemplos pro-

    puestos que aparecen en el desarrollo de los epgrafes de cada tema. Observar que el puntero de

    ratn cambia de forma. Al hacer clic sobre el texto vinculado se acceder a la parte del documento

    donde se desarrolla el contenido.

  • Rafael Dez, Vicente Coll y Olga Blasco

    14

    A pie de pgina aparecen dos o tres iconos.

    ndice

    Para acceder al ndice de la Gua Didctica.

    Ficha

    Para volver a la ficha del tema.

    Texto

    Para volver al texto (solo disponible en los enunciados de ejemplos)

    Esperamos que los contenidos tratados en la Gua Didctica de Estadstica Descriptiva para las

    Ciencias Sociales resulten de utilidad al lector.

    Contacto con los autores:

    Rafael Dez Garca: [email protected]

    Vicente Coll Serrano: [email protected]

    Olga Blasco Blasco: [email protected]

  • TEMA 1 INTRODUCCIN

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    16

    Ficha del tema 1. Objetivos de aprendizaje.

    Bibliografa bsica para complementar el tema.

    Programacin de la gua didctica:

    1.1. Estadstica: concepto, contenido y relaciones con el rea econmica y

    empresarial.

    1.2. La investigacin estadstica. Anlisis descriptivo, modelizacin e infe-

    rencia.

    1.3. Datos estadsticos: naturaleza, descripcin numrica y representacin

    grfica.

    Conceptos clave.

    Ejemplos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    17

    OBJETIVOS DE APRENDIZAJE. Conocer y distinguir las dos ramas bsicas de la estadstica, la estadstica descriptiva y la inferencia estadstica, intuyendo como interacciona entre ambas la teora matemtica de la probabilidad creando modelos. Distinguir entre datos de tipo cualitativo y cuantitativo, discreto y continuo, aprendiendo a ordenarlos en distribuciones de frecuencias agrupadas y sin agrupar. Construir histogramas y polgonos acumulativos partir de una distribucin de frecuencias agrupada en intervalos.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    18

    BIBLIOGRAFA BSICA (teora y problemas)

    ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-

    dad, Ed. Thomson, 2005.

    Tema 1. (Con ejercicios, cuestiones de autoevaluacin y problemas

    resueltos y propuestos).

    MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica

    Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.

    Captulos 1 y 2.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    19

    1.1. ESTADSTICA: CONCEPTO, CONTENIDO Y RELACIONES CON EL REA ECONMICA Y EMPRESARIAL.

    Ejemplo introductorio. Se ha contabilizado el nmero de das de baja, du-rante un trimestre, de los trabajadores de dos empresas obtenindose los siguientes resultados:

    Compara el nmero de das de ba-ja en las dos empresas:

    Distribucin frecuencias. Media aritmtica Varianza

    DATOS empresa A 0 2 1 1 3 2 0 1 5 2 2 3 3 2 1 4 2 2 1 3

    DATOS empresa B 0 1 1 2 9 1 0 0 1 1 0 0 1 1 0 1 1 1 9 9 9 0 0 1 0 0 1 1 9 0

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    20

    La ESTADSTICA, como ciencia, compara series de datos y ayuda a tomar

    decisiones ante lo incierto, es decir, a resolver casos de incertidumbre. La

    informacin estadstica se utiliza muy a menudo para validar o avalar que

    las decisiones que pretendemos tomar son las ms verosmiles o probables.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    21

    N das baja empresa A N trabajadores

    Valores Frecuencia Porcentaje Porcentaje acumulado

    0 2 10 10 1 5 25 35 2 7 35 70 3 4 20 90 4 1 5 95 5 1 5 100

    Total 20 100

    2

    5

    7

    4

    1 1

    012345678

    0 1 2 3 4 5

    n das de baja A

    n

    t

    r

    a

    b

    a

    j

    a

    d

    o

    r

    e

    s

    A

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    22

    N das baja empresa B N trabajadores

    Valores Frecuencia Porcentaje Porcentaje acumulado

    0 11 36,67 36,67 1 13 43,33 80,00 2 1 3,33 83,33 9 5 16,67 100,00

    Total 30 100,00

    11

    1

    5

    13

    02

    468

    10

    1214

    0 1 2 9

    n das de baja B

    n

    t

    r

    a

    b

    a

    j

    a

    d

    o

    r

    e

    s

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    23

    Clculo de la Media y la Varianza.

    N das baja A N trabajadores

    Valores Frecuencia Porcentaje Porcentaje acumulado

    Clculo de Media

    Clculo de Varianza

    0 2 10 10 0 8 1 5 25 35 5 5 2 7 35 70 14 0 3 4 20 90 12 4 4 1 5 95 4 4 5 1 5 100 5 9

    Total 20 100 40 30

    N das baja B N trabajadores

    Valores Frecuencia Porcentaje Porcentaje acumulado

    Clculo de Media

    Clculo de Varianza

    0 11 36,67 36,67 0 44 1 13 43,33 80,00 13 13 2 1 3,33 83,33 2 0 9 5 16,67 100,00 45 245

    Total 30 100 60 302

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    24

    DATOS EMPRESA A

    Media 2,00 Varianza 1,5 Desviacin tpica 1,22

    DATOS EMPRESA B

    Media 2,00 Varianza 10,0667 Desviacin tpica 3,17

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    25

    La Estadstica tiene aplicaciones importantes en el mbito de la economa y la empresa:

    ECONOMA: el anlisis de datos generados por variables como la pro-ductividad econmica, inflacin, tipos de inters, empleo desempleo.... James Hechman y Daniel McFadden compartieron el premio Nobel de Economa en el ao 2000 por desarrollar mtodos de anlisis de datos es-tadsticos, utilizados actualmente para estudiar comportamientos indivi-duales en economa. Se utilizan mtodos estadsticos para construir ndices como el IPC, para medir y predecir la inflacin. Asimismo, la es-tadstica es una herramienta indispensable para la econometra y el anlisis de series temporales (estudio de variaciones estacionales y c-clicas de magnitudes econmicas). El premio Nobel de Economa de 2003 lo ganaron Robert Engle, por desarrollar mtodos de anlisis de series temporales con volatilidad variante en el tiempo (ARCH) Y Clive Granger por sus trabajos en el anlisis de series temporales con tendencias co-munes (cointegracin).

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    26

    DIRECCIN DE EMPRESAS: se utilizan mtodos de control de calidad estadsticos para dirigir y perfeccionar constantemente el proceso de produccin y por consiguiente el rendimiento de la compaa. En 1986 W. Edwards Deming y otros abogaron por una filosofa total de la calidad con un perfeccionamiento continuo de la misma.

    CONTABILIDAD, AUDITORA: toma de decisiones en cuanto al estado de las cuentas, liquidez de las empresas, inventario... etc., basndose en el anlisis estadstico, donde los datos a analizar son las tasas de va-riacin de las finanzas (cuentas de la empresa). Los anlisis estadsticos pueden demostrar si las tasas de variacin de las finanzas en algunas empresas difieren significativamente de las que son tpicas o usuales en el grupo industrial de empresas determinado. Los directivos de las empresas, los inversionistas y los empleados deben estar interesados en conocer este tipo de resultados ya que las compaas con unos ndices de variacin en sus finanzas atpicos suelen ir a la quiebra.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    27

    GESTIN Y RECURSOS HUMANOS: evaluar y comparar la capacidad de colectivos de trabajadores para realizar tareas (reparto de tareas), utilizar resultados de un test de aptitud para complementar la informa-cin subjetiva de los candidatos a un empleo.

    MARKETING: los fabricantes de productos de consumo dirigen la inves-tigacin en marketing a recoger y analizar datos relacionados con las tcnicas de venta y distribucin de bienes y servicios. La investigacin en marketing a menudo incluye el mercado potencial y estudios de la cuo-ta de mercado, investigacin acerca del producto, de la promocin y dis-tribucin. Utiliza cuestionarios y encuestas por correo, telfono o en-trevista personal para obtener informacin que ayude a las empresas a decidir si deberan y cmo deberan poner un producto en el mercado.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    28

    1.2. LA INVESTIGACIN ESTADSTICA. ANLISIS DESCRIPTIVO, MODELIZACIN E INFERENCIA.

    Podemos distinguir tres fases implicadas cuando se aplica el mtodo estads-

    tico:

    1. MUESTREO: LA RECOPILACIN DE LOS DATOS SIN ELABORAR.

    MUESTRA ALEATORIA Y DE

    TAMAO ADECUADO.

    muestreoTcnicas

    POBLACINMUESTRA

    muestreoTcnicas

    POBLACINMUESTRA

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    29

    2. ESTADSTICA DESCRIPTIVA: presentacin en informe.

    El objetivo de la Estadstica Descriptiva es describir un conjunto de da-tos:

    ORDENAR LOS DATOS

    RECOPILARLOS EN TABLAS ESTADSTICAS: DISTRIBUCIONES DE

    FRECUENCIAS.

    GRFICOS DE LA DISTRIBUCIN DE FRECUENCIAS.

    CLCULO DE ESTADSTICOS: RESUMEN DE DATOS.

    INTERPRETAR RESULTADOS: PRESENTACIN INFORME.

    El organizar los datos de forma tal que se puedan ver las tendencias y normas, se pueda dibujar grficos, calcular estadsticos y redactar infor-mes se llama ESTADSTICA DESCRIPTIVA.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    30

    Estadstico: una medida que se pueda calcular a partir de los datos re-

    ales generados por una variable y que resuma y d una propiedad de

    ese conjunto de datos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    31

    3. INFERENCIA ESTADSTICA: exposicin de predicciones y toma de deci-

    siones.

    El objetivo de la Inferencia Estadstica es hacer afirmaciones sobre la POBLACIN basadas en la informacin disponible en la MUESTRA.

    PREDICCIN. PROBABILIDAD.

    ESTIMACIN DE PARMETROS. Parmetro: propiedad de la poblacin.

    TOMA DE DECISIONES.

    Al no haber absoluta certeza de la veracidad de tales afirmaciones sobre la poblacin, se ha de utilizar el trmino PROBABILIDAD como una medi-da de la incertidumbre de esas conclusiones: el propsito de la estadsti-ca es ayudar al que toma la decisin a tener razn ms veces que lo con-trario. Darle una idea sobre el peligro que hay de que no tenga razn cuando toma una decisin particular.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    32

    1.3. Datos estadsticos: naturaleza, descripcin numrica y repre-sentacin grfica.

    CARCTER: el aspecto, fenmeno, propiedad que se desea estudiar de la

    poblacin.

    MODALIDAD: diferentes formas de manifestarse el carcter.

    VARIABLE ESTADSTICA X: el carcter medido sobre los elementos.

    DATOS xi

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    33

    1.3.1. Clasificacin de los DATOS (VARIABLES) por su NATURALEZA.

    CUALITATIVOS: MODALEDADES no numricas, CATEGORAS

    VARIABLES CUALITATIVAS: ORDINALES

    NOMINALES o ATRIBUTOS

    CUANTITATIVOS: MODALIDADES numricas, VALORES

    VARIABLES CUANTITATIVAS: DISCRETAS

    CONTINUAS

    Ejemplo 1.1. Ejemplo 1.2. Ejemplo 1.3.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    34

    1.3.2. DESCRIPCIN NUMRICA de los datos (variables cuantitativas)

    VARIABLE X

    N DATOS sin elaborar ( )

    N21

    N1ii

    x,,x,xxL

    =

    k DATOS diferentes ordenados

    de menor a mayor ( )k21

    k1ii

    xxxx

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    35

    DISTRIBUCIN DE FRECUENCIAS

    Organizacin de la serie de DATOS

    SIN AGRUPAR: POCOS DATOS DIFERENTES

    (k pequeo comparado con N).

    Ejemplo 1.4.

    AGRUPADA en intervalos: MUCHOS DATOS DIFERENTES (k grande).

    Ejemplo 1.5.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    36

    FRECUENCIA: conteo. TIPOS DE FRECUENCIA.

    FRECUENCIAS ABSOLUTAS:

    in (frecuencia absoluta) frecuencia

    iN = =i

    1jji nN (frec. absoluta acumulada) frecuencia acumulada (i

    = 1, 2,, k)

    FRECUENCIAS RELATIVAS:

    if Nnf ii = (frecuencia relativa) 100fi porcentaje

    iF NNF;fF ii

    i

    1jji == = 100Fi porcentaje acumulado

    (i = 1, 2,, k) (frec. relativa acumulada)

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    37

    Distribucin de frecuencias SIN AGRUPAR .

    ( ) k21k 1iii xxxn,x:XVARIABLE

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    38

    Distribucin de frecuencias AGRUPADA EN INTERVALOS.

    Cmo agrupar en intervalos muchos datos diferentes:

    Observar valor mnimo xm y valor mximo xM.

    Recorrido de la variable (amplitud total): mM xxRe =

    Nmero de intervalos (k):

    grande)muy no (NNk

    12lnNlnk Sturges

    =+=

    Amplitud intervalos (a): k

    Rea =

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    39

    NOTACIN INTERVALOS

    Intervalo isimo: [ [i1i L,L (i = 1, 2,, k).

    Marca de clase (m.d.c.): 2

    LLxc.d.m i1ii

    +== (punto medio del in-tervalo).

    Amplitud del intervalo isimo: 1iii LLa = . Ejemplo 1.5.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    40

    1.3.3. Representacin grfica (variables cuantitativas). DATOS SIN AGRUPAR: grfico de barras.

    Diagrama en escalera (acumulativo).

    DATOS AGRUPADOS: HISTOGRAMA.

    Polgono acumulativo.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    41

    HISTOGRAMA (grfico de REA)

    Rectngulos yuxtapuestos.

    Un rectngulo para cada intervalo.

    rea de rectngulo representa la frecuencia del intervalo.

    Altura de rectngulo i - simo:

    i

    ii

    i

    ii a

    fdo

    an

    d frecuencia de densidad ==

    Si la amplitud de todos lo intervalos es la misma (a constante), la al-

    tura de cada rectngulo puede ser la frecuencia del intervalo.

    Ejemplo 1.6. Ejemplo 1.7.

  • Introduccin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    42

    HISTOGRAMA

    Intervalos

    d

    e

    n

    s

    i

    d

    a

    d

    f

    r

    e

    c

    u

    e

    n

    c

    i

    a

    ia

    inrea

    iL1iL

    i

    ii a

    nd =

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    43

    Conceptos clave.

    Datos de naturaleza continua. Datos de naturaleza discreta. Densidad de frecuencia. Distribucin de frecuencias agrupada. Distribucin de frecuencias sin agrupar. Estadstica Descriptiva. Frecuencia absoluta acumulada. Frecuencia absoluta. Frecuencia relativa (porcentaje). Frecuencia relativa acumulada. Histograma. Inferencia Estadstica. Intervalo. Marca de clase. Polgono acumulativo. Variables cualitativas. Variables cuantitativas.

  • Introduccin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    44

    EJEMPLOS. Ejemplo 1.1. Clasifica las siguientes variables en cualitativas o cuantitati-

    vas, identificando posibles valores de esas variables y elementos de la po-

    blacin o muestra sobre la que observaramos o mediramos la variable:

    a) Edad

    b) Forma de pago al realizar una compra

    c) Estado civil

    d) Nmero de habitaciones por casa

    e) Salario mensual percibido por los supervisores de ventas de una consul-

    tora.

    f) Medio de transporte utilizado para ir a clase por los estudiantes del cam-

    pus de Tarongers

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    45

    g) Grado de riesgo de los fondos de inversin de una entidad financiera (1 =

    riesgo menor, 5 = riesgo mayor)

    h) Dimetro de las tuercas que produce una mquina. (Las tuercas deberan

    tener todas 6 mm de dimetro)

    i) Nmero de defectos encontrados en n ordenadores porttiles fabricados

    durante un mes.

  • Introduccin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    46

    Ejemplo 1.2. Indicar de las variables siguientes cuales generaran datos

    discretos y cuales datos continuos:

    a) Nmero de acciones vendidas cada da en un mercado de valores.

    b) Temperaturas registradas cada media hora en un observatorio.

    c) Censos anuales del colegio de profesores.

    d) Longitud de 1.000 cerrojos producidos en una fbrica.

    e) 30 analistas financieros dan una prediccin de las ganancias por accin

    (en euros) de cierta empresa para el ao prximo.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    47

    Ejemplo 1.3. Preguntadas 300 personas acerca de su estado civil, 145 con-

    testaron estar solteras, 100 casadas, 30 divorciadas y 25 viudas.

    a) Identifica la variable estadstica (V.E.) y clasifcala, modalidades del ca-

    rcter.

    b) Clasifica la V.E. en una tabla estadstica o distribucin de frecuencias: ob-

    tener frecuencias absolutas, relativas y acumuladas.

    Solucin: a) X: Estado Civil. Variable cualitativa con cuatro modali-

    dades: Soltera, Casada, Divorciada, Viuda.

  • Introduccin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    48

    Ejemplo 1.4. El departamento de prevencin de riesgos laborales de una gran empresa de la construccin ha recogido informacin sobre el nmero de accidentes laborales diarios con baja laboral que se han producido du-rante los 44 das siguientes a la aplicacin de nuevas normas de seguridad, obteniendo los siguientes resultados:

    Obtener:

    a) La tabla estadstica o distribucin de frecuencias.

    b) Diagramas de barras (con frecuencias absolutas y relativas).

    c) Diagrama en escalera o acumulativo.

    Nmero de accidentes diarios 44 das) 2 1 0 3 3 4 4 3 7 4 4 1 0 4 2 4 0 2 2 4 3 2 0 3 0 3 5 1 5 0 0 3 0 7 5 4 5 3 9 3 10 3 0 9

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    49

    Ejemplo 1.5. El departamento de personal de una empresa aplica un test

    de habilidad mental a sus empleados con el objetivo de seleccionar a un

    nmero determinado de ellos para la realizacin de ciertas tareas. Las pun-

    tuaciones obtenidas han sido las siguientes:

    43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45

    49 46 47 51 64 36 39 51 51 48 49 53 66 38 41 43

    71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60

    32 30 40 39 42 30 35 40 38 36 46 45 68 50 69 69

    a) Forma una distribucin de frecuencias con 7 intervalos.

    b) Histograma.

  • Introduccin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    50

    Ejemplo 1.6. Dada una distribucin con 128 valores:

    a) Determnese, mediante la frmula de Sturges, el nmero de intervalos en

    que puede agruparse.

    b) Si el recorrido de la distribucin es de 48 unidades, cul ser la amplitud

    de cada intervalo?.

    Solucin: a) K= 8 ; b) 6

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    51

    Ejemplo 1.7. Al representar mediante un histograma la siguiente distribu-

    cin de frecuencias:

    Intervalos ni

    0-10

    10-50

    100

    200

    El intervalo de 0 a 10 se representa por un rectngulo de 18 cm. de altura

    Cul debe ser la altura del intervalo de 10 a 50?

    vas.

  • TEMA 2 ANLISIS DE DATOS UNIDIMENSIONALES

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    53

    Ficha del tema 2. Objetivos de aprendizaje.

    Bibliografa bsica para complementar el tema.

    Programacin de la gua didctica:

    2.1. Principales medidas de posicin, dispersin y de forma o perfil.

    2.2. Transformaciones lineales y tipificacin de variables.

    2.3. Otras medidas de posicin: moda y cuantiles (mediana).

    Conceptos clave.

    Ejemplos.

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    54

    OBJETIVOS DE APRENDIZAJE. Aprender a calcular e interpretar los estadsticos descriptivos ms importan-tes. Conceptos de dispersin absoluta y dispersin relativa. Comparar dispersin y datos tipificados entre dos o ms variables. Informacin que aportan la media y la varianza en cuanto a la distribucin de los datos de una variable alrededor de la media (Regla de Tchebysheff). Estudiar cmo se ven afectados los estadsticos y coeficientes al transformar linealmente los datos de una variable.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    55

    BIBLIOGRAFA BSICA (teora y problemas)

    ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-

    dad, Ed. Thomson, 2005.

    Tema 2. (Con ejercicios, cuestiones de autoevaluacin y problemas

    resueltos y propuestos).

    MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica

    Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.

    Captulos 3 y 4.

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    56

    2.1. Principales medidas de posicin, dispersin y de forma o perfil.

    2.1.1. Principales medidas de posicin y dispersin.

    POSICIN: LA MEDIA ARITMTICA. x

    Variable estadstica con N datos en total ( )N 1iix:X = ==N

    1iixN

    1x

    Distribucin de frecuencias ( )k 1iii n,x:X = ==k

    1iii nxN

    1x

    Tambin: =

    = k1i

    ii fxx

    Se utilizar preferentemente la primera expresin.

    En una distribucin agrupada en INTERVALOS: .c.d.mxi

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    57

    PROPIEDADES DE LA MEDIA

    1. La media es el CENTRO DE GRAVEDAD de la distribucin (c.d.g):

    0)xx(N

    1ii == (medida de posicin central).

    2. Poblacin con N datos, subdividida en p subpoblaciones disjuntas de

    tamaos p21 ,N,, NN L con = =p

    1jj NN y medias p21 x,,x,x L , la me-

    dia total se puede determinar: =

    = p1j

    jjT NxN1x

    Ver ejemplo en: ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2006. Tema 2, pgina 29 (ejemplo 2.4)

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    58

    CONSIDERACIONES SOBRE LA MEDIA.

    1. La media es un resumen de los N datos de la variable (PROMEDIO).

    Datos homogneos (cercanos a la media), media representativa.

    Datos heterogneos (alejados de la media, extremos), media no represen-

    tativa.

    2. La media es un ESTADSTICO de tipo ABSOLUTO que tiene la misma uni-

    dad de medida que la variable. Adems su valor estar dentro del recorri-

    do de la variable: Mm xax:Re

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    59

    DISPERSIN: LA VARIANZA.

    En una V.E. con N datos ( )N 1iix:X = , las medidas de DISPERSIN miden la amplitud, diseminacin o VARIABILIDAD de los DATOS, en su conjunto.

    Miden la posicin que ocupan los datos respecto a un punto de inters que

    tomamos como referencia. La referencia ms apropiada, ptima para la va-

    rianza, es la media aritmtica, por ser el centro de gravedad de la distribu-

    cin.

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    60

    VARIANZA 2s :

    media de los cuadrados de las desviaciones de los datos a su media.

    Variable estadstica con N datos en total: ( )N 1iix:X = ( )

    == N

    1i

    2i

    2 xxN1s

    Distribucin de frecuencias: ( )k 1iii n,x:X = ( )

    == k

    1ii

    2i

    2 nxxN1s

    Tambin: ( )=

    = k1i

    i2

    i2 fxxs

    Se utilizar preferentemente la primera expresin.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    61

    En una distribucin agrupada en INTERVALOS: .c.d.mxi DESVIACIN TPICA s:

    varianzas tpica Desviacin += PROPIEDADES DE LA VARIANZA Y LA D.T.

    1. 0s ; 0s2 . Son cero cuando todos los datos son iguales.

    2. Se demuestra que: 2N

    1i

    2i

    2 xxN1s =

    = o bien

    2k

    1ii

    2i

    2 xnxN1s =

    =. Esta

    expresin resulta til para el clculo de la varianza sobre una distribucin

    de frecuencias.

    Ejemplo 2.1.

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    62

    CONSIDERACIONES SOBRE LA VARIANZA Y LA DESVIACIN TPICA.

    1. La varianza 2s es una medida de DISPERSIN ABSOLUTA. Tiene la uni-dad de medida de la variable al cuadrado.

    La desviacin tpica s , sin embargo, tiene la misma unidad de medida que la variable y es directamente comparable con la media.

    2. La desviacin tpica s , como medida de DISPERSIN aporta informacin estadstica sobre la VARIABILIDAD de los DATOS en relacin a su media.

    Nos dar informacin acerca de la homogeneidad o heterogeneidad de los

    datos en relacin al valor medio de los mismos.

    s pequea en relacin al valor de la media: media representativa, datos homogneos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    63

    s grande en relacin al valor de la media: media no representativa, datos

    heterogneos.

    3. COMPARAR DISPERSIN entre dos o ms variables: las desviaciones tpi-

    cas de dos o ms variables son comparables directamente si las variables

    tienen la misma unidad de medida y el mismo valor para la media.

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    64

    DISPERSIN RELATIVA. EL COEFICIENTE DE VARIACIN

    Para comparar la dispersin entre diferentes series de datos (variables) independien-

    temente de sus unidades de medida y del valor de sus medias se utilizar una medida

    de DISPERSIN RELATIVA.

    Dada una variable ( )N 1iix:X = , su media 0x y su desviacin tpica s , se define el coeficiente de variacin de Pearson:

    |x|sg0 =

    Habr mayor dispersin relativa donde g0 sea mayor.

    Ejemplo 2.2. Ejemplo 2.3. Ejemplo 2.4.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    65

    2.1.2. Momentos.

    Dada una variable estadstica ( )N 1iix:X = , ( )k 1iii n,x:X = con su media x , se definen:

    MOMENTOS ORDINARIOS DE ORDEN p

    =

    = N1i

    pip xN

    1a o =

    = k1i

    ip

    ip nxN1a con p entero 0p

    MOMENTOS ORDINARIOS que se van a utilizar:

    =

    =

    ==

    ===N

    1i

    2i2

    N

    1ii1

    xN1a2p

    xxN1a1p (media)

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    66

    MOMENTOS CENTRALES DE ORDEN p

    ( )=

    = N1i

    pip xxN

    1m o ( )=

    = k1i

    ip

    ip nxxN1m con p entero 0p

    MOMENTOS CENTRALES que se van a utilizar:

    ( )( )( )( )

    =

    =

    =

    =

    ==

    ==

    ===

    ===

    N

    1i

    4i4

    N

    1i

    3i3

    2N

    1i

    2i2

    N

    1ii1

    xxN1m4p

    xxN1m3p

    sxxN1m2p

    0xxN1m1p

    (varianza)

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    67

    LA VARIANZA EN FUNCIN DE LOS MOMENTOS.

    En funcin de la segunda propiedad dada para la varianza y de las definicio-

    nes de los momentos ordinarios y centrales se tiene que:

    ( ) 2122N1i

    2i

    N

    1i

    2i2

    2 aaxxN1xx

    N1ms ====

    ==

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    68

    2.1.3. Medidas de forma o perfil.

    ASIMETRA: perfil horizontal de la distribucin.

    La media es el c.d.g. de la distribucin (de la variable, de la serie de datos

    ordenada) y se desplazar hacia donde haya mayor densidad de datos. Se

    estudia la simetraasimetra de la distribucin tomando como referencia el

    c.d.g.

    Si hay mayor densidad de datos al principio de la distribucin (datos menores), la

    media se desplaza hacia la izquierda, dejando una cola de datos a su derecha:

    ASIMETRA A LA DERECHA DE LA MEDIA.

    Si hay mayor densidad de datos al final de la distribucin (datos mayores), la

    media se desplaza hacia la derecha, dejando una cola de datos a su izquierda:

    ASIMETRA A LA IZQUIERDA DE LA MEDIA.

    Si la distribucin de datos es igual a izquierda y derecha de la media: SIMETRA

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    69

    ASIMETRA A LA DERECHA

    media

    ASIMETRA A LA IZQUIERDA

    media

    SIMETRA

    media

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    70

    COEFICIENTE DE ASIMETRA DE FISHER.

    A partir del momento central de orden impar ( )=

    = N1i

    3i3 xxN

    1m se define

    el coeficiente de asimetra de FISHER:

    33

    1 smg =

    IZQUIERDA LA A ASIMETRA0g0m Si

    grfico) (observar 0g0mSIMETRA

    DERECHA LA A ASIMETRA0g0m Si

    13

    13

    13

    >

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    71

    APUNTAMIENTO O CURTOSIS: perfil vertical de la distribucin.

    Las medidas de apuntamiento proporcionan informacin estadstica de la

    distribucin, relativa a la densidad de datos que hay en las proximidades de

    la media (c.d.g.).

    Si la densidad de datos alrededor de la media es muy dominante: distri-

    bucin MUY APUNTADA, rectngulos del histograma centrales con mucha

    altura.

    Si la densidad de datos alrededor de la media no es dominante: distribu-

    cin POCO APUNTADA, rectngulos del histograma centrales con poca al-

    tura.

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    72

    COEFICIENTE DE APUNTAMIENTO O CURTOSIS DE FISHER.

    A partir del momento central de orden cuatro ( )=

    = N1i

    4i4 xxN

    1m se defi-

    ne el coeficiente de apuntamiento de FISHER:

    44

    2 smg =

    Para medir con este coeficiente el grado de apuntamiento de una distribu-

    cin se utilizarn dos MODELOS de distribucin de REFERENCIA:

    MODELO NORMAL: distribucin campaniforme con un apuntamiento de

    3g2 = . MODELO UNIFORME: distribucin horizontal con un apuntamiento de

    8,1g2 = .

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    73

    Apuntamiento = 3MODELO NORMAL

    Apuntamiento = 1,8MODELO UNIFORME

  • Anlisis de datos unidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    74

    De esta forma se seguirn los siguientes criterios para medir el apuntamiento de una

    distribucin:

    ica)(platicrt NORMAL modelo el que apuntada menos3g Sica)(mesocrti NORMAL modelo el que toapuntamien mismo3g Si

    ica)(leptocrtNORMAL modeloelqueapuntada ms3g Si

    2

    2

    2

    Apuntamiento >3

    Apuntamiento1,8

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    75

    . extremos) los en datos de densidad (msU"" de forma Si

    l).(horizonta UNIFORME modelo que toapuntamien mismo Si

    , covariacin positiva: si la variable X crece, entonces la tenden-cia de la variable Y es a crecer tambin.

    0sXY < , covariacin negativa: si la variable X crece, entonces la ten-dencia de la variable Y es a decrecer (o viceversa).

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    150

    grfico dispersin

    0

    1

    2

    3

    4

    5

    6

    0 1 2 3 4 5 6 7 8

    x

    y

    covarianza positiva 2,71

    grfico dispersin

    0

    1

    2

    3

    4

    5

    6

    0 1 2 3 4 5 6 7 8

    x

    y

    covarianza negativa -2,71

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    151

    0sXY = , covariacin nula: no hay una variabilidad conjunta lineal domi-nante (positiva o negativa) entre X e Y.

    PROPIEDAD: si las variables X e Y son independientes estadsticamente, la

    covarianza es cero. El recproco no es necesariamente cierto.

    0sXY =ntesindependie Y e X

    grfico dispersin

    4; 2

    0

    1

    2

    3

    4

    5

    0 1 2 3 4 5 6 7 8

    x

    y

    covarianza cero pero dependientes

    grfico dispersin

    4; 2

    0

    1

    2

    3

    4

    0 1 2 3 4 5 6 7 8x

    y mediasc.d.g.

    covarianza cero e independencia

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    152

    PROPIEDADES DE LA COVARIANZA.

    1. Clculo de la covarianza: se demuestra fcilmente que la covarianza se puede determinar como:

    yxyxN1s

    N

    1iiiXY = =

    o en forma de momentos: 01101111XY aaams == 2. Transformacin lineal:

    XY21'Y'X22

    11 skkscYkYcXkX =

    +=+=

    siendo reales nmeros 2121 c,c,k,k

    Por tanto la covarianza es sensible al cambio de escala y su valor de-

    pende de las unidades de medida de las variables X e Y. Es un estadstico de

    tipo absoluto.

    3. Obviamente YXXY ss = .

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    153

    VECTOR DE VALORES MEDIOS

    =yx

    mr

    MATRIZ DE VARIANZAS COVARIANZAS

    =

    2YXY

    XY2X

    ssss

    S

    La matriz de varianzas covarianzas es simtrica y semidefinida posi-tiva ( )0)Sdet( . Medias y varianzas marginales y covarianza en funcin de los momentos:

    Ejemplo 4.4. Ejemplo 4.6. 01101111XY

    2010202

    2Y

    2102020

    2X

    0110

    aaamsaamsaams

    ayax

    ======

    ==

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    154

    PROPIEDADES DE COMBINACIN LINEAL DE VARIABLES.

    Sea (X, Y) una V.E.B. y sean

    =yx

    mr y

    =

    2YXY

    XY2X

    ssss

    S su vector de me-

    dias y matriz de var cov respectivamente.

    Sea cYkXkZ 21 ++= una COMBINACIN LINEAL de X e Y con k1, k2 y c nmeros reales. La MEDIA y la VARIANZA de Z se pueden determinar como sigue:

    XY212Y

    22

    2X

    21

    2Z

    21

    skk2skskscykxkz++=

    ++=

    Solo si la covarianza es cero 2Y

    22

    2X

    21

    2Z sksks += .

    As, si 0sXY =ntesindependie Y e X y entonces: 2Y222X212Z sksks += . Ejemplo 4.8.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    155

    4.4. EL COEFICIENTE DE CORRELACIN LINEAL. MATRIZ DE CORRE-LACIN.

    EL COEFICIENTE DE CORRELACIN LINEAL SIMPLE.

    Dada (X, Y) una V.E.B. y

    =

    2YXY

    XY2X

    ssss

    S su matriz de var cov, se define

    el coeficiente de correlacin lineal de Pearson como: YX

    XYXY ss

    sr = El coeficiente r tiene el mismo signo que la covarianza.

    r es un estadstico de tipo relativo, es decir, independiente de las unida-des de medida de las variables X e Y.

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    156

    Mide la intensidad de la variabilidad conjunta lineal entre X e Y es decir

    la correlacin lineal.

    PROPIEDADES DEL COEFICIENTE DE CORRELACIN.

    1. El coeficiente de correlacin lineal est acotado: 1r1 .

    correlacin perfecta positiva

    x

    y r = 1

    correlacin perfecta negativa

    x

    y

    r = -1

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    157

    2. Transformacin lineal: XY'Y'X22

    11 rrcYkYcXkX =

    +=+=

    . Donde k1 , k2 y c

    son nmeros reales, con k1 y k2 del mismo signo. Es decir, que el coeficiente

    es invariante por transformacin lineal (salvo en el signo).

    MATRIZ DE CORRELACIN.

    Dada (X, Y) una V.E.B. y el coeficiente de correlacin lineal YX

    XYXY ss

    sr = , se define:

    =

    =1r

    r1rrrr

    RXY

    XY

    YYYX

    XYXX

    MATRIZ DE CORRELACIN

    Es una matriz simtrica y semidefinida positiva 0r1)Rdet( 2XY = Ejemplo 4.9.

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    158

    4.5. ASOCIACIN.

    Sean dos atributos

    (A, B): (ai, bj); nij con k y m

    categoras respectivamente, or-

    ganizados en una tabla de con-

    tingencia (distribucin conjun-

    ta). Se estudiar la asociacin

    entre A y B utilizando el criterio

    de independencia estadstica.

    B

    A b1 b2 bj bm ni

    a1 n11 n12 n1j n1m n1

    a2 n21 n22 n2j n2m n2

    ai ni1 ni2 nij nim ni

    ak nk1 nk2 nkj nkm nk

    nj n1 n2 nj nm N

    TABLA DE CONTINGENCIA

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    159

    A y B independientes si

    j,iN

    nnn jiij

    = . ESTADSTICO

    2

    A\B b1 b2 bj bm ni

    a1 n11 n12 n1j n1m n1

    a2 n21 n22 n2j n2m n2

    ai ni1 ni2 nij nim ni

    ak nk1 nk2 nkj nkm nk

    nj n1 n2 nj nm N

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    160

    Se denominar:

    ijn a la frecuencia real u observada y

    N

    nnE jiij

    = a la frecuencia esperada o terica: frecuencia que se tendra en caso de independencia.

    El estadstico 2 compara las frecuencias reales con las tericas:

    = =

    = k1I

    m

    1j ij

    2ijij2

    E)nE(

    0 2

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    161

    EL COEFICIENTE DE CONTINGENCIA DE PEARSON

    Se define a partir del estadstico 2:

    2

    2

    P NC +=

    El coeficiente de contingencia de Pearson mide la intensidad de la aso-

    ciacin entre dos atributos.

    Est acotado: 1C0 P

  • Anlisis de datos bidimensionales.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    162

    Se demuestra que en tablas de contingencia cuadradas )kk( su valor mximo es

    k1kCMAX

    = .

    Ejemplo 4.11.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    163

    Conceptos clave.

    Coeficiente de contingencia de Pearson. Coeficiente de correlacin lineal. Combinacin lineal de variables. Covarianza. Distribucin conjunta. Distribuciones condicionadas. Distribuciones marginales.

    Estadstico 2 .

    Independencia estadstica. Matriz de correlacin. Matriz de varianzas-covarianzas. Tabla de contingencia. Tabla de correlacin. Transformacin lineal.

  • Anlisis de datos bidimensionales.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    164

    EJEMPLOS Ejemplo 4.1. Ordenar la siguiente serie de datos bidimensionales en una distribucin conjunta o distribucin de frecuencias bidimensional (tabla de correlacin):

    X 1 1 2 2 3 3 1 2 3 2 Y 1 2 1 2 1 2 1 1 2 1

    Solucin:

    Y X

    1

    2

    1 2 1 2 3 1 3 1 2

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    165

    Ejemplo 4.2. a) Obtener las distribuciones de frecuencias marginales de X e Y a partir de

    la distribucin conjunta del ejemplo 4.1. b) Obtener las siguientes distribuciones condicionadas a partir de la conjunta

    del ejemplo 4.1.: 2x/Ye1y/X ==

  • Anlisis de datos bidimensionales.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    166

    Ejemplo 4.3. Hemos observado la retribucin mensual de los 40 trabajado-res de una empresa segn su antigedad en la misma obteniendo la siguien-te tabla de correlacin o distribucin de frecuencias bidimensional: Y: retribucin mensual (en euros.) X: antigedad en la empresa (en aos)

    a) Qu porcentaje de em-pleados tiene una antige-dad entre 2 y 4 aos y una retribucin entre 600 y 780 euros? (conjunta)

    b) Cuntos empleados tienen

    una antigedad entre 4 y 6 aos? (marginal)

    c) Observa la retribucin de los empleados con una antigedad entre 0 y 2 aos y comprala con la re-tribucin de los que tienen una antigedad entre 4 y 6 aos (condiciona-da).

    YX

    420-600 mdc 510

    600-780 690

    780-960 870

    960-1200 1080

    0 2 mdc 1 7 3 1 0

    2 4 3 1 9 6 2

    4 6 5 0 2 3 6

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    167

    Ejemplo 4.4. Determina el vector de medias y la matriz de varianzas co-varianzas de la siguiente distribucin conjunta obtenida en el ejemplo 4.1.

    YX 1 2

    1 2 1 2 3 1 3 1 2

    Solucin:

    ==24,01,01,06,0

    S4,1

    2mr

  • Anlisis de datos bidimensionales.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    168

    Ejemplo 4.5. Son independientes las variables del Ejemplo 4.3? Calcula la media de las retribuciones de los empleados con menor antigedad y com-prala con la media marginal de las retribuciones de todos los trabajadores. Cmo habran sido las medias anteriores en caso de independencia?

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    169

    Ejemplo 4.6. Es posible que la siguiente matriz:

    25242416

    sea de varian-

    zas-covarianzas? Razona la respuesta.

    Solucin: No.

  • Anlisis de datos bidimensionales.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    170

    Ejemplo 4.7. Dada la siguiente distribucin de frecuencias bidimensional:

    Y X 2 4

    -5 1 0 0 0 1 5 1 0

    a) Estn X e Y incorreladas? b) Son estadsticamente independientes X e Y?

    Solucin: 1) s, 2) no

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    171

    Ejemplo 4.8. De dos variables X e Y se conocen los siguientes datos:

    vector de valores medios

    =1510

    mr ; matriz de varianzas-covarianzas

    =252

    216S . Hallar la media y la varianza de la variable: 8Y3X2Z ++= Solucin: 265S73z 2Z ==

  • Anlisis de datos bidimensionales.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    172

    Ejemplo 4.9. Calcula el coeficiente de correlacin lineal en el ejemplo 4.4. e interpreta el resultado. Obtener la matriz de correlaciones.

    Solucin: 0,265

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    173

    Ejemplo 4.10. A partir de la siguiente matriz de datos para las variables X1, X2, X3, obtener:

    a) Las distribuciones marginales b) Algunas de las distribuciones

    condicionadas c) El vector de medias y la matriz

    de varianzas-covarianzas d) La matriz de correlaciones

    Solucin: c)

    =

    3,028,0

    mr

    =

    61,0034,0060,010,034,010,056,0

    S d)

    =

    1058,00117,058,017,01

    Observacin X1 X2 X3 1 2 3 4 5 6 7 8 9

    10

    1 0 0 2 1 0 0 1 1 2

    2 2 2 3 3 2 1 3 1 1

    -1 -1 -1 0 1 0 -1 -1 0 1

  • Anlisis de datos bidimensionales.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    174

    Ejemplo 4.11. Un fabricante de herramientas compra una serie de piezas a tres proveedores diferentes. Cada pieza es analizada para detectar si pre-senta alguno de los tres tipos de defectos ms usuales, antes de ser intro-ducida en la cadena de produccin. Durante un mes se han recogido datos relativos al tipo de defecto encontrado en las piezas compradas a cada uno de los tres proveedores obtenindose la siguiente tabla de contingencia:

    Proveedor Tipo de Defecto A B C

    I 19 30 20 II 25 45 33 III 12 15 20

    Analizar si existe alguna relacin entre el tipo de defecto y el proveedor. Si la asociacin fuese mxima qu aspecto tendra la tabla de contingencia? Solucin: Cp = 0,117 para un mximo de 0,8165

  • TEMA 5 ANLISIS DE REGRESIN

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    176

    Ficha del tema 5. Objetivos de aprendizaje.

    Bibliografa bsica para complementar el tema.

    Programacin de la gua didctica:

    5.1. Introduccin.

    5.2. Regresin mnimo-cuadrtica: caso lineal.

    5.3. Anlisis de la bondad de un ajuste: capacidad explicativa de una ecua-

    cin de regresin. Coeficiente de determinacin. Caso lineal.

    5.4. Regresin no lineal: potencial y exponencial.

    Conceptos clave.

    Ejemplos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    177

    OBJETIVOS DE APRENDIZAJE.

    Estudio exhaustivo de la regresin lineal simple (dos variables X, Y): clculo de los parmetros a, b, a, b de las rectas de regresin Y* = a + bX y

    X* = a + bY a partir del principio de mnimos cuadrados.

    Expresin de esos parmetros en funcin de los estadsticos de la variable bidimensional (X, Y).

    Interpretacin de los coeficientes de regresin b y b.

    Obtencin de una medida de la bondad del ajuste efectuado a partir de la relacin existente entre la varianza total y las varianzas residual y de la re-gresin: coeficiente de determinacin R2 (capacidad explicativa de una ecua-cin de regresin).

    Relacin entre el coeficiente de determinacin y los coeficientes de regresin b y b.

    Introduccin a la regresin no lineal: casos potencial y exponencial.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    178

    BIBLIOGRAFA BSICA (teora y problemas)

    ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-

    dad, Ed. Thomson, 2005.

    Tema 4 para tema 5. (Con ejercicios, cuestiones de autoevaluacin y

    problemas resueltos y propuestos).

    MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica

    Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.

    Captulo 6.

    MARTN PLIEGO, F.J.: Introduccin a la Estadstica Econmica y Empre-

    sarial, Ed. Thomson. Madrid 2004 (3 edicin).

    Captulo 10 para punto 4 (pgina 273).

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    179

    5.1. INTRODUCCIN.

    El estudio conjunto de dos variables (X, Y) tiene como objetivo fundamental de-

    terminar si estn relacionadas esas variables y, si hay alguna relacin, cuantifi-

    car esa relacin. Cmo primer paso se puede observar el grfico de dispersin:

    la nube de puntos nos puede ayudar a buscar un modelo de relacin adecuado.

    x

    y

    correlacin lineal

    grfico de dispersin

    x

    y

    datos no correlacionados

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    180

    relacin no lineal

    x

    y

    relacin potencial relacin exponencial

    relacin no lineal

    x

    y

    relacin parablica

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    181

    Para CUANTIFICAR la relacin entre X e Y se utilizarn dos teoras funda-

    mentales:

    Teora de la CORRELACIN: clculo de estadsticos conjuntos y coefi-

    cientes que midan la intensidad o el grado de relacin entre X e Y

    (como el coeficiente de correlacin lineal definido en el tema 4).

    Teora de la REGRESIN: una vez elegido el modelo de relacin que

    se desea estudiar y cuantificar entre X e Y (lineal, exponencial), con

    la teora de la REGRESIN se obtendr la ecuacin de la funcin, del

    tipo elegido, que mejor relacione a las variables X e Y. Este tipo de

    ecuaciones se denominan ECUACIONES DE REGRESIN. Estas ecua-

    ciones cuantifican la RELACIN ESTADSTICA entre X e Y.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    182

    RELACIN ESTADSTICA RELACIN FUNCIONAL.

    Antes de estudiar cmo se obtienen las ecuaciones de regresin, conviene

    distinguir entre una relacin estadstica y una, ms conocida, relacin fun-

    cional entre dos variables:

    Una relacin funcional entre X e Y )x(fy = es una corresponden-cia exacta, tal que cada valor de X est asociado con un nico valor

    de Y.

    Una relacin estadstica entre dos variables X e Y es una corres-

    pondencia no necesariamente exacta, tal que cada valor de X x tiene asociado la prediccin de un valor de Y que se identificar como

    y . Este valor se obtendr a partir de la ecuacin de regresin

    )x(fy =

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    183

    Relacin funcional

    y = 2x + 7

    0

    20

    40

    60

    80

    100

    120

    0 5 10 15 20 25 30 35 40 45 50

    x

    y

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    184

    Dada una serie de datos bivariantes

    (X, Y) la ecuacin de regresin

    )x(fy* = cuantifica la relacin es-tadstica entre X e Y.

    En este contexto:

    X es la variable independiente

    (variable control)

    Y es la variable dependiente

    (variable respuesta).

    Cada valor de X tendr asociado:

    estimado) (terico, prediccin de valor

    variable la de real valor

    i

    iiii y

    )y,x(YyxX RESIDUO

    = iii yye

    Relacin estadstica

    x

    yy* = f(x)

    (x,y)

    x

    y

    y*

    e=y - y*

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    185

    AJUSTE.

    Para obtener las ecuaciones de regresin )x(fy* = se utilizan mtodos matemticos de ajuste: hallar la ecuacin de un tipo de funcin que mejor

    ajuste a la nube de puntos del grfico de dispersin.

    MTODO DE AJUSTE: PRINCIPIO DE MNIMOS CUADRADOS (P.M.C.)

    Dada una serie de datos bidimensionales N

    1iii )y,x(:)Y,X( = y elegido el ti-po de funcin que queremos ajustar )x(fy* = , la ecuacin que mejor ajusta a la nube de puntos es la que minimiza la suma de los cuadrados de

    los residuos.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    186

    MNIMA

    = =

    =N1i

    N

    1i

    2ii

    2i )yy(e

    A )x(fy = la llamare-mos:

    Ecuacin de regresin

    mnimo cuadrtica

    de Y sobre X.

    x

    y

    y* = f(x)RESDUOSe=y - y*

    y

    y*

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    187

    5.2. REGRESIN MNIMO CUADRTICA: CASO LINEAL.

    Dada una serie de datos bivariantes N

    1iii )y,x(:)Y,X( = , si el tipo de funcin elegida )x(fy* = para relacionar las variables X e Y es una RECTA, su ecuacin en forma explcita es:

    reales nmeros b,abxay += . Aplicando el P.M.C. como mtodo de ajuste: la ecuacin de la recta

    bxay += que mejor ajustar a la nube de puntos N1iii )y,x( = del grfico de dispersin ser la que minimice la suma de los cuadrados de los residuos.

    ( ) == =

    +== N1i

    MNIMA 2iiN

    1i

    N

    1i

    2ii

    2i )bxa(y)yy(e

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    188

    ( ) == =

    +== N1i

    MNIMA 2iiN

    1i

    N

    1i

    2ii

    2i )bxa(y)yy(e

    Regresin lineal

    x

    y y* = a + bx

    y i

    y i *

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    189

    OBTENCIN DE LA RECTA DE REGRESIN DE Y SOBRE X.

    Sea la funcin: ( )=

    += N1i

    2ii )bxa(y)b,a(H a y b parmetros.

    Los posibles valores de a y b que minimicen H(a, b) sern los que anulen las derivadas parciales:

    SISTEMA DE ECUACIONES NORMALES

    ( )( )

    +=+=

    =+=

    =+=

    ===

    ==

    =

    =N

    1i

    2i

    N

    1ii

    N

    1iii

    N

    1ii

    N

    1ii

    N

    1iiii

    N

    1iii

    xbxayx

    xbaNy

    0x)bxa(y2bH

    0)bxa(y2aH

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    190

    La resolucin del sistema de ecuaciones anterior da los siguientes valores

    para los parmetros a y b:

    xbyassb

    2X

    XY == Se demuestra adems que son un mnimo: (Cf.: ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabilidad, Ed. Thomson, 2005, 2006 segunda impresin, pginas 156-157). Por tanto la recta de regresin de Y sobre X que mejor ajusta a la nube de puntos

    N1iii )y,x( = es:

    ==+=

    xbyassb

    bxay 2XXY

    Expresin que se utilizar para dar la recta de regresin.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    191

    INTERPRETACIN DE LOS PARMETROS a y b: bxay +=

    xbya = representa el valor de la ordenada Y en el origen.

    COEFICIENTE DE REGRESIN: representa la variacin experimentada por

    la variable Y para un incremento unitario de X. Por cada incremen-

    to unitario de la variable X, la variable Y cambia su valor b unida-

    des (de promedio).

    (Tambin es la pendiente de la recta).

    Ejemplo 5.1.

    (a partir de los datos del problema 4.1.)

    2X

    XY

    ssb =

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    192

    OTRAS EXPRESIONES PARA LA RECTA DE REGRESIN de Y sobre X:

    Sustituyendo los valores obtenidos de a y b en bxay += queda:

    )xx(ssryy

    sssr

    )xx(ssybxxbybxay

    X

    YXY

    YX

    XYXY

    2X

    XY

    +==

    +=+=+=

    PREDICCIN.

    Con la recta de regresin de Y sobre X, bxay += , se pueden obtener va-lores de prediccin de Y, y sustituyendo en la ecuacin el valor x de X.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    193

    EJEMPLO DE RECTA DE REGRESIN DE Y SOBRE X. PRCTICA.

    Obtngase la recta de regresin mnimo cuadrtica ajustada a los tres da-

    tos bivariantes que aparecen en el siguiente grfico:

    Regresin de Y sobre X

    4; 2

    7; 5

    1; 2

    y* = 1+0,5xR2 = 0,75

    0

    1

    2

    3

    4

    5

    6

    0 1 2 3 4 5 6 7 8

    X

    Y

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    194

    REGRESIN DE X SOBRE Y.

    Si quisiramos obtener valores de prediccin de X, x a partir de valores de

    la variable Y y se necesitara la recta de regresin de X sobre Y:

    ybax += . Para obtener esta recta se permutaran los papeles de las variables X e Y.

    Ahora Y sera la variable independiente (control) y X la variable dependiente

    (respuesta).

    En este caso la suma de los cuadrados de los residuos sera:

    ( ) == =

    +== N1i

    MNIMA 2iiN

    1i

    N

    1i

    2ii

    2i )yba(x)xx(e

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    195

    Al minimizar la expresin anterior se obtendran los parmetros a y b:

    ==+=

    ybxassb

    ybax 2Y

    XY

    COEFICIENTE DE REGRESIN de X sobre Y: representa la va-

    riacin experimentada por la variable X para un incremento unita-

    rio de Y.

    2Y

    XY

    ssb =

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    196

    OTRAS EXPRESIONES PARA LA RECTA DE REGRESIN de X sobre Y:

    Sustituyendo los valores obtenidos de a y b en ybax += queda:

    )yy(ssrxx

    sssr

    )yy(ssxybybxybax

    Y

    XXY

    YX

    XYXY

    2Y

    XY

    +==

    +=+=+=

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    197

    RELACIN ENTRE LA REGRESIN Y LA CORRELACIN LINEALES.

    bbr

    ssb

    ssb

    XY

    2Y

    XY

    2X

    XY

    =

    =

    =

    Teniendo en cuenta que el signo de XYr sera el mismo que el de b y b. PROPIEDADES DE LAS RECTAS.

    )xx(ssryy

    X

    YXY += y )yy(s

    srxxY

    XXY +=

    Se cruzan en el punto )y,x( (si se representan en unos mismos ejes coordenados (X, Y)).

    Son perpendiculares si 0rXY = , xxyy == Son iguales si 1rXY = .

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    198

    EJEMPLO DE LAS DOS RECTAS DE REGRESIN. PRCTICA.

    Determnese la recta de regresin mnimo cuadrtica de X/Y ajustada a los tres datos bivariantes del siguiente grfico. (Es el mismo que el de Y/X de la pag. 180).

    Dos rectas de regresin

    4; 2

    7; 5

    1; 2

    medias; (4; 3) y* = 1+0,5x

    0

    1

    2

    3

    4

    5

    6

    0 1 2 3 4 5 6 7 8

    X

    Y

    x* = -0,5+1,5y

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    199

    5.3. ANLISIS DE LA BONDAD DE UN AJUSTE: CASO LINEAL.

    Coeficiente de determinacin.

    Sea N

    1iii )y,x(:)Y,X( = una serie de datos bivariantes.

    Supongamos que se ha obtenido una ecuacin de regresin de Y sobre X

    )x(fy = . Con esta ecuacin se obtienen valores de prediccin de Y, iy . El anlisis de la bondad de un ajuste consiste en obtener una medida de la

    similitud de los valores reales de la variable ( )iy:Y con los estimados de la variable ( ) iy:Y , variable de la regresin. En la comparacin de estos va-

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    200

    lores jugar un papel esencial la variable que conforman los residuos

    ( )= iii yye:E , variable residual.

    Se partir de la siguiente relacin: los valores de la variable dependiente

    ( )iy:Y se pueden descomponer en iii eyy += y la medida de la bon-dad del ajuste se obtendr de la comparacin de la variabilidad de esas tres

    variables: ( )iy:Y ( ) iy:Y ( )= iii yye:E .

    Para ello se estudiar el aspecto de sus medias y varianzas, que dependern

    del tipo de ecuacin de regresin que ajustemos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    201

    VARIABLE Y Valores iy Media y Varianza

    =

    = N1i

    2i

    2Y )yy(N

    1s

    VARIABLE REGRESIN Y* Valores )x(fyi = Media y Varianza de la regresin

    =

    = N1i

    2i

    2*Y )yy(N

    1s

    VARIABLE RESIDUAL E = Y-Y* Valores

    = iii yye Media e Varianza residual

    =

    = N1i

    2i

    2E )ee(N

    1s

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    202

    CASO LINEAL: BONDAD DEL AJUSTE.

    En el caso lineal, la recta de regresin de Y sobre X es:

    xbyassbbxay

    2X

    XY ==+= siendo La media e y la varianza 2Es de la variable residual

    = YYE tienen el si-guiente aspecto:

    La variable residual abXY)bXa(YYYE =+== , es decir, es combinacin lineal de X e Y, por tanto:

    2X

    2XY2

    YXY2X

    XY2X22

    X

    2XY2

    YXY2X

    22Y

    2E s

    sssss2s

    )s(ssbs2sbss

    0)xby(xbyaxbye

    =+=+====

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    203

    Es decir:

    2X

    2XY2

    Y2E s

    sss

    0e

    ==

    Por otra parte, la media y y la varianza 2*Ys de la variable de la regresin

    Y toman el siguiente aspecto en la regresin lineal: La variable de la regresin bXaY += , es una transformacin lineal de X por tanto:

    2X

    2XY2

    X22X

    2XY2

    X22

    *Y sss

    )s(ssbs

    yxbxbyxbay

    ====+=+=

    es decir: 2X

    2XY2

    *Y sss

    yy

    ==

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    204

    Por tanto en la regresin lineal de Y sobre X, las medias y varianzas de las

    variables implicadas en el estudio quedan:

    total varianza

    media

    VARIABLE

    =

    = N1i

    2i

    2Y )yy(N

    1s

    yY

    regresin la de varianza

    regresin la de VARIABLE

    2X

    2XY2

    *Y

    N

    1i

    2i

    2*Y

    sss

    )yy(N1s

    yyY

    =

    ==

    =

    residual varianza

    residual VARIABLE

    2X

    2XY2

    Y2E

    N

    1i

    2ii

    2E

    ssss

    )yy(N1s

    0eE

    =

    ==

    =

    Es decir, que se obtiene la siguiente relacin entre las varianzas:

    2E

    2Y

    2Y

    2*Y

    2Y

    2E ssssss +==

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    205

    Esta relacin nos permite descomponer la variabilidad total de los valores

    reales de ( )iy:Y en la variabilidad de los valores de ( ) iy:Y (obtenidos a partir de X con la recta de regresin ii bxay += ) y la variabilidad de los residuos ( )= iii yye:E .

    Obviamente cuanto menor sea la varianza residual 2Es mejor ser el

    ajuste.

    Si 0s 2E = el ajuste ser ptimo y si 2Y2E ss = (su valor mximo) el ajuste ser psimo.

    El peso de estas varianzas en la relacin anterior se medir mejor con un

    indicador de tipo relativo.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    206

    EL COEFICIENTE DE DETERMINACIN R2.

    Expresamos en trminos relativos la relacin entre las tres varianzas:

    2Y

    2E

    2Y

    2Y

    2Y

    2E

    2Y

    2Y

    2Y

    2Y2

    E2Y

    2Y s

    sss1

    ss

    ss

    sssss +=+=+=

    El primer cociente 2Y

    2Y

    ss

    representa la parte de la variabilidad de

    ( )iy:Y explicada por la regresin. El segundo conciente 2

    Y

    2E

    ss

    , complementario del anterior, representa la

    parte de la variabilidad de ( )iy:Y que queda por explicar.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    207

    El coeficiente de determinacin se define precisamente a partir de esas rela-

    ciones: 2Y

    2E

    2Y

    2Y2

    ss1

    ssR ==

    PROPIEDADES DE COEFICIENTE.

    En general, en los tipos de regresiones donde se cumpla la relacin

    entre varianzas 2E

    2Y

    2Y sss += , se define el coeficiente de determinacin

    de esta forma: 2Y

    2E2

    ss1R = .

    1R0 2 : se deduce fcilmente de la definicin, teniendo en cuenta que

    2Y

    2E ss0 y que es cociente de varianzas (siempre positivas).

    2R proporciona una medida de la bondad del ajuste.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    208

    Interpretacin del coeficiente:

    =====

    ptimo ajuste

    psimo ajustemximo) (residuo 0s1Rss0R

    ss1R 2

    E2

    2Y

    2E

    2

    2Y

    2E2

    100R2 mide el porcentaje de la variabilidad de la variable depen-diente ( )iy:Y que explica la regresin ( )ii bxay:Y += . Dicho de otra forma: en qu medida la informacin de la variable X (variable

    independiente) determina los valores de Y (variable dependiente) a

    travs de la ecuacin de regresin )x(fy = . ( ) Y)x(fyX =

    En este sentido se interpreta tambin 2R como una medida de la ca-pacidad explicativa de la ecuacin de regresin.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    209

    EL COEFICIENTE DE DETERMINACIN EN LA REGRESIN LINEAL.

    Teniendo en cuenta que en la regresin lineal:

    2X

    2XY2

    Y2E s

    sss = 2X

    2XY2

    *Y sss = y el coeficiente de correlacin

    YX

    XYXY ss

    sr =

    2XY2

    Y2X

    2XY

    2Y

    2Y2 r

    sss

    ssR ===

    Es decir, en la regresin lineal el coeficiente de determinacin coincide con

    el de correlacin lineal al cuadrado.

    Adems las varianzas de la regresin y residual se pueden determinar tam-

    bin en funcin de 2

    XYr : 2Y

    2XY

    2E

    2Y

    2XY

    2*Y s)r1(ssrs ==

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    210

    Por tanto la BONDAD DEL AJUSTE en la regresin lineal se medir a partir

    de 2

    XY2 rR = , coeficiente de determinacin:

    100r2XY mide el porcentaje de la variabilidad de la variable depen-diente ( )iy:Y que explica la regresin ( )ii bxay:Y += .

    100)r1( 2XY representa el porcentaje de la variabilidad de ( )iy:Y que queda por explicar (residuo).

    Ejemplo 5.2.

    Cotas del coeficiente de correlacin: el coeficiente de correlacin lineal

    XYr est acotado entre -1 y 1 ya que:

    1r11r01R0 XY2

    XY2 .

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    211

    5.4. Regresin no lineal: potencial y exponencial.

    Dada una serie de datos bivariantes N

    1iii )y,x(:)Y,X( = , si el tipo de funcin elegida )x(fy* = para relacionar las variables X e Y es una funcin poten-cial o exponencial, su ecuacin en forma explcita tendr el aspecto:

    bxay = potencial Ajuste a y b parmetros.

    xbay = lexponencia Ajuste a y b parmetros.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    212

    AJUSTE POR UNA FUNCIN POTENCIAL.

    bxay = Para determinar los parmetros a y b, se procede como sigue.

    La expresin bxay = se reduce a forma lineal tomando logaritmos: xlnbalnyln * += .

    Sobre la expresin anterior se opera un ajuste lineal:

    llamando ubAv

    alnAylnv

    ylnvxlnu

    +=

    ====

    , es decir, se obtiene la

    recta de regresin de V sobre U.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    213

    Se obtienen A y b ajustando una recta por mnimos cuadrados a la va-riable )Yln,X(ln)V,U( :

    ubvAssb

    2U

    UV == . Finalmente se determina el parmetro a:

    AeaAlnantiaalnA === .

    Ejemplo 5.4.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    214

    AJUSTE POR UNA FUNCIN EXPONENCIAL.

    xbay = Para determinar los parmetros a y b, se procede como sigue.

    La expresin xbay = se reduce a forma lineal tomando logaritmos: blnxalnyln * += .

    Sobre la expresin anterior se opera un ajuste lineal:

    llamando BxAv

    blnBalnAylnv

    ylnv

    +=

    ====

    , es decir, se obtiene la

    recta de regresin de V sobre X.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    215

    Se obtienen A y B ajustando una recta por mnimos cuadrados a la variable )Yln,X()V,X( :

    xBvAssB

    2X

    XV == . Finalmente se determinan los parmetros a y b:

    B

    A

    ebBlnantibblnBeaAlnantiaalnA

    ======

    .

    Ejemplo 5.5.

  • Anlisis de Regresin.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    216

    Conceptos clave.

    Ajuste Bondad de ajuste coeficiente de determinacin. Coeficiente de regresin. Correlacin Error cuadrtico medio (ECM). Principio mnimos cuadrados. Recta de regresin mnimo-cuadrtica Regresin Regresin no lineal Residuo Varianza de la regresin Varianza residual

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    217

    EJEMPLOS

    Ejemplo 5.1. Se ha estudiado las calificaciones de 100 alumnos en dos

    asignaturas: Estadstica (variable X) y Matemticas Financieras (variable Y),

    obtenindose los siguientes datos: 110 2,5 10 0,5X Yx y S S= = = = Adems se sabe que el coeficiente de correlacin entre ambas es 0,85XYr = . Obtener la recta de regresin de Y/X.

  • Anlisis de Regresin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    218

    Ejemplo 5.2. Analizar la bondad de los ajustes efectuados en el ejemplo

    anterior calculando la varianza residual, la varianza de la regresin y el co-

    eficiente de determinacin. (Capacidad explicativa de la recta de regresin).

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    219

    Ejemplo 5.3. En la estimacin de los parmetros de un modelo de regresin

    lineal se han obtenido los siguientes valores:

    9,0r20s15s8y5x 22YXY ===== A partir de los datos anteriores determnese:

    1. La varianza de X

    2. La recta de regresin X/Y

    3. La recta de regresin Y/X.

    Solucin: 1) 12,5 2) a=-1, b=0,75 3) a =2, b =1,2

  • Anlisis de Regresin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    220

    Ejemplo 5.4. Dada la siguiente distribucin bidimensional:

    X 1 2 6 6

    Y 4 33 260 840

    Realizar un ajuste potencial del tipo bix ay

    *i =

    Solucin: x 3i4y*i =

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha Texto

    221

    Ejemplo 5.5. Dada la siguiente distribucin bidimensional

    X 1 2 3 4

    Y 2 4 8 16

    Se pide:

    a) Realizar un ajuste exponencial del tipo x* bay =

    b) El error cuadrtico medio e interpretar el resultado obtenido.

    Solucin: 0ECM)b2y)a x* ==

  • Anlisis de Regresin.

    ndice Ficha Texto

    Rafael Dez, Vicente Coll y Olga Blasco

    222

    Ejemplo 5.6. A partir de los siguientes datos de las variables X1, X2 y X3,

    obtener:

    X1 X2 X3

    1 3 1

    2 0 2

    3 1 -1

    4 -1 -1

    a) El plano de regresin de X1/X2,X3 y la bondad del ajuste efectuado.

    b) La matriz de correlacin.

    c) El coeficiente de correlacin parcial entre X1 y X2.

    Solucin: a) X1* = 3 - 0,5 X2 0,5 X3 2X

    1

    R = 1 c) r12.3= -1

  • TEMA 6 TASAS DE VARIACIN Y

    NMEROS NDICES

  • Tasas de Variacin y Nmeros ndice.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    224

    Ficha del tema 6. Objetivos de aprendizaje.

    Bibliografa bsica para complementar el tema.

    Programacin de la gua didctica:

    6.1. Introduccin.

    6.2. Tasas de variacin.

    6.3. Nmeros ndices: clasificacin y propiedades.

    6.4. ndices de precios y cantidades ms importantes.

    6.5. Cambio de base, renovacin y enlace.

    6.6. Deflactacin de series estadsticas.

    Conceptos clave.

    Ejemplos.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    225

    OBJETIVOS DE APRENDIZAJE.

    Definir el concepto de nmero ndice y tasa de variacin. Estudiar los tipos de nmeros ndices complejos ms relevantes tipo Laspey-

    res y Paasche, haciendo especial hincapi en los ndices de precios.

    Acercar el perodo de referencia o la base de una serie de ndices al perodo

    actual, operando cambios de base.

    Enlace de series de ndices utilizando el cambio de base. Deflactacin de magnitudes econmicas expresadas en u.m. corrientes, utili-

    zando ndices de precios.

  • Tasas de Variacin y Nmeros ndice.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    226

    BIBLIOGRAFA BSICA (teora y problemas)

    ESTEBAN, J.; y otros.: Estadstica Descriptiva y nociones de Probabili-

    dad, Ed. Thomson, 2005.

    Tema 5 para tema 6. (Con ejercicios, cuestiones de autoevaluacin y

    problemas resueltos y propuestos).

    MONTIEL, A.M.; RIUS, F.; BARN F.J.: Elementos bsicos de Estadstica

    Econmica y Empresarial, Ed. Prentice Hall, Madrid 1997.

    Captulo 7.

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    227

    6.1. INTRODUCCIN.

    Los instrumentos que se van a definir, servirn para medir la evolucin del

    valor de una variable en el tiempo o en el espacio.

    Normalmente se tratar de variables de tipo socioeconmico. Una variable

    de esta naturaleza se denominar magnitud.

    Se comparar el valor de una magnitud en dos situaciones (habitualmente

    temporales):

    Situacin inicial: perodo de referencia o BASE, se denotar por 0

    Situacin final: perodo actual que se pretende comparar con el base,

    se denotar por t

  • Tasas de Variacin y Nmeros ndice.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    228

    TIPOS DE MAGNITUDES:

    MAGNITUD SIMPLE: variable unidimensional

    T,,...2,1,0t:y,...,y,,...y,y:Y Tt10=

    perodos

    valores

    MAGNITUD COMPLEJA: variable n dimensional

    ( )

    )y...,,y...,,y,y(t

    )y...,,y...,,y,y(0Y...,,Y...,,Y,Y

    ntitt2t1

    0n0i2010

    ni21

    perodo

    perodo:valores

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    229

    6.2. TASA DE VARIACIN.

    Sea Y magnitud simple y sean los valores t1t0 yy,y e .

    Tasa de variacin de 1yy

    yyyYTVt)1t(

    1t

    t

    1t

    1ttt

    t1t ===

    Tasa de variacin de 1yy

    yyyTVt0

    0

    t

    0

    0tt0 ==

    TASAS DE VARIACIN EN TANTO POR UNO

    (X 100) EN PORCENTAJE

  • Tasas de Variacin y Nmeros ndice.

    ndice Ficha

    Rafael Dez, Vicente Coll y Olga Blasco

    230

    6.3. NMEROS NDICES. CLASIFICACIN Y PROPIEDADES.

    6.3.1 Definicin y clasificacin.

    NMERO NDICE: medida estadstica de tipo relativo (en tanto por uno o

    porcentaje) que sirve para comparar el valor de una magnitud (variable) en

    dos situaciones, una de las cuales se considera de referencia (base).

    Los nmeros ndices se escriben en PORCENTAJE, tomando como referencia

    el 100.

    )iones(ponderaciPONDERADOS

    PONDERARSINCOMPLEJOS

    SIMPLES

    NDICESNMEROS

  • Gua didctica de Estadstica Descriptiva para las Ciencias Sociales.

    Rafael Dez, Vicente Coll y Olga Blasco

    ndice Ficha

    231

    6.3.2.