Diez Garcia Rafael - Guia Didactica De Estadistica Descriptiva Para Las Cs

Rafael Díez Vicente Coll

Olga Mª Blasco

GGuuííaa ddiiddááccttiiccaa ddee

EEssttaaddííssttiiccaa DDeessccrriippttiivvaa ppaarraa llaass

CCiieenncciiaass SSoocciiaalleess

Eumed.net Universidad de Málaga 2008

Guía didáctica de Estadística Descriptiva para las Ciencias Sociales © Rafael Díez García, Vicente Coll Serrano y Olga Mª Blasco Blasco Diseño de cubierta: © Rafael Díez García

Vicente Coll Serrano Olga Mª Blasco Blasco

Reservados los derechos para todos los países. De conformidad con lo dispuesto en el artículo 270 del Código penal vigente, podrán ser castigados con multas y privación de libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artística o científica fijada en cualquier tipo de soporte sin la preceptiva autorización. Ninguna parte de esta publicación, incluido el diseño de la cubierta, puede ser reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste electrónico, químico, mecánico, electro-óptico, grabación, fotocopia o cualquier otro, sin la previa autorización escrita por parte de los autores. ISBN: Depósito Legal: Maquetación: © Rafael Díez García

Vicente Coll Serrano Olga Mª Blasco Blasco

Índice

Índice analítico.

Página

TEMA 1. INTRODUCCIÓN.

Ficha del tema 1. 16 Objetivos de aprendizaje. 17 Bibliografía básica para complementar el tema. 18 Programación de la guía didáctica: 1.1. Estadística: concepto, contenido y relaciones con el área económi-ca y empresarial. 19 1.2. La investigación estadística. Análisis descriptivo, modelización e in-ferencia. 28 1.3. Datos estadísticos: naturaleza, descripción numérica y representa-ción gráfica. 32 Conceptos clave. 43 Ejemplos. 44 TEMA 2. ANALISIS DE DATOS UNIDIMENSIONALES.

Ficha del tema 2. 53 Objetivos de aprendizaje. 54

Guía didáctica de Estadística Descriptiva para las Ciencias Sociales.

Página

Bibliografía básica para complementar el tema. 55 Programación de la guía didáctica: 2.1. Principales medidas de posición, dispersión y de forma o perfil. 56 2.2. Transformaciones lineales y tipificación de variables. 76

2.2.1. Transformaciones lineales. 76 2.2.2. Tipificación de variables. 83 2.2.3. Regla de Tchebysheff. 86

2.3. Otras medidas de posición: moda y cuantiles (mediana). 88 Conceptos clave. 95 Ejemplos. 96 TEMA 3. MEDIDAS DE CONCENTRACIÓN.

Ficha del tema 3. 116 Objetivos de aprendizaje. 117 Bibliografía básica para complementar el tema. 118 Programación de la guía didáctica: 3.1. Introducción: concepto, instrumentos, concentración mínima y máxima. 119

3.2. Curva de Lorenz. 122

Índice analítico.

Página

3.3. Índice de Gini. 123 Conceptos clave. 124 Ejemplos. 125 TEMA 4. ANÁLISIS DE DATOS BIDIMENSINALES.

Ficha del tema 4. 128 Objetivos de aprendizaje. 129 Bibliografía básica para complementar el tema. 130 Programación de la guía didáctica: 4.1. Representación de datos multidimensionales: matriz de datos, ta-blas de correlación y contingencia, gráfico de dispersión. 131 4.2. Distribuciones conjuntas, marginales y condicionadas. Indepen-dencia estadística. 134 4.3. Momentos. Vector de valores medios y matriz de varianzas-covarianzas. 146 4.4. El coeficiente de correlación lineal simple. Matriz de correlación. 155 4.5. Asociación. 158 Conceptos clave. 163 Ejemplos. 164

Página

TEMA 5. ANÁLISIS DE REGRESIÓN.

Ficha del tema 5. 176 Objetivos de aprendizaje. 177 Bibliografía básica para complementar el tema. 178 Programación de la guía didáctica: 5.1. Introducción. 179 5.2. Regresión mínimo-cuadrática: caso lineal. 187 5.3. Análisis de la bondad de un ajuste: capacidad explicativa de una ecuación de regresión. Coeficiente de determinación. Caso lineal. 199 5.4. Regresión no lineal: potencial y exponencial. 211 Conceptos clave. 216 Ejemplos. 217 TEMA 6. TASAS DE VARIACIÓN Y NÚMEROS ÍNDICE.

Ficha del tema 6. 224 Objetivos de aprendizaje. 225 Bibliografía básica para complementar el tema. 226

Índice analítico.

Página

Programación de la guía didáctica: 6.1. Introducción. 227 6.2. Tasas de variación. 229 6.3. Números Índices: clasificación y propiedades. 230

6.3.1. Definición y clasificación. 230 6.3.2. Índices simples. 231 6.3.3. Índices complejos. 233 6.3.4. Propiedades. 236

6.4. Índices de precios y cantidades más importantes. 237 6.4.1. Índice de precios complejo ponderado. 239 6.4.2. Índice de cantidad complejo ponderado. 240 6.4.3. Índice complejo de valor. 241

6.5. Cambio de base, renovación y enlace. 242 6.6. Deflactación de series estadísticas. 244 Conceptos clave. 248 Ejemplos. 249 TEMA 7. ANÁLISIS CLÁSICO DE SERIES TEMPORALES.

Ficha del tema 7. 256

Página

Objetivos de aprendizaje. 257 Bibliografía básica para complementar el tema. 258 Programación de la guía didáctica: 7.1. Introducción. 259 7.2. Componentes de una serie. Descomposición. 260 7.3. Análisis de la tendencia. 262

7.3.1. Tendencia anual. 265 7.3.2. Tendencia k-esimal. 267

7.4. Análisis de la variación estacional. Desestacionalización. 270 7.4.1. Obtención de los IVE. 272 7.4.2. Desestacionalización. 275

7.5. Predicción. Corrección por estacionalidad. 276 7.5.1. Predicción de la tendencia. 276 7.5.2. Corrección por estacionalidad. 277

Conceptos clave. 278 Ejemplos. 279

PRÓLOGO

El texto de Estadística que se presenta con el nombre de Guía Didáctica de Estadística Descripti-

va para las Ciencias Sociales, tiene una estructura que lo sitúa entre un conjunto de fichas resu-

men de los contenidos de una materia y un libro de texto. Es mucho más amplio que un mero re-

sumen de conceptos y fórmulas, pero no supone un desarrollo exhaustivo de los epígrafes de una

programación; tampoco contiene demostraciones salvo alguna conveniente excepción. No por ello

deja de ser un texto riguroso y sistemático, ajustado a una programación. Hemos diseñado esta

Guía didáctica de forma que su contenido sirva de refuerzo a la clase presencial de un curso de in-

troducción de Estadística.

La Guía Didáctica pretende ser un texto que acompañe y encamine a los estudiantes en el estu-

dio de la materia, aportándoles información concreta y precisa sobre los conceptos clave y técni-

cas de la Estadística Descriptiva. Cada uno de estos conceptos viene acompañado por ejemplos

ilustrativos que ayudarán al estudiante a asimilarlos.

Se encuentra también disponible, como material complementario de esta Guía Didáctica, las Fi-

chas Técnicas de Estadística Descriptiva para las Ciencias Sociales.

Cómo utilizar la Guía Didáctica de Estadística Descriptiva para las Ciencias Sociales.

La Guía Didáctica se compone de un total de 7 temas. En cada tema se facilita una ficha que

presenta su estructura-organización:

Objetivos de aprendizaje.

Bibliografía básica para complementar el tema.

Programación del tema.

Conceptos clave.

Ejemplos.

Los apartados de la ficha están hipervinculados. También están vinculados los ejemplos pro-

puestos que aparecen en el desarrollo de los epígrafes de cada tema. Observará que el puntero de

ratón cambia de forma. Al hacer clic sobre el texto vinculado se accederá a la parte del documento

donde se desarrolla el contenido.

A pie de página aparecen dos o tres iconos.

Índice

Para acceder al índice de la Guía Didáctica.

Para volver a la ficha del tema.

Para volver al texto (solo disponible en los enunciados de ejemplos)

Esperamos que los contenidos tratados en la Guía Didáctica de Estadística Descriptiva para las

Ciencias Sociales resulten de utilidad al lector.

Contacto con los autores:

Rafael Díez García: Rafael.Díez@uv.es

Vicente Coll Serrano: Vicente.Coll@uv.es

Olga Blasco Blasco: Olga.Blasco@uv.es

TEMA 1 INTRODUCCIÓN

Introducción.

Índice Ficha

Ficha del tema 1. Objetivos de aprendizaje.

Programación de la guía didáctica:

1.1. Estadística: concepto, contenido y relaciones con el área económica y

empresarial.

1.2. La investigación estadística. Análisis descriptivo, modelización e infe-

rencia.

1.3. Datos estadísticos: naturaleza, descripción numérica y representación

gráfica.

Conceptos clave.

Ejemplos.

Índice Ficha

OBJETIVOS DE APRENDIZAJE. Conocer y distinguir las dos ramas básicas de la estadística, la estadística descriptiva y la inferencia estadística, intuyendo como interacciona entre ambas la teoría matemática de la probabilidad creando modelos. Distinguir entre datos de tipo cualitativo y cuantitativo, discreto y continuo, aprendiendo a ordenarlos en distribuciones de frecuencias agrupadas y sin agrupar. Construir histogramas y polígonos acumulativos partir de una distribución de frecuencias agrupada en intervalos.

Introducción.

Índice Ficha

BIBLIOGRAFÍA BÁSICA (teoría y problemas)

ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-

dad”, Ed. Thomson, 2005.

Tema 1. (Con ejercicios, cuestiones de autoevaluación y problemas

resueltos y propuestos).

MONTIEL, A.M.; RIUS, F.; BARÓN F.J.: “Elementos básicos de Estadística

Económica y Empresarial”, Ed. Prentice Hall, Madrid 1997.

Capítulos 1 y 2.

Índice Ficha

1.1. ESTADÍSTICA: CONCEPTO, CONTENIDO Y RELACIONES CON EL ÁREA ECONÓMICA Y EMPRESARIAL.

Ejemplo introductorio. Se ha contabilizado el número de días de baja, du-rante un trimestre, de los trabajadores de dos empresas obteniéndose los siguientes resultados:

Compara el número de días de ba-ja en las dos empresas:

Distribución frecuencias. Media aritmética Varianza

DATOS empresa A 0 2 1 1 3 2 0 1 5 2 2 3 3 2 1 4 2 2 1 3

DATOS empresa B 0 1 1 2 9 1 0 0 1 1 0 0 1 1 0 1 1 1 9 9 9 0 0 1 0 0 1 1 9 0

Introducción.

Índice Ficha

La ESTADÍSTICA, como ciencia, compara series de datos y ayuda a tomar

decisiones ante lo incierto, es decir, a resolver casos de incertidumbre. La

información estadística se utiliza muy a menudo para validar o avalar que

las decisiones que pretendemos tomar son las más verosímiles o probables.

Índice Ficha

Nº días baja empresa A Nº trabajadores

Valores Frecuencia Porcentaje Porcentaje acumulado

0 2 10 10 1 5 25 35 2 7 35 70 3 4 20 90 4 1 5 95 5 1 5 100

Total 20 100

012345678

0 1 2 3 4 5

nº días de baja A

Introducción.

Índice Ficha

Nº días baja empresa B Nº trabajadores

0 11 36,67 36,67 1 13 43,33 80,00 2 1 3,33 83,33 9 5 16,67 100,00

Total 30 100,00

0 1 2 9

nº días de baja B

trabaja

Índice Ficha

Cálculo de la Media y la Varianza.

Nº días baja A Nº trabajadores

Cálculo de Media

Cálculo de Varianza

0 2 10 10 0 8 1 5 25 35 5 5 2 7 35 70 14 0 3 4 20 90 12 4 4 1 5 95 4 4 5 1 5 100 5 9

Total 20 100 40 30

Nº días baja B Nº trabajadores

Cálculo de Media

Cálculo de Varianza

0 11 36,67 36,67 0 44 1 13 43,33 80,00 13 13 2 1 3,33 83,33 2 0 9 5 16,67 100,00 45 245

Total 30 100 60 302

Introducción.

Índice Ficha

DATOS EMPRESA A

Media 2,00 Varianza 1,5 Desviación típica 1,22

DATOS EMPRESA B

Media 2,00 Varianza 10,0667 Desviación típica 3,17

Índice Ficha

La Estadística tiene aplicaciones importantes en el ámbito de la economía y la empresa:

ECONOMÍA: el análisis de datos generados por variables como la pro-ductividad económica, inflación, tipos de interés, empleo – desempleo.... James Hechman y Daniel McFadden compartieron el premio Nobel de Economía en el año 2000 por desarrollar métodos de análisis de datos es-tadísticos, utilizados actualmente para estudiar comportamientos indivi-duales en economía. Se utilizan métodos estadísticos para construir índices como el IPC, para medir y predecir la inflación. Asimismo, la es-tadística es una herramienta indispensable para la econometría y el análisis de series temporales (estudio de variaciones estacionales y cí-clicas de magnitudes económicas). El premio Nobel de Economía de 2003 lo ganaron Robert Engle, por desarrollar métodos de análisis de series temporales con volatilidad variante en el tiempo (ARCH) Y Clive Granger por sus trabajos en el análisis de series temporales con tendencias co-munes (cointegración).

Introducción.

Índice Ficha

DIRECCIÓN DE EMPRESAS: se utilizan métodos de control de calidad estadísticos para dirigir y perfeccionar constantemente el proceso de producción y por consiguiente el rendimiento de la compañía. En 1986 W. Edwards Deming y otros abogaron por una filosofía total de la calidad con un perfeccionamiento continuo de la misma.

CONTABILIDAD, AUDITORÍA: toma de decisiones en cuanto al estado de las cuentas, liquidez de las empresas, inventario... etc., basándose en el análisis estadístico, donde los datos a analizar son las tasas de va-riación de las finanzas (cuentas de la empresa). Los análisis estadísticos pueden demostrar si las tasas de variación de las finanzas en algunas empresas difieren significativamente de las que son típicas o usuales en el grupo industrial de empresas determinado. Los directivos de las empresas, los inversionistas y los empleados deben estar interesados en conocer este tipo de resultados ya que las compañías con unos índices de variación en sus finanzas atípicos suelen ir a la quiebra.

Índice Ficha

GESTIÓN Y RECURSOS HUMANOS: evaluar y comparar la capacidad de colectivos de trabajadores para realizar tareas (reparto de tareas), utilizar resultados de un test de aptitud para complementar la informa-ción subjetiva de los candidatos a un empleo.

MARKETING: los fabricantes de productos de consumo dirigen la inves-tigación en marketing a recoger y analizar datos relacionados con las técnicas de venta y distribución de bienes y servicios. La investigación en marketing a menudo incluye el “mercado potencial” y estudios de la “cuo-ta de mercado”, investigación acerca del producto, de la promoción y dis-tribución. Utiliza cuestionarios y encuestas por correo, teléfono o en-trevista personal para obtener información que ayude a las empresas a decidir si deberían y cómo deberían poner un producto en el mercado.

Introducción.

Índice Ficha

1.2. LA INVESTIGACIÓN ESTADÍSTICA. ANÁLISIS DESCRIPTIVO, MODELIZACIÓN E INFERENCIA.

Podemos distinguir tres fases implicadas cuando se aplica el método estadís-

1. MUESTREO: LA RECOPILACIÓN DE LOS DATOS SIN ELABORAR.

MUESTRA ALEATORIA Y DE

TAMAÑO ADECUADO.

muestreoTécnicas

POBLACIÓNMUESTRA↑

muestreoTécnicas

POBLACIÓNMUESTRA↑

Índice Ficha

2. ESTADÍSTICA DESCRIPTIVA: presentación en informe.

El objetivo de la Estadística Descriptiva es describir un conjunto de da-tos:

ORDENAR LOS DATOS

RECOPILARLOS EN TABLAS ESTADÍSTICAS: DISTRIBUCIONES DE

FRECUENCIAS.

GRÁFICOS DE LA DISTRIBUCIÓN DE FRECUENCIAS.

CÁLCULO DE ESTADÍSTICOS: RESUMEN DE DATOS.

INTERPRETAR RESULTADOS: PRESENTACIÓN INFORME.

El organizar los datos de forma tal que se puedan ver las tendencias y normas, se pueda dibujar gráficos, calcular estadísticos y redactar infor-mes se llama ESTADÍSTICA DESCRIPTIVA.

Introducción.

Índice Ficha

Estadístico: una medida que se pueda calcular a partir de los datos re-

ales generados por una variable y que resuma y dé una propiedad de

ese conjunto de datos.

Índice Ficha

3. INFERENCIA ESTADÍSTICA: exposición de predicciones y toma de deci-

siones.

El objetivo de la Inferencia Estadística es hacer afirmaciones sobre la POBLACIÓN basadas en la información disponible en la MUESTRA.

PREDICCIÓN. PROBABILIDAD.

ESTIMACIÓN DE PARÁMETROS. Parámetro: propiedad de la población.

TOMA DE DECISIONES.

Al no haber absoluta certeza de la veracidad de tales afirmaciones sobre la población, se ha de utilizar el término PROBABILIDAD como una medi-da de la incertidumbre de esas conclusiones: el propósito de la estadísti-ca es ayudar al que toma la decisión a tener razón más veces que lo con-trario. Darle una idea sobre el peligro que hay de que no tenga razón cuando toma una decisión particular.

Introducción.

Índice Ficha

1.3. Datos estadísticos: naturaleza, descripción numérica y repre-sentación gráfica.

CARÁCTER: el aspecto, fenómeno, propiedad que se desea estudiar de la

población.

MODALIDAD: diferentes formas de manifestarse el carácter.

VARIABLE ESTADÍSTICA X: el carácter medido sobre los elementos.

DATOS xi

Índice Ficha

1.3.1. Clasificación de los DATOS (VARIABLES) por su NATURALEZA.

CUALITATIVOS: MODALEDADES no numéricas, CATEGORÍAS

VARIABLES CUALITATIVAS: ORDINALES

NOMINALES o ATRIBUTOS

CUANTITATIVOS: MODALIDADES numéricas, VALORES

VARIABLES CUANTITATIVAS: DISCRETAS

CONTINUAS

Ejemplo 1.1. Ejemplo 1.2. Ejemplo 1.3.

Introducción.

Índice Ficha

1.3.2. DESCRIPCIÓN NUMÉRICA de los datos (variables cuantitativas)

VARIABLE X

N DATOS sin elaborar

( )N21

x,,x,xxL

k DATOS diferentes ordenados

de menor a mayor

( )k21

DISTRIBUCIÓN DE

FRECUENCIAS

Índice Ficha

DISTRIBUCIÓN DE FRECUENCIAS

Organización de la serie de DATOS

SIN AGRUPAR: POCOS DATOS DIFERENTES

(k pequeño comparado con N).

Ejemplo 1.4.

AGRUPADA en intervalos: MUCHOS DATOS DIFERENTES (k grande).

Ejemplo 1.5.

Introducción.

Índice Ficha

FRECUENCIA: conteo. TIPOS DE FRECUENCIA.

FRECUENCIAS ABSOLUTAS:

in (frecuencia absoluta) frecuencia

iN ∑==

1jji nN (frec. absoluta acumulada) frecuencia acumulada (i

= 1, 2,…, k)

FRECUENCIAS RELATIVAS:

if Nnf i

i = (frecuencia relativa) 100fi × porcentaje

F;fF ii

1jji =∑=

= 100Fi × porcentaje acumulado

(i = 1, 2,…, k) (frec. relativa acumulada)

Índice Ficha

Distribución de frecuencias SIN AGRUPAR .

( ) k21k

1iii xxxn,x:XVARIABLE <<<= L

(k pequeño comparado con N)

Tabla estadística: valores diferentes ordenados de menor a mayor y fre-

cuencia.

Ejemplo 1.4.

Introducción.

Índice Ficha

Distribución de frecuencias AGRUPADA EN INTERVALOS.

Cómo agrupar en intervalos muchos datos diferentes:

Observar valor mínimo xm y valor máximo xM.

Recorrido de la variable (amplitud total): mM xxRe −=

Número de intervalos (k):

grande)muy no (NNk

12lnNlnk Sturges

Amplitud intervalos (a): k

Índice Ficha

NOTACIÓN INTERVALOS

Intervalo i–ésimo: [ [i1i L,L − (i = 1, 2,…, k).

Marca de clase (m.d.c.): 2

LLxc.d.m i1i

+== − (punto medio del in-

tervalo).

Amplitud del intervalo i–ésimo: 1iii LLa −−= .

Ejemplo 1.5.

Introducción.

Índice Ficha

1.3.3. Representación gráfica (variables cuantitativas). DATOS SIN AGRUPAR: gráfico de barras.

Diagrama en escalera (acumulativo).

DATOS AGRUPADOS: HISTOGRAMA.

Polígono acumulativo.

Índice Ficha

HISTOGRAMA (gráfico de ÁREA)

Rectángulos yuxtapuestos.

Un rectángulo para cada intervalo.

Área de rectángulo representa la frecuencia del intervalo.

Altura de rectángulo i - ésimo:

d frecuencia de densidad ==

Si la amplitud de todos lo intervalos es la misma (“a” constante), la al-

tura de cada rectángulo puede ser la frecuencia del intervalo.

Ejemplo 1.6. Ejemplo 1.7.

Introducción.

Índice Ficha

HISTOGRAMA

Intervalos

inÁrea

iL1iL −

Índice Ficha

Conceptos clave.

Datos de naturaleza continua. Datos de naturaleza discreta. Densidad de frecuencia. Distribución de frecuencias agrupada. Distribución de frecuencias sin agrupar. Estadística Descriptiva. Frecuencia absoluta acumulada. Frecuencia absoluta. Frecuencia relativa (porcentaje). Frecuencia relativa acumulada. Histograma. Inferencia Estadística. Intervalo. Marca de clase. Polígono acumulativo. Variables cualitativas. Variables cuantitativas.

Introducción.

Índice Ficha Texto

EJEMPLOS. Ejemplo 1.1. Clasifica las siguientes variables en cualitativas o cuantitati-

vas, identificando posibles valores de esas variables y elementos de la po-

blación o muestra sobre la que observaríamos o mediríamos la variable:

a) Edad

b) Forma de pago al realizar una compra

c) Estado civil

d) Número de habitaciones por casa

e) Salario mensual percibido por los supervisores de ventas de una consul-

toría.

f) Medio de transporte utilizado para ir a clase por los estudiantes del cam-

pus de Tarongers

Índice Ficha Texto

g) Grado de riesgo de los fondos de inversión de una entidad financiera (1 =

riesgo menor, 5 = riesgo mayor)

h) Diámetro de las tuercas que produce una máquina. (Las tuercas deberían

tener todas 6 mm de diámetro)

i) Número de defectos encontrados en “n” ordenadores portátiles fabricados

durante un mes.

Introducción.

Índice Ficha Texto

Ejemplo 1.2. Indicar de las variables siguientes cuales generarían datos

discretos y cuales datos continuos:

a) Número de acciones vendidas cada día en un mercado de valores.

b) Temperaturas registradas cada media hora en un observatorio.

c) Censos anuales del colegio de profesores.

d) Longitud de 1.000 cerrojos producidos en una fábrica.

e) 30 analistas financieros dan una predicción de las ganancias por acción

(en euros) de cierta empresa para el año próximo.

Índice Ficha Texto

Ejemplo 1.3. Preguntadas 300 personas acerca de su estado civil, 145 con-

testaron estar solteras, 100 casadas, 30 divorciadas y 25 viudas.

a) Identifica la variable estadística (V.E.) y clasifícala, modalidades del ca-

rácter.

b) Clasifica la V.E. en una tabla estadística o distribución de frecuencias: ob-

tener frecuencias absolutas, relativas y acumuladas.

Solución: a) X: Estado Civil. Variable cualitativa con cuatro modali-

dades: Soltera, Casada, Divorciada, Viuda.

Introducción.

Índice Ficha Texto

Ejemplo 1.4. El departamento de prevención de riesgos laborales de una gran empresa de la construcción ha recogido información sobre el número de accidentes laborales diarios con baja laboral que se han producido du-rante los 44 días siguientes a la aplicación de nuevas normas de seguridad, obteniendo los siguientes resultados:

Obtener:

a) La tabla estadística o distribución de frecuencias.

b) Diagramas de barras (con frecuencias absolutas y relativas).

c) Diagrama en escalera o acumulativo.

Número de accidentes diarios 44 días) 2 1 0 3 3 4 4 3 7 4 4 1 0 4 2 4 0 2 2 4 3 2 0 3 0 3 5 1 5 0 0 3 0 7 5 4 5 3 9 3 10 3 0 9

Índice Ficha Texto

Ejemplo 1.5. El departamento de personal de una empresa aplica un test

de habilidad mental a sus empleados con el objetivo de seleccionar a un

número determinado de ellos para la realización de ciertas tareas. Las pun-

tuaciones obtenidas han sido las siguientes:

43 40 41 50 62 35 38 50 32 35 36 45 58 30 33 45

49 46 47 51 64 36 39 51 51 48 49 53 66 38 41 43

71 45 46 55 68 40 53 55 52 49 50 59 62 45 48 60

32 30 40 39 42 30 35 40 38 36 46 45 68 50 69 69

a) Forma una distribución de frecuencias con 7 intervalos.

b) Histograma.

Introducción.

Índice Ficha Texto

Ejemplo 1.6. Dada una distribución con 128 valores:

a) Determínese, mediante la fórmula de Sturges, el número de intervalos en

que puede agruparse.

b) Si el recorrido de la distribución es de 48 unidades, ¿cuál será la amplitud

de cada intervalo?.

Solución: a) K= 8 ; b) 6

Índice Ficha Texto

Ejemplo 1.7. Al representar mediante un histograma la siguiente distribu-

ción de frecuencias:

Intervalos ni

El intervalo de 0 a 10 se representa por un rectángulo de 18 cm. de altura

¿Cuál debe ser la altura del intervalo de 10 a 50?

TEMA 2 ANÁLISIS DE DATOS UNIDIMENSIONALES

Índice Ficha

2.1. Principales medidas de posición, dispersión y de forma o perfil.

2.2. Transformaciones lineales y tipificación de variables.

2.3. Otras medidas de posición: moda y cuantiles (mediana).

Conceptos clave.

Ejemplos.

Análisis de datos unidimensionales.

Índice Ficha

OBJETIVOS DE APRENDIZAJE. Aprender a calcular e interpretar los estadísticos descriptivos más importan-tes. Conceptos de dispersión absoluta y dispersión relativa. Comparar dispersión y datos tipificados entre dos o más variables. Información que aportan la media y la varianza en cuanto a la distribución de los datos de una variable alrededor de la media (Regla de Tchebysheff). Estudiar cómo se ven afectados los estadísticos y coeficientes al transformar linealmente los datos de una variable.

Índice Ficha

Tema 2. (Con ejercicios, cuestiones de autoevaluación y problemas

resueltos y propuestos).

Capítulos 3 y 4.

Índice Ficha

2.1. Principales medidas de posición, dispersión y de forma o perfil.

2.1.1. Principales medidas de posición y dispersión.

POSICIÓN: LA MEDIA ARITMÉTICA. x

Variable estadística con N datos en total ( )N1iix:X = ∑

Distribución de frecuencias ( )k1iii n,x:X = ∑

1iii nx

También: ∑=

1iii fxx

Se utilizará preferentemente la primera expresión.

En una distribución agrupada en INTERVALOS: .c.d.mxi ⇒

Índice Ficha

PROPIEDADES DE LA MEDIA

1. La media es el CENTRO DE GRAVEDAD de la distribución (c.d.g):

0)xx(N

1ii =−∑

= (medida de posición central).

2. Población con N datos, subdividida en “p” subpoblaciones disjuntas de

tamaños p21 ,N,, NN L con ∑=

1jj NN y medias p21 x,,x,x L , la me-

dia total se puede determinar: ∑=

1jjjT Nx

Ver ejemplo en: ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabilidad”, Ed. Thomson, 2006.

Tema 2, página 29 (ejemplo 2.4)

Índice Ficha

CONSIDERACIONES SOBRE LA MEDIA.

1. La media es un resumen de los N datos de la variable (PROMEDIO).

Datos homogéneos (cercanos a la media), media representativa.

Datos heterogéneos (alejados de la media, extremos), media no represen-

tativa.

2. La media es un ESTADÍSTICO de tipo ABSOLUTO que tiene la misma uni-

dad de medida que la variable. Además su valor estará dentro del recorri-

do de la variable: Mm xax:Re

Índice Ficha

DISPERSIÓN: LA VARIANZA.

En una V.E. con N datos ( )N1iix:X = , las medidas de DISPERSIÓN miden la

amplitud, diseminación o VARIABILIDAD de los DATOS, en su conjunto.

Miden la posición que ocupan los datos respecto a un punto de interés que

tomamos como referencia. La referencia más apropiada, óptima para la va-

rianza, es la media aritmética, por ser el centro de gravedad de la distribu-

ción.

Índice Ficha

VARIANZA 2s :

media de los cuadrados de las desviaciones de los datos a su media.

Variable estadística con N datos en total: ( )N1iix:X =

( )∑=

2 xxN1s

Distribución de frecuencias: ( )k1iii n,x:X =

( )∑=

2 nxxN1s

También: ( )∑=

2 fxxs

Se utilizará preferentemente la primera expresión.

Índice Ficha

En una distribución agrupada en INTERVALOS: .c.d.mxi ⇒

DESVIACIÓN TÍPICA s:

varianzas típica Desviación +=

PROPIEDADES DE LA VARIANZA Y LA D.T.

1. 0s ; 0s2 ≥≥ . Son cero cuando todos los datos son iguales.

2. Se demuestra que: 2

2 xxN1s −= ∑

= o bien

2 xnxN1s −= ∑

=. Esta

expresión resulta útil para el cálculo de la varianza sobre una distribución

de frecuencias.

Ejemplo 2.1.

Índice Ficha

CONSIDERACIONES SOBRE LA VARIANZA Y LA DESVIACIÓN TÍPICA.

1. La varianza 2s es una medida de DISPERSIÓN ABSOLUTA. Tiene la uni-

dad de medida de la variable al cuadrado.

La desviación típica s , sin embargo, tiene la misma unidad de medida que

la variable y es directamente comparable con la media.

2. La desviación típica s , como medida de DISPERSIÓN aporta información

estadística sobre la VARIABILIDAD de los DATOS en relación a su media.

Nos dará información acerca de la homogeneidad o heterogeneidad de los

datos en relación al valor medio de los mismos.

s pequeña en relación al valor de la media: media representativa, datos

homogéneos.

Índice Ficha

s grande en relación al valor de la media: media no representativa, datos

heterogéneos.

3. COMPARAR DISPERSIÓN entre dos o más variables: las desviaciones típi-

cas de dos o más variables son comparables directamente si las variables

tienen la misma unidad de medida y el mismo valor para la media.

Índice Ficha

DISPERSIÓN RELATIVA. EL COEFICIENTE DE VARIACIÓN

Para comparar la dispersión entre diferentes series de datos (variables) independien-

temente de sus unidades de medida y del valor de sus medias se utilizará una medida

de DISPERSIÓN RELATIVA.

Dada una variable ( )N1iix:X = , su media 0x ≠ y su desviación típica s , se

define el coeficiente de variación de Pearson:

|x|sg0 =

Habrá mayor dispersión relativa donde g0 sea mayor.

Índice Ficha

2.1.2. Momentos.

Dada una variable estadística ( )N1iix:X = , ( )k

1iii n,x:X = con su media x ,

se definen:

MOMENTOS ORDINARIOS DE ORDEN p

N1a o ∑

pip nx

N1a con p entero 0≥p

MOMENTOS ORDINARIOS que se van a utilizar:

xN1a2p

xxN1a1p (media)

Índice Ficha

MOMENTOS CENTRALES DE ORDEN p

( )∑=

pip xx

N1m o ( )∑

pip nxx

N1m con p entero 0≥p

MOMENTOS CENTRALES que se van a utilizar:

( )∑

=−==

xxN1m4p

xxN1m3p

sxxN1m2p

0xxN1m1p

(varianza)

Índice Ficha

LA VARIANZA EN FUNCIÓN DE LOS MOMENTOS.

En función de la segunda propiedad dada para la varianza y de las definicio-

nes de los momentos ordinarios y centrales se tiene que:

( ) 212

2 aaxxN1xx

N1ms −=−=−== ∑∑

Índice Ficha

2.1.3. Medidas de forma o perfil.

ASIMETRÍA: perfil horizontal de la distribución.

La media es el c.d.g. de la distribución (de la variable, de la serie de datos

ordenada) y se desplazará hacia donde haya mayor densidad de datos. Se

estudia la simetría–asimetría de la distribución tomando como referencia el

c.d.g.

Si hay mayor densidad de datos al principio de la distribución (datos menores), la

media se desplaza hacia la izquierda, dejando una cola de datos a su derecha:

ASIMETRÍA A LA DERECHA DE LA MEDIA.

Si hay mayor densidad de datos al final de la distribución (datos mayores), la

media se desplaza hacia la derecha, dejando una cola de datos a su izquierda:

ASIMETRÍA A LA IZQUIERDA DE LA MEDIA.

Si la distribución de datos es igual a izquierda y derecha de la media: SIMETRÍA

Índice Ficha

ASIMETRÍA A LA DERECHA

ASIMETRÍA A LA IZQUIERDA

SIMETRÍA

Índice Ficha

COEFICIENTE DE ASIMETRÍA DE FISHER.

A partir del momento central de orden impar ( )∑=

3i3 xx

N1m se define

el coeficiente de asimetría de FISHER:

IZQUIERDA LA A ASIMETRÍA0g0m Si

gráfico) (observar 0g0mSIMETRÍA

DERECHA LA A ASIMETRÍA0g0m Si

⇒<⇒<

=⇒=⇒

⇒>⇒>

Índice Ficha

APUNTAMIENTO O CURTOSIS: perfil vertical de la distribución.

Las medidas de apuntamiento proporcionan información estadística de la

distribución, relativa a la densidad de datos que hay en las proximidades de

la media (c.d.g.).

Si la densidad de datos alrededor de la media es muy dominante: distri-

bución MUY APUNTADA, rectángulos del histograma centrales con mucha

altura.

Si la densidad de datos alrededor de la media no es dominante: distribu-

ción POCO APUNTADA, rectángulos del histograma centrales con poca al-

Índice Ficha

COEFICIENTE DE APUNTAMIENTO O CURTOSIS DE FISHER.

A partir del momento central de orden cuatro ( )∑=

4i4 xx

N1m se defi-

ne el coeficiente de apuntamiento de FISHER:

Para medir con este coeficiente el grado de apuntamiento de una distribu-

ción se utilizarán dos MODELOS de distribución de REFERENCIA:

MODELO NORMAL: distribución campaniforme con un apuntamiento de

3g2 = .

MODELO UNIFORME: distribución horizontal con un apuntamiento de

8,1g2 = .

Índice Ficha

Apuntamiento = 3MODELO NORMAL

Apuntamiento = 1,8MODELO UNIFORME

Índice Ficha

De esta forma se seguirán los siguientes criterios para medir el apuntamiento de una

distribución:

ica)(platicúrt NORMAL modelo el que apuntada menos3g Sica)(mesocúrti NORMAL modelo el que toapuntamien mismo3g Si

ica)(leptocúrtNORMAL modeloelqueapuntada más3g Si

⇒<⇒=⇒>

Apuntamiento >3

Apuntamiento<3 y >1,8

Índice Ficha

. extremos) los en datos de densidad (másU"" de forma Si

l).(horizonta UNIFORME modelo que toapuntamien mismo Si

81g81g

Apuntamiento <1,8

Índice Ficha

2.2.Transformaciones lineales y tipificación de variables.

2.2.1. Transformaciones lineales.

Dada una V.E. ( )N1iix:X = y dos números reales k, c, se distinguirán tres tipos de

transformaciones lineales de la variable X en otra variable X’:

1. ( ) ( ) unidad o origende cambio cxxXx:X iiN

1ii +=′′⇒=

2. ( ) ( ) escalade cambio iiN

1ii kxxXx:X =′′⇒=

3. ( ) ( ) completa lineal cióntransforma ckxxXx:X iiN

1ii +=′′⇒=

EN GENERAL LO PODEMOS EXPRESAR:

origen)de (cambio1. cXX' +=

escala)de (cambio2. kXX' =

completa) lineal ación(transform3. ckXX' +=

Índice Ficha

PROPIEDADES DE TRANSFORMACIÓN LINEAL.

Si transformamos linealmente los datos de una variable, los estadísticos de la misma

(media, varianza, momentos, coeficientes) se ven afectados como sigue:

completa) lineal ación(transform

escala)de (cambio

origen)de (cambio

cxkxxk'x

+=′=

VARIANZA

escala)de (cambio

origen)de (cambio

3. 2. 1.

skssks

′′

Índice Ficha

TÍPICA DESVIACIÓN

escala)de (cambio

origen)de (cambio

′′

MOMENTOS

completa) lineal cióntransforma

escala)de cambio

origen)de cambio

()X(mk)X(m

()X(m)X(m

Índice Ficha

COEFICIENTE DE VARIACIÓN DE PEARSON

origen)de (cambio 1. cXX' +=

)X(g|cx|

s)X(g 0

XX0 ≠

′=′ ′ 1.

escala)de (cambio 2. kXX' =

)X(g|x|

s|x||k|

s|k||x|

s)X(g 0XXX

0 ===′

=′ ′ 2.

completa) lineal ación(transform 3. ckXX' +=

)X(g|cxk|

s|k||x|

s)X(g 0

XX0 ≠

′=′ ′ 3.

Índice Ficha

COEFICIENTE ASIMETRÍA DE FISHER

)X(m)X(g 13

′=′

⎪⎪

−=−

=′⇒<∗

===′

=′⇒>∗

)()()(

)()()()(

XgskXmk

XmXg0k

Si k es negativo cambia el signo de la asimetría, pero el grado de asimetría no.

Índice Ficha

Lo mismo que en 2.:

⎪⎪

−=−

=′⇒<∗

===′

=′⇒>∗

)()()(

)()()()(

XgskXmk

XmXg0k

El coeficiente de asimetría es invariante por transformación lineal, salvo en el signo.

Índice Ficha

COEFICIENTE DE APUNTAMIENTO DE FISHER

)X(m)X(g 24

′=′

)X(gsk

)X(mks

)X(m)X(g 24

′=′

)X(gsk

)X(mks

)X(m)X(g 24

′=′

El coeficiente de apuntamiento es invariante por transformación lineal.

Índice Ficha

2.2.2. Tipificación de variables.

Sea ( )N1iixX =: una V.E. y x ,

2s su media y varianza respectivamente.

Para cada valor ix de la variable se define su PUNTUACIÓN TIPIFICADA

sxxz i

iz es un valor relativo y mide la distancia del valor ix a la mediax , en

unidades de desviación típica.

Si un valor iz es positivo, el valor ix será mayor que la media.

Si un valor iz es negativo, el valor ix será menor que la media.

Índice Ficha

Si se tipifican los N valores de una V.E., se obtendrán N puntuaciones ti-

pificadas que constituyen otra variable que se denominará:

VARIABLE ESTADÍSTICA TIPIFICADA

( )N1iiz:Z =

PROPIEDADES DE LA VARIABLE TIPIFICADA.

1. La media de la V.E. tipificada es cero: 0z =

2. La varianza de la V.E. tipificada es uno: 1s2Z =

Por tanto cualquier variable que tipifiquemos se transforma en otra de media

cero y desviación típica uno:

Índice Ficha

LOS VALORES TIPIFICADOS se utilizarán para:

Comparar valores de diferentes variables, independientemente de la

unidad de medida de las mismas y del valor de sus medias y desviacio-

nes típicas.

Para medir la dispersión relativa de un valor concreto de una variable.

( )N1iixX =

( )N1iiyY =

VARIABLE TIPIFICADA

( )N1iizZ =

1s0z Z ==

Índice Ficha

2.2.3. Regla de Tchebysheff.

Dada una variable estadística cualquiera ( )N1iixX =: con N observaciones, de

media x y desviación típica s, y dado un número real positivo k mayor que

1; al menos un porcentaje de ⎟⎠⎞

⎜⎝⎛ − 2k

11 x 100 de las observaciones se en-

cuentra dentro del intervalo de valores ksx ± , es decir, entre k desviacio-

nes típicas alrededor de la media aritmética.

Ejemplo 2.12.

Índice Ficha

UTILIDAD DE LA REGLA DE TCHEBYSHEFF

Si de una V.E. X no se tiene información de sus valores concretos, ni de

su distribución de frecuencias, pero se conoce el valor de su media x y

la desviación típica s se puede obtener información sobre el recorrido de

los datos de la variable dando intervalos de valores alrededor de la me-

dia ksx ± .

Así por ejemplo:

Para k = 2 ⇒=− 75,0k11 2 más del 75% de los datos de una V.E. estará

en el intervalo s2x ± .

Para k = 2,5 ⇒=− 84,0k11 2 más del 84% de los datos de una V.E. estará

en el intervalo s5,2x ±

Para k = 3 ⇒=− 88890k11 2 , más del 88%-89% de los datos de una V.E.

estará en el intervalo s3x ± .

Índice Ficha

2.3. Otras medidas de posición: moda, cuantiles (mediana).

MODA (Mo): La moda es una medida de posición que identifica en la distribución de una

V.E. el valor o la zona de valores más frecuente o de mayor densidad de fre-

cuencia (zona modal). En una misma distribución puede haber más de una

moda o zonas modales.

DETERMINACIÓN DE LA MODA:

En una distribución con pocos datos diferentes, y por tanto, SIN AGRU-

PAR, la MODA es el valor (o valores) de la distribución con mayor fre-

cuencia.

En distribuciones con muchos datos diferentes y, por tanto, AGRUPADA

en intervalos, se determinará el INTERVALO, ZONA o CLASE MODAL

Índice Ficha

[ [i1i L,L − como aquel intervalo con mayor densidad de frecuencia id (o

frecuencia in , si todos tienen la misma amplitud).

Como valor representante de la MODA dentro de la clase modal i-ésima

[ [ii LL ,1− de densidad id y amplitud ia se dará el siguiente:

1i1i a

LMo+−

+− ++=

Ejemplo 2.13.

Índice Ficha

CUANTILES: βQ

DEFINICIÓN GENERAL: Dada una V.E. ( )N1iix:X = con N valores ORDE-

NADOS DE MENOR A MAYOR y dado un número real ( )1β0β << , se dirá

que el valor “x” del recorrido de la variable es un CUANTIL DE ORDEN β si:

como mínimo, un porcentaje del )100β( × de los valores son menores

o iguales que “x”.

y, como mínimo, un porcentaje del )100)β1(( ×− de los valores son

mayores o iguales que “x”.

NOTACIÓN: xQβ = (cuantil de orden β )

Índice Ficha

DETERMINACIÓN DE CUANTILES.

Sea una V.E. ( )N1iix:X = con N valores, y sea ( )k

1iiiii F,N,n,x:X = su dis-

tribución de frecuencias con los datos ordenados de menor a mayor.

REGLA GENERAL: se tomará como cuantil de ordenβ , βQ , el primer va-

lor ix de la distribución de frecuencias que tenga asignada una frecuen-

cia relativa acumulada iF superior al orden del cuantil β . (O un porcen-

taje acumulado )100F( i ⋅ superior al )100β( × , o una frecuencia

acumulada iN superior a Nβ ⋅ ).

Índice Ficha

CASO ESPECIAL: si un valor ix de la distribución de frecuencias tiene

asociada una frecuencia relativa acumulada iF que coincide exactamen-

te con el orden del cuantil β )βF( i = , se tomará como cuantil

Q 1iiβ

++= , es decir el punto medio entre ix y el siguiente valor de

la distribución 1ix + .

Índice Ficha

Si la distribución contiene muchos datos diferentes, AGRUPADOS EN IN-

TERVALOS y se pretende determinar los cuantiles manualmente sobre la

distribución agrupada, se procederá como sigue:

se determinará el intervalo o clase del cuantil [ [i1i L,L − como el

primer intervalo con una frecuencia relativa acumulada iF superior

al orden del cuantil β y, dentro de ese intervalo se dará como una

aproximación al cuantil:

1i1iβ a

LQ −−

o también, la expresión equivalente:

1i1iβ a

LQ −−

Índice Ficha

FAMILIAS DE CUANTILES MÁS UTILIZADAS:

LA MEDIANA (Me): la mediana es el cuantil de orden 5,0β =

5,0QMe =

Es decir, la MEDIANA es un valor que divide por la MITAD la distribu-

ción (MEDIDA DE POSICIÓN CENTRAL).

CUARTILES (Ci): los cuartiles son tres cuantiles que dividen la distri-

bución en cuartos. Son los cuantiles de órdenes β : 0,25 , 0,50 y 0,75.

75,0350,0225,01 QCQCQC ===

PERCENTILES (Pi): 99 cuantiles que dividen en 100 partes la distribu-

ción.

99,09980,08050,05030,03001,01 QP,QP,QP,QP,QP ===== LLLL

Índice Ficha

Conceptos clave.

Apuntamiento o curtosis (coeficientes de Fisher). Asimetría. Coeficiente de variación. Cuantil. Desviación típica. Dispersión absoluta. Dispersión relativa. Media (aritmética). Mediana. Moda. Puntuación tipificada. Transformación lineal. Varianza.

Índice Ficha Texto

EJEMPLOS. Ejemplo 2.1. 2.1.A. Calcúlese la media y la varianza de las siguientes series de valores: X: 1 2 3 4 5 Y: 6 7 8 9 10 Z: -19 4 7 12 21 W: 2 2 3 2 6 7 6

Solución: 2857,4s4w2,177s5z

2s8y2s3x2W

Índice Ficha Texto

2.1.B. Calcúlese la media y la varianza de la siguiente distribución de fre-cuencias agrupada:

Intervalos Frecuencia

2 – 3 10

3 – 4 40

4 – 5 10

Solución: 33,031s5,3x 2 ===

Índice Ficha Texto

2.1.C. Calcula la media de la siguiente distribución de frecuencias agrupada:

Intervalos Frecuencia

0 – 15 6

15 – 25 12

25 – 30 12

Solución: 5,20x ≅

2.1.D. Calcúlese la media y la varianza de la siguiente distribución:

xi 2 5 7 9 fi

frecuencia relativa 0,2 0,4 0,3 0,1

Solución: media 5,4 y varianza 4,44.

Índice Ficha Texto

Ejemplo 2.2.

2.2.A. Las dos muestras siguientes tienen la misma dispersión absoluta (desviación típica y varianza) pero diferente dispersión relativa (coeficiente variación):

a) 1 2 3 4 5 6 7

b) 1321 1322 1323 1324 1325 1326 1327

Sin realizar ningún cálculo: razona cuál de ellas tendrá menor dispersión re-lativa, es decir, qué conjunto de datos es más homogéneo. ¿Tiene algo que ver con la distancia de los datos al origen y el valor de las medias respecti-vas?

¿Por qué tienen la misma dispersión absoluta? (“distancia” de los datos a la media). En un cambio de origen, la dispersión absoluta (S) no cambia pero la disper-

sión relativa sí ⎟⎠⎞

⎜⎝⎛

. Calcula la media y varianza de las dos series de datos y

comprueba lo anterior.

Índice Ficha Texto

2.2.B. Las dos muestras siguientes tienen diferente dispersión absoluta pero

la misma dispersión relativa:

a) 1 2 3 4 5 6 7

b) 5 10 15 20 25 30 35

Sin realizar ningún cálculo: razona cuál de ellas tendrá menor dispersión ab-

soluta.

¿Por qué tienen la misma dispersión relativa? ¿Guardan alguna proporción

los datos de a) con los datos de b)? ¿Tiene esto algo que ver con un cambio

de escala?

En un cambio de escala, la dispersión absoluta sí cambia pero la relativa no

cambia. Calcula la media y varianza de las dos series de datos y comprueba

lo anterior.

Índice Ficha Texto

Ejemplo 2.3. Un fabricante de detergentes quiere comprar una máquina

empaquetadora que realice la operación de llenar bolsas de 250 gramos. La

casa A le ofrece una máquina con la cual realiza unas pruebas y obtiene los

siguientes resultados: 250, 252, 248, 253, 247.La casa B le ofrece otra y,

realizando pruebas, obtiene los siguientes resultados: 258, 252, 247, 248,

245. ¿Qué máquina le interesa más comprar? (Calcular media y varianza y

comparar dispersión).

Solución: 604,4s.gr250x28,2s.gr250x BBAA ==== Como las medias son iguales y tienen la misma unidad de medida, las desviaciones típicas son comparables directamente: la de A es menor que la de B.

Índice Ficha Texto

Ejemplo 2.4. En dos empresas se ha observado al colectivo de trabajadores

que causa baja laboral por motivos de enfermedad. El número medio de

horas perdidas por este motivo en la empresa A ha sido de 130h y en la

empresa B de 40h. Así mismo, las desviaciones típicas respectivas han sido

de 60h y 45h. ¿En qué empresa hay mayor dispersión relativa en el número

de horas perdidas? ¿Dónde es más representativa la media?

Índice Ficha Texto

Ejemplo 2.5. Calcula los coeficientes de asimetría y curtosis de Fisher de los valores: a) 1 2 3 4 5

b) 1 1 1 5 7

c) 1 3 3 3 5

Índice Ficha Texto

Ejemplo 2.6. Explica cuál de las siguientes variables estadísticas tiene una curva de frecuencias más aproximada al modelo normal, comentando en ca-da caso la forma de la curva de frecuencias correspondiente (asimetría y apuntamiento):

( ) ( )

740.29m85m10s)C736.20m936m12s)B

680.103nxxN1m

0nxxN1m144nxx

=−=====

=−==−=

∑∑

Sol.: La C es la más aproximada al modelo normal.

Índice Ficha Texto

Ejemplo 2.7. Dada la variable estadística X de media 15 y varianza 4, cal-cular la media y la varianza de las siguientes variables: a) Z = X + 3

b) Y = 4 X

c) Y = -4X

d) W = 6 X – 1

¿En qué variable el coeficiente de variación de Pearson serán igual al de X?

Solución: a) 4s18z 2Z ==

b) 64s60y 2Y ==

c) 64s60y 2Y =−=

d) 144s89w 2W == )

Índice Ficha Texto

Ejemplo 2.8. Analizadas las ventas (en miles de u.m.) en 1999 de 100 empresas de un determinado sector se ha obtenido una media de 500 u.m. y una desviación típica de 3,5 u.m. Calcular la media y la varianza para el año 2000 en los siguientes supues-

a) Las ventas sufren un aumento del 20% en todas las empresas.

b) Las ventas se incrementan en todas las empresas en 100 miles de u.m.

Solución: a) y = 600, 2Ys = 17,64

b) y = 600, 2Ys = 12,25

Índice Ficha Texto

Ejemplo 2.9. Tipifica los valores obtenidos en el ejemplo 2.3 para la casa B

y comprueba que la media de las puntuaciones tipificadas es 0 y la desvia-

ción típica 1.

Índice Ficha Texto

Ejemplo 2.10. Los estudiantes de un grupo determinado de primer curso

de la licenciatura en ECO han realizado dos pruebas, A y B. La calificación

media en la primera de ellas es de 6,5 puntos con una desviación típica de

2,36, mientras que en la segunda prueba, la media y la desviación típica han

sido respectivamente de 5 y 1,32 puntos. Un estudiante ha obtenido una ca-

lificación de 7,5 en la prueba A y de 7 en la prueba B. ¿En qué examen ha

obtenido una nota relativa más alta?

Índice Ficha Texto

Ejemplo 2.11. Cristina y Raúl, dos compañeros de un grupo de Estadística,

mantienen la siguiente conversación:

Cristina: creo que como estudiante universitaria soy más alta que tú, Raúl. Raúl: lo dudo, ¿cuánto mides? 1,70 m. –contestó Cristina- ¿y tú? 1,76 m., –replicó Raúl mientras dirigía su mirada hacia los zapatos de Cristina- las apariencias engañan.

Sí, puede ser que las apariencias engañen, pero la Estadística no –argumentó Cristina-. He leído un estudio sobre la estatura de los estudian-tes de la Universidad de Valencia y da como resultado que la altura media de las chicas es de 168 cm. con una desviación típica de de 5 cm., mien-tras que las de los chicos son de 174 y 10 centímetros respectivamente.

¿y? –preguntó Raúl-. Contestar a Raúl (con instrumentos estadísticos).

Índice Ficha Texto

Ejemplo 2.12. Se lleva a cabo un estudio para determinar el tiempo nece-

sario para realizar una operación específica en una empresa. El tiempo ne-

cesario (en minutos) para realizar la operación se midió para N = 40 traba-

jadores (entre los que estás incluido tú) y los resultados fueron los siguien-

x = 13,8 s = 1,7

Describir aproximadamente los datos aplicando el coeficiente de variación de

Pearson y los intervalos ksx ± (regla de Tchebysheff).

Si tú has tardado en realizar ese trabajo 10 minutos solamente, ¿Consideras

que tu tiempo está muy por debajo de la media, o por el contrario crees que

está dentro de unos límites “normalmente” razonables?

Índice Ficha Texto

NOTA: REGLA DE TCHEBYSHEFF: Dada una variable estadística cualquiera

X(xi) con N observaciones, de media x y desviación típica s, y dado un nú-

mero real positivo k mayor que 1; al menos un porcentaje de ⎟⎠⎞

⎜⎝⎛ − 2k

11 x100

de las observaciones se encuentra dentro del intervalo de valores ksx ± , es

decir, entre k desviaciones típicas alrededor de la media aritmética.

Índice Ficha Texto

Ejemplo 2.13. Calcúlese la MODA de los siguientes conjuntos de datos y distribuciones: a) X : 2, 2, 3, 2, 6, 7, 6 b)

Solución: 344,0o35,0Mo5,2Mo)b2Mo)a ===

Intervalos Frecuencia 0,0 – 1,5 6

1,5 – 2,5 12

2,5 – 3,0 12

Intervalos Frecuencia 0,2 – 0,3 10 0,3 – 0,4 40

0,4 – 0,5 8

Índice Ficha Texto

Ejemplo 2.14. Se les pide a doce economistas que den una predicción so-bre el incremento del IPC para el año 2003. Dichas predicciones fueron:

4,0 3,9 3,2 3,5 3,8 3,3

3,5 3,4 3,7 3,6 3,4 3,2

Calcúlese la mediana, la moda y el primer cuartil de dichas predicciones.

Índice Ficha Texto

Ejemplo 2.15. Calcúlese la moda y los cuantiles de orden 0,25, 0,50 (me-diana) y 0,75 (cuartiles) en los ejemplos 4 y 5 del tema 1.

TEMA 3 MEDIDAS DE CONCENTRACIÓN

Medidas de concentración.

Índice Ficha

Ficha del tema 3.

3.1. Introducción: concepto, instrumentos, concentración mínima y máxima.

3.2. Curva de Lorenz.

3.3. Índice de Gini.

Conceptos clave.

Ejemplos.

Índice Ficha

OBJETIVOS DE APRENDIZAJE.

Estudiar como se reparte o distribuye la masa o volumen total de la varia-

ble, ∑=

, entre los N elementos de la muestra o población tanto gráfica

(curva de Lorenz) como analíticamente (índice de Gini)

Índice Ficha

Tema 2 (2.6, página 55). (Con ejercicios, cuestiones de autoevalua-

ción y problemas resueltos y propuestos).

Capítulo 4 (4.5, página 102).

Índice Ficha

3.1. INTRODUCCIÓN. CONCEPTO. INSTRUMENTOS. CONCENTRACIÓN MÍNIMA Y MÁXIMA. Concepto: dada una variable estadística ( )NiixX 1= y su distribución de frecuen-cias ( )kiii nx 1, = , con los datos ordenados de menor a mayor, estudiar la con-centración de la V.E. consiste en medir cómo está repartida (distribuida) la masa o volumen total de la variable entre los N elementos de la población. El volumen total de la variable es la agregación de todos los valores y lo llamamos

iiik nxv

Instrumentos para medir la concentración: la concentración se medirá com-parando dos indicadores que se obtendrán a partir de la distribución de fre-cuencias de los valores de la variable: • Uno relativo a los N elementos de la población y que se obtiene a partir

de las frecuencias acumuladas:

Índice Ficha

NNpnN i

jji =⇒= ∑

(i = 1, 2,…, k)

pk=100 siempre. pi representa el porcentaje acumulado de elementos de la población hasta el lugar i-ésimo (Fi x 100).

• El otro relativo a la masa o volumen de variable y que se obtiene a par-

tir de la cantidad de variable (xi · ni) que van acumulando los elementos de la población:

vvqnxv

jjji =⇒= ∑

(i = 1, 2,…, k)

qk=100 siempre.

qi representa el porcentaje acumulado de volumen de variable hasta el lugar i-ésimo. vi es la cantidad de variable acumulada hasta el lugar i-ésimo de la dis-tribución (ordenada de menor a mayor).

Índice Ficha

Concentración mínima y máxima: • Mínima: cuando el volumen total vk está equidistribuido entre los N ele-

mentos de la población. En este caso cada elemento acumularía el mis-

mo volumen de variable: xN

k ==∑=1

Entonces: pi = qi (i = 1, 2,…, (k-1)). (pK = qk siempre).

• Máxima: en este caso el volumen vk total lo acumularía un solo elemen-to y los (N-1) restantes nada. Como los valores de la distribución están ordenados de menor a mayor, este elemento aparecería al final de la distribución y entonces:

Para cada pi , qi = 0 (i = 1, 2,…, (k-1)).

Índice Ficha

3.2. CURVA DE LORENZ... La curva de Lorenz es la representación gráfica de la concentración: se ob-tiene al representar en unos ejes de coordenadas los valores (pi , qi).

La concentración mínima vendría representada por la bisectriz pi = qi (i = 1, 2,…, (k-1)) La concentración máxima daría lugar a una curva pegada al eje de abscisas.

Ejemplo 3.1.

Índice Ficha

3.3. Índice de Gini. El índice de Gini es el cociente entre el área que encierra la curva de Lorenz con la bisectriz y el área del triángulo OPQ. Una aproximación del índice de Gini es:

∑−

−= 1

Concentración mínima 0=GI Concentración máxima 1=GI

Ejemplo 3.2.

Índice Ficha

Conceptos clave.

Concentración.

Curva de Lorenz.

Índice de Gini.

Índice Ficha Texto

EJEMPLOS.

Ejemplo 3.1. Observa las curvas de Lorenz representadas a continuación:

q A q B

¿Cuál de las dos situaciones representa una distribución más equitativa?

Índice Ficha Texto

Ejemplo 3.2. Los salarios (en euros) de los obreros de cierta empresa se distribuyen como sigue:

Salarios nº obre-ros

Masa salarial

540 – 660 4 2280 660 – 780 6 4200 780 – 900 5 4320

Obtener la curva de concentración y el índice de Gini. Solución. Ig=0,131

TEMA 4 ANÁLISIS DE DATOS

MULTIDIMENSIONALES

Análisis de datos bidimensionales.

Índice Ficha

Ficha del tema 4.

4.1. Representación de datos multidimensionales: matriz de datos, tablas de

correlación y contingencia, gráfico de dispersión.

4.2. Distribuciones conjuntas, marginales y condicionadas. Independencia

estadística.

4.3. Momentos. Vector de valores medios y matriz de varianzas-covarianzas.

4.4. El coeficiente de correlación lineal simple. Matriz de correlación.

4.5. Asociación.

Conceptos clave.

Ejemplos.

Índice Ficha

Manejo de tablas de correlación o distribuciones de frecuencias conjuntas para dos variables numéricas.

Obtención de las distribuciones marginales y condicionadas a partir de la conjunta.

Cálculo e interpretación de los estadísticos de la variable bidimensional, es-pecialmente de la covarianza y del coeficiente de correlación lineal.

Aspecto y propiedades de la matriz de varianzas – covarianzas.

Cálculo de los estadísticos de una variable combinación lineal de otras dos.

Cómo observar la independencia entre dos variables o atributos a partir de la distribución conjunta.

Estudio del grado de asociación entre dos atributos a partir de la tabla de contingencia, calculando el estadístico ji – cuadrado y el coeficiente de con-tingencia de Pearson.

Índice Ficha

dad”, Ed. Thomson, 2006 (segunda impresión).

Tema 3 para tema 4. (Con ejercicios, cuestiones de autoevaluación y

problemas resueltos y propuestos).

Capítulo 5 para tema 4.

MARTÍN PLIEGO, F.J.: “Introducción a la Estadística Económica y Empre-

sarial”, Ed. Thomson. Madrid 2004 (3ª edición).

Capítulo 14 (página 564, tablas de contingencia) para epígrafe 5.

Asociación.

Índice Ficha

4.1. Representación de datos bidimensionales: matriz de datos, ta-blas de correlación y contingencia, gráfico de dispersión.

VARIABLE ESTADÍSTICA BIDIMENSIONAL (V.E.B.):

Si se observan y miden simultáneamente dos características o propiedades

sobre los mismos elementos de una población se obtiene una V.E.B. (X, Y)

que generará una serie de N datos de aspecto bidimensional ( )N1iii y,x =

V.E.B. (X, Y)

N datos sin elaborar

( ))y,x(,),y,x(),y,x(

NN2211

Índice Ficha

∑∑= =

1jij Nn

También se podrían agrupar los valores de X en “k” intervalos y los de Y en “m” intervalos.

kmkj2k1kk

imij2i1ii

m2j222212

m1j112111

nnnnxnnnnx

yyyyXY

yxyxYX

TABLA DE CORRELACIÓN MATRIZ DE DATOS

Si X tiene “k” valores diferentes. Si Y tiene “m” valores diferentes

m,,2,1jk,,2,1i

ijji n)y,x(

Vector de valores que

se repite ijn veces

Índice Ficha

Ejemplo 4.1.

GRÁFICO DE DISPERSIÓN Parejas de valores

N1iii )y,x( =

gráfico dispersión

Índice Ficha

4.2. Distribuciones conjuntas, marginales y condicionadas. Indepen-dencia estadística. DISTRIBUCIÓN CONJUNTA: la distribución conjunta de una V.E.B. (X, Y)

puede venir representada tanto por la matriz de datos como por la tabla de

correlación, con las parejas de valores y sus frecuencias.

( )m,,2,1jk,,2,1i

ijji n);y,x(:)Y,X(

= conjunta relativa frecuencia

conjunta absoluta frecuencia

Ejemplo 4.1.

Índice Ficha

DISTRIBUCIONES MARGINALES.

MARGINAL X

frecuenciavalores

( )iji nn filas por suma=•

• =m

1jiji nn

relativa frec. Nn

•• =

X \Y y1 y2 yj ym ni●

x1 n11 n12 … n1j … n1m n1●

x2 n21 n22 … n2j … n2m n2●

xi ni1 ni2 … nij … nim ni●

xk nk1 nk2 … nkj … nkm nk●

n●j n●1 n●2 … n●j … n●m N

Índice Ficha

MARGINAL DE Y:

ny•frecuencia

valores

( )ijj nn columnas por suma=•

• =k

1iijj nn

relativa frec. Nn

X \Y y1 y2 yj ym ni●

x1 n11 n12 … n1j … n1m n1●

x2 n21 n22 … n2j … n2m n2●

n●j n●1 n●2 … n●j … n●m N

Índice Ficha

DISTRIBUCIONES CONDICIONADAS

VARIABLE X CONDICIONA-

DA A UN VALOR DE Y.

X/yj (j fijo):

)k,,2,1i(nn

L=⇒ ésima-j columna

:frecuenciavalores

cond. relativa frec. j

ijj/i n

ijj/i f

X y1 y2 yj ym ni●

x1 n11 n12 … n1j … n1m n1●

x2 n21 n22 … n2j … n2m n2●

n●j n●1 n●2 … n●j … n●m N

Índice Ficha

VARIABLE Y CONDICIONADA A

UN VALOR DE X.

Y/xi (i fijo):

)m,,2,1j(nn

L=⇒ ésima-i fila

:frecuencia

valores

cond. relativa frec. •

iji/j n

iji/j f

X y1 y2 yj ym ni●

x1 n11 n12 … n1j … n1m n1●

x2 n21 n22 … n2j … n2m n2●

n●j n●1 n●2 … n●j … n●m N

Índice Ficha

INDEPENDENCIA ESTADÍSTICA.

CARÁCTERIZACIÓN DE LA INDEPENDENCIA. Dada una V.E.B.

1iijji n);y,x(:)Y,X(==

X e Y son INDEPENDIENTES

j,ifff jiij ∀×= ••

es decir:

Nn jiij ∀×= ••

Equivalente a: N

nnn ji

ij•• ×=

X y1 y2 yj ym ni●

x1 n11 n12 … n1j … n1m n1●

x2 n21 n22 … n2j … n2m n2●

n●j n●1 n●2 … n●j … n●m N

Índice Ficha

PROPIEDAD.

Si dos variables X e Y son independientes, la frecuencias relativas condicio-

nadas coinciden con las respectivas marginales.

Es decir:

las columnas de frecuencias relativas condicionadas coinciden entre sí y,

a su vez, con las frecuencias relativas de la marginal X.

las filas de frecuencias relativas condicionadas coinciden entre sí y, a su

vez, con las frecuencias relativas de la marginal Y.

X e Y independientes entonces: ( ) ( ) ( )( ) ( ) ( )i

cada para

Índice Ficha

CONSIDERACIONES SOBRE LA INDEPENDENCIA.

En general, una variable bidimensional (X, Y) (su distribución conjunta)

se obtiene al medir simultáneamente las dos variables sobre los mismos

elementos de una población. Si se miden (estudian) por separado las va-

riables X e Y y se obtienen las distribuciones unidimensionales de X e Y

(marginales), a partir de ellas no se puede construir la distribución con-

junta de (X, Y).

Pero si las variables X e Y son independientes, la caracterización de la

independencia indica que lo conjunto se descompone en producto de lo

marginal j,ifff jiij ∀×= •• , por tanto:

Si las variables X e Y son independientes, se puede obtener fácilmente la

distribución conjunta a partir de las marginales: j,ifff ijji ∀=× ••

Índice Ficha

EJEMPLO DE VARIABLES INDEPENDIENTES:

Sea la siguiente distribución conjunta de dos variables (X, Y):

Compruébese que son independientes a partir de

la caracterización de la independencia y de la pro-

piedad que relaciona las distribuciones condicio-

nadas con las marginales.

Solución:

Obsérvese que las columnas de frecuencias conjuntas son claramente pro-

porcionales, al igual que las filas de frecuencias conjuntas.

Índice Ficha

POR LA CARACTERIZACIÓN DE LA INDEPENDENCIA:

n jiij

•• ×=

Por ejemplo:

Nnnn 12

×= ••

12864 ×

= y así sucesivamente, lo cumplen todas las frecuencias conjuntas.

(Basta comprobarlo para (k-1)x(m-1) celdas nij). En este caso: 2x1.

Por tanto las variables son independientes.

1 2 1 3

2 2 1 3

3 4 2 6

n●j 8 4 12

Índice Ficha

POR LA PROPIEDAD QUE RELACIONA LAS CONDICIONADAS CON LAS MAR-

GINALES:

Distribuciones condicionadas X/y y marginal X (frecuencias relativas):

relativa frec. Nn

•• =

ijj/i n

== …

Coinciden las dos columnas de distribuciones condicionadas con

la marginal X.

1 2/8 1/4 3/12

2 2/8 1/4 3/12

3 4/8 2/4 6/12

n●j 8 4 12

Índice Ficha

Distribuciones condicionadas Y/x y marginal Y (frecuencias relativas):

relativa frec. Nn

iji/j n

=== …

Coinciden las tres filas de distribuciones condicionadas con la marginal Y.

1 2/3 1/3 3

2 2/3 1/3 3

3 4/6 2/6 6

f●j 8/12 4/12 12

Índice Ficha

4.3.MOMENTOS. VECTOR DE VALORES MEDIOS Y MATRIZ DE VA-RIANZAS COVARIANZAS.

MOMENTOS DE UNA V.E.B. (X, Y).

Dada una V.E.B. ( )

diferentes parejas m)kparejas N ×===

1iijjiN

1iii n);y,x()y,x(:)Y,X(

Definimos:

MOMENTOS ORDINARIOS DE ORDEN (p + q)

pipq yx

N1a ∑

== o ∑∑

pipq nyx

N1a con p y q enteros 0q,p ≥

(Se utilizará preferentemente la primera expresión)

Índice Ficha

∑∑∑

∑∑

1jijji11

1iii110220

nyxN1ayx

yyN1axx

bien o

marginales medias

Índice Ficha

MOMENTOS CENTRALES DE ORDEN (p + q)

−−=N

pipq )yy()xx(

N1m o ∑∑

= =−−=

pipq n)yy()xx(

con p y q enteros 0q,p ≥

(Se utilizará preferentemente la primera expresión).

VARIANZA marginal de X VARIANZA marginal de Y

=−=N

2i20 s)xx(

N1m ∑

==−=

2i02 s)yy(

COVARIANZA sXY

−−=N

1iii11 )yy)(xx(

N1m o bien ∑∑

= =−−=

1jijji11 n)yy)(xx(

11XY ms =

Índice Ficha

LA COVARIANZA sXY

La covarianza es el momento central de orden dos m11.

−−==N

1iii11XY )yy)(xx(

La covarianza es un estadístico conjunto que mide la covariación (varia-

bilidad conjunta) lineal de las variables X e Y.

La covarianza puede ser positiva o negativa. Su signo marca la dirección

de la covariación.

0sXY > , covariación positiva: si la variable X crece, entonces la tenden-

cia de la variable Y es a crecer también.

0sXY < , covariación negativa: si la variable X crece, entonces la ten-

dencia de la variable Y es a decrecer (o viceversa).

Índice Ficha

0 1 2 3 4 5 6 7 8

covarianza positiva 2,71

0 1 2 3 4 5 6 7 8

covarianza negativa -2,71

Índice Ficha

0sXY = , covariación nula: no hay una variabilidad conjunta lineal domi-nante (positiva o negativa) entre X e Y.

PROPIEDAD: si las variables X e Y son independientes estadísticamente, la

covarianza es cero. El recíproco no es necesariamente cierto.

0sXY =⇒ntesindependie Y e X

0 1 2 3 4 5 6 7 8

covarianza cero pero dependientes

0 1 2 3 4 5 6 7 8x

y mediasc.d.g.

covarianza cero e independencia

Índice Ficha

PROPIEDADES DE LA COVARIANZA.

1. Cálculo de la covarianza: se demuestra fácilmente que la covarianza se puede determinar como:

yxyxN1s

1iiiXY ⋅−= ∑

o en forma de momentos: 01101111XY aaams −==

2. Transformación lineal:

XY21'Y'X22

11 skkscYkYcXkX =⇒⎭⎬⎫

+=′+=′

siendo reales números 2121 c,c,k,k

Por tanto la covarianza es sensible al cambio de escala y su valor de-

pende de las unidades de medida de las variables X e Y. Es un estadístico de

tipo absoluto.

3. Obviamente YXXY ss = .

Índice Ficha

VECTOR DE VALORES MEDIOS

⎟⎠

⎞⎜⎝

MATRIZ DE VARIANZAS COVARIANZAS

⎟⎟⎠

⎞⎜⎜⎝

La matriz de varianzas – covarianzas es simétrica y semidefinida posi-tiva ( )0)Sdet( ≥ .

Medias y varianzas marginales y covarianza en función de los momentos:

Ejemplo 4.4. Ejemplo 4.6. 01101111XY

2010202

2102020

aaamsaamsaams

−==−==−==

Índice Ficha

PROPIEDADES DE COMBINACIÓN LINEAL DE VARIABLES.

Sea (X, Y) una V.E.B. y sean ⎟⎠

⎞⎜⎝

mr y ⎟⎟⎠

⎞⎜⎜⎝

S su vector de me-

dias y matriz de var – cov respectivamente.

Sea cYkXkZ 21 ++= una COMBINACIÓN LINEAL de X e Y con k1, k2 y c números reales. La MEDIA y la VARIANZA de Z se pueden determinar como sigue:

XY212Y

skk2skskscykxkz++=

Solo si la covarianza es cero 2Y

2Z sksks += .

Así, si 0sXY =⇒ntesindependie Y e X y entonces: 2Y

2Z sksks += .

Ejemplo 4.8.

Índice Ficha

4.4. EL COEFICIENTE DE CORRELACIÓN LINEAL. MATRIZ DE CORRE-LACIÓN.

EL COEFICIENTE DE CORRELACIÓN LINEAL SIMPLE.

Dada (X, Y) una V.E.B. y ⎟⎟⎠

⎞⎜⎜⎝

S su matriz de var – cov, se define

el coeficiente de correlación lineal de Pearson como: YX

XYXY ss

El coeficiente r tiene el mismo signo que la covarianza.

r es un estadístico de tipo relativo, es decir, independiente de las unida-

des de medida de las variables X e Y.

Índice Ficha

Mide la intensidad de la variabilidad conjunta lineal entre X e Y es decir

la correlación lineal.

PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN.

1. El coeficiente de correlación lineal está acotado: 1r1 ≤≤− .

correlación perfecta positiva

y r = 1

correlación perfecta negativa

r = -1

Índice Ficha

2. Transformación lineal: XY'Y'X22

11 rrcYkYcXkX =⇒⎭⎬⎫

+=′+=′

. Donde k1 , k2 y c

son números reales, con k1 y k2 del mismo signo. Es decir, que el coeficiente

es invariante por transformación lineal (salvo en el signo).

MATRIZ DE CORRELACIÓN.

Dada (X, Y) una V.E.B. y el coeficiente de correlación lineal YX

XYXY ss

sr = , se

define:

⎟⎠

⎞⎜⎝

⎛=⎟

⎞⎜⎝

MATRIZ DE CORRELACIÓN

Es una matriz simétrica y semidefinida positiva 0r1)Rdet( 2XY ≥−=

Ejemplo 4.9.

Índice Ficha

4.5. ASOCIACIÓN.

Sean dos atributos

(A, B): (ai, bj); nij con k y m

categorías respectivamente, or-

ganizados en una tabla de con-

tingencia (distribución conjun-

ta). Se estudiará la asociación

entre A y B utilizando el criterio

de independencia estadística.

A b1 b2 bj bm ni●

a1 n11 n12 … n1j … n1m n1●

a2 n21 n22 … n2j … n2m n2●

ai ni1 ni2 … nij … nim ni●

ak nk1 nk2 … nkj … nkm nk●

n●j n●1 n●2 … n●j … n●m N

TABLA DE CONTINGENCIA

Índice Ficha

A y B independientes si

nnn ji

ij ∀×

= ••.

ESTADÍSTICO 2χ

A\B b1 b2 bj bm ni●

a1 n11 n12 … n1j … n1m n1●

a2 n21 n22 … n2j … n2m n2●

ai ni1 ni2 … nij … nim ni●

ak nk1 nk2 … nkj … nkm nk●

n●j n●1 n●2 … n●j … n●m N

Índice Ficha

Se denominará:

ijn a la frecuencia real u observada y

nnE ji

ij•• ×= a la frecuencia esperada o teórica: frecuencia que se

tendría en caso de independencia.

El estadístico χ2 compara las frecuencias reales con las teóricas:

∑∑= =

2ijij2

χ 0χ 2 ≥

Índice Ficha

EL COEFICIENTE DE CONTINGENCIA DE PEARSON

Se define a partir del estadístico χ2:

P χNχC+

El coeficiente de contingencia de Pearson mide la intensidad de la aso-

ciación entre dos atributos.

Está acotado: 1C0 P <≤ , pero su máximo no alcanza el valor de 1.

VALOR MÁXIMO DEL COEFICIENTE CP.

El valor máximo del coeficiente de contingencia de Pearson CP depende del

tamaño de la tabla de contingencia )mk( × . Cuanto mayor es el número de

filas y columnas más se acerca a 1.

Índice Ficha

Se demuestra que en tablas de contingencia cuadradas )kk( × su valor

máximo es k

1kCMAX

−= .

Ejemplo 4.11.

Índice Ficha

Conceptos clave.

Coeficiente de contingencia de Pearson. Coeficiente de correlación lineal. Combinación lineal de variables. Covarianza. Distribución conjunta. Distribuciones condicionadas. Distribuciones marginales.

Estadístico 2χ .

Independencia estadística. Matriz de correlación. Matriz de varianzas-covarianzas. Tabla de contingencia. Tabla de correlación. Transformación lineal.

Índice Ficha Texto

EJEMPLOS Ejemplo 4.1. Ordenar la siguiente serie de datos bidimensionales en una distribución conjunta o distribución de frecuencias bidimensional (tabla de correlación):

X 1 1 2 2 3 3 1 2 3 2 Y 1 2 1 2 1 2 1 1 2 1

Solución:

1 2 1 2 3 1 3 1 2

Índice Ficha Texto

Ejemplo 4.2. a) Obtener las distribuciones de frecuencias marginales de X e Y a partir de

la distribución conjunta del ejemplo 4.1. b) Obtener las siguientes distribuciones condicionadas a partir de la conjunta

del ejemplo 4.1.: 2x/Ye1y/X ==

Índice Ficha Texto

Ejemplo 4.3. Hemos observado la retribución mensual de los 40 trabajado-res de una empresa según su antigüedad en la misma obteniendo la siguien-te tabla de correlación o distribución de frecuencias bidimensional: Y: retribución mensual (en euros.) X: antigüedad en la empresa (en años)

a) ¿Qué porcentaje de em-pleados tiene una antigüe-dad entre 2 y 4 años y una retribución entre 600 y 780 euros? (conjunta)

b) ¿Cuántos empleados tienen

una antigüedad entre 4 y 6 años? (marginal)

c) Observa la retribución de los empleados con una antigüedad entre 0 y 2 años y compárala con la re-tribución de los que tienen una antigüedad entre 4 y 6 años (condiciona-da).

420-600 mdc 510

600-780 690

780-960 870

960-1200 1080

0 – 2 mdc 1 7 3 1 0

2 – 4 3 1 9 6 2

4 – 6 5 0 2 3 6

Índice Ficha Texto

Ejemplo 4.4. Determina el vector de medias y la matriz de varianzas – co-varianzas de la siguiente distribución conjunta obtenida en el ejemplo 4.1.

YX 1 2

1 2 1 2 3 1 3 1 2

Solución: ⎟⎠⎞

⎜⎝⎛

⎟⎠⎞

⎜⎝⎛ ==

24,01,01,06,0

Índice Ficha Texto

Ejemplo 4.5. ¿Son independientes las variables del Ejemplo 4.3? Calcula la media de las retribuciones de los empleados con menor antigüedad y com-párala con la media marginal de las retribuciones de todos los trabajadores. ¿Cómo habrían sido las medias anteriores en caso de independencia?

Índice Ficha Texto

Ejemplo 4.6. ¿Es posible que la siguiente matriz: ⎟⎠⎞

⎜⎝⎛

25242416

sea de varian-

zas-covarianzas? Razona la respuesta.

Solución: No.

Índice Ficha Texto

Ejemplo 4.7. Dada la siguiente distribución de frecuencias bidimensional:

Y X 2 4

-5 1 0 0 0 1 5 1 0

a) ¿Están X e Y incorreladas? b) ¿Son estadísticamente independientes X e Y?

Solución: 1) sí, 2) no

Índice Ficha Texto

Ejemplo 4.8. De dos variables X e Y se conocen los siguientes datos:

vector de valores medios ⎟⎠

⎞⎜⎝

mr ; matriz de varianzas-covarianzas

⎟⎠

⎞⎜⎝

⎛−

252216

S . Hallar la media y la varianza de la variable: 8Y3X2Z ++=

Solución: 265S73z 2

Índice Ficha Texto

Ejemplo 4.9. Calcula el coeficiente de correlación lineal en el ejemplo 4.4. e interpreta el resultado. Obtener la matriz de correlaciones.

Solución: 0,265

Índice Ficha Texto

Ejemplo 4.10. A partir de la siguiente matriz de datos para las variables X1, X2, X3, obtener:

a) Las distribuciones marginales b) Algunas de las distribuciones

condicionadas c) El vector de medias y la matriz

de varianzas-covarianzas d) La matriz de correlaciones

Solución: c) ⎟⎟⎟

⎜⎜⎜

3,028,0

mr ⎟⎟⎟

⎜⎜⎜

61,0034,0060,010,034,010,056,0

S d) ⎟⎟⎟

⎜⎜⎜

1058,00117,058,017,01

Observación X1 X2 X3 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª

1 0 0 2 1 0 0 1 1 2

2 2 2 3 3 2 1 3 1 1

-1 -1 -1 0 1 0 -1 -1 0 1

Índice Ficha Texto

Ejemplo 4.11. Un fabricante de herramientas compra una serie de piezas a tres proveedores diferentes. Cada pieza es analizada para detectar si pre-senta alguno de los tres tipos de defectos más usuales, antes de ser intro-ducida en la cadena de producción. Durante un mes se han recogido datos relativos al tipo de defecto encontrado en las piezas compradas a cada uno de los tres proveedores obteniéndose la siguiente tabla de contingencia:

Proveedor Tipo de Defecto A B C

I 19 30 20 II 25 45 33 III 12 15 20

Analizar si existe alguna relación entre el tipo de defecto y el proveedor. Si la asociación fuese máxima ¿qué aspecto tendría la tabla de contingencia? Solución: Cp = 0,117 para un máximo de 0,8165

TEMA 5 ANÁLISIS DE REGRESIÓN

Análisis de Regresión.

Índice Ficha

5.1. Introducción.

5.2. Regresión mínimo-cuadrática: caso lineal.

5.3. Análisis de la bondad de un ajuste: capacidad explicativa de una ecua-

ción de regresión. Coeficiente de determinación. Caso lineal.

5.4. Regresión no lineal: potencial y exponencial.

Conceptos clave.

Ejemplos.

Índice Ficha

Estudio exhaustivo de la regresión lineal simple (dos variables X, Y): cálculo de los parámetros a, b, a’, b’ de las rectas de regresión Y* = a + bX y

X* = a’ + b’Y a partir del principio de mínimos cuadrados.

Expresión de esos parámetros en función de los estadísticos de la variable bidimensional (X, Y).

Interpretación de los coeficientes de regresión b y b’.

Obtención de una medida de la bondad del ajuste efectuado a partir de la relación existente entre la varianza total y las varianzas residual y de la re-gresión: coeficiente de determinación R2 (capacidad explicativa de una ecua-ción de regresión).

Relación entre el coeficiente de determinación y los coeficientes de regresión b y b’.

Introducción a la regresión no lineal: casos potencial y exponencial.

Índice Ficha

Capítulo 6.

MARTÍN PLIEGO, F.J.: “Introducción a la Estadística Económica y Empre-

sarial”, Ed. Thomson. Madrid 2004 (3ª edición).

Capítulo 10 para punto 4 (página 273).

Índice Ficha

5.1. INTRODUCCIÓN.

El estudio conjunto de dos variables (X, Y) tiene como objetivo fundamental de-

terminar si están relacionadas esas variables y, si hay alguna relación, cuantifi-

car esa relación. Cómo primer paso se puede observar el gráfico de dispersión:

la nube de puntos nos puede ayudar a buscar un modelo de relación adecuado.

correlación lineal

gráfico de dispersión

datos no correlacionados

Índice Ficha

relación no lineal

relación potencial relación exponencial

relación no lineal

relación parabólica

Índice Ficha

Para CUANTIFICAR la relación entre X e Y se utilizarán dos teorías funda-

mentales:

Teoría de la CORRELACIÓN: cálculo de estadísticos conjuntos y coefi-

cientes que midan la intensidad o el grado de relación entre X e Y

(como el coeficiente de correlación lineal definido en el tema 4).

Teoría de la REGRESIÓN: una vez elegido el modelo de relación que

se desea estudiar y cuantificar entre X e Y (lineal, exponencial…), con

la teoría de la REGRESIÓN se obtendrá la ecuación de la función, del

tipo elegido, que mejor relacione a las variables X e Y. Este tipo de

ecuaciones se denominan ECUACIONES DE REGRESIÓN. Estas ecua-

ciones cuantifican la RELACIÓN ESTADÍSTICA entre X e Y.

Índice Ficha

RELACIÓN ESTADÍSTICA – RELACIÓN FUNCIONAL.

Antes de estudiar cómo se obtienen las ecuaciones de regresión, conviene

distinguir entre una relación estadística y una, más conocida, relación fun-

cional entre dos variables:

Una relación funcional entre X e Y )x(fy = es una corresponden-

cia exacta, tal que cada valor de X está asociado con un único valor

Una relación estadística entre dos variables X e Y es una corres-

pondencia no necesariamente exacta, tal que cada valor de X “x”

tiene asociado la predicción de un valor de Y que se identificará como ∗y . Este valor se obtendrá a partir de la ecuación de regresión

)x(fy =∗

Índice Ficha

Relación funcional

y = 2x + 7

0 5 10 15 20 25 30 35 40 45 50

Índice Ficha

Dada una serie de datos bivariantes

(X, Y) la ecuación de regresión

)x(fy* = cuantifica la relación es-

tadística entre X e Y.

En este contexto:

X es la variable independiente

(variable control)

Y es la variable dependiente

(variable respuesta).

Cada valor de X tendrá asociado:

estimado) (teórico, predicción de valor

variable la de real valor

∗⇒→i

iiii y

)y,x(YyxX RESIDUO

∗−= iii yye

Relación estadística

yy* = f(x)

e=y - y*

Índice Ficha

AJUSTE.

Para obtener las ecuaciones de regresión )x(fy* = se utilizan métodos

matemáticos de ajuste: hallar la ecuación de un tipo de función que mejor

“ajuste” a la nube de puntos del gráfico de dispersión.

MÉTODO DE AJUSTE: PRINCIPIO DE MÍNIMOS CUADRADOS (P.M.C.)

Dada una serie de datos bidimensionales N

1iii )y,x(:)Y,X( = y elegido el ti-

po de función que queremos ajustar )x(fy* = , la ecuación que mejor

ajusta a la nube de puntos es la que minimiza la suma de los cuadrados de

los residuos.

Índice Ficha

MÍNIMA

∑ ∑= =

∗−=N

2i )yy(e

A )x(fy =∗ la llamare-

Ecuación de regresión

mínimo – cuadrática

de Y sobre X.

y* = f(x)RESÍDUOSe=y - y*

Índice Ficha

5.2. REGRESIÓN MÍNIMO – CUADRÁTICA: CASO LINEAL.

Dada una serie de datos bivariantes N

1iii )y,x(:)Y,X( = , si el tipo de función

elegida )x(fy* = para relacionar las variables X e Y es una RECTA, su

ecuación en forma explícita es:

reales números b,abxay +=∗.

Aplicando el P.M.C. como método de ajuste: la ecuación de la recta

bxay +=∗ que mejor ajustará a la nube de puntos

N1iii )y,x( = del gráfico

de dispersión será la que minimice la suma de los cuadrados de los residuos.

( )∑∑ ∑== =

∗ +−=−=N

MÍNIMA 2

2i )bxa(y)yy(e

Índice Ficha

( )∑∑ ∑== =

∗ +−=−=N

MÍNIMA 2

2i )bxa(y)yy(e

Regresión lineal

y y* = a + bx

Índice Ficha

OBTENCIÓN DE LA RECTA DE REGRESIÓN DE Y SOBRE X.

Sea la función: ( )∑=

+−=N

ii )bxa(y)b,a(H a y b parámetros.

Los posibles valores de a y b que minimicen H(a, b) serán los que anulen

las derivadas parciales:

SISTEMA DE ECUACIONES NORMALES

( ) ⎪⎭

⎪⎬

+⋅=⇒

⎪⎭

⎪⎬

=+−−=∂∂

∑∑∑

∑∑

xbxayx

0x)bxa(y2bH

0)bxa(y2aH

Índice Ficha

La resolución del sistema de ecuaciones anterior da los siguientes valores

para los parámetros a y b:

xbyassb

XY ⋅−==

Se demuestra además que son un mínimo: (Cf.: ESTEBAN, J.; y otros.: “Estadística Descriptiva y

nociones de Probabilidad”, Ed. Thomson, 2005, 2006 segunda impresión, páginas 156-157). Por tanto la recta de regresión de Y sobre X que mejor ajusta a la nube de puntos

N1iii )y,x( = es:

⎪⎩

⎪⎨⎧

=+=∗

xbyassb

bxay 2X

Expresión que se utilizará para dar la recta de regresión.

Índice Ficha

INTERPRETACIÓN DE LOS PARÁMETROS a y b: bxay +=∗

xbya ⋅−= representa el valor de la ordenada Y en el origen.

COEFICIENTE DE REGRESIÓN: representa la variación experimentada por

la variable Y para un incremento unitario de X. Por cada incremen-

to unitario de la variable X, la variable Y cambia su valor b unida-

des (de promedio).

(También es la pendiente de la recta).

Ejemplo 5.1.

(a partir de los datos del problema 4.1.)

Índice Ficha

OTRAS EXPRESIONES PARA LA RECTA DE REGRESIÓN de Y sobre X:

Sustituyendo los valores obtenidos de a y b en bxay +=∗ queda:

)xx(ssryy

)xx(ssybxxbybxay

−+=⇒=

−+=+−=+=

PREDICCIÓN.

Con la recta de regresión de Y sobre X, bxay +=∗, se pueden obtener va-

lores de predicción de Y, ∗y sustituyendo en la ecuación el valor “x” de X.

Índice Ficha

EJEMPLO DE RECTA DE REGRESIÓN DE Y SOBRE X. PRÁCTICA.

Obténgase la recta de regresión mínimo – cuadrática ajustada a los tres da-

tos bivariantes que aparecen en el siguiente gráfico:

Regresión de Y sobre X

y* = 1+0,5xR2 = 0,75

0 1 2 3 4 5 6 7 8

Índice Ficha

REGRESIÓN DE X SOBRE Y.

Si quisiéramos obtener valores de predicción de X, ∗x a partir de valores de

la variable Y “y” se necesitaría la recta de regresión de X sobre Y:

ybax ′+′=∗.

Para obtener esta recta se permutarían los papeles de las variables X e Y.

Ahora Y sería la variable independiente (control) y X la variable dependiente

(respuesta).

En este caso la suma de los cuadrados de los residuos sería:

( )∑∑ ∑== =

∗ ′+′−=−=N

MÍNIMA 2

2i )yba(x)xx(e

Índice Ficha

Al minimizar la expresión anterior se obtendrían los parámetros a’ y b’:

⎪⎩

⎪⎨⎧

′−=′

=′′+′=∗

ybxassb

ybax 2Y

COEFICIENTE DE REGRESIÓN de X sobre Y: representa la va-

riación experimentada por la variable X para un incremento unita-

rio de Y.

ssb =′

Índice Ficha

OTRAS EXPRESIONES PARA LA RECTA DE REGRESIÓN de X sobre Y:

Sustituyendo los valores obtenidos de a’ y b’ en ybax ′+′=∗ queda:

)yy(ssrxx

)yy(ssxybybxybax

−+=⇒=

−+=′+′−=′+′=

Índice Ficha

RELACIÓN ENTRE LA REGRESIÓN Y LA CORRELACIÓN LINEALES.

′⋅=⇒

⎪⎪⎭

⎪⎪⎬

Teniendo en cuenta que el signo de XYr sería el mismo que el de b y b’. PROPIEDADES DE LAS RECTAS.

)xx(ssryy

YXY −+=∗

y )yy(ssrxx

XXY −+=∗

Se cruzan en el punto )y,x( (si se representan en unos mismos ejes coordenados (X, Y)).

Son perpendiculares si 0rXY = , xxyy == ∗∗

Son iguales si 1rXY ±= .

Índice Ficha

EJEMPLO DE LAS DOS RECTAS DE REGRESIÓN. PRÁCTICA.

Determínese la recta de regresión mínimo – cuadrática de X/Y ajustada a los tres datos bivariantes del siguiente gráfico. (Es el mismo que el de Y/X de la pag. 180).

Dos rectas de regresión

medias; (4; 3) y* = 1+0,5x

0 1 2 3 4 5 6 7 8

x* = -0,5+1,5y

Índice Ficha

5.3. ANÁLISIS DE LA BONDAD DE UN AJUSTE: CASO LINEAL.

Coeficiente de determinación.

1iii )y,x(:)Y,X( = una serie de datos bivariantes.

Supongamos que se ha obtenido una ecuación de regresión de Y sobre X

)x(fy =∗. Con esta ecuación se obtienen valores de predicción de Y, ∗

El análisis de la bondad de un ajuste consiste en obtener una medida de la

similitud de los valores reales de la variable ( )iy:Y con los estimados de la

variable ( )∗∗iy:Y , variable de la regresión. En la comparación de estos va-

Índice Ficha

lores jugará un papel esencial la variable que conforman los residuos

( )∗−= iii yye:E , variable residual.

Se partirá de la siguiente relación: los valores de la variable dependiente

( )iy:Y se pueden descomponer en iii eyy += ∗ y la medida de la bon-

dad del ajuste se obtendrá de la comparación de la variabilidad de esas tres

variables: ( )iy:Y ( )∗∗iy:Y ( )∗−= iii yye:E .

Para ello se estudiará el aspecto de sus medias y varianzas, que dependerán

del tipo de ecuación de regresión que ajustemos.

Índice Ficha

VARIABLE Y Valores iy Media y Varianza

2Y )yy(

VARIABLE REGRESIÓN Y* Valores )x(fyi =

∗ Media

∗y Varianza de la regresión

∗∗ −=N

2*Y )yy(

VARIABLE RESIDUAL E = Y-Y* Valores

∗−= iii yye Media e Varianza residual

2E )ee(

Índice Ficha

CASO LINEAL: BONDAD DEL AJUSTE.

En el caso lineal, la recta de regresión de Y sobre X es:

xbyassbbxay

XY ⋅−==+=∗siendo

La media e y la varianza 2Es de la variable residual

∗−= YYE tienen el si-

guiente aspecto:

La variable residual abXY)bXa(YYYE −−=+−=−= ∗, es decir, es

combinación lineal de X e Y, por tanto:

XY2X22

sssss2s

)s(ssbs2sbss

0)xby(xbyaxbye

−=−+=−+=

=⋅−−⋅−=−⋅−=

Índice Ficha

Es decir:

Por otra parte, la media ∗y y la varianza

2*Ys de la variable de la regresión

∗Y toman el siguiente aspecto en la regresión lineal:

La variable de la regresión bXaY +=∗, es una transformación lineal de X

por tanto:

*Y sss

)s(ssbs

yxbxbyxbay

=+−=+=∗

es decir: 2X

*Y sss

Índice Ficha

Por tanto en la regresión lineal de Y sobre X, las medias y varianzas de las

variables implicadas en el estudio quedan:

total varianza

VARIABLE

2Y )yy(

regresión la de varianza

regresión la de VARIABLE

)yy(N1s

residual varianza

residual VARIABLE

)yy(N1s

Es decir, que se obtiene la siguiente relación entre las varianzas:

2E ssssss +=⇒−= ∗

Índice Ficha

Esta relación nos permite descomponer la variabilidad total de los valores

reales de ( )iy:Y en la variabilidad de los valores de ( )∗∗iy:Y (obtenidos a

partir de X con la recta de regresión ii bxay +=∗) y la variabilidad de los

residuos ( )∗−= iii yye:E .

Obviamente cuanto menor sea la varianza residual 2Es mejor será el

ajuste.

Si 0s 2E = el ajuste será óptimo y si

2E ss = (su valor máximo) el

ajuste será pésimo.

El peso de estas varianzas en la relación anterior se medirá mejor con un

indicador de tipo relativo.

Índice Ficha

EL COEFICIENTE DE DETERMINACIÓN R2.

Expresamos en términos relativos la relación entre las tres varianzas:

sssss +=⇒+=⇒+= ∗∗

El primer cociente 2Y

ss ∗

representa la parte de la variabilidad de

( )iy:Y explicada por la regresión.

El segundo conciente 2Y

, complementario del anterior, representa la

parte de la variabilidad de ( )iy:Y que queda por explicar.

Índice Ficha

El coeficiente de determinación se define precisamente a partir de esas rela-

ciones: 2Y

ssR −== ∗

PROPIEDADES DE COEFICIENTE.

En general, en los tipos de regresiones donde se cumpla la relación

entre varianzas 2E

2Y sss += ∗ , se define el coeficiente de determinación

de esta forma: 2Y

ss1R −= .

1R0 2 ≤≤ : se deduce fácilmente de la definición, teniendo en cuenta

que 2Y

2E ss0 ≤≤ y que es cociente de varianzas (siempre positivas).

2R proporciona una medida de la bondad del ajuste.

Índice Ficha

Interpretación del coeficiente:

⎩⎨⎧

=⇒==⇒=

⇒−=→

óptimo ajuste

pésimo ajustemáximo) (residuo 0s1Rss0R

ss1R 2

100R2 × mide el porcentaje de la variabilidad de la variable depen-

diente ( )iy:Y que explica la regresión ( )ii bxay:Y +=∗∗. Dicho de

otra forma: en qué medida la información de la variable X (variable

independiente) determina los valores de Y (variable dependiente) a

través de la ecuación de regresión )x(fy =∗.

( ) Y)x(fyX ⇒=⇒ ∗

En este sentido se interpreta también 2R como una medida de la ca-

pacidad explicativa de la ecuación de regresión.

Índice Ficha

EL COEFICIENTE DE DETERMINACIÓN EN LA REGRESIÓN LINEAL.

Teniendo en cuenta que en la regresión lineal:

sss −= 2X

*Y sss = y el coeficiente de correlación

XYXY ss

ssR ===⇒ ∗

Es decir, en la regresión lineal el coeficiente de determinación coincide con

el de correlación lineal al cuadrado.

Además las varianzas de la regresión y residual se pueden determinar tam-

bién en función de 2

2*Y s)r1(ssrs ⋅−=⋅=

Índice Ficha

Por tanto la BONDAD DEL AJUSTE en la regresión lineal se medirá a partir

XY2 rR = , coeficiente de determinación:

100r2XY × mide el porcentaje de la variabilidad de la variable depen-

diente ( )iy:Y que explica la regresión ( )ii bxay:Y +=∗∗.

100)r1( 2XY ×− representa el porcentaje de la variabilidad de

( )iy:Y que queda por explicar (residuo).

Ejemplo 5.2.

Cotas del coeficiente de correlación: el coeficiente de correlación lineal

XYr está acotado entre -1 y 1 ya que:

1r11r01R0 XY2

XY2 ≤≤−→≤≤→≤≤ .

Índice Ficha

5.4. Regresión no lineal: potencial y exponencial.

Dada una serie de datos bivariantes N

1iii )y,x(:)Y,X( = , si el tipo de función

elegida )x(fy* = para relacionar las variables X e Y es una función poten-

cial o exponencial, su ecuación en forma explícita tendrá el aspecto:

bxay ⋅=⇒ ∗

potencial Ajuste a y b parámetros.

xbay ⋅=⇒ ∗

lexponencia Ajuste a y b parámetros.

Índice Ficha

AJUSTE POR UNA FUNCIÓN POTENCIAL.

bxay ⋅=∗

Para determinar los parámetros a y b, se procede como sigue.

La expresión bxay ⋅=∗ se reduce a forma lineal tomando logaritmos:

xlnbalnyln * ⋅+= .

Sobre la expresión anterior se opera un ajuste lineal:

llamando ubAv

alnAylnv

ylnvxlnu

⋅+=⇒

⎪⎪⎭

⎪⎪⎬

∗∗∗ , es decir, se obtiene la

recta de regresión de V sobre U.

Índice Ficha

Se obtienen A y b ajustando una recta por mínimos cuadrados a la va-

riable )Yln,X(ln)V,U( ≡ :

ubvAss

UV ⋅−== .

Finalmente se determina el parámetro a: AeaAlnantiaalnA =⇒=⇒= .

Ejemplo 5.4.

Índice Ficha

AJUSTE POR UNA FUNCIÓN EXPONENCIAL.

xbay ⋅=∗

Para determinar los parámetros a y b, se procede como sigue.

La expresión xbay ⋅=∗ se reduce a forma lineal tomando logaritmos:

blnxalnyln * ⋅+= .

Sobre la expresión anterior se opera un ajuste lineal:

llamando BxAv

blnBalnAylnv

⎪⎪⎭

⎪⎪⎬

∗∗∗

, es decir, se obtiene la

recta de regresión de V sobre X.

Índice Ficha

Se obtienen A y B ajustando una recta por mínimos cuadrados a la

variable )Yln,X()V,X( ≡ :

xBvAss

XV ⋅−== .

Finalmente se determinan los parámetros a y b:

ebBlnantibblnBeaAlnantiaalnA

=⇒=⇒==⇒=⇒=

Ejemplo 5.5.

Índice Ficha

Conceptos clave.

Ajuste Bondad de ajuste coeficiente de determinación. Coeficiente de regresión. Correlación Error cuadrático medio (ECM). Principio mínimos cuadrados. Recta de regresión mínimo-cuadrática Regresión Regresión no lineal Residuo Varianza de la regresión Varianza residual

Índice Ficha Texto

EJEMPLOS

Ejemplo 5.1. Se ha estudiado las calificaciones de 100 alumnos en dos

asignaturas: Estadística (variable X) y Matemáticas Financieras (variable Y),

obteniéndose los siguientes datos: 110 2,5 10 0,5X Yx y S S= = = =

Además se sabe que el coeficiente de correlación entre ambas es 0,85XYr = .

Obtener la recta de regresión de Y/X.

Índice Ficha Texto

Ejemplo 5.2. Analizar la bondad de los ajustes efectuados en el ejemplo

anterior calculando la varianza residual, la varianza de la regresión y el co-

eficiente de determinación. (Capacidad explicativa de la recta de regresión).

Índice Ficha Texto

Ejemplo 5.3. En la estimación de los parámetros de un modelo de regresión

lineal se han obtenido los siguientes valores:

9,0r20s15s8y5x 22YXY =====

A partir de los datos anteriores determínese:

1. La varianza de X

2. La recta de regresión X/Y

3. La recta de regresión Y/X.

Solución: 1) 12,5 2) a’=-1, b’=0,75 3) a =2, b =1,2

Índice Ficha Texto

Ejemplo 5.4. Dada la siguiente distribución bidimensional:

X 1 2 6 6

Y 4 33 260 840

Realizar un ajuste potencial del tipo bix ay*

Solución: x 3i4y*

Índice Ficha Texto

Ejemplo 5.5. Dada la siguiente distribución bidimensional

X 1 2 3 4

Y 2 4 8 16

Se pide:

a) Realizar un ajuste exponencial del tipo x* bay ⋅=

b) El error cuadrático medio e interpretar el resultado obtenido.

Solución: 0ECM)b2y)a x* ==

Índice Ficha Texto

Ejemplo 5.6. A partir de los siguientes datos de las variables X1, X2 y X3,

obtener:

X1 X2 X3

3 1 -1

4 -1 -1

a) El plano de regresión de X1/X2,X3 y la bondad del ajuste efectuado.

b) La matriz de correlación.

c) El coeficiente de correlación parcial entre X1 y X2.

Solución: a) X1* = 3 - 0,5 X2 –0,5 X3 2X

R = 1 c) r12.3= -1

TEMA 6 TASAS DE VARIACIÓN Y

NÚMEROS ÍNDICES

Tasas de Variación y Números Índice.

Índice Ficha

6.1. Introducción.

6.2. Tasas de variación.

6.3. Números Índices: clasificación y propiedades.

6.4. Índices de precios y cantidades más importantes.

6.5. Cambio de base, renovación y enlace.

6.6. Deflactación de series estadísticas.

Conceptos clave.

Ejemplos.

Índice Ficha

Definir el concepto de número índice y tasa de variación. Estudiar los tipos de números índices complejos más relevantes tipo Laspey-

res y Paasche, haciendo especial hincapié en los índices de precios.

Acercar el período de referencia o la base de una serie de índices al período

actual, operando cambios de base.

Enlace de series de índices utilizando el cambio de base. Deflactación de magnitudes económicas expresadas en u.m. corrientes, utili-

zando índices de precios.

Índice Ficha

Capítulo 7.

Índice Ficha

6.1. INTRODUCCIÓN.

Los instrumentos que se van a definir, servirán para medir la evolución del

valor de una variable en el tiempo o en el espacio.

Normalmente se tratará de variables de tipo socioeconómico. Una variable

de esta naturaleza se denominará “magnitud”.

Se comparará el valor de una magnitud en dos situaciones (habitualmente

temporales):

Situación inicial: período de referencia o BASE, se denotará por “0”

Situación final: período actual que se pretende comparar con el base,

se denotará por “t”

Índice Ficha

TIPOS DE MAGNITUDES:

MAGNITUD SIMPLE: variable unidimensional

T,,...2,1,0t:y,...,y,,...y,y:Y Tt10

períodos

valores

MAGNITUD COMPLEJA: variable n – dimensional

)y...,,y...,,y,y(t

)y...,,y...,,y,y(0Y...,,Y...,,Y,Y

ntitt2t1

0n0i2010

período

período:valores

Índice Ficha

6.2. TASA DE VARIACIÓN.

Sea Y magnitud simple y sean los valores t1t0 yy,y e− .

Tasa de variación de 1yy

yyyYTVt)1t(

t1t −=

−==→−

−−

−•

Tasa de variación de 1yy

0tt0 −=

−=→

TASAS DE VARIACIÓN EN TANTO POR UNO

(X 100) EN PORCENTAJE

Índice Ficha

6.3. NÚMEROS ÍNDICES. CLASIFICACIÓN Y PROPIEDADES.

6.3.1 Definición y clasificación.

NÚMERO ÍNDICE: medida estadística de tipo relativo (en tanto por uno o

porcentaje) que sirve para comparar el valor de una magnitud (variable) en

dos situaciones, una de las cuales se considera de referencia (base).

Los números índices se escriben en PORCENTAJE, tomando como referencia

el 100.

⎪⎩

⎪⎨⎧

⎩⎨⎧

)iωones(ponderaciPONDERADOS

PONDERARSINCOMPLEJOS

SIMPLES

ÍNDICESNÚMEROS

Índice Ficha

6.3.2. Índices simples

Sea Y una magnitud simple y sean t0 yy e el valor de la magnitud en el pe-

ríodo BASE y el período ACTUAL.

Se denotará el ÍNDICE SIMPLE del período 0 al período t por:

yI = (en tanto por uno).

Los números índices se escriben en porcentaje:

100I t0 × (en porcentaje).

Relación entre la tasa de variación y en número índice:

yyyTV t

0tt0 −=−=

Índice Ficha

NOTA: las series de índices se suelen expresar de dos formas fundamental-

mente:

INDICES CON BASE FIJA “0”: t0I

ÍNDICES EN CADENA: t

1tI − (con base el año inmediatamente ante-

rior).

Ejemplo 6.1.

Índice Ficha

6.3.3. Índices complejos.

Dada una magnitud compleja ( )ni21 Y...,,Y...,,Y,Y , sean dos valores de esa

magnitud en el período “0” y en el período “t”:

)y...,,y...,,y,y(t)y...,,y...,,y,y(0

ntitt2t1

0n0i2010

→→

Destacamos dos formas de definir INDICES COMPLEJOS:

1. Como MEDIA ARITMÉTICA de índices simples.

2. Como MEDIA AGREGATIVA.

Índice Ficha

Si se denota por 0i

itt0i y

y)i(II == el índice simple de los valores de la varia-

ble i – ésima (i = 1, 2,…, n), las formas de definir índices complejos SIN

PONDERAR y PONDERADOS quedan como siguen:

INDICES COMPLEJOS SIN PONDERAR.

1. MEDIA ARITMÉTICA de índices simples: ∑ ∑= =

2. MEDIA AGREGATIVA:

Índice Ficha

ÍNDICES COMPLEJOS PONDERADOS.

Se denotará por iω la ponderación de la variable i – ésima de la magnitud

compleja.

1. MEDIA ARITMÉTICA ponderada: ∑∑=

iiω ω

2. MEDIA AGREGATIVA ponderada: ∑∑=

iitω ωy

Índice Ficha

6.3.4. Propiedades.

1. EXISTENCIA: el valor de un índice ha de ser finito y distinto de cero.

2. IDENTIDAD: cuando t0 ≡ el índice ha de ser 1 (o 100) 1II tt

3. INVERSIÓN: Dado t0

1II =→

4. PROPORCIONALIDAD: t0

ttt'tt

I)k1(Iy)k1(kyyyy

+=+=+=⇒

5. CÍCLICA: dados tres períodos (o más) distintos “0, h y t” se ha de cum-

plir que t0

h0 III = . Esta propiedad se utilizará para operar con ÍNDICES

EN CADENA (índices con base el período inmediatamente anterior).

Índice Ficha

6.4. ÍNDICES DE PRECIOS Y CANTIDADES.

Se van a definir índices complejos ponderados para magnitudes tipo

PRECIO Y CANTIDAD utilizando la siguiente notación:

Magnitud PRECIO: )n,...,2,1i(Pi = con índice SIMPLE 0i

itt0 p

p)i(I =

Magnitud CANTIDAD: )n,...,2,1i(Qi = con índice SIMPLE 0i

itt0 q

q)i(I =

Se destacarán los dos tipos de índices complejos ponderados más im-

portantes para precio y cantidad: TIPO LASPEYRES y TIPO PAASCHE,

que serán medias aritméticas ponderadas de índices simples.

Índice Ficha

También se definirá un índice complejo de VALOR sin ponderar:

Magnitud VALOR: )n,...,2,1i(Vi = con índice SIMPLE 0i0i

itt0 qp

)i(I ==

Se definirá el índice complejo de valor como una media agregativa sin pon-

derar.

Índice Ficha

6.4.1. Índices de PRECIOS complejos ponderados.

PONDERACIÓN TIPO LASPEYRES: ponderación fija 0i0ii qpω =

PONDERACIÓN TIPO PAASCHE: ponderación variable it0ii qpω =

ÍNDICE DE LASPEYRES DE PRECIOS ÍNDICE DE PAASCHE DE PRECIOS

∑∑

0iitt0

0i0i0i

ωω)i(I

∑∑

ititt0

it0i0i

ωω)i(I

Índice Ficha

6.4.2. Índices de CANTIDAD complejos ponderados.

PONDERACIÓN TIPO LASPEYRES: ponderación fija 0i0ii pqω =

PONDERACIÓN TIPO PAASCHE: ponderación variable it0ii pqω =

ÍNDICE DE LASPEYRES DE CANTIDAD ÍNDICE DE PAASCHE DE CANTIDAD

∑∑

0iitt0

0i0i0i

ωω)i(I

∑∑

ititt0

it0i0i

iωω)i(I

Ejemplo 6.2.

Índice Ficha

6.4.3. Índice complejo de valor.

Se define el índice complejo de valor como una media agregativa: cociente

entre el valor de la magnitud compleja en el período “t” (actual) y el valor

de la magnitud compleja en el período “0” (referencia).

ÍNDICE DE VALOR

∑∑

∑∑ ==

itt0 qp

PROPIEDAD: INDICE DE PRECIO X ÍNDICE DE CANTIDAD = ÍNDICE DE VALOR.

Concretamente es fácil comprobar que se cumple la siguiente relación entre

los índices de Laspeyres y Paasche: t

t0 IV)P(P)Q(L)Q(P)P(L =×=×

Comprobar en Ejemplo 6.2.

Índice Ficha

6.5. CAMBIO DE BASE, RENOVACIÓN Y ENLACE.

Sea una serie de índices t0I con base fija en el período “0”, es decir,

100I 00 = .

Si se quiere cambiar la base de la serie de índices del período “0” a un pe-

ríodo “h” posterior (h>0) se procederá como sigue:

Teniendo en cuenta la propiedad cíclica para los períodos “0”, “h” y “t”

se tiene la siguiente relación: t0

h0 II·I = .

Por tanto los nuevos índices con base el período “h” se obtendrán:

Ih0 =→

Índice Ficha

Al índice que relaciona las dos bases se le denomina ENLACE h0I .

Obviamente si se quisiera devolver la base del período “h” al “0” se

procedería: t0

h0 II·I0h =→

Los cambios de base se utilizan para RENOVAR la base (acercarla a un

período más actual) o para ENLAZAR O EMPALMAR series de índices

que aparecen en distintas bases y expresarlos en una ÚNICA base.

Ejemplo 6.3. PROBLEMA 6.2

Índice Ficha

6.6. DEFLACTACIÓN.

Concepto: transformar el valor de una magnitud en precios corrientes

del período “t” (valor nominal) a un valor en precios constantes de un

período fijo “0” (valor real).

De esta forma se puede comparar de una manera más homogénea y

realista como va evolucionando el valor de una magnitud en diferentes

períodos de tiempo.

Esto se consigue dividiendo el valor a precios corrientes por un índice

de precios adecuado que denominaremos DEFLACTOR.

(0) constantesprecios avalor0)períodobasepreciosdeíndice deflactor

(t)corrientespreciosavalor=

Índice Ficha

Con índices simples la operación es obvia:

Si llamamos ttt qpv = al valor de la cantidad qt de la magnitud a precios

corrientes del período “t” (NOMINAL).

Llamamos t0ot qpv = al valor de la misma cantidad qt, pero a precios

del período “0” (REAL).

Y llamamos 0

pI = al índice de precios del período t0 → se tiene que:

ott vv → ott0

Índice Ficha

Deflactación con índices de precios complejos (Laspeyres y Paasche)

Sea ∑=

1iititt qpV el valor de una magnitud compleja a precios corrien-

tes del período “t”.

Sea ∑=

1Iit0it0 qpV el valor de la magnitud compleja a precios constan-

tes del período “0”.

ÍNDICE DE PRECIOS DE PAASCHE COMO DEFLACTOR

t0it0i

qpqpqp

=== ∑

∑∑∑

ES UN DEFLACTOR EXPLÍCITO

Se obtiene el valor de la magnitud a precios constantes del período “0”.

Índice Ficha

Se puede comprobar fácilmente que si se deflacta con el índice de precios de

LASPEYRES el resultado no es tan explícito pero se utiliza igualmente.

Ejemplo 6.5.

Índice Ficha

Conceptos clave:

Cambio de base. Deflactación. Índice de Laspeyres. Índice de Paasche. Índice simple y complejo. Índices de precios. Índices en cadena. Número índice. Período base. Serie de índices con base fija. Tasa de variación.

Índice Ficha Texto

EJEMPLOS.

Ejemplo 6.1. Los salarios anuales (en euros) de los oficiales administrativos

en una empresa han evolucionado durante el período 2001-2005 de la forma

b) Construye otra serie de índices con base el año in-mediatamente anterior.

c) Por último construye otra tabla que indique la tasa de variación del salario anual respecto al año inme-diatamente anterior.

Salarios Anuales

2001 15.350,002002 15.887,252003 16.363,872004 17.018,422005 17.648,10

Índice Ficha Texto

Ejemplo 6.2. Una empresa fabrica tres tipos de artículos: A, B y C. La si-

guiente estadística nos proporciona los precios y las cantidades producidas

de dichos artículos durante los años 1990-1992.

Años 1990 1991 1992

Artículo pi0 qi0 pit qit pit qit

A 2 10 2 15 4 20

B 5 12 6 10 8 5

C 3 5 6 8 9 10

a) s de Laspeyres y Paasche de 1991 y 1992, tomando como base 100 el año 1990.

b) Compruébese que: qpqp LPPL ×=×

Índice Ficha Texto

Ejemplo 6.3. Los siguientes índices salariales reflejan la evolución de los salarios en un determinado sector durante 7 años, consecuencia de las ne-gociaciones entre los sindicatos y los empresarios del sector:

a) Expresa la serie de índices con base el año 1998

b) Expresa los índices con base el año inmediata-mente anterior

c) ¿Qué porcentaje aumentaron los salarios del 95 al 96?

d) ¿Qué porcentaje aumentaron los salarios del 95 al 98?

e) ¿Y del 2000 al 2001?

Solución: c) el 5% d) el 13,02% e) el 2,5%

Índice Base 95

1995 100,00 1996 105,00

1997 109,20

1998 113,02

1999 117,54

2000 121,07

2001 124,10

Índice Ficha Texto

Ejemplo 6.4. El valor de un bien en 1992 es un 20% superior al que tenía

en 1986 y un 9% superior a su valor en 1990. ¿Cuál era el valor relativo de

ese bien en 1990 respecto a 1986?

Solución: un 10% superior, 10,1I 9086 =

Índice Ficha Texto

Ejemplo 6.5. El salario mínimo interprofesional, en euros corrientes, ha su-

frido las siguientes variaciones durante el período 2001 – 2006:

Si el I.P.C. durante esos mismos años fue: (Fuente: Boletín de Estadísticas Labo-

rales. Ministerio de Trabajo y Asuntos

Sociales. Contacto: www.ine.es)

Estúdiese la evolución del salario mínimo en términos reales y nominales du-rante el período 01 – 06. (En valor absoluto y en porcentaje). Obténgase la tasa de variación interanual del salario (real y nominal).

Solución: El salario mínimo pasa de 433,45 € a 459,87 € constantes del 01, lo que, en términos relativos, equivale a un aumento del 6,1%.

Años 2001 2002 2003 2004 2005 2006

Salario mínimo 433,45 442,20 451,20 460,50 513,00 540,90

Años 2001 2002 2003 2004 2005 2006

I.P.C. 100,00 103,54 106,68 109,93 113,63 117,62

Índice Ficha Texto

Ejemplo 6.6. Las pensiones se revalorizan anualmente según la expectativa

de crecimiento del IPC nacional. Si una pensión es de 540 euros/mes en el

año actual y la inflación esperada para el año que viene es del 3,2%, ¿cuál

deberá ser el importe de dicha pensión el año próximo?

Solución: 557,28 €

TEMA 7 ANÁLISIS CLÁSICO DE SERIES TEMPORALES

Análisis Clásico de Series Temporales.

Índice Ficha

Ficha del tema 7.

7.1. Introducción.

7.2. Componentes de una serie. Descomposición.

7.3. Análisis de la tendencia.

7.4. Análisis de la variación estacional. Desestacionalización.

7.5. Predicción. Corrección por estacionalidad.

Conceptos clave.

Ejemplos.

Índice Ficha

Descomposición de una serie temporal en cuatro componentes siguiendo un esquema multiplicativo. Obtención de la ecuación de tendencia anual aplicando el principio de míni-mos cuadrados a la serie temporal (t, Y). Obtención de la ecuación de tendencia k – esimal a partir de la anual. Cam-bios de origen en las ecuaciones de tendencia. Utilidad de las ecuaciones de tendencia para hacer predicciones. Los índices de variación estacional (IVE) como indicadores de la componente estacional de una serie, bajo hipótesis de estacionalidad estable. Utilidad de los IVE para corregir por estacionalidad las predicciones de la tendencia.

Índice Ficha

Capítulo 8 para tema 7.

Índice Ficha

7.1. INTRODUCCIÓN.

Una SERIE TEMPORAL se puede definir como una sucesión de valores orde-

nados en el tiempo y generados por una variable cuya referencia es una

unidad temporal.

A la variable objeto de estudio se la denomina VARIABLE DE INTERÉS: Y.

A la variable tiempo se la representará por: t.

Se considerará al par ( )Y,t como una variable estadística bidimensional y a

un valor de Y en el tiempo t se denotará por yt.

ty)y,t( →

Ejemplo 7.1.

Índice Ficha

7.2. COMPONENTES DE UNA SERIE TEMPORAL.

El análisis clásico de series temporales distingue cuatro componentes para el

estudio descriptivo de la misma.

1. TENDENCIA tT : dirección que toma la serie temporal al largo plazo, es

decir, si crece, decrece o permanece estable en largos períodos de tiempo

y sin oscilaciones.

2. CÍCLICA tC : fluctuaciones de la serie en períodos de tiempo superiores

al año (CICLOS o variaciones cíclicas).

Índice Ficha

3. ESTACIONALIDAD tS : movimientos oscilatorios de la variable de interés

Y en períodos inferiores al año. (Variaciones estacionales). Cuando son

repetitivos cada año se habla de la regularidad de la componente estacio-

nal (estacionalidad estable).

4. IRREGULAR tI o variaciones irregulares: recoge los movimientos de la

variable de interés que no explican el resto de componentes (deficiencias

del modelo).

DESCOMPOSICIÓN DE UNA SERIE TEMPORAL.

MODELO ADITIVO: ttttt ISCTY +++=

MODELO MULTIPLICATIVO: ttttt I·S·C·TY = .

Se asumirá un modelo multiplicativo con estacionalidad estable.

Índice Ficha

7.3. ANÁLISIS DE LA TENDENCIA tT

Método que se va a utilizar para determinar la tendencia de la serie:

MÉTODO ANALÍTICO.

Otros métodos: medias móviles y alisado exponencial.

El MÉTODO ANALÍTICO consiste en la obtención de la ecuación de una

función que ponga la variable de interés Y en función del tiempo:

)t(fy*t =

Esta función se obtendrá por medio de un ajuste lineal mínimo – cuadrático:

btay*t +=

Recta de regresión de Y sobre t

Índice Ficha

La TENDENCIA de la serie tT la proporcionarán los valores estimados de Y: *ty

*tt yT =

btaTt +=

ecuación de tendencia (recta de tendencia)

proporciona la tendencia lineal de la serie a largo plazo.

Índice Ficha

Su interpretación dependerá de la unidad de medida del tiempo “t”.

Se analizará la TENDENCIA desde una doble perspectiva:

ANUAL: tiempo t en años.

K – ESIMAL: tiempo t en unidades inferiores al año,

SEMESTRES k = 2 tendencia semestral.

CUATRIMESTRES k = 3, tendencia cuatrimestral.

TRIMESTRES k = 4 tendencia trimestral.

BIMESTRES k = 6 tendencia bimensual.

MESES k = 12 tendencia mensual.

Índice Ficha

7.3.1. Tendencia anual.

La ecuación de tendencia anual se obtendrá por una ajuste lineal mínimo –

cuadrático en la variable ( )Y,t .

PASOS A SEGUIR:

1. El tiempo vendrá en años y los datos serán anuales. Si los valores de la

serie ty se tuvieran por k – ésimos, en cada año se sumarían los k valo-

res ty para obtener datos anuales.

2. Se opera una cambio de variable sobre el tiempo t en años: 0tt't −= ,

con 0t año fijo.

Índice Ficha

3. Obtención de la recta de regresión de Y sobre t’:

⎪⎩

⎪⎨⎧

'tbyass

b'btay 2

Y't*'t

4. Ecuación de tendencia anual: 'btaT 't +=

t’ en años, origen t’ = 0, t = t0 (parte central del año t0.) CAMBIO DE ORIGEN EN LA ECUACIÓN DE TENDENCIA ANUAL.

Si btaTt += tiene origen en t = 0 y se quiere cambiar el origen a t = h

(h número entero), se opera el cambio

)h't(baTh'tt 't ++=→+= .

Ejemplo 7.2.

Índice Ficha

7.3.2. Tendencia K–esimal.

Tendencia de la serie a largo plazo, pero el tiempo vendrá en k – ésimos

(trimestres, meses...).

La ECUACIÓN DE TENDENCIA K –ESIMAL se obtendrá a partir de la anual

como sigue:

1. Sea btaTt += la ecuación de tendencia anual con origen t = 0.

2. Dividimos por k la ecuación anual:

kaTt += ,

representa la tendencia k – esimal promedia del año t.

3. Operamos el CAMBIO EN LA UNIDAD TEMPORAL de años t a k – ésimos

t’: 'tkb

k'ttkt't

't +=+=⇒=→=

Índice Ficha

't += representa la ecuación de tendencia k – esimal.

El tiempo t’ viene en k – ésimos.

ORIGEN: t’ = 0 en el k – ésimo central del año t0 (origen de la ecuación

anual)

Índice Ficha

TRASLADO DEL ORIGEN DE LA ECUACIÓN DE TENDENCIA K – ESI-

MAL AL CENTRO DEL PRIMER K – ÉSIMO.

Sobre la ecuación anterior se operará el siguiente cambio de origen:

⎟⎠⎞

⎜⎝⎛ −

−+=⇒−

1k''tkb

21k''t't

Ecuación de tendencia k – esimal con origen t’’ = 0 en la parte central del

primer k – ésimo del año t0 (origen de la ecuación anual)

Así si ésimosk)1kN(,...,2,1,0''taños)1N(,...,2,1,0t −−=⇒−=

Por ejemplo, si N = 3 años entonces t = 0, 1, 2. Y si k = 4 (trimestres), en-

tonces los 3x4 = 12 trimestres de los tres años quedan: t’’ = 0,1,2,3,...,11.

Ejemplo 7.3.

Índice Ficha

7.4. ANÁLISIS DE LA VARIACIÓN ESTACIONAL tS .

La componente estacional tS es la responsable de los altibajos en el gráfico

de la serie (picos y valles).

Para simplificar el análisis de la componente estacional se supondrá un com-

portamiento estacional repetitivo cada año en la serie temporal (ESTACIO-

NALIDAD ESTABLE). Además, se asumirá, en un esquema MULTIPLICATIVO,

que con el análisis de la tendencia realizado se ha obtenido una componente

conjunta de TENDENCIA – CICLO ttCT .

Índice Ficha

Así, se partirá, para el análisis de las variaciones estacionales, de una situa-

ción inicial:

tttt I·S·Ty =

( tT representa a la tendencia y el ciclo)

Los indicadores de la COMPONENTE ESTACIONAL tS serán unos índices

que se denominan ÍNDICES DE VARIACIÓN ESTACIONAL (IVE). Se ob-

tendrán aislando la componente estacional en la relación anterior.

Índice Ficha

7.4.1. Obtención de los IVE.

MÉTODO DE LA RAZÓN A LA TENDENCIA.

Pasos a seguir:

1. A partir de la ecuación de tendencia k – esimal

⎟⎠⎞

⎜⎝⎛ −−+=

se obtienen los valores de tendencia-ciclo k – esimales de la serie, tT susti-

tuyendo los valores )1kN(,...,2,1,0t −= en la ecuación.

2. Dividimos los datos k – esimales de la serie ty por la tendencia obteni-

da: ttt

I·S·TTy

Índice Ficha

3. Se promedian todos los valores tt IS obtenidos, en cada k – ésimo para

todos los años. Se obtienen así los k MOVIMIENTOS ESTACIONALES,

ME(i) (i = 1,2,..,k), de la serie.

4. Se determinan los IVE, que son los Movimientos Estacionales ajustados:

100·k·)i(ME

)i(ME)i(IVE k

1i∑=

Ejemplo 7.4.

Índice Ficha

ASPECTO DE LOS IVE. Los IVE son números índices, y por tanto vendrán en porcentaje o tanto por uno. La referencia es el 100.

IVE(i) = 100, significa que en el k – ésimo (i) los valores que toma la

serie no tienen un comportamiento estacional que difiera de la tenden-

cia usual de la serie.

IVE(i) > 100 (< 100), significa que en el k – ésimo (i) los valores que

toma la serie son usualmente mayores (menores), a los que tendría en

un comportamiento sin efecto estacional.

NOTA: como el año está subdividido en k partes, habrá un IVE para cada k –

ésimo, de forma que: )100kx(ok)i(IVEk

1i∑=

Índice Ficha

7.4.2. Desestacionalización.

Desestacionalizar una serie consiste en eliminar la componente estacional

tS , representada por el IVE respectivo, de los datos originales ty .

Si ty es un dato k – esimal de la serie original en el k – ésimo (i), el dato desestacionalizado será:

)i(IVEy

D tt =

Datos que supuestamente hubiésemos observado de no haber existido in-

fluencia estacional.

Ejemplo 7.5.

(Ver ejercicio 6.6 del libro ESTEBAN, J.; y otros.: “Estadística Descriptiva y nociones de Probabili-

dad”, Ed. Thomson, 2005. página 226).

Índice Ficha

7.5. PREDICCIÓN Y CORRECCIÓN POR ESTACIONALIDAD.

7.5.1. Predicción de la tendencia.

A partir de las ecuaciones de tendencia:

btaT)1( t +=→ ANUAL con origen t = 0 en el año t0.

⎟⎠⎞

⎜⎝⎛ −−+=→

kaT)2(

't K – ESIMAL con origen t’ = 0 en el pri-

mer k – ésimo del año t0.

Se pueden obtener PREDICCIONES de la tendencia:

(1) predicciones anuales de la tendencia para un año t determinado )1N(,...,2,1,0t −= .

(2) Predicciones k – esimales de la tendencia para un k – ésimo t’ determi-nado )1kN(,...,2,1,0't −=

Índice Ficha

7.5.2. Corrección por estacionalidad.

Si )i(T )k('t representa la predicción de la tendencia k – esimal en un k –

ésimo (i) determinado y el IVE(i) representa el efecto estacional de los valo-

res de la serie en ese k – ésimo, la predicción CORREGIDA POR ESTACIONA-

LIDAD se obtendrá multiplicando la predicción de tendencia por el IVE res-

pectivo:

)i(xIVE)i(T )k('t .

Ejemplo 7.6.

Índice Ficha

Conceptos clave.

Componente estacional. Dato desestacionalizado. Ecuación de tendencia. Índice de variación estacional (IVE). Predicción corregida por estacionalidad. Predicción de la tendencia. Serie temporal. Tendencia anual. Tendencia k-esimal. Tendencia.

Índice Ficha Texto

EJEMPLOS. Los ejemplos de este tema dedicado a las series temporales están basados en los datos del Ejemplo 7.1 y siguen el desarrollo teórico del tema. Ejemplo 7.1. Vamos a analizar la siguiente serie temporal Yt: volumen de ventas trimestrales de una pequeña empresa (en miles de euros), calculan-do la TENDENCIA, aislando la COMPONENTE ESTACIONAL (IVE) y desesta-cionalizando la serie. Supondremos un esquema multiplicativo y estacionali-dad estable. DATOS: ventas trimestrales durante el período 2000 a 2002.

2000 2001 20021r Trimestre 10 15 172º Trimestre 21 25 293r Trimestre 4 8 94º Trimestre 25 30 33

Totales Yt 60 78 88 TABLA 1

Índice Ficha Texto

SERIE TEMPORAL

1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002

trimestres

Índice Ficha Texto

Ejemplo 7.2. A partir de las ventas trimestrales de una empresa en el pe-

riodo 2000-02 (datos facilitados en el Ejemplo 7.1), calcular la ecuación de

tendencia anual con origen en el año 2000.

Solución: Para calcular la ecuación lineal de tendencia anual con origen el

año 2000, en primer lugar tomamos como valores de la serie los totales

anuales de la variable Yt.

Para hallar la línea de tendencia utilizamos un método analítico: ajustamos

una recta por el método mínimos cuadrados.

Índice Ficha Texto

Cálculos previos

Año t t'=t-2000 Yt (Yt)2 (t')2 t'·Yt

2000 0 60 3600 0 02001 1 78 6084 1 782002 2 88 7744 4 176

Totales 3 226 17428 5 254

Momentos a10 a01 a02 a20 a11

ordinarios 1,00 75,33 5809,33 1,67 84,67

Momentos m20 = S2t' m02 = S2

Y m11 = St'Y

centrales 0,67 134,22 9,33

Parámetros b a r2 r14,00 61,33 0,974 0,987

Índice Ficha Texto

Por tanto, se tendrá la Ecuación de tendencia anual

⎪⎩

⎪⎨⎧

'tbyass

b'btaT 2

't1433,61T 't += t’ = 0, 1, 2....años. Ecuación de tendencia anual.

Origen: t0 = 2000, año 0. Unidad: un año.

La bondad del ajuste es r2 = 0,974 (97,4%, buen ajuste). El modelo lineal

para determinar la tendencia sería adecuado.

Índice Ficha Texto

Ejemplo 7.3. A partir de la ecuación de tendencia anual obtenida en el

Ejemplo 7.2 ( 't1433,61T 't += con origen e t0 = 2000, año 0.), obtener la

ecuación de tendencia trimestral con origen el primer trimestre del año

Solución: Ecuación de la tendencia trimestral (k = 4).

433,61T 't +=

Tendencia trimestral promedia del año t’ (t’ en años).

Cambiamos la unidad anual de la ecuación de tendencia a una unidad tri-

mestral:

Índice Ficha Texto

t’’ = 4t’ (t’’ en trimestres). En general t’’ = kt’ (t’’ en k-ésimos); K = 2

semestres, k = 12 meses... En nuestro caso transformamos la variable t’

(tiempo medio en años) en otra t’’ medida en trimestres, haciendo el cambio

t’’ = 4t’:

''t414

433.61

)4(''t +=+=⇒=

(t’’ en trimestres)

Por tanto, la ecuación de tendencia trimestral quedará:

''t875,033,15T )4(''t +=

Ecuación de tendencia trimestral. Origen: trimestre central del año 2000.

Unidad: t’’ un trimestre.

Índice Ficha Texto

Cambiamos el origen de la ecuación de tendencia trimestral al primer tri-

mestre de 2000: el origen lo situamos en la parte central del trimestre, nos

trasladamos un trimestre y medio hacia la izquierda:

5,1''t2

''t −=−

−=−

Índice Ficha Texto

''t875,00175,14''t875,0)5,1(875,033,15)5,1''t(875,033,15T )4(

+==+−+=−+=

Con lo cual,

''t875,00175,14T )4(''t +=

ecuación de tendencia trimestral. Origen (t’’ = 0) primer trimestre de 2000. Unidad: t’’ un trimestre. t’’ = 0, 1, 2, ...,11

Índice Ficha Texto

Con la ecuación anterior, evaluamos la tendencia para cada uno de los 12

trimestres de la serie (3 años por 4 trimestres). Dando valores a t’’ = 0, 1,

2, ...,11, obtenemos la siguiente tabla:

TABLA 2

Tendencia para cada trimestre: forma una serie aritmética de razón 0,875 = b/42. En general b/k2.

Tt'' 2000 2001 20021r Trimestre 14,0175 17,5175 21,01752º Trimestre 14,8925 18,3925 21,89253r Trimestre 15,7675 19,2675 22,76754º Trimestre 16,6425 20,1425 23,6425

Índice Ficha Texto

Representación gráfica de la componente de tendencia (trimestral)

SERIE TEMPORAL

1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002

trimestres

asVENTAS tendencia

Índice Ficha Texto

Ejemplo 7.4. A partir de las ventas trimestrales (datos originales, TABLA 1) y la tendencia trimestral (resultados del Ejemplo 7.3, TABLA 2), calcular los índices de variación estacional (IVE), interpretar su significado y representar gráficamente la componente estacional. Solución: Eliminamos la tendencia y el ciclo (dividimos los datos originales por su correspondiente tendencia trimestral, supuesto un esquema multipli-cativo):

TABLA 1/TABLA 2 = TABLA 3.

Índice Ficha Texto

2000 2001 2002 Tt'' 2000 2001 20021r Trimestre 10 15 17 1r Trimestre 14,0175 17,5175 21,01752º Trimestre 21 25 29 2º Trimestre 14,8925 18,3925 21,89253r Trimestre 4 8 9 3r Trimestre 15,7675 19,2675 22,76754º Trimestre 25 30 33 4º Trimestre 16,6425 20,1425 23,6425

2000 2001 2002 Suma M E(i) IVE% Tanto por uno1r Trimestre 0,7134 0,8563 0,8088 2,3785 0,7928 79,79 0,79792º Trimestre 1,4101 1,3592 1,3247 4,0940 1,3647 137,34 1,37343r Trimestre 0,2537 0,4152 0,3953 1,0642 0,3547 35,70 0,35704º Trimestre 1,5022 1,4894 1,3958 4,3874 1,4625 147,18 1,4718

3,9747 400,00 4,0000

TABLA 1 TABLA 2

TABLA 3

Eliminamos las variaciones irregulares promediando los valores obteni-

dos sin tendencia en cada trimestre para todos los años, es decir, calculando

lo que llamaremos MOVIMIENTOS ESTACIONALES (ME): medias aritméticas

de los valores sin tendencia para cada trimestre. (ver TABLA 3):

Índice Ficha Texto

ME(i) i = 1, 2,..., k

Calculamos los Índices de Variación Estacional (IVE):

Teniendo en cuenta que un índice representa un cambio porcentual sobre

una base de referencia del 100%, en este caso los cuatro ME deberían su-

mar 4 (o 400 en porcentaje) para que representaran de una forma consis-

tente la componente estacional por trimestre. Pero suman 3,9747, por lo

que procede un ligero ajuste técnico para que sumen 4. De esta forma obte-

nemos los ME ajustados o ÍNDICES DE VARIACIÓN ESTACIONAL (IVE):

100k)i(ME

)i(ME)i(IVE k

⋅⋅=∑=

En este caso k = 4 (trimestres).

Índice Ficha Texto

Representación gráfica de la componente estacional obtenida (IVE):

Índice Variación Estacional

137,34

147,18

137,34

147,18

137,34

147,18

020406080

100120140160

1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002

trimestres

Índice Ficha Texto

Significado de los IVE: los IVE representan el efecto estacional para cada

trimestre. Al suponer estacionalidad estable, son los mismos para todos los

años de la serie, así:

4º trimestre: IVE (4) = 147,18. Las ventas de la empresa son un

47.18% superiores (147,18 - 100) al nivel medio de referencia que

sería 100.

3º trimestre: IVE (3) = 35,70. Las ventas de la empresa son un 64,30

inferiores (35,70 - 100) al nivel medio de referencia.

Índice Ficha Texto

Ejemplo 7.5. Desestacionalizar la serie de ventas trimestrales (datos origi-

nales, TABLA 1).

Solución: Eliminamos la estacionalidad de la serie dividiendo los datos ori-

ginales (Tabla 1) por los IVE de cada trimestre expresados en tantos por

Tabla 1 / IVE = Tabla 4

2000 2001 2002 IVE 2000 2001 20021r Trimestre 10 15 17 0,7979 12,5329 18,7993 21,30592º Trimestre 21 25 29 1,3734 15,2905 18,2030 21,11553r Trimestre 4 8 9 0,3570 11,2045 22,4090 25,21014º Trimestre 25 30 33 1,4718 16,9860 20,3832 22,4215

Totales Yt 60 78 88 4,0000 TABLA 1 TABLA 4 Serie desestacionalizada

Índice Ficha Texto

La serie desestacionalizada contiene los valores que supuestamente hubié-

ramos observado de no haber existido ninguna influencia estacional. Vemos

que hay una diferencia significativa con los datos originales, sobre todo en el

tercer trimestre.

Datos desestacionalizados

1015202530

1 2 3 4 1 2 3 4 1 2 3 4

2000 2001 2002

trimestres

Índice Ficha Texto

Ejemplo 7.6. A partir de la ecuación de tendencia trimestral con origen el trimestre central del año 2000

''t875,033,15T )4(''t += ,

Obtener una predicción de las ventas de la empresa para el tercer trimestre del año 2008. Corregir la predicción por estacionalidad (utilizar los datos ob-tenidos en el Ejemplo 7.4). Solución: Del año 00 al 08 hay 8 años, es decir 32 trimestres. Con este cál-culo llegamos al trimestre central del año 08; por tanto añadiendo 0.5 tri-mestres llegamos a la parte central del tercer trimestre.

Así para t’’ = 32.5 trimestres tenemos:

7675,43)5,32(875,033,15)5,32''t(T )4(''t =+==

Índice Ficha Texto

Análogamente lo podemos hacer a partir de la ecuación con origen el primer

trimestre del 00:

''t875,00175,14T )4(''t +=

Aquí t’’ = 34 trimestres y sustituyendo:

7675,43)34(875,00175,14)34''t(T )4(''t =+==

Corrección por estacionalidad: como el IVE para el tercer trimestre es de

35,70, la predicción tendría que ser realmente un 64,30% inferior (si la es-

tacionalidad se mantiene estable): 43,7675 · 0,3570 = 15,6250 que repre-

senta la predicción corregida por estacionalidad.

Diez Garcia Rafael - Guia Didactica De Estadistica Descriptiva Para Las Cs

Documents

Transcript of Diez Garcia Rafael - Guia Didactica De Estadistica Descriptiva Para Las Cs

Didactica de La Estadistica

Formato Planeacion Didactica Por Cuadrantes Probabilidad y Estadistica Dinamica

Estadistica y ti cs semi 9

CS 8100 3D, CS 8100 3D Access, CS 8100 3D Select, CS ... · Los sistemas CS 8100 3D, CS 8100 3D Access y CS 8100 3D Select pueden actualizarse a la modalidad cefalométrica cuando

Didactica de las Cs Ns

HISTORIA, GEOGRAFÍA Y CS. SOCIALES ANA HENRIQUEZ UNIVERSIDAD DE LAS AMÉRICAS DIDACTICA DE LAS CS. SOCIALES PEDAGOGÍA BÁSICA PROGRAMA EXECUTIVE, 2011 INDICACIONES.

PHC CSEva Marón, Financial Director de JOTEC España. SISTEMA PHC CS PHC CS Web PHC CS Manufactor PHC CS Corporate PHC CS Advanced PHC CS Enterprise Gestión y ERP …

DIDACTICA DIGITAL DIDACTICA DE LA FILOSOFIA (III

CS 160 CS 200 - afoisamara.gr

SECUENCIA DIDACTICA, BASADA EN LA DIDACTICA CRITICA

Didactica estadistica

Diez Garcia Rafael - Guia Didactica de Estadistica Descriptiva Para Las Cs

Estadistica Basica-Informacion Estadistica

- Estadistica

Diez Garcia Rafael - Guia Didactica de a Descriptiva Para Las Cs

TS(CS) 1225 - TS(CS) 1232 - TS(CS) 1248 Installation Manual

Policía Nacional de Colombia · luis fernando gonzalez herrera, director ... etnoeducacion (electiva) pedagogia y didactica estadistica basica trabajo de grado il prime-ros auxilios

Guia Didactica Estadistica y Probabilidad

DEPARTAMENTO DE ESTADISTICA€¦ · DEPARTAMENTO DE ESTADISTICA ÁREA DE CONOCIMIENTO: ESTADISTICA E INVESTIGACION OPERATIVA ÁREA DE CONOCIMIENTO: ESTADISTICA E INVESTIGACION OPERATIVA

guia didactica elda:guia didactica ELDA.qxd