Proyecto Cristina Taboada Chambo
-
Upload
cristina-taboada-chambo -
Category
Documents
-
view
59 -
download
4
Transcript of Proyecto Cristina Taboada Chambo
2011
Cristina Taboada Chambó
Master en estadística Aplicada
PROYECTO-PRACTICAS
Los datos que voy a estudiar son sobre dos de las variables económicas más
importantes, las cuales son la inflación y el desempleo.
He decidido estudiar estas dos variables porque en la actualidad existe un
problemas económico y amabas son las más relevantes.
La inflación, en economía, se refiere al aumento de precios de bienes y servicios
en un periodo de tiempo, es decir, es la disminución del valor del dinero respecto a la
cantidad de bienes o servicios que se pueden comparar con dicho dinero. Por ejemplo, si
tenemos un servicio, como puede ser el autobús de Madrid a Barcelona, y el precio de
este servicio aumenta con el tiempo, tenemos inflación.
La inflación es un aspecto muy importante en la economía, ya que algunos de los
desastres económicos más importantes que ha habido en el mundo se debieron a una
descontrolada inflación.
La inflación se calcula como
Inflación2010 = (IPC2010 – IPC2009/IPC2009)
La tasa de desempleo es el porcentaje de la población activa que no tiene trabajo.
La población activa son aquellas personas que están en edad de trabajar y que,
en principio, estarían dispuestos a trabajar si encontraran un trabajo conveniente.
Ambas variables generan muchos problemas, no sólo para la gente, sino también
para las empresas, que no tienen un marco estable para prosperar y acaban
desapareciendo junto con el incremento del desempleo.
Algunos economistas han observado la relación entre la tasa de inflación y la del
desempleo, observando que cuando un país tenía baja inflación, tendía a experimentar
tasas de desempleo altas, y viceversa. Por lo que la sociedad debía de elegir entre uno de
dos males: inflación o desempleo.
Por lo que el objetivo de este trabajo es ver las diferencias y similitudes entres
las diferentes CCAA en España sobre amabas variable en el periodo 2010 y ver si es
cierto que existe una relación entre ambas variables observándolo a través de la
evolución del estas durante el periodo 1997 a 2010. Además los datos que voy a
manejar son porcentajes.
Para llevar a cabo el análisis he decidido utilizar el programa SPSS el cual es un
programa con una amplia variedad de análisis estadísticos. El cual contiene los análisis
que voy a utilizar para este trabajo de investigación.
� Para los datos de la población en desempleo lo obtenemos del siguiente
modo
Los datos están recogidos por la EPA (encuesta de población activa).
Esta encuesta1 va dirigida a la población que reside en viviendas familiares
principales, es decir, las utilizadas todas o la mayor parte del año como residencia
habitual o permanente.
Se excluyen de estas los llamados hogares colectivos, que son por ejemplo los
hospitales, hoteles, cuarteles, conventos, etc.…
Aunque se incluyen las familias que forman un grupo independiente residan en
estos establecimientos (directores de centros, conserjes y porteros).
El ámbito geográfico es todo el territorio nacional.
Para definir el marco de la encuesta es necesario empezar con la división
administrativa de España, la cual es:
La nación se encuentra dividida en 17 comunidades autónomas y dos ciudades
autónomas. Las comunidades autónomas se dividen en 50 provincias de las cuales 47
son peninsulares y 3 insulares. Las provincias se encuentran divididas en municipios y
estos en distritos municipales.
A partir de lo anterior se hace una nueva subdivisión de los distritos municipales
en secciones censales.
Por lo que la sección censal puede considerarse como un área geográfica con
límites perfectamente definidos.
Los datos son recogidos por el EPA, cuyo objetivo es el conocimiento de la
actividad económica del país. Su diseño está orientado a proporcionar información de
1 La encuesta introducida por el EPA está incluida en el anexo
las principales categorías poblacionales en relación con el mercado de trabajo así como
obtener clasificaciones de estas categorías según distintas variables.
Esta encuesta está diseñada para dar resultados detallados a nivel nacional. Para
las comunidades autónomas y las provincias se ofrece información sobre las principales
características al nivel de desagregación que permiten los coeficientes de de variación
de los estimadores.
La encuesta considera como población económicamente activa la constituida por
las personas de 16 y más años que en la semana de referencia satisfacen las condiciones
necesarias para su inclusión entres las personas ocupadas o paradas.
Se utiliza un muestreo bietápico con estratificación de las unidades de primera
etapa.
Las unidades de primera etapa están constituidas por las secciones censales. La
muestra de secciones permanece fija indefinidamente con las excepciones siguientes:
a) Salen de la muestra aquellas secciones en las que ya se han visitado todas
las viviendas encuestables.
b) Cuando en el proceso de actualización del seccionado a algunas
secciones les corresponda salir de la muestra, bien por los cálculos
probabilísticos, bien por cambios en la afijación por estratos.
En todos los casos las secciones que salen de la muestra son sustituidas por
otras.
Las unidades de segunda etapa están constituidas por las viviendas familiares
principales (ocupadas permanentemente) y los alojamientos fijos (chabolas, cuevas,
etc.…). No se consideran encuestables las viviendas secundarias ni las disponibles para
alquiler o venta, ya que no forma parte del ámbito poblacional definido anteriormente.
Dentro de las unidades de segunda etapa no se realiza submuestreo alguno,
recogiéndose información de todas las personas que tengan su residencia habitual en las
mismas.
Las unidades de primera etapa se estratifican atendiendo a un doble criterio:
A. Criterio geográfico: Las secciones se agrupan en estratos dentro de cada
provincia, de acuerdo con la importancia demográfica del municipio al
que pertenecen.
B. Criterio socioeconómico: Las secciones censales se agrupan en
subestratos dentro de cada uno de los estratos, según las características
socioeconómicas de las mismas.
Para llegar a la formación de los estratos se consideran los siguientes tipos de
municipios:
1. Municipios autorrepresentados: Son aquellos que dada su categoría dentro
de la provincia deben tener siempre secciones en la muestra. (la capital de
provincia, municipios que tienen un número de habitantes elevada y
municipios que tiene una demográfica destacada)
2. Municipios correpresentados: son aquellos que dentro de la misma
provincia forma parte de un grupo de municipios demográficamente
similares y que son representados en común.
� Para los datos de la inflación
En primer lugar la inflación se obtiene a través del IPC.
El IPC incluye a toda la población que reside en viviendas familiares en España,
se excluyen los gastos de las personas que residen en hogares colectivos o instituciones
y los gastos de los no residentes.
El campo de consumo es el conjunto de los bienes y servicios que los hogares
del estrato de referencia destinan al consumo; por lo que no se consideran los gastos en
bienes de inversión, los autoconsumos y los autosuministros, ni los alquileres
imputados, ni los gastos subvencionados por las administraciones públicas. Tampoco
forman parte del campo de consumo algunos impuestos no considerados consumo.
Cada parcela de consumo está representada por uno o más artículos en el IPC, de
forma que la evolución de los precios de estos artículos representa la de todos los
elementos que integran dicha parcela.
El IPC se trata de un diseño no probabilístico.
Los artículos están distribuidos en grandes grupos de la siguiente forma.
Grupos Número de artículos
Alimentos y bebidas no alcohólicas 176
Bebidas alcohólicas y tabaco 12
Vestido y calzado 67
Vivienda 18
Menaje 60
Medicina 13
Transporte 31
Comunicaciones 3
Ocio y cultura 43
Enseñanza 7
Hoteles, cafés y restaurantes 23
Otros bienes y servicios 38
Total 491
Podemos ver que las partidas más abundantes son los alimentos y
bebidas no alcohólicas y vestido y calzado. Y las partidas menos abundantes son
comunicación y enseñanza.
Los datos de la evolución del IPC e inflación en España y el cálculo de la
inflación son los siguientes:
Inflación2010 = (IPC2010 – IPC2009/IPC2009)
Años IPC inflación
2002 88,024 4
2003 90,699 3,04
2004 93,456 3,04
2005 96,604 3,37
2006 100 3,52
2007 102,787 2,79
2008 106,976 4,08
2009 106,668 -0,29
2010 108,588 1,80
Luego analizaremos los datos de la inflación.
Los datos que vamos analizar son los siguientes:
Por comunidades autónomas en el año 2010
CCAA Inflación Desempleo
Andalucía 3,2 27,97
Aragón 2,9 14,77
Asturias 3,2 15,97
Balears 2,7 20,37
Canarias 2 28,7
Cantabria 3,1 13,87
Castilla y León 3,2 15,78
Castilla la
mancha 3,4 20,99
Cataluña 3 17,75
Valencia 2,9 23,3
Extremadura 3 23,04
Galicia 3,1 15,4
Madrid 3 16,08
Murcia 3 23,35
Navarra 2,8 11,85
País Vasco 2,8 10,55
Rioja 3 14,27
Ceuta 1,9 24,12
Melilla 2,4 23,75
En este caso podemos ver que por la parte de la inflación vemos que las
Comunidades con más inflación son Castilla la mancha, Andalucía y Castilla y león. Y
los que menos son Ceuta y Canarias. Aunque podemos ver que no hay mucha diferencia
entre comunidades que va desde el 3.4 (Castilla la mancha) hasta 1.9 (Ceuta).
En el tema del desempleo podemos ver que, en este caso si hay una diferencia
considerable entre comunidades desde un 10.55% hasta 28.7%. Siendo las comunidades
con más desempleo Andalucía, Canarias y Ceuta. Y las que tiene menos desempleo son
País Vasco, Navarra y Cantabria.
Ahora, antes de realizar cualquier técnica multivariantes lo que vamos a llevar a
cabo es un análisis previo de los datos que nos indique con qué tipo de datos trabajamos
así como las características que estos poseen. El análisis nos permitirá deducir la
posibilidad de aplicar o no determinadas técnicas estadísticas multivariantes.
En un primer lugar vamos a dar una descripción numérica de los datos.
Vamos a hacer un resumen univariado para ambas variables en una única tabla y
calcular los valores tipificados. Por defecto muestra los estadísticos descriptivos básicos
para cada variable, es decir, medidas de tendencia central (media) y de dispersión
(desviación típica, varianza, máximo y mínimo). Teniendo como resultado el siguiente.
DESCRIPTIVES VARIABLES=INFLACIÓN PARO /STATISTICS=MEAN STDDEV MIN MAX.
Estadísticos descriptivos
N Mínimo Máximo Media Desv. Típ. INFLACIÓN 19 1,90 3,40 2,8737 ,39135 PARO 19 10,55 28,70 19,0463 5,34667 N válido (según lista) 19
Vemos que en este la variable inflación dato mínimo es 1.90, el máximo 3.40,
como media es de 2.8737 y desviación típica es de 0.39135, por lo que observamos que
no hay mucha diferencia.
En cuanto al desempleo vemos que el dato mínimo es de 10.55, el máximo es de
28.70, como media tenemos 19.0463 y de desviación típica 28.587 en el que podemos
ver que estos datos poseen algo más de diferencias.
Ahora vamos a proporcionar estadísticos y representaciones gráficas que
resulten útiles para describir las variables. Para ello vamos a realizar un informe de
frecuencias y gráficos de barras
FREQUENCIES VARIABLES=PARO INFLACIÓN /NTILES= 4 /STATISTICS=VARIANCE MAXIMUM MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS .
En este cuadro podemos observar en primer lugar el número de datos validos de
la muestra que en ambas variables es la muestra total es 19 por lo que no hay ningún
dato perdido. En la moda en el paro vemos que el dato que más se repite es de 10.55
(existen más modas pero cogen el dato con menor valor) y en la inflación es de 3.
La varianza que mide cuanto se separa los datos, en el caso del paro vemos que
la varianza es muy alta y la inflación vemos que este dato es más pequeño.
El máximo es el mismo que el anterior.
Los valores que superan el percentil 25 (25%) son de 14.77% en el paro y en
inflación es de 2.8%.
Los valores que superan el percentil 50 es de 17.75% en el paro y la inflación
son de 3%.
Y los valores que superan el percentil 75 es de 23.35 en el paro y en la inflación
es de 3.1%.
En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje
válido y el porcentaje acumulado del salario actual. La conclusión que obtenemos es
que en esta en el paro los datos no se repiten ni una sola vez en ninguna comunidad
autónoma.
En cuanto la inflación vemos que en este caso hay datos que se repiten más
frecuentemente que en la variable anterior en este caso son el 3.00% con una frecuencia
de 5, con un porcentaje de 26.3%. Luego le sigue la inflación del 3.20% con una
frecuencia de 3 veces y un porcentaje de 15.8%. Y por último datos como 2.8%, 2.9% y
3.10% que se repiten 2 veces y un porcentaje del 10.5%. Los demás datos que vemos
solo se repiten una vez.
En el histograma se divide el rango de los datos en un número adecuado de
intervalos. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la
frecuencia de datos en el intervalo. El histograma de la inflación representa una
distribución asimétrica a la izquierda, ya que en este caso hay más frecuencia de los
datos y el histograma del paro tiene de distribución simétrica bimodal debido a que hay
menos frecuencia en los datos.
Ahora vamos a realizar una exploración de los datos, a través del procedimiento
Explorar
Las razones para realizar este procedimiento seria para inspeccionar los datos,
identificar los valores atípicos, obtener descripciones, comprobar supuestos y
caracterizar diferencias entre subpoblaciones. La inspección de los datos muestra que
pueden existir valores inusuales, valores extremos, discontinuidad en los datos…
Este procedimiento nos puede ayudar para ver si es posible realizar determinadas
técnicas estadísticas a los datos o si es necesario transformar los datos.
EXAMINE VARIABLES=INFLACIÓN PARO /ID= CCAA /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /MESTIMATORS HUBER(1.339) ANDREW(1.34) HAMPEL(1. 7,3.4,8.5) TUKEY(4.685) /PERCENTILES(5,10,25,50,75,90,95) HAVERAGE /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
En este cuadro lo que obtenemos son los casos válidos y los casos perdidos
(donde e ambos casos es 0) y el total.
Aquí se pone en manifiesto los estadísticos descriptivos básicos para cada
variable, es decir, medidas de tendencia central, de dispersión y de forma, según la
categoría laboral.
• Estadísticos de tendencia central:
• Media
• Mediana
• Media recortada al 5%: media aritmética calculada omitiendo el 5% de las
observaciones con frecuencias más bajas y el 5% de las observaciones con
frecuencias más altas.
A la derecha de la media se muestra su error típico.
Estadísticos de dispersión:
• Errores típicos
• Varianza
• Desviación típica
• Máximo
• Mínimo
• Rango
• Amplitud intercuartil: es la distancia entre el primer cuartil y el tercer cuartil.
No le afecta la presencia de casos extremos.
Estadísticos de forma:
• Asimetría
• Curtosis
A la derecha de la asimetría y la curtosis se muestran sus correspondientes
errores típicos. La presencia de los valores extremos dispara la asimetría y el
apuntamiento (curtosis) estos coeficientes son pues, indicadores de anomalías en las
distribuciones de datos.
También se muestra un intervalo de confianza para la media (un rango de
valores basado en la media muestral) a un nivel del 95%, aunque se puede especificar
otro porcentaje.
Los estimadores-M se caracterizan porque los valores extremos reciben menos
peso que los valores próximos al centro.
Los cuatro estimadores robustos calculados para estimar el centro de la
localización, se diferencia uno de otro por las ponderaciones que aplican a los datos:
Estimador-M de Huber: Los casos que tienen los mayores valores absolutos
tienen pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Los
casos cuyos valores tipificados sean menores a 1,339 reciben un peso de 0
Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones
cuyos valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente
proporcionales a la distancia respecto al centro para todas las restantes observaciones.
Estimador-M redescendente de Hampel: Está caracterizado por tres constantes
(1.7, 3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que
8.5 se le asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y
8.5 se le asigna pesos en función de su distancia respecto a cero.
Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se
asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los
pesos de los casos. A los valores tipificados que sean mayores que 1.340 en valor
absoluto se les asigna un peso 0.
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula
también las bisagras de Tukey, que define los cuartiles de la distribución según una
transformación realizada por Tukey
Son los valores extremos de la distribución (muy alejados del resto). Se
muestran los cinco valores mayores y menores.
Grafico de tallos y hojas
Inflación
INFLACIÓN Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 Extremes (=<2,0) 1,00 2 . 4 5,00 2 . 78899 11,00 3 . 00000112224 Stem width: 1,00 Each leaf: 1 case(s)
Desempleo
PARO Stem-and-Leaf Plot Frequency Stem & Leaf 5,00 1 . 01344 5,00 1 . 55567 7,00 2 . 0033334 2,00 2 . 78 Stem width: 10,00 Each leaf: 1 case(s)
El diagrama de caja es un gráfico de resumen de la distribución basado en la
mediana, los cuartiles y los valores extremos.
Ofrece un gran cantidad de información, incluso los casos muy alejados del
centro son identificados.
Son especialmente útiles para comparar la distribución de los valores entre
diferentes grupos.
Está formada por una caja, patillas que salen de ella y límites. La caja representa
la amplitud intercuartil que contiene el 50% de los valores centrales. Las “patillas o
bigotes” son las líneas que se extiende desde la caja hasta los valores más altos y más
bajos (los valores extremos), excluyendo los valores atípicos. Una línea que atraviesa la
caja indica la situación de la mediana.
Con un O se marcan los casos situados entre 1.5 y 3 veces la amplitud
intercuartil desde los dos extremos de la caja. El borde superior de la caja es el percentil
75 y el borde inferior es el perfil 25.
En el gráfico de tallo y hojas de la inflación vemos que la mediana asimétrica
positiva. En cambio la variable del paro vemos que es asimétrica (sesgada) negativa.
Ahora vamos a realizar un análisis clúster de las variables.
El análisis clúster es un conjunto de técnicas multivariantes cuyo objetivo es
agrupar objetos o individuos basándose en las características que estos poseen. Este
análisis clasificará a los objetos, según su parecido. Los grupos resultantes deben
mostrar mucha homogeneidad entre los elementos del grupo y alto grado de
heterogeneidad entre los diferentes grupos.
En primer lugar lo vamos a realizar por el método inter-grupos.
Matriz de distancias
Esta matriz mide las distancias entre cada dos individuos del fichero de datos
antes de comenzar la clasificación. Esta señala las distancia entre los individuos según
la distancia euclídea al cuadrado. Podemos ver que esta matriz es simétrica y si
observamos bien veremos que el primer clúster estará formado por las Comunidades
autónomas más cercanas que son Andalucía y Murcia.
Esta es una matriz de similaridades
Historial de la conglomeración
Nos indica el orden de las uniones y la distancia a la que lo hacen por ejemplo
Asturias y Castilla y león se une a un distancia de 0.001 formando el clúster 1. Luego
forma otro clúster Extremadura y Murcia con distancia del 0.003.
Un tercer grupo se formado por Navarra y País Vasco con distancia 0.059
En la etapa 4 el clúster 2 se le añade Valencia.
Y en la etapa 5 se forma otro clúster con Cantabria y Rioja.
Así sucesivamente hasta llegar a formar 3 grupos de los que podemos ver cómo
están formados en la siguiente etapa.
Conglomerados de pertenencia
Nos indica el número de clúster finales.
El grupo 1 está formado por Andalucía, Murcia, Baleares, Valencia,
Extremadura, Melilla y Castilla la Mancha.
El grupo 2 está formado por Cantabria, La Rioja, Galicia, Aragón, Asturias,
Casitilla y león, Cataluña, Galicia Madrid Navarra y País Vasco.
El grupo 3 está formado por Melilla, Canarias y Ceuta.
Diagrama de témpanos
Muestra cómo quedaría la clasificación de individuos dependiendo del número
de conglomerados que consideremos (cada fila de la tabla). Por filas, se van pintando
X’s y se deja un hueco cuando cambiamos de clúster. Como podemos ver en este
ejercicio tenemos 3 clúster.
Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+----- ----+---------+------+ Asturias 3 òø
Castilla y León 7 òú
Galicia 12 òôòø
Cataluña 9 òú ó
Madrid 13 ò÷ ùòòòø
Cantabria 6 òø ó ó
Rioja 17 òôò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòø
Aragón 2 ò÷ ó ó
Navarra 15 òûòòòòò÷ ó
País Vasco 16 ò÷ ùòòòòòòòòòòòø
Extremadura 11 òø ó ó
Murcia 14 òôòø ó ó
Valencia 10 ò÷ ùòòòòòòòø ó ó
Balears 4 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòò÷ ó
Andalucía 1 òòòòòòòûòòò÷ ó
Castilla – La Ma 8 òòòòòòò÷ ó
Canarias 5 òòòûòòòø ó
Ceuta 18 òòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
Melilla 19 òòòòòòò÷
Por los que tendríamos las comunidades autónomas clasificadas en tres grupos
según el paro y la inflación. El objetivo a partir de aquí es utilizar otros métodos para y ver
si se forman los mismos grupos.
Podemos observar al realizar de nuevo con el Método vinculación intra-grupos y
Ward obtenemos los mismos resultados, por lo que los grupos que los distintos países
formarían serian los siguientes:
Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre
las variables donde se expresa la relación en términos de una ecuación que conecta dichas
variables.
Esta tabla identifica a las variables independientes (paro) y dependiente (Inflación).
La tabla resumen del modelo nos proporciona información acerca de la bondad de
ajuste del modelo. Concretamente: R es la raíz cuadrada positiva de R cuadrado.
R Cuadrado es la bondad de ajuste y viene dada por:
=0.157
El R cuadrado corregida: la R cuadrado sobrestima el valor poblacional. Una
estimación más adecuada de bondad de ajuste poblacional es R cuadrado corregida que se
obtiene con la expresión.
El error típico de la estimación es la raíz cuadrada de la varianza residual.
=5.05274
La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la
validación del modelo de regresión lineal. La columna Sig. Corresponde al valor de
probabilidad de F. es la probabilidad de obtener el valor de F si la hipótesis nula fuera
cierta. Como este valor es mayor que 0.05 se acepta la hipótesis nula y se concluye que el
modelo de regresión es no válido. Se concluye que el parámetro es igual a 0. Por lo que no
existe relación alguna entre ambos parámetros.
Evolución en el tiempo del paro e inflación durante 1997-2010
Los datos de la evolución de ambas variables son los siguientes
En primer lugar vamos a ver la evolución de ambas variables.
Vemos que la inflación ha tenido altos y bajos durante el tiempo estudiado y la
variable desempleo ha sido más constante aunque podemos ver que en la primera etapa y la
última ha habido unos considerables aumentos relacionados por las crisis. En cuanto a la
relación de ambas variables, podemos ver que en épocas donde el desempleo es mayor la
inflación ha disminuido. Y cuando el desempleo ha sido menor la inflación ha aumentado.
Ahora vamos a hacer un estudio estadístico de ambas variables para ver si esta
afirmación es cierta.
En primer lugar vamos a llevar a cabo, como anteriormente, un análisis previo de
los datos, para indicarnos con que datos trabajamos y ver las características que poseen.
Realizaremos un análisis descriptivo de los datos.
Vemos que en este la variable inflación el dato mínima es -0.29, el máximo 4.08,
como media es de 2.725 y desviación típica es de 1.21046, por lo que observamos que no
hay mucha diferencia.
En cuanto el desempleo el dato mínimo es de 8.26, el máximo es de 21.30, como
media tenemos 13.59 y de desviación típica 4.17088 en el que podemos ver que estos datos
son más diferentes entre sí.
Ahora vamos hacer un análisis de frecuencias que servirá para describir nuestras
variables.
Los datos obtenidos son:
En este cuadro podemos observar en primer lugar el número de datos validos de la
muestra que en ambas variables es la muestra total (14) por lo que no hay ningún dato
perdido. En la moda en la inflación vemos que el dato que más se repite es de 3.04 y en el
desempleo es de 14.
La varianza que mide cuanto se separan los datos, en el caso de la inflación vemos
que la varianza es baja y en el desempleo vemos que es más elevada.
El máximo es el mismo que el anterior.
Los valores que superan el percentil 25 (25%) es de 1.86 en la inflación y en el paro
es de 10.5175.
Los valores que superan el percentil 50 es de 2.915 en la inflación y en el paro son
de 12.74.
Y los valores que superan el percentil 75 es de 3.64 en la inflación y en el paro son
de 16.5025.
En este cuadro podemos ver cuál es la frecuencia, el porcentaje, el porcentaje válido
y el porcentaje acumulado del salario actual. La conclusión que obtenemos es que en esta
variable solo se repite un dato que es 3.04 con un porcentaje del 14.3%.
La conclusión que obtenemos es que en esta variable solo se repite un dato que es
14.00 con un porcentaje del 14.3%.
En el histograma se divide el rango de los datos en un número adecuado de
intervalos. Sobre cada intervalo se dibuja un rectángulo cuya área es proporcional a la
frecuencia de datos en el intervalo. Ambos histogramas muestran una distribución bimodal
debido a que hay menos frecuencia en los datos.
Ahora toca hacer una exploración de los datos, esto nos va a servir si hay valores
inusuales, extremos, discontinuidades u otras peculiaridades.
Obtenemos los siguientes resultados:
En este cuadro lo que obtenemos son los casos válidos para cada variable y los
casos perdidos (donde e ambos casos es 0) y el total.
Los estimadores-M se caracterizan porque los valores extremos reciben menos peso
que los valores próximos al centro.
Los cuatro estimadores robustos calculados para estimar el centro de la localización,
se diferencia uno de otro por las ponderaciones que aplican a los datos:
Estimador-M de Huber: Los casos que tienen los mayores valores absolutos tienen
pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Los casos cuyo
valores tipificados sean menores a 1,339 reciben un peso de 0
Estimador biponderado de Tukey: asigna pesos de 0 a aquellas observaciones cuyos
valores estandarizados sean motores que 4,685 y cuyos pesos sean inversamente
proporcionales a la distancia respecto al centro para todas las restantes observaciones.
Estimador-M redescendente de Hampel: Está caracterizado por tres constantes (1.7,
3.4 y 8.5). a los valores observados tipificados cuyo valor absoluto sea mayor que 8.5 se le
asigna un peso de 0. A los valores comprendidos entre 1.7 y 3.4 y entre 3.4 y 8.5 se le
asigna pesos en función de su distancia respecto a cero.
Estimador en onda de Andrew: no tiene cambios bruscos en los pesos que se
asignan a los casos. En su lugar, se utiliza una suave curva seno para determinar los pesos
de los casos. A los valores tipificados que sean mayores que 1.340 en valor absoluto se les
asigna un peso 0.
Se muestran los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. Calcula
también las bisagras de Tukey, que define los cuartiles de la distribución según una
transformación realizada por Tukey.
Son los valores extremos de la distribución (muy alejados del resto). Se muestran
los cinco valores mayores y menores.
• Inflación
Inflación Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 -0 . 2 ,00 0 . 3,00 1 . 388 3,00 2 . 777 4,00 3 . 0035 3,00 4 . 000 Stem width: 1,00 Each leaf: 1 case(s)
• Desempleo
Desempleo Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 0 . 889 6,00 1 . 011144 3,00 1 . 568 2,00 2 . 01 Stem width: 10,00 Each leaf: 1 case(s)
El diagrama de caja es un gráfico de resumen de la distribución basado en la
mediana, los cuartiles y los valores extremos.
Ofrece un gran cantidad de información, incluso los casos muy alejados del centro
son identificados.
Son especialmente útiles para comparar la distribución de los valores entre
diferentes grupos.
Está formada por una caja, patillas que salen de ella y límites. La caja representa la
amplitud intercuartil que contiene el 50% de los valores centrales. Las “patillas o bigotes”
son las líneas que se extiende desde la caja hasta los valores más altos y más bajos (los
valores extremos), excluyendo los valores atípicos. Una línea que atraviesa la caja indica la
situación de la mediana.
En el gráfico de tallo y hojas de la inflación vemos que la mediana está más o
menos un poquito a la derecha por lo que la distribución es asimétrica positiva. En cambio
la variable del desempleo vemos que es asimétrica negativa.
Ahora vamos a llevar a cabo un análisis de regresión para estudiar la relación entre
las variables donde se expresa la relación en términos de una ecuación que conecta dichas
variables. Obteniendo lo siguiente:
Esta tabla identifica a las variables independientes (desempleo) y dependiente
(inflación).
La tabla resumen del modelo nos proporciona información acerca de la bondad de
ajuste del modelo. Concretamente: R es la raíz cuadrada positiva de R cuadrado.
R Cuadrado es la bondad de ajuste es de 0.327
El error típico de la estimación es la raíz cuadrada de la varianza residual es 1.03374
La tabla ANOVA: es un cuadro resumen del análisis de la varianza para la
validación del modelo de regresión lineal. La columna Sig. Corresponde al valor de
probabilidad de F. es la probabilidad de obtener el valor de F si la hipótesis nula fuera
cierta. Como este valor es menor que 0.05 se rechaza la hipótesis nula y por lo que el
modelo de regresión es válido.
La tabla de coeficientes: esta tabla contiene los coeficientes no estandarizados (en
directas) y estandarizados de la recta de regresión estimada. Concretamente, la columna
etiquetada como B nos permite escribir la recta de regresión en puntuaciones directas. Así,
la recta que relaciona la inflación con el desempleo es:
^y=4.980-0.166x1
Por otro lado, el valor que aparece en la columna etiquetada como Beta es la
pendiente de la recta en típicas que como se sabe, en el modo de regresión simple, es el
coeficiente de correlación de Pearson. La recta de regresión en típicas es:
^Zy=-0.572Z1x
En la columna de coeficientes no estandarizados, además de los coeficientes de la
recta en directas, la columna error tip. Hace referencia a los errores típicos de la constante
(ordenada en origen) y la pendiente de la recta. Son los denominadores del estadístico de
contraste t de student de la penúltima columna. Concretamente, los errores típicos de la
pendiente se obtienen de la siguiente expresión:
La columna Sig., corresponde a los valores de probabilidad de los valores de t. Es la
probabilidad de obtener el valor de t si la hipótesis nula fuera cierta. Como no hay valores
que son menores que 0.05 rechaza la hipótesis nula y se concluye que el parámetro no es
igual a 0. Por lo que existe relación entre ambos variables.
Conclusiones
Podemos que hay una relación entre las distintas comunidades autónomas, según la
inflación y el desempleo, formando 3 grupos.
Un primer grupo formado por Andalucía, Murcia, Baleares, Valencia, Extremadura,
Melilla y Castilla la mancha. De las cuales podemos decir que sus similitudes están en que
presentan una inflación alta con una alta tasa de paro.
Un segundo grupo formado por La Rioja, Galicia, Aragón, Asturias, Castilla y león,
Cataluña, Cantabria, Galicia, Madrid, Navarra y País Vasco. En estas comunidades
autónomas nos encontramos con la similitud de un elevada inflación y una tasa de empleo
bajo.
Y por último, el grupo tercero formado por Melilla, Canarias y Ceuta. Donde se
caracteriza por tener una inflación más baja que las demás y con una tasa de empleo
elevada.
Por lo que podemos concluir que las comunidades autónomas más afectadas en la
crisis por ambas variables son las comunidades del primer grupo.
En cuanto a la relación de ambas variables a través de las comunidades autónomas
nos dice que no existe relación entre ella. Esto es debido a que cada Comunidad autónoma
se gestiona diferentemente y que cada una tiene diferentes problemas.
Haciendo el estudio a la evolución de ambas variables en España durante 1997 hasta
2010 vemos que ambas variables siguen una relación la cual se puede expresar por la
siguiente ecuación: ^y=4.980-0.166x1
Por lo que sacamos como conclusión de que en cuanto a la evolución de dichas
variables si hay una clara relación pero además la relación existente entre el desempleo y la
inflación dependerá de otras variables economicas.