Reportes de Frecuencias
Pgina | 2
Contenido
Objetivo: ............................................................................................. 3
Contenidos: ......................................................................................... 3
1. Tablas de frecuencias .................................................................... 3
2. Estadsticos ................................................................................. 6
2.1 Medidas de posicin ................................................................ 6
2.2 Medidas de dispersin ............................................................. 7
2.3 Medidas de asimetra y apuntamiento ........................................ 7
2.4 Medidas de apuntamiento ........................................................ 8
3. Representacin grfica de variables ...............................................14
3.1 Grficos de variables discretas y categricas .............................14
3.2 Grficos de variables continuas ................................................27
Pgina | 3
Al finalizar el curso de SPSS, usted estara en capacidad de
Generar reportes y tablas de estadstica descriptiva sin construirlos en una hoja electrnica.
REPORTES DE FRECUENCIAS
Objetivo:
Contenidos:
1. Tablas de frecuencias
2. Estadsticos
3. Representacin grfica de variables
1. Tablas de frecuencias
Una de las formas ms simples de resumir la informacin de un conjunto de datos es por medio de una tabla de frecuencias, que consiste en calcular para
cada valor de una variable el nmero (frecuencia) de casos en que aparece.
Una tabla de frecuencias debe indicar el nombre de la variable en su
encabezamiento, los valores que toma la variable, la frecuencia de cada uno de ellos y la suma de todas las frecuencias, que coincidir con el nmero
total de casos vlidos. Tambin es aconsejable calcular las frecuencias relativas, o proporciones, que resultan al dividir cada frecuencia por su suma
total. SPSS genera tablas de frecuencias de forma automtica. En primer lugar necesitamos abrir un banco de datos, por ejemplo el del archivo ambiente.sav, y con el men Analizar/Estadsticos
descriptivos/Frecuencias se puede obtener la tabla de frecuencias asociada a cualquiera de las variables. La tabla para la variable ozono
obtenida por SPSS es la siguiente:
Pgina | 4
pasamos a la ventana Variables: Gas ozono por zona,
No se olvide de mantener activada la opcin: Mostrar tablas de frecuencias y luego se da un clic en Aceptar, y los resultados son los
siguientes:
Pgina | 5
Frecuencias
Estadsticos
Gas ozono por zonas
N
Vlidos 15
Perdidos 0
Gas ozono por zonas
Frecuencia Porcentaje Porcentaje vlido
Porcentaje acumulado
Vlidos
normal 7 46,7 46,7 46,7
alto 8 53,3 53,3 100,0
Total 15 100,0 100,0
La tabla nos indica que hay 15 casos vlidos y ninguno perdido, que la
variable ozono tiene dos valores posibles Normal y Alto (en realidad son las
etiquetas asociadas a los valores 0 y 1, respectivamente). Hay 7 casos (46,7%) en los que ozono toma el valor Normal y 8 (53,3%) el valor Alto.
Ejercicio 1
Los puntos del 1 al 3 guardar los resultados en un archivo llamado Ejercicio 1, que le servir para la nota de la semana 2 cuando lo
suba a la plataforma, el punto 4 lo debe presentar su anlisis en el foro inquietudes.
1. Ordena los datos por la variable ozono con la opcin: Datos/Ordenar
casos o haciendo clic con el botn derecho del ratn sobre el nombre de
la variable y comprueba que las frecuencias anteriores son correctas, volviendo a generar la opcin frecuencias.
2. Obtener la tabla de frecuencias de la variable provin.
3. Obtener la tabla de frecuencias de la variable sulfato.
4. Qu utilidad tiene esta ltima tabla? Razona su conveniencia en este
caso (interpretar como se lee la columna frecuencias) y colocar su razonamiento en el foro inquietudes de la semana dos.
Pgina | 6
SPSS tambin cuenta con el men alternativo Analizar/Tablas
personalizadas que posibilita alterar el formato del resultado.
2. Estadsticos
Los estadsticos son valores calculados con los datos de una variable cuantitativa y que miden alguna de las caractersticas de la distribucin muestral. Las principales caractersticas son: tendencia central, posicin,
dispersin, asimetra y apuntamiento.
2.1 Medidas de posicin
Describe cmo se encuentra el resto de la muestra con respecto a ella.
2.1.1 Medidas de Centralizacin:
media es la suma de todas las observaciones dividida por el tamao de la muestra.
mediana es el valor que divide a la muestra ordenada en dos mitades con el mismo nmero de datos.
media recortada es una media calculada despus de eliminar algunos datos extremos. Es ms robusta que la
media pues no tiene en cuenta los valores atpicos.
moda es el dato que posee la mayor frecuencia. En caso de
empates pueden darse varias modas.
2.1.2 Otras medidas de posicin.
Los cuartiles Q1,Q2 y Q3, son tres valores que dividen a la
distribucin en cuatro partes iguales. El primer cuartil tiene un 25% de casos menores o iguales que dicho valor; el
segundo cuartil coincide con la mediana y el tercer cuartil deja un 25% de valores superiores o iguales a l. Para obtenerlos, se calcula primero las posiciones de los cuartiles
p(Q1) y p(Q3) y a partir de ellas se extraen los valores correspondientes. Las posiciones del primer y tercer cuartil
(el segundo coincide con la mediana) son: p(Q1)=(n+1)/4 y p(Q3)=3(n+1)/4. Obtenidas las posiciones, si son enteras, se buscan los valores que las ocupan en la muestra ordenada.
Pgina | 7
Los deciles (9 en total) y percentiles (99 en total) dividen
a la distribucin en diez y cien partes iguales, respectivamente. Su forma de clculo es similar a la de los cuartiles.
2.2 Medidas de dispersin
Las ms utilizadas son:
rango o amplitud que es la diferencia entre el mayor y el
menor valor de la muestra.
rango intercuartlico Q3-Q1, el intervalo [Q1,Q3] contiene al 50% central de los valores muestrales.
varianza (s2) que mide el alejamiento medio de las diferencias al cuadrado de cada
observacin a la media.
desviacin tpica o estndar (s) est medida en las mismas unidades que la variable y es la raz cuadrada positiva de la
varianza.
coeficiente de variacin de Pearson es una medida de dispersin relativa. Es el cociente entre la desviacin tpica y el
valor absoluto de la media. Carece de unidades y se usa para comparar la dispersin entre variables que tengan distintas
unidades de medida. Se suele expresar en tantos por ciento.
2.3 Medidas de asimetra y apuntamiento
Su objetivo es expresar mediante un valor la forma simtrica o asimtrica de la distribucin. Veamos algunas de ellas.
Para distribuciones unimodales que adems son simtricas i.e: la parte izquierda de la distribucin es similar a la derecha, los
estadsticos: media, mediana y moda suelen tener valores idnticos o muy parecidos. En base a esto, aparece el Coeficiente de
Asimetra de Pearson.
Otra posibilidad, ms costosa de realizar a mano, es calcular el
momento de orden 3 respecto de la media y dividirlo por la desviacin tpica al cubo obteniendo el coeficiente de asimetra
de Fisher.
Pgina | 8
2.4 Medidas de apuntamiento Indican el nivel de concentracin de los datos respecto de su
media. Si el nivel de concentracin es alto, la distribucin es de forma puntiaguda y se llama leptocrtica, tendremos en este caso
colas ms cortas que en una distribucin normal. Si las colas son ms largas que en una distribucin normal y por tanto con menos valores en el centro, la distribucin es ms achatada y se llama
platicrtica. En el caso intermedio, se utiliza el trmino mesocrtica.
El grado de apuntamiento, o curtosis, se puede medir por el momento de orden 4 dividido por la desviacin tpica elevada a 4.
El cociente anterior se corrige de forma que la distribucin normal para este estadstico da el valor cero, restndole tres unidades.
Para obtener los estadsticos con SPSS se usa el men Analizar/Estadsticos descriptivos/Descriptivos donde hay que
seleccionar la variable o variables de inters y despus Opciones para escoger los estadsticos que interesan. Sin embargo con este men no se
pueden obtener los percentiles. Para obtenerlos hay que usar Analizar/Estadsticos descriptivos/Frecuencias y entrar en la opcin Estadsticos en donde se seleccionan los percentiles deseados.
Por ejemplo con la variable sulfato debemos usar Analizar/Estadsticos descriptivos/Frecuencias y entrar en la opcin Estadsticos:
Pgina | 9
Desactivar el casillero Mostrar tabla de frecuencias.
Pgina | 10
Pulsar sobre el botn Estadsticos.
Y escoger todas loas opciones presentadas en la siguiente ventana:
Pgina | 11
Luego de pulsar en el botn continuar, debes escoger el botn Grficos, y pulsar sobre Histogramas y en el casillero Mostrar curva normal en el
histograma.
Pgina | 12
Y los resultados sern los siguientes:
Estadsticos
Sulfato en la tierra
N
Vlidos 15
Perdidos 0
Media 3,125580
Mediana 2,925800
Moda ,4614a
Desv. tp. 2,1521373
Varianza 4,632
Asimetra ,918
Error tp. de asimetra ,580
Curtosis ,495
Error tp. de curtosis 1,121
Rango 7,1515
Mnimo ,4614
Mximo 7,6129
Suma 46,8837
Percentiles
25 1,178700
50 2,925800
75 3,824500
a. Existen varias modas. Se mostrar el
menor de los valores.
Pgina | 13
Ejercicio 2
Descargar del siguiente link el archivo comprimido de SPSS
http://www.inec.gob.ec/estadisticas/index.php?option=com_remository&Itemid=&f
unc=startdown&id=1249&lang=es&TB_iframe=true&height=250&width=800
Realizar dos salidas de resultados la primera de frecuencias con la variable:
NIVINST (Nivel de instruccin) y la segunda salida para una variable numrica p62j (Tiempo dedicado para dormir), los resultados guardar en un
archivo de resultados con el nombre Ejercicio 2 y subirlo a la plataforma junto al ejercicio 1 zipeado (winzip o winrar).
Pgina | 14
3. Representacin grfica de variables La utilizacin de grficos es necesaria en Estadstica. Se pretende resumir la
informacin de la muestra de forma grfica con fines clarificadores o para enfatizar y descubrir determinadas caractersticas que de otra forma sera
muy difcil apreciar. Por otro lado, un grfico siempre es ms inmediato de comprender que un conjunto de estadsticos. Por ejemplo, podemos dar una matriz de distancias entre un conjunto de ciudades pero aun teniendo esa
informacin ser difcil que nos imaginemos su distribucin geogrfica si no se adjunta un grfico.
Los grficos adecuados para representar variables discretas o categricas son diferentes de los de las continuas por lo que separaremos su estudio.
3.1 Grficos de variables discretas y categricas
Los grficos ms utilizados en estadstica para representar variables discretas o categricas son los grficos de sectores y los diagramas de barras.
Pgina | 15
Grficos de sectores.
Un grfico de sectores consiste en un crculo dividido en sectores de tamao proporcional a la frecuencia de cada valor de la variable. Se
utilizan cuando hay pocos valores que representar (mximo de 7).
Para obtener un grfico de sectores con SPSS usaremos el men
Grficos/Cuadro de dilogo antiguos/Sectores y seleccionaremos una o varias variables apareciendo el cuadro de dilogo siguiente:
Resmenes para distintas variables
Permite que los sectores representen variables en lugar de grupos de casos. Cada sector representa una funcin de una determinada
variable (por ejemplo, la suma de los valores de sus casos).
Pgina | 16
Por ejemplo, las puntuaciones de 10 alumnos en tres exmenes de
Estadstica han sido las siguientes:
Podemos representar grficamente con un diagrama de sectores la suma de las puntuaciones en estos tres exmenes para ver si
difieren mucho y para ver qu examen tuvo la mayor puntuacin relativa. Para ello, despus de introducir los datos
en SPSS y elegir la opcin que estamos tratando, podemos obtener el siguiente grfico de sectores, en donde se observa,
por ejemplo, que la suma de las puntuaciones en el Ex1 es de 69,20 y que representan un 35,2% de la suma de todas las
puntuaciones (es decir su puntuacin relativa).
Pgina | 17
Pasamos cada variable a la ventana: los sectores representan:
Y el resultado es:
Pgina | 18
Para observar la suma de las variables , damos un doble clic sobre el objeto y se visualiza la ventana del editos de grficos, y
finalmente pulsamos sobre el botn Mostrar etiquetas de datos.
Se presentala siguiente ventana:
Pgina | 19
Nos ubicamos sobre la palabra Porcentaje, y pulsamos sobre la
flecha verde que permite pasar a la ventana Mostrado:
Pgina | 20
Luego en Aplicar y el resultado final es:
Pgina | 21
Resmenes para grupos de casos
Genera un grfico en el que cada sector corresponde a un valor
de la variable seleccionada. El tamao del sector se determina por la opcin Los sectores representan, esta opcin aparece en
el cuadro de dilogo que surge despus de apretar el botn
Definir del cuadro anterior.
Por ejemplo, supongamos que queremos representar los valores
de la variable provin en un diagrama de sectores donde los
sectores representan el nmero de casos de cada provincia. El grfico de sectores podra ser as:
Pgina | 22
Pgina | 23
Seguimos el mismo procedimiento anterior para colocar las etiquetas y el resultado es:
Pgina | 24
Valores individuales de los casos
Se resume una nica variable.
Ahora vamos a generar un grfico lineal para la variable sulfato del archivo ambiente:
Pgina | 25
Pasamos la variable a graficar:
Pgina | 26
Y el resultado es:
Pgina | 27
3.2 Grficos de variables continuas Bsicamente se utilizan dos tipos de grficos para las
representaciones de una nica variable continua: Histogramas y Diagramas de caja.
Histogramas
Parecidos en forma a los diagramas de barras, pero atencin: su
uso se restringe nicamente a las variables continuas. Los histogramas representan frecuencias agrupadas de una variable
continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectngulos unidos entre s, lo que significa que existe una continuidad en la variable cuyos valores se
representan en el eje horizontal. El eje horizontal se halla dividido en intervalos de igual amplitud (SPSS no permite alterar esta
propiedad), sobre los que se elevan rectngulos de altura proporcional a su frecuencia. Por lo tanto, las reas de los rectngulos son proporcionales a las frecuencias que representan.
Los histogramas se pueden editar haciendo doble clic con el botn izquierdo del ratn, lo que permite alterar el nmero de clases, su
amplitud, etc. La grfica de un histograma puede ser muy distinta para los mismos datos, simplemente variando el nmero de clases, por lo que la eleccin del nmero de clases debe hacerse con
cuidado.
Pgina | 28
En la figura siguiente, el histograma de la izquierda se ha obtenido
con el nmero de clases fijado por defecto por SPSS, en este caso 7. El segundo histograma solamente tiene 4 clases (fijado por el usuario). En ambos casos se ha superpuesto una curva normal con
media y desviacin estndar coincidentes con las de la muestra para ver su parecido.
Para obtener un histograma con SPSS se utilizan los mens Grficos/Cuadro de dilogo antiguos/Histograma. Con ste
ltimo men podemos obtener el histograma de frecuencias.
Pasamos a la ventana Histograma la variable sulfato.
Pgina | 29
Y el resultado es:
Pgina | 30
Diagramas de caja
A diferencia de los otros grficos ya vistos, los diagramas de caja hacen nfasis en las medidas de posicin. Es muy til para hacer
comparaciones entre muestras de distintas poblaciones.
Un diagrama de caja consiste en un rectngulo cuya longitud es
el rango intercuartlico, dividido por un segmento a la altura de la mediana y complementado por dos lneas (llamadas bigotes)
que parten de los extremos del rectngulo, cuya longitud no supera 1,5 veces el rango intercuartlico y que intentan alcanzar
los valores mnimo y mximo observados. Para obtener un diagrama de caja con SPSS se selecciona el men
Grficos/Cuadro de dilogo antiguos//Diagrama de cajas.
Pgina | 31
Pulsamos en definir, y en el argumento variable colocamos la
variable numrica para este caso ph y en el Eje de categoras debemos colocar la variable por la cual se va a segmentar provincia.
Pgina | 32
Y el resultado es el siguiente:
Pgina | 33
Aqu, cada provincia est representada por una caja que muestra los niveles de ph. Se puede observar diferencias en cuanto la
situacin de la mediana y a la dispersin. Por ejemplo, se observa que en Valencia los niveles de ph., son superiores a los de
Castelln y que presentan una ligera mayor dispersin. Los casos extremos si los hay se representan por smbolos especiales a cuyo lado aparece el nmero de caso.
Tambin nos da idea de la simetra de los datos por ejemplo, una mediana descentrada dentro del rectngulo nos indicara una
asimetra. En este ejemplo podemos decir que las distribuciones no son lo suficientemente simtricas. El diagrama de cajas puede ser
editado para su modificacin, haciendo doble clic sobre sus elementos. Se puede alterar ttulo, pie, anotaciones, leyenda y los valores y etiquetas de los ejes; las lneas como los ejes, las lneas
de referencia y los bordes, la escala, el relleno y trama de la caja y los casos atpicos y extremos.
Pgina | 34
Ejercicio 3
CON EL ARCHIVO p1coches.sav que se encuentra en ARCHIVOS DE PRCTICA 2
1. Calcular la moda, mediana, asimetra y curtosis del consumo de todos los coches.
2. Calcula el consumo medio y la mediana de los coches de 4 cilindros.
3. Construye un diagrama de cajas que sirva para comparar los consumos de cada tipo de coche dependiendo de su nmero de
cilindros.
4. Construye un histograma del peso de los coches. Superpn una curva
normal.
5. Construye un diagrama de cajas para comparar las cilindradas de los coches segn el origen del coche.
6. Construye un diagrama de barras de la potencia media (en CV) de los coches segn su origen.
7. Construye un grfico de sectores para ver las proporciones de coches
en la muestra segn su origen.
Top Related