Variables Estadsticas Unidimensionales

38

description

Trabajo de estadistica realizado por: Jose Luis Guzman Sofia Llorca Alberto Espuelas

Transcript of Variables Estadsticas Unidimensionales

Page 1: Variables Estadsticas Unidimensionales
Page 2: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

1

Conceptos estadísticos Población Ejemplo: Los alumnos de un curso.

Muestra Ejemplo: 10 alumnos escogidos al azar.

Individuo (objeto) Ejemplo: Un alumno

Carácter estadístico

· Un carácter permite clasificar a los individuos de la población.

• Un carácter puede ser cuantitativo si se puede medir. Ejemplo: Discreto: Número de hermanos. Continuo: Velocidad de un vehículo

• Un carácter es cualitativo si no se puede medir (se compara). Ejemplo: Color de los ojos

Se define modalidad como las diferentes posibilidades de un carácter.

Se denomina población al conjunto de todos los elementos que cumplen una determinada característica, que deseamos medir o

Se denomina muestra a cualquier subconjunto de la población.

En estadística, se considera individuo a cada uno de los elementos de la población.

Conjunto de propiedades (aspectos) que pueden estudiarse en los individuos de una población.

Page 3: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

2

Variable estadística.

• Variable discreta: Una variable estadística se llama discreta cuando sólo puede tomar determinados valores (con más precisión, cuando puede tomar un número finito o infinito numerable de valores).

• Variable continua: La variable se llama continua cuando puede tomar todos los valores de un intervalo (valores tan próximos como se quiera). Ejemplos: (Véanse caracteres estadísticos)

El conjunto de valores que toma un carácter estadístico.

Dependiendo del carácter, una variable estadística puede ser cuantitativa o cualitativa.

Page 4: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

3

Organización de los datos: tablas de frecuencias

Una distribución de frecuencias es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que describen una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.

La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos

Tipos de frecuencia:

Frecuencia absoluta

La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.

Frecuencia absoluta acumulada

.

La frecuencia absoluta (f i) es el número de veces que aparece un determinado valor en

un estudio estadístico

La frecuencia acumulada Fi es la suma de las frecuencias absolutas en

sentido descendente

Page 5: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

4

Frecuencia relativa

La suma de las frecuencias relativas es igual a 1.

Frecuencia relativa acumulada

Facilitan el análisis de los datos, en especial para comparar distribuciones de frecuencias basadas en diferentes números de observaciones

.

Diagrama de Barras

Las representaciones gráficas deben conseguir que un simple análisis visual ofrezca la mayor información posible. Según el tipo del carácter que estemos estudiando, usaremos una representación gráfica u otra.

Diagrama de barras El diagrama de barras es un gráfico sobre ejes cartesianos en el que distribuimos en el eje X o eje de abscisa:

·Las modalidades si el carácter es cualitativo ·Los valores si la variable es no agrupada

Sobre ellos se levantan barras o rectángulos de igual base (que no se solapen) cuya altura sea proporcional a sus frecuencias. También se suelen utilizar para series cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando los ejes.

La frecuencia relativa ni es el cociente entre la frecuencia absoluta de un

determinado valor y el número total de datos.

La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada de un determinado valor y el número total de datos. Se puede expresar

en tantos por ciento

Page 6: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

5

Histogramas La representación gráfica contribuye a un mejor análisis de los datos. Facilita la comprensión del fenómeno considerado. Pierde detalle pero se obtiene otro tipo de información. Gráficos utilizados: histograma, polígono de frecuencia y ojiva son útiles, ya que resaltan los patrones de los datos y atraen la atención.

En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos.

Regla de Nordclife:

Cuando la variable estadística toma muchos valores o es continua conviene agruparla en intervalos, utilizando grandes dosis de sentido común o bien, en algunos casos es útil utilizar el criterio de NORDCLIFE, que establece que el número de datos debe coincidir con la raíz cuadrada del número de datos.

Ejemplo:

Las edades de las personas que acuden al logopeda, a lo largo de un año son:

3,2,11,13,4,3,2,4,5,6,7,3,4,5,3,2,5,6,27,15,4,21,12,4,3,6,29,13,6,17,6,13,6,5,12,26.

Hay 36 datos, entonces la raíz de 36, es 6 y ese será el número de intervalos que vamos a tomar.

El Rango estadístico es 27, ya que se obtiene de restarle al mayor dato (29, en este caso) el menor (2).

Sin embargo, por conveniencia, para que sea más fácil operar, lo agrandamos a 30 para que sea múltiplo de 6.

Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores

Page 7: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

6

Ejemplo de histograma: Los datos son el número de espectadores en 32 partidos del equipo nacional (en miles).

42,1 51,0 30,0 35,2 29,3 10,9 16,1 51,6 47,0 51,4 35,2 31,7 17,8 67,0 43,2 23,7

25,2 36,1 32,3 51,7 46,0 12,2 21,1 29,0 14,3 47,2 31,3 35,4 29,1 23,0 10,3 34,2

En primer lugar, dividimos los datos en intervalos de igual anchura. El valor mínimo de la muestra es 10,3 y el valor máximo es 67,0. Ponemos intervalos de anchura 10 y construimos una tabla de frecuencias. Clases (intervalos de variable estadística)

Construimos el histograma:

Con diferencia a los datos discretas, las barras están conectadas. Además, observamos que igual que para los datos discretas, es posible construir el histograma con frecuencias absolutas o relativas o con frecuencias (absolutas o relativas) acumuladas.

Page 8: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

7

Tipos de histogramas

• Diagramas de barras simples Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa.

• Diagramas de barras compuesta Se usa para representar la información de una tabla de doble entrada sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad.

• Diagramas de barras agrupadas Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

Page 9: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

8

• Polígono de frecuencias Es un gráfico de líneas que se las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor.

• Ojiva porcentual Es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias.

Page 10: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

9

Función de distribución La función de distribución describe el comportamiento probabilístico de una variable aleatoria X asociada a un experimento aleatorio y se representa como:

F(x) ó Fx

Para estudiar la función de distribución distinguiremos entre el caso discreto y el caso continuo.

Variable discreta Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es la suma de la función de masa, por lo que tenemos entonces que:

Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión representa la suma de todas las probabilidades desde hasta el valor x

.

Ejemplo 1:

Si una persona compra una papeleta en una rifa, en la que puede ganar de 5.000 € ó un segundo premio de 2000 € con probabilidades de: 0.001 y 0.003. ¿Cuál sería el precio justo a pagar por la papeleta?

μ = 5000 · 0.001 + 2000 · 0.003 = 11 €

Ejemplo 2: Sea X una variable aleatoria discreta cuya función de probabilidad es:

x p i

0 0,1

1 0,2

2 0,1

3 0,4

4 0,1

5 0,1

Page 11: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

10

1. Calcular, representar gráficamente la función de distribución.

2. Calcular las siguientes probabilidades:

p (X < 4.5)

p (X < 4.5) = F (4.5) = 0.9

p (X ≥ 3)

p (X ≥ 3) = 1 - p(X < 3) = 1 - 0.4 = 0.6

p (3 ≤ X < 4.5)

p (3 ≤ X < 4.5) = p (X < 4.5) - p(X < 3) = 0.9 - 0.4 = 0.5

Ejemplo 3:

Un jugador lanza dos monedas. Gana 1 ó 2 € si aparecen una o dos caras. Por otra parte pierde 5 € si no aparece cara. Determinar la esperanza matemática del juego y si éste es favorable.

E = {(c,c);(c,x);(x,c);(x,x)}

p(+1) = 2/4

p(+2) = 1/4

p(−5) = 1/4

μ = 1 · 2/4 + 2 · 1/4 - 5 · 1/4 = −1/4. Es desfavorable

Page 12: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

11

Variable continua

Si tenemos una variable continua X, podemos definir la función acumulada de distribución de la misma manera que para una variable discreta.

F(x) = P(X ≤ x).

Ahora esta función sería una función suave y no una función escalón, pero tendrá las mismas propiedades que la función de distribución para una variable discreta.

F(−∞) = 0, F(∞) = 1, F(x + #) ≥ F(x) para cualquier # > 0.

Ejemplo:

¿Cuáles de las siguientes funciones pueden ser funciones de distribución para una variable continua X?

Las funciones 1 y 3 pueden ser funciones de distribución. La función 2 es negativa en el rango −1 < x < 0.

Los siguientes dibujos muestran las funciones de distribución en casos 1 y 3:

Page 13: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

12

Reducción numérica de los datos Se busca reducir los datos de nuestra investigación con el fin de expresarlos y describirlos de alguna manera (conceptual, numérica o gráficamente), de tal manera que respondan a una estructura sistemática, inteligible para otras personas, y por lo tanto significativa. La reducción de datos es una clase de operación que se realiza a lo largo de todo el proceso de investigación y pude hacerse de distintas formas (conceptual, numérica o gráficamente, como se indicó), pero que en la investigación cualitativa se refiere más que nada a la categorización y dosificación de los datos.

Cuando estudiamos una determinada población según el carácter C y tenemos recogidos los datos correspondientes a las distintas modalidades del carácter, la primeraforma de reducir dichos datos es mediante las tablas estadísticas y las representaciones gráficas. Aunque‚ a estas nos permiten obtener, de una manera rápida, una idea aproximada del comportamiento de la distribución, conviene estudiar las distribuciones de una forma más rigurosa. Es por esto por lo que vamos a estudiar la manera de resumir y sintetizar el gran número de datos de una distribución en unos pocos números que nos proporcionen una idea, lo más aproximadamente posible, de toda la distribución. El estudio de estos números se referirá a su significado, su cálculo e interpretación. Estos números de los que hablamos reciben el nombre de parámetros estadísticos. Hay muchos parámetros estadísticos. Suelen clasificarse según el papel que juegan, en varios tipos: - Medidas de posición, señalan la situación de algunos valores importantes en la distribución: cuartiles, deciles, centiles. Podemos destacar las Medidas de centralización o de tendencia central: ya que "tienden" a situarse hacia el centro del conjunto de datos. También se les llama promedios: moda, media, mediana. - Medidas de dispersión, que nos indican si los datos numéricos están agrupados o no alrededor de los valores centrales (grado de alejamiento de los datos.): desviación media, varianza, desviación típica... - Medidas de asimetría, para señalar si la distribución está sesgada hacia uno u otro lado. - Medidas de apuntamiento o curtosis, que indican si la distribución es mas o menos puntiaguda. Evidentemente, todo proceso de síntesis conlleva una pérdida de información. Pero esta pérdida se compensa con el hecho de trabajar con pocos parámetros con un significado muy preciso.

Page 14: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

13

Medidas descriptivas Las medidas descriptivas surgen con la necesidad de disponer medidas que resuman o condensen los datos y por tanto el objetivo que se persigue es la sintetización de la información que nos aportan los datos con la menor pérdida posible. Los parámetros se recogen en tres grupos principales dependiendo de su función: medidas de posición, medidas de centralización y medidas de dispersión. Aunque existen algunas menos usuales como medidas de forma o medidas robustas. Muchas de ellas no tienen sentido para las variables cualitativas.

Son valores numéricos calculados a partir de la muestra y que nos resumen la información contenida en ella.

Page 15: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

14

Medidas de centralización

Media aritmética ( ):

La letra µ se usa para la media aritmética de una población, es decir, el valor esperado de una variable Cálculo para datos ordenados de forma creciente:

Cálculo para datos agrupados:

Ejemplo:

La media aritmética de un conjunto de números positivos siempre es igual o superior a la media geométrica

Es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos. Informa sobre la tendencia general sobre la variable X en una muestra

de n sujetos. Es la más importante.

Page 16: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

15

Propiedades :

• La suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la misma igual a cero.

Por ejemplo: X ~ 8, 3, 5, 12, 10

8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 = 0 • La suma de los cuadrados de las desviaciones de los valores de la variable con

respecto a un número cualquiera se hace mínima cuando dicho número coincide con la media aritmética.

• Si a todos los valores de la variable se les suma un mismo número, la media aritmética queda aumentada en dicho número

• Si todos los valores de la variable se .

multiplican por un mismo número la media aritmética queda multiplicada por dicho número

Observaciones:

.

• La media se puede hallar sólo para variables cuantitativas• La

. media es independiente de las amplitudes de los intervalos

• La .

media

65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.

es muy sensible a los valores extremos. Si tenemos una distribución con los siguientes pesos:

La media es igual a 74 kg, que es una medida de centralización poco representativa de la distribución. La aparición de una observación extrema hará que la media se desplace en esa dirección.

• La media no se puede calcular si hay un intervalo con una amplitud indeterminada

• Es muy sensible a los valores extremos de la variable: todas las observaciones intervienen en el cálculo de la media, así, la aparición de una observación extrema hará que la media se desplace en esa dirección.

.

• No es recomendable usar la media como medida central en las distribuciones muy asimétricas.

Page 17: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

16

Mediana(Me):

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. Cálculo para datos ordenados de forma creciente:

Si n es impar, la mediana es el valor que ocupa la posición (n + 1) / 2. Si n es par, la mediana es la media aritmética de las dos observaciones centrales, que ocuparan las posiciones n/2 y n/2+1. Es decir: Me = (xn / 2 + (xn / 2 + 1)) / 2 Por ejemplo: X ~ 2, 3, 4, 4, 4, 5, 5, 6, 6,7 n es par y se hace la media de las posiciones: n/2 ≡ 4 y n/2+1 ≡ 5 -> Me= 4,5 Cálculo para datos agrupados Li es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas. Fi-1es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. La mediana es independiente de las amplitudes de los intervalos. Por ejemplo:

Propiedades:

• Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas (X ∼ 2, 5, 7, 9, 12 y X ∼ 2, 5, 7, 9, 125 en este caso la media cambia, pero no la mediana).

• Es de cálculo rápido y de interpretación sencilla, pero no tiene sentido su cálculo en variables de tipo cualitativo o nominal, al igual que la media.

• A diferencia de la media, la mediana de una variable es siempre un valor de la variable que se estudia (ej. La mediana de una variable número de hijos toma siempre valores enteros).

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

Page 18: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

17

Moda (Mo):

Se puede hallar la moda para variables cualitativas y cuantitativas. Cálculo para datos ordenados de forma creciente:

Mo es el valor xi que se repita más veces.

Ejemplo: 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9

Puede ser más de un xi, pero si todas las puntuaciones tienen la misma frecuencia no hay moda.

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda se puede hacer como el promedio de las dos puntuaciones adyacentes.

Ejemplo: 0, 1, 3, 3, 5, 5, 7, 8 Mo = 4 Cálculo para datos agrupados Todos los intervalos tienen la misma amplitud Li es el límite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi--1 es la frecuencia absoluta inmediatamente inferior a la clase modal. fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. También se utiliza otra fórmula de la moda que da un valor aproximado de ésta. Ejemplo:

La moda es el valor que tiene mayor frecuencia absoluta.

Page 19: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

18

Los intervalos tienen amplitudes distintas Primero hallamos la altura (hi) La clase modal es la que tiene mayor altura Ejemplo:

Media geométrica:

Por ejemplo:

Media armónica (H):

Así, dados n números x1, x2, ... , xn la media armónica será igual a:

La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto.

La media armónica no está definida en el caso de que exista algún valor nulo.

Dada una población o muestra con n elementos distintos, se llama media geométrica de esos elementos a la raíz n-ésima de su producto:

La media armónica, de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores.

Page 20: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

19

Medidas de posición: Las medidas de posición (no central) dividen un conjunto de datos en grupos con el mismo número de individuos. Entre ellas destacan los cuartiles, deciles y percentiles.

Cuartiles

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos

Cálculo para datos ordenados de menor a mayor:

Buscamos el lugar que ocupa cada cuartil mediante la expresión:

Si N es par, se coge, además, el valor adyacente siguiente y se calcula la media aritmética de ambos. Ejemplo:

Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Page 21: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

20

Cálculo para datos agrupados En primer lugar buscamos la clase donde se encuentra, en la tabla de las frecuencias

acumuladas.

Por ejemplo:

Deciles Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes porcentualmente iguales. Son también un caso particular de los percentiles.

Los deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc. D5 coincide con la mediana.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico.

Son los nueve valores que dividen al conjunto de datos ordenados en diez partes

iguales

Page 22: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

21

Cálculo:

En primer lugar buscamos dónde se encuentra la clase ,

en la tabla de las frecuencias acumuladas.

Si no disponemos de los datos ordenados, se hallan de la siguiente forma:

Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase.

Por ejemplo:

Cáculo de D4 de la distribución de la tabla:

Page 23: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

22

Percentiles Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc.

Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,..., percentil 99.

En primer lugar buscamos dónde se encuentra la clase ,

en la tabla de las frecuencias acumuladas.

Si no disponemos de los datos ordenados, se hallan de la siguiente forma:

Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase.

Por ejemplo:

Calcular P60 de la distribución de la tabla:

Los percentiles son valores que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.

Page 24: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

23

Medidas de dispersión Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen

Representan la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.

hasta que punto estas medidas de tendencia central son representativas como síntesis de la información.

Dispersión absoluta

Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.

Rango

• Ordenamos los números según su tamaño.

• Restamos el valor mínimo del valor máximo

Ejemplo: Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de:

Rango = 5

Diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se suele simbolizar con R.

Page 25: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

24

Desviación media absoluta

Las medidas de dispersión como el rango o el rango intercuartílico son poco significativas y sólo se apoyan en dos datos, sería conveniente tener una medida de la dispersión de los datos respecto a la media (valor en el que se resumen todos los datos) y en la que tomásemos información de todas la observaciones.

Una medida para conocer la dispersión de los datos sería ver que errores se comenten al dar la media en lugar del auténtico valor, en el valor i-ésimo cometeríamos un error .

Si sumamos todas las desviaciones. Se compensan las desviaciones positivas y negativas, por lo no podemos conocer la desviación. Para corregir ese problema podemos considerar todos los errores que calculemos como positivos, para ello basta con tomar el valor absoluto, si además consideramos la media de esos errores obtenemos la desviación media.

La desviación respecto a la media es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética.

Di = |x - x|

Por ejemplo:

Calcular la desviación media de la distribución: 9, 3, 8, 8, 9, 8, 9, 18

La desviación media (Dx) es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

Page 26: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

25

Si los datos están agrupados:

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

Por ejemplo:

Calcular la desviación media de la distribución:

Propiedades

• Nos da la media de la dispersión de los datos. • Intervienen para su cálculo todos los datos. • Cada vez que insertemos un dato nuevo se modificará. • Al intervenir un valor absoluto los cálculos son complicados. • A mayor concentración de los datos entorno a la media menor será su valor. • DM es no negativa • DM=0 si y sólo si todos los valores son coincidentes.

Page 27: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

26

Varianza (σ2) La desviación media es una medida de dispersión de datos correcta pero presenta un inconveniente y es la complejidad de manipulación al intervenir valores absolutos. Sería conveniente encontrar otra medida que no presente el problema inicial (que no se compensen las dispersiones negativas con las positivas) y cuyo manejo sea más sencillo. Otra forma de evitar la compensación de dispersiones es elevar al cuadrado la diferencia y es más sencillo trabajar con cuadrados que con valores absolutos, teniendo en cuenta esta consideración introduciremos el concepto de varianza.

Observaciones:

• La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.

• En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.

• La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.

Cálculo:

Podemos simplificar los cálculos así:

Cálculo para datos agrupados:

Podemos simplificarlo así:

La varianza (σ2)es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

Page 28: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

27

Ejemplos:

Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18

Primero se calcula la media aritmética.

Se utiliza:

Sustituimos:

Calcular la varianza de la distribución de la tabla:

Propiedades:

• Siempre es positiva

• Si a todos los valores de la variable se les suma un número la varianza no varía.

• Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.

• Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total. Si todas las muestras tienen el mismo tamaño:

Si las muestras tienen distinto tamaño:

Page 29: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

28

Desviación típica (σ) Con la varianza se elevan al cuadrado las unidades de medida, sería interesante tener una medida de dispersión con las mismas unidades de la media y los datos, esto lo podemos conseguir haciendo la raíz cuadrada positiva de la varianza, a la que llamaremos desviación típica.

Observaciones:

• La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.

• En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.

• Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Cálculo:

Cálculo para datos agrupados:

Ejemplos:

Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18

La desviación típica (σ) es la raíz cuadrada de la varianza.

Page 30: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

29

Calcular la desviación típica de la distribución de la tabla:

Propiedades:

• Es siempre positiva

• Si a todos los valores de la variable se les suma un número la desviación típica no varía.

• Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.

• Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.

o Si todas las muestras tienen el mismo tamaño:

o Si las muestras tienen distinto tamaño:

Page 31: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

30

Dispersión relativa

Cuando las medias de dos distribuciones son iguales, es fácil comparar cuál de ellas es más dispersa, pero cuando las medias son distintas, no siempre podemos comparar su dispersión; en particular si las distribuciones corresponden a variables con distintos sistemas de medida.

En estos casos, hemos de utilizar otras medidas que prescindan de las unidades de medida, lo que nos permitirá comparar variables de diferente tipo. Estas son las medidas de dispersión relativas. Coeficiente de variación Pearson

Propiedades: 1. Cuanto menor sea el coeficiente de variación, menor será la dispersión de la muestra y, por tanto, más representativa será su media y más homogéneos los valores de la distribución. 2. No se puede calcular si la media es cero. 3. Si la media es muy próxima a cero, el coeficiente de variación puede resultar erróneo, por lo que no es recomendable su uso. 4. No tiene dimensiones, por lo que permite comparar distribuciones con distintas unidades. 5. Utiliza toda la información de la distribución. 6. Se anula cuando la desviación típica es cero. En este caso no hay dispersión, y todos los valores son iguales.

Es una medida de dispersión relativa. Se utiliza cuando se pretenden comparar la dispersión de dos variables:

Page 32: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

31

Diagrama Box-Whisker Estos diagramas, también llamados de “Caja con bigotes”, son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.

Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.

Construcción Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente

Ejemplo de distribuciones de edades

Utilizamos la edad de un colectivo de 20 personas.

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

Ordenar los datos

Para calcular los parámetros estadístico, lo primero es ordenar la distribución

20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45

Page 33: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

32

Cálculo de cuartiles

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta

Q2=(39 + 39) / 2 = 39

Dibujar la caja y los bigotes

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1) La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx).

Page 34: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

33

Cómo realizar una encuesta Cuando se decide utilizar la encuesta como medio de recogida de información se llevaran a cabo ordenadamente las siguientes fases:

1) Determinación de los objetivos

Lo primero es definir los objetivos de la encuesta, la información concreta requerida y la población que la puede facilitar. En esta etapa es fundamental la utilización de información secundaria existente acerca del tema a estudiar y de la población a analizar.

2) Determinación del tipo de encuesta

Se deberá identificar cual es el tipo de encuesta más idóneo para llevar a cabo la investigación.

La encuesta podrá ser personal, telefónica o postal aunque las nuevas tecnologías ofrecen nuevos métodos para le realización de encuestas como el correo electrónico o a través de una página Web. La elección de un tipo de encuesta u otro vendrá determinada por el tema de la investigación, la población a estudiar y el presupuesto disponible.

3) Diseño del cuestionario

El diseño del cuestionario es fundamental y requiere un especial cuidado y atención. El cuestionario es el instrumento para la obtención de la información y por tanto su diseño es esencial para alcanzar los objetivos deseados.

4) Codificación del cuestionario

Una vez diseñado y testado el cuestionario debemos codificarlo antes de realizar el trabajo de campo, con el fin de evitar posibles errores de diseño. La codificación del cuestionario facilita la tabulación de los datos resultantes y su análisis posterior a través de un programa informático.

5) Muestreo

Se aplica un muestreo estadístico para seleccionar una muestra representativa de la población.

6) Trabajo de campo

Llegado este punto estamos en condiciones de comenzar a entrevistar a los integrantes de la muestra seleccionada. El trabajo de campo deberá ser supervisado por el investigador para evitar distorsiones.

7) Tabulación de datos.

Una vez finalizado el trabajo de campo y con los cuestionarios cumplimentados, se tabulan estadísticamente los datos obtenidos.

8 )Análisis de resultados y elaboración del informe.

Page 35: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

34

Por último, se analizan los datos tabulados y en base a los resultados y conclusiones se redacta el informe final de la investigación

Page 36: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

35

Ejercicios finales 1. Dos compañías aseguradoras tienen formas diferentes de pagar a sus empleados.

La compañía A lo hace mediante un sueldo fijo mensual y la compañía B a través de un porcentaje sobre los seguros realizados. La distribución de los salarios por categorías es:

a) Por término medio, ¿gana más un empleado de la compañía A o de la B? b) Calcular y comentar la representatividad de los sueldos medios. c) ¿Cuál es el sueldo más frecuente en la compañía A? d) Aunque en la compañía B el sueldo se gana por méritos, ¿crees que el reparto de salarios por categorías es equitativo? e) Si en la compañía B el salario fuese el anterior más un fijo de 10000 pesetas, ¿cuál sería el salario medio y la desviación típica?

Solución:

a) Sean: X = «sueldo (en miles de pesetas) de los empleados de la compañía A». Y = «sueldo (en miles de pesetas) de los empleados de la compañía B» Y=107.842105 X=84.5 b) VX = 0.27273876, VY = 0.31479111, los sueldos están menos dispersos en la empresa A. c) Mo = 80000 pesetas. d) IG(Y) = ‘.200456171 e) Z = Y + 10 Z = Y + 10 = 107.842105 + 10 = 117.842105

Page 37: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

36

SZ =SY

Page 38: Variables Estadsticas Unidimensionales

Proyecto Integrado Tema 1

37

2. Se comparan dos tipos de rosca de tornillo para ver su resistencia ala tensión. Se prueban 50 piezas de cada tipo de cuerda bajo condiciones similares, la marca A tuvo una resistencia promedio a la tensión de 78.3 Kg, mientras que la marca B tuvo una resistencia promedio de 87.2 Kg. Se sabe de antemano que las desviaciones poblacionales son de 6.5 Kg para la marca A y 6.3 Kg para la B. Determine el intervalo de confianza del 95% para la diferencia de las dos medias poblacionales.

Solución: