ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una...

26
estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 527 Leopoldo E. Álvarez ESTADÍSTICA CPR. JORGE JUAN Xuvia-Narón La estadística es la ciencia encargada de recopilar y ordenar los datos referidos a diversos fenómenos para su posterior análisis e interpretación. Una de las más bellas leyendas de las mil y una noches cuenta que el califa, Harún al Rasid, salía disfrazado de mercader de su palacio para conocer la opinión de los habitantes de Bagdad. También el escritor estadounidense, Mark Twain, muchos años después, hace del príncipe Eduardo un mendigo, que de este modo llegará a conocer cómo vivían y pensaban sus súbditos. Hoy los métodos han cambiado de manera radical y en la actualidad la importancia de la estadística es enorme, los métodos estadísticos son fundamentales para estimar, planificar, predecir y decidir en problemas relacionados con la política, la sociología, la investigación, la industria, la economía y una larga lista de actividades. El estudio estadístico más antiguo que se conoce se realizó en China cuando el emperador Yao encargó la confección de un censo del imperio. Esto sucedía a finales del tercer milenio antes de Cristo. También se tienen noticias de que en el antiguo Egipto se realizaron estadísticas y trabajos censales de tipo agrícola. Otro censo famoso, según relataba el historiador Tácito, fue el que recogía las propiedades y los ejércitos del imperio de Roma en tiempos del emperador Octavio Augusto. No obstante, hemos de esperar algún tiempo hasta que aparezcan los trabajos de John Graunt, un comerciante de mercería inglés, considerado como el precursor de la actual estadística. Graunt, entre los años, 1604, y, 1661, realizó un estudio sobre los nacimientos y defunciones de Londres y, a partir de los datos obtenidos, extrajo consecuencias formulando leyes demográficas y comportamientos sociológicos. Treinta años más tarde publica el astrónomo Halley un estudio sobre las tasas de mortalidad, sentándose las bases de los estudios sobre esperanza de vida. Los datos objeto de estudio se presentan generalmente en forma de tablas Departamento de Orientación realiza una encuesta entre los estudiantes al comienzo del curso. A instancias del seminario de E. F. se le preguntó a los alumnos que indicaran el deporte que más practicaban, obteniéndose los resultados de la tabla adjunta: El seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los alumnos de, 3º, de E.S.O. Los resultados vienen dados en la tabla adjunta El Seminario de Lengua propuso que se les preguntara a los alumnos de, 4º, de E.S.O. cuántos libros habían leído durante el curso anterior, los datos obtenidos fueron: Si se observa con detalle, se comprueba que hay una variación grande en el número de libros leídos: desde, 0, hasta, 19. Si exponemos los datos en una tabla como la anterior, no conseguiremos que el lector lo interprete sin realizar un esfuerzo.

Transcript of ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una...

Page 1: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 527 Leopoldo E. Álvarez

ESTADÍSTICA CPR. JORGE JUAN Xuvia-Narón

La estadística es la ciencia encargada de recopilar y ordenar los datos referidos a diversos fenómenos para su posterior análisis e interpretación. Una de las más bellas leyendas de las mil y una noches cuenta que el califa, Harún al Rasid, salía disfrazado de mercader de su palacio para conocer la opinión de los habitantes de Bagdad. También el escritor estadounidense, Mark Twain, muchos años después, hace del príncipe Eduardo un mendigo, que de este modo llegará a conocer cómo vivían y pensaban sus súbditos. Hoy los métodos han cambiado de manera radical y en la actualidad la importancia de la estadística es enorme, los métodos estadísticos son fundamentales para estimar, planificar, predecir y decidir en problemas relacionados con la política, la sociología, la investigación, la industria, la economía y una larga lista de actividades. El estudio estadístico más antiguo que se conoce se realizó en China cuando el emperador Yao encargó la confección de un censo del imperio. Esto sucedía a finales del tercer milenio antes de Cristo. También se tienen noticias de que en el antiguo Egipto se realizaron estadísticas y trabajos censales de tipo agrícola. Otro censo famoso, según relataba el historiador Tácito, fue el que recogía las propiedades y los ejércitos del imperio de Roma en tiempos del emperador Octavio Augusto. No obstante, hemos de esperar algún tiempo hasta que aparezcan los trabajos de John Graunt, un comerciante de mercería inglés, considerado como el precursor de la actual estadística. Graunt, entre los años, 1604, y, 1661, realizó un estudio sobre los nacimientos y defunciones de Londres y, a partir de los datos obtenidos, extrajo consecuencias formulando leyes demográficas y comportamientos sociológicos. Treinta años más tarde publica el astrónomo Halley un estudio sobre las tasas de mortalidad, sentándose las bases de los estudios sobre esperanza de vida. Los datos objeto de estudio se presentan generalmente en forma de tablas Departamento de Orientación realiza una encuesta entre los estudiantes al comienzo del curso. A instancias del seminario de E. F. se le preguntó a los alumnos que indicaran el deporte que más practicaban, obteniéndose los resultados de la tabla adjunta:

El seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los alumnos de, 3º, de E.S.O. Los resultados vienen dados en la tabla adjunta El Seminario de Lengua propuso que se les preguntara a los alumnos de, 4º, de E.S.O. cuántos libros habían leído durante el curso anterior, los datos obtenidos fueron: Si se observa con detalle, se comprueba que hay una variación grande en el número de libros leídos: desde, 0, hasta, 19. Si exponemos los datos en una tabla como la anterior, no conseguiremos que el lector lo interprete sin realizar un esfuerzo.

Page 2: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 528 Leopoldo E. Álvarez

En los primeros ejemplos se han presentado las respuestas en una tabla sin ninguna dificultad. En el último se presenta el problema de que hay muchos valores distintos. En estos casos, es conveniente agrupar los datos en intervalos. Clasificación del seminario de Lengua en intervalos diferentes. Las normas para hacer esta clasificación no son estrictas:

Primero se calcula el número de intervalos en que se agrupan los datos mediante la aproximación de la raíz cuadrada del número de datos existente N = número de intervalos Los intervalos son generalmente de la misma amplitud. La amplitud suele ser múltiplo de los números 2, 3, 5, 10, y, 20. Sin embargo la amplitud del intervalo puede hallarse aproximando al primer número entero mayor que el cociente de la expresión Máx Min

N

El número de intervalos no ha de ser menor que, 5, ni mayor que, 15. Estos límites se pueden modificar sin ningún tipo de problema. No debe haber muchos intervalos con pocos individuos, ni con demasiados.

Se observa que si se dan los datos según la tabla 1, se informa, por ejemplo, de que hay, 24, individuos que leyeron entre, 9, y, 11 libros, anuales, pero se desconoce el número de libros que exactamente leyó cada uno de ellos. Es decir, al agrupar se pierde información, aunque se facilite la lectura de la tabla, su comprensión. La manipulación más cómoda de los datos, hace que dicha pérdida sea poco significativa. Se definen los siguientes conceptos:

Población Es el conjunto de elementos que cumplen una determinada condición y que son objeto del estudio estadístico. Una misma población puede ser sometida a distintos estudios estadísticos.

Muestra

Cualquier subconjunto de la población. Se la considera una representación de la población, por lo que se ha de cuidar su elección. Es la parte de la población que se estudia.

El proceso mediante el cual se extrae una muestra representativa de la población, se denomina muestreo aleatorio, y en él cada individuo de la población tiene la misma probabilidad de ser incluido en dicha muestra. Se denomina tamaño de la muestra al número de elementos que contiene. Individuo Es cada uno de los elementos de la población ó de la muestra.

Page 3: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 529 Leopoldo E. Álvarez

Variable estadística ó carácter estadístico

Es cualquier propiedad o característica que permita realizar un estudio estadístico con el que se clasifica a los individuos de la población ó de la muestra. El carácter estadístico puede ser:

Cualitativo Aquel que no se puede medir. Los valores que toma esta variable no son números, sino cualidades. Cuantitativo Aquel que se puede medir. Su valor viene definido por un número. Esta variable puede ser:

Discreta

La propiedad objeto de estudio sólo puede tomar un número finito de valores. En cada intervalo la variable estadística tan solo puede tomar un número finito de valores.

Continua

La propiedad objeto de estudio puede tomar todos los valores posibles dentro de un cierto intervalo de la recta real.

Dependiendo del número de variables que se estudien se habla de:

Distribución unidimensional Una variable estadística unidimensional, X, es aquella que resulta de estudiar una característica de los individuos de una población. La variable estadística unidimensional, X, queda determinada por los datos, x1, x2,...,xn. Dada una variable estadística se define:

Frecuencia absoluta

Sea

xi valor de la variable estadística.

Se llama frecuencia absoluta, fi, del valor, xi, de la variable estadística, al número de veces que se repite dicho valor en la muestra.

La correspondencia que asocia a cada valor de la variable estadística su frecuencia absoluta se llama distribución estadística.

Se llama frecuencia absoluta acumulada, Fi, del valor, xi, de la variable estadística, a la suma de las frecuencias absolutas de todos los valores anteriores al valor, xi, más la frecuencia absoluta del valor, xi, de la variable estadística.

Fi= f1+f2+...+fi= 1

i

ii

f

Page 4: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 530 Leopoldo E. Álvarez

Frecuencia relativa

Sea

xi valor de la variable estadística.

N= f1+f2+...+fn= 1

n

ii

f número total de datos.

Se llama frecuencia relativa, hi, del valor, xi, de la variable estadística, al cociente entre el número de veces que se repite dicho valor y el número de datos.

hi= ifN

es el cociente entre a frecuencia absoluta, fi, de un dato y el número total de datos, N. Se llama frecuencia relativa acumulada, Hi, del valor, xi, de la variable estadística, al cociente entre la frecuencia absoluta acumulada del valor, xi, y el número total de datos.

Hi= 1 2 1 2... ...i i iF f f f f f fN N N N N

h1+h2+...+hi

La frecuencia relativa de un dato, xi, es la suma de todas las frecuencias relativas de los datos menores o iguales que él. Cuando se quiera trabajar con porcentajes no hay más que multiplicar por, 100, las frecuencias relativas.

El tratamiento de un problema estadístico se resume en los siguientes pasos a seguir:

Recogida de los datos procedentes de una muestra.

Ordenación de los datos. En orden creciente o decreciente.

Recuento de frecuencias.

Agrupación de los datos.

Los datos, xi, de una variable estadística unidimensional, X, se ordenan en una tabla de frecuencias. En ella se ordenan los datos en la primera columna y sus frecuencias en las siguientes columnas.

En caso de que la variable sea continua o discreta con un número de datos muy grande, es aconsejable agrupar los datos en intervalos o clases. Se ha tener en cuenta en este caso que:

Los extremos inferior y superior de cada clase han de ser números enteros. Las clases tengan la misma amplitud.

El punto medio de cada clase se denomina marca de clase.

Page 5: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 531 Leopoldo E. Álvarez

Los intervalos se deben construir de forma que el extremo superior de una clase coincida con el extremo inferior de la siguiente.

[ , )

Elaboración de la tabla estadística

En ella deben figurar los valores de la variable estadística, en el caso de los valores se encuentren agrupados en clases deben figurar los extremos inferior y superior así como la marca de clase, y las frecuencias absolutas y relativas, pudiendo ser conveniente incluir en la tabla las frecuencias absolutas y relativas acumuladas y los porcentajes.

xi fi Fi hi Hi % [ ) M.C fi Fi hi Hi %i Aún cuando las tablas estadísticas contienen toda la información, resulta conveniente expresar la información mediante un gráfico, pues dan la información en forma de imagen . Los principales tipos de gráficos son:

Diagrama cartesiano o de puntos

Se dibuja el sistema de ejes cartesianos, O,X,Y. Se representa sobre el eje, X, los valores, xi, de la variable estadística, y sobre el eje, Y, los valores de una de sus frecuencias, fi, hi, Fi, o, Hi.

Diagrama de sectores

Compara las distintas modalidades de un carácter y consiste en un círculo dividido en tantos sectores circulares como modalidades tiene el carácter. El ángulo central del sector circular ha de ser proporcional a la frecuencia absoluta que le corresponde. Es un tipo de representación muy utilizado en variables cualitativas.

Diagrama de barras. Polígono de frecuencias

Compara datos cualitativos o cuantitativos discretos. Se representan sobre el eje de abscisas los datos y en esos puntos se levantan barras de altura proporcional a las frecuencias absolutas.

Algunas distribuciones suelen clasificarse en virtud de la forma que adopta su representación por barras. Son particularmente

interesantes las distribuciones cuyo diagrama se asemeja a la campana normal, pues son numerosos los ejemplos en los que la mayoría de la población toma valores centrales, siendo pocos los valores extremos. De las siguientes variables estadísticas, escribir los posibles valores y señalar las que adoptan un

Page 6: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 532 Leopoldo E. Álvarez

tipo similar a los reseñados: Número de suspensos. Número de hijos por familia. Tamaño del pie de los estudiantes de la clase. Altura de las mujeres de 3º de E.S.O. Duración de una pila o batería. Si se unen los extremos de las barras se obtiene el polígono de frecuencias. Suelen utilizarse para representar la evolución de un fenómeno a lo largo del tiempo o de una serie de etapas. También son muy cómodos para realizar comparaciones de dos poblaciones en un mismo gráfico.

Histograma. Polígono de frecuencias

Se utiliza para distribuciones de variables estadísticas continuas o para distribuciones de variables discretas cuyos datos se han agrupado en clases. Se representa sobre el eje de abscisas los extremos de las clases. Se construyen unos rectángulos de base la amplitud del intervalo y de altura:

Si los intervalos tienen la misma amplitud

La frecuencia absoluta. Si los intervalos no tienen la misma amplitud

Se calcula de modo que el área del rectángulo resultante sea proporcional a la frecuencia de cada intervalo.

El polígono de frecuencias se obtiene al unir los puntos medios de los lados superiores de cada rectángulo. Es la línea quebrada que une los puntos medios de los lados superiores de los rectángulos en un histograma.

Pictogramas

Son dibujos alusivos a la distribución que se pretende estudiar y que mediante su forma, tamaño,... ofrecen una descripción lo más expresiva posible. Tiene el inconveniente de su falta de precisión.

Cartogramas

Se llama así a los gráficos que se realizan sobre un mapa, señalando en determinadas zonas, con distintos colores o rayados, lo que se trata de poner de manifiesto.

Diagramas lineales

Son utilizados para mostrar las fluctuaciones de uno o varios caracteres estadísticos con el paso del tiempo. Lo que interesa en este tipo de diagramas es la altura de la línea referida a la base de dicho diagrama. Suele representarse sobre la misma escala varios diagramas lineales.

Diagrama de tallos y hojas

Page 7: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 533 Leopoldo E. Álvarez

Estos diagramas tienen la ventaja de que permiten conocer con detalle los valores registrados y presentan, además, el aspecto de un diagrama de barras. A un tenista se le mide la velocidad de los primeros, 50, saques válidos en un partido de competición. Las velocidades se muestran en la tabla siguiente en, Km/h. Una primera inspección visual muestra que los datos varían entre ciento veinte y ciento noventa aproximadamente. Como es lógico, las velocidades menores corresponden a un segundo servicio. Si miramos con más detalle observamos que el saque menos veloz fue de, 127 km/h, y el más rápido de, 193 km/h. El diagrama de tronco presenta los datos anteriores de manera más clara y legible y se realiza como se muestra a continuación: El doce de la columna tronco señala los saques realizados a una velocidad mayor o igual que, 120, y menor que, 130. Mirando la columna correspondiente a hojas, vemos que sólo se sacó una vez en esa banda y que la velocidad fue de, 127 km/h. La siguiente fila indica que se realizaron tres saques con velocidades mayores o iguales a, 130, y menores que, 140. En concreto fueron un saque a, 136 km/h, y dos a, 138 km/h.

La representación gráfica de una variable estadística permite formarse una idea cualitativa del experimento, sin embargo resulta difícil la comparación con otras tablas. Por ello interesa definir con los datos de la tabla una serie de parámetros estadísticos con los que poder tener una mejor referencia.

La función de distribución de una variable estadística, al igual que su representación gráfica, permite formar una idea cualitativa del experimento aleatorio. Sin embargo, resulta difícil la comparación con otras tablas. Interesa por ello sustituir la función de distribución por unos números que caractericen cuantitativamente a esa función de distribución y que se denominan parámetros estadísticos. La tendencia de los datos a agruparse en torno a un valor central se mide por medio de los valores centralizados: Media aritmética Sea:

X una variable estadística unidimensional que toma los valores, x1, x2, ..., xn, con frecuencias absolutas, f1, f2, ..., fn

La media aritmética, , de dicha variable estadística unidimensional es el cociente entre la suma de todos los valores de dicha variable multiplicados por su frecuencia absoluta y el número total de datos.

x = 1 1 2 2

1 2

. .. . ... ....

i i i in n

n i

x f x fx f x f x ff f f f N

Si la variable estadística es continua o discreta pero agrupada en clases, se toman como valores, xi,

Page 8: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 534 Leopoldo E. Álvarez

las marcas de clase. La media tiene las siguientes características: Es fácil de hallar A partir de ella y conocido el tamaño de la población se obtiene el total.

Cualquier variación en un dato influye en la media, es decir, la media depende de todas las observaciones y utiliza toda la información recogida. Lo anterior suele ser una ventaja, aunque algunas veces se presenta el inconveniente de que un valor raro, muy grande o pequeño, influye mucho en ella y desvirtúa el comportamiento general. Cuando los valores de una distribución están concentrados en los extremos, la media no da, por sí sola, una imagen real del comportamiento de la población. Dos poblaciones con igual media no tienen por que tener un comportamiento similar. La media no tiene por que ser un valor observable.

Moda

La moda, Mo, de una variable estadística unidimensional, X, es el valor de la variable estadística que tiene mayor frecuencia absoluta.

La moda no tiene porque ser única. La distribución es bimodal, trimodal, etc. Según que sean dos, tres, etc, los valores con la frecuencia absoluta máxima.

Si los datos se encuentran agrupados en clases se toma como valor aproximado de la moda la marca de clase que presenta mayor frecuencia absoluta. Esta clase recibe el nombre de clase modal o intervalo modal. Gráficamente se obtiene representando el histograma de frecuencias absolutas y uniendo con líneas de puntos los extremos de la clase modal con las contiguas. La moda es la abscisa del punto de corte de dichas líneas. Si la variable estadística unidimensional, X, es continua se habla de intervalo modal.

Mediana

La mediana, Me, de una variable estadística unidimensional, X, es el valor que ocupa la posición central de los datos. Es un valor de la misma tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. La mediana es el valor que divide a la población en dos mitades iguales.

Si la variable estadística es discreta se ordenan los números de menor a mayor: Si el número de datos es impar, la mediana es el valor central Matemáticamente es el dato que ocupa la posición que viene dada por el valor de

1

2 2N

Page 9: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 535 Leopoldo E. Álvarez

con este valor se busca el dato en la tabla la frecuencia absoluta acumulada.

Si el número de datos es par, la mediana es la semisuma de los valores centrales Matemáticamente primero se obtienen los datos cuya posición viene dada por el valor de

2N

2N

+1

Se localiza en la tabla los valores de la variable estadística, xi, y, xj, que se corresponden con las frecuencias absolutas acumuladas anteriores, y se calcula la media aritmética de estos valores.

Si los datos se encuentran agrupados en clases el intervalo o clase mediana es el primero cuya frecuencia absoluta acumulada es mayor que la mitad del número de datos. Gráficamente la mediana se puede obtener a partir del histograma de frecuencias acumuladas. Se localizan los intervalos cuya frecuencia acumulada es más próxima a 15 y se establece la siguiente proporción: Debajo de 175 hay 9 individuos Debajo de la Me hay 15 individuos Debajo de 180 hay 18 individuos

175 15 9

180 175 18 9Me

Si la variable estadística unidimensional, X, es continua se habla de intervalo mediano.

La mediana tiene las siguientes características:

No es necesario para su cálculo conocer el valor de todas las observaciones. No se utiliza toda la información recogida. No se calcula mediante una expresión matemática. Conociendo las medianas de dos grupos no se puede determinar la conjunta. Es independiente de los valores raros o extremos.

Cuartiles

Se denomina primer cuartil, C1, al valor que deja por debajo al, 25%, de la población. Al número que deja por encima el, 25%, de la misma, le llamaremos tercer cuartil y lo escribiremos como, C3. El cálculo gráfico de los cuartiles se realiza igual que el de la mediana con sólo cambiar el porcentaje de referencia. Se llama rango intercuartílico a la diferencia, C3 - C1. Percentiles En algunas ocasiones el rango de valores que toma una variable es muy amplio y el hecho de que un valor se aleje de la mediana no supone ninguna anormalidad. Otro tipo de medidas, como son

Page 10: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 536 Leopoldo E. Álvarez

los percentiles, están más indicados para comparar el comportamiento de un individuo frente al del colectivo.

Es necesario conocer en que medida los datos están agrupados alrededor de los valores centrales. Este proceso recibe el nombre de dispersión y los parámetros que miden esta desviación respecto de la media se denominan parámetros de dispersión.

Recorrido o rango

Se llama rango o recorrido de una distribución a la diferencia entre el mayor y el menor valor que toma la variable estadística. R= Máx - Mín

Desviación respecto a la media Son las diferencias entre cada valor de la variable estadística y la media. xi - x Desviación media

Es la media aritmética de los valores absolutos de la desviación de cada dato respecto a la media

1

.n

ii

fi x xDM

N

Varianza Sea, X, una variable estadística unidimensional que toma los valores

x1, x2, ..., xn con frecuencias absolutas

f1, f2, ..., fn

Se llama varianza, 2, de una variable estadística a la media aritmética de los cuadrados de las desviaciones respecto a la media.

2 22 2 2

1. 1 2. 2 .2 1 1

1 2

1

. ....

...

n n

i i i in n i i

nn

ii

f x x f x xf x x f x x f x x

f f f Nf

2 22 2 2 2

2 21 1 1 1 1 1

1 1 1 1 1

. 2. . . 2. . . .2. . .1

n n n n n n

i i i i i i i i i i i ii i i i i i

n n n n n

i i i i ii i i i i

f x x x x f x x f x x f f x f xx x x x

Nf f f f f

Desviación típica

Page 11: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 537 Leopoldo E. Álvarez

Se llama desviación típica, , de una variable estadística a la raíz cuadrada positiva de su varianza.

2 2

2 21 1

1

. ..

n n

i i i ini i

i ii

f x x f xh x x x

N N

Cuanto menores sean las medidas de dispersión más centrados están los datos alrededor de la media. Para distribuciones con una sola moda y bastante simétricas se verifica según el teorema de Chevichev que en el intervalo:

( x -, x +) están el 68% de los datos ( x -2, x +2) están el 95% de los datos ( x -3, x +3) están el 99% de los datos

Coeficiente de variación Es el cociente de la desviación típica y la media. CV= x xi fi Fi hi Hi % xifi x (xi- x ) (xi- x )2 (xi- x )2fi 2

fi= N Fn= N hi= 1 xifi (xi-)2fi

Distribución bidimensional

Son aquellas variables estadísticas que se obtienen al observar simultáneamente dos aspectos de un mismo fenómeno. Está frmada por dos variables estadísticas unidimensionales, X, e Y. Se representan por el par

(X,Y) Las variables estadísticas bidimensionales, (X,Y), queda determinada por los valores (x1,y1), (x2,y2),..., (xn,yn) siendo X variable estadística unidimensional que toma los valores, x1, x2,...,xn

Y variable estadística unidimensional que toma los valores, y1, y2,...,yn

Los datos de las variables estadísticas bidimensionales, (X,Y), se ordenan en una tabla de doble entrada, una para los datos de cada variable en la que se colocan las frecuencias absolutas de cada par de datos en las casillas centrales. Si se representa en un sistema de ejes cartesianos los pares de valores de la variable bidimensional, (X,Y), como si fueran las

Page 12: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 538 Leopoldo E. Álvarez

coordenadas de un punto, se obtiene un conjunto de puntos denominado diagrama de dispersión o nube de puntos.

Se dice que los puntos y por lo tanto los valores de las variables estadísticas tienen una: Dependencia lineal

Si los puntos de la nube siguen una configuración rectilínea. La dependencia se dice lineal exacta si los valores de las variables se ajustan completamente a una recta. La dependencia es lineal fuerte si los valores se ajustan a una recta, pero encontrándose muy próximos a ella, formando una nube de puntos estrecha. La dependencia es lineal débil si los puntos de la nube se encuentran alejados de la recta que se puede trazar entre ellos. La dependencia lineal puede ser positiva ó negativa según lo sea la pendiente de la recta que se aproxima a los valores de las variables. Dependencia funcional

Si los puntos de la nube están situados según la gráfica de una función, esta función relaciona ambas variables y se dice que hay una dependencia funcional entre ambas.

Dependencia aleatoria

Si los puntos de la nube se separan de la gráfica de una función entonces no existe una función que relacione ambas variables.

Los datos se ordenan en tablas bidimensionales de frecuencias, la cual puede ser: Simple

Los valores de la variable bidimensional, (X,Y), no aparecen repetidos, y en consecuencia la frecuencia absoluta para cada par, (x,y) es la unidad.

X X1 x2 ... xn Y y1 y2 ... yn fi 1 1 ... 1

Tabla de doble entrada

Se utiliza cuando se trata de muchos datos o bien los valores se encuentran agrupados en clases. Los valores de la variable bidimensional aparecen repetidos por lo que la frecuencia absoluta del par, (xi,yi) no siempre es la unidad.

La tabla adjunta muestra los resultados obtenidos al estudiar el número de autobuses, X, y el tiempo de desplazamiento, Y, de un grupo de usuarios. Hallar: ¿Cuántos usuarios utilizan, 3, autobuses al día?. ¿Cuántos usuarios emplean, 40, minutos en llegar a su destino?. ¿Cuántos usuarios utilizan un autobús y tardan, 30, minutos

1 2 310 14 4 1 1920 10 16 3 2930 14 4 6 2440 7 6 5 18

45 30 15 90

Y X Total

Total

Page 13: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 539 Leopoldo E. Álvarez

en llegar?. Hay, 15, usuarios que utilizan, 3, autobuses al día. 18, usuarios emplean, 40, minutos en llegar a su destino. Hay, 14, usuarios que utilizan un autobús y tardan, 30, minutos en llegar.

Las tablas de frecuencias marginales se obtienen al estudiar por separado cada una de las variables unidimensionales que forman la variables dimensional. Las frecuencias marginales de una variable estadística bidimensional son las frecuencias de las variables unidimensionales correspondientes.

Hallar las tablas de frecuencias marginales de la tabla adjunta.

1 452 303 15

90

X Frecuencias

Total

A partir de la tabla marginales se puede obtener la media, varianza y desviación típica de cada una de las variables estadísticas unidimensionales, X, e, Y, que conforman a la variable estadística bidimensional, (X,Y) mediante las expresiones

1.

n

i ii

x fx

N

2 2

22 1 1. .

n n

i i i ii i

x

f x x f xx

N N

2 2

21 1. .

n n

i i i ii i

x

f x x f xx

N N

'

1

.n

i ii

y fy

N

2' ' 2

22 1 1

. .n n

i i i ii i

y

f y y f yy

N N

2' ' 2

21 1

. .n n

i i i ii i

y

f y y f yy

N N

La nube de puntos da una idea del grado de relación o dependencia entre las variables, X, e, Y, que forman la variable bidimensional, (X,Y). La dependencia aleatoria entre ambas variables es más fuerte cuanto más estrecha es la nube de puntos. La forma precisa de cuantificar esta dependencia es mediante el coeficiente de correlación lineal de Pearson, para ello se define:

Covarianza

La covarianza, xy, de una variable bidimensional, (X,Y), es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias.

1 2 310 14 4 1 1920 10 16 3 2930 14 4 6 2440 7 6 5 18

45 30 15 90

Y X Total

Total

10 1920 2930 2440 18

90

Y Frecuencias

Total

Page 14: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 540 Leopoldo E. Álvarez

1 1 1 1 1 1( ).( ) .

n n n n n n

i i i i i i i i i i i i i i i ii i i i i i

xy

f x x y y f x y yx xy x y x y f f x f y f xyy x

N N N N N N

1 1. .

n n

i i i i i ii i

f x y f x yyx x y x y yx

N N

Para calcular este parámetro estadístico se construye una tabla de la forma xi yi fi xifi xi

2fi yifi yi2fi xiyifi

x1 y1 f1 x1f1 x12f1 yifi y1

2f1 x1y1f1 ....................................................... xn yn fn xnfn xn

2fn ynfn yn2fn xnynfn

N=fi xifi xi2fi yifi yi

2fi xiyifi

La covarianza puede ser positiva, negativa o nula.

A partir de estas tablas marginales se obtiene la media de cada variable estadística

10 1920 2930 2440 18

90

Y Frecuencias

Total

1 452 303 15

90

X Frecuencias

Total

45.1 30.2 15.3 1'6

90x

19.10 29.20 24.30 18.40 24 '5

90y

1. .

1.10.14 2.10.4 3.10.1 1.20.10 2.20.16 .... 1.40.7 2.40.6 3.40.5. 1'6.24'5 1'6390

n

i i ii

xy

x y fx y

N

Se llama correlación a la teoría que trata de estudiar la relación o dependencia existente entre las dos variables estadísticas, X, e, Y, de la variable bidimensional. Si se representa el diagrama de dispersión de una variable bidimensional se observa que los puntos del mismo se condensan en torno a una línea, llamada línea de regresión.

La correlación puede ser:

Lineal ó curvilínea

Según que el diagrama de puntos se condense en torno a una línea recta o a una línea curva. Positiva ó directa

Page 15: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 541 Leopoldo E. Álvarez

Cuando a medida que crece una variable estadística la otra también crece. Negativa ó inversa Cuando a medida que crece una variable estadística la otra decrece. Nula

Cuando no existe ninguna relación entre ambas variables estadísticas. Los puntos del diagrama están esparcidos al azar, sin formar ninguna línea. Se dice que las variables están incorreladas.

Funcional Existe una función que satisfacen todos los valores de la distribución. El procedimiento más frecuente para asignar valores a las distintas correlaciones es a partir del coeficiente de correlación lineal de Pearson, que se define como la media geométrica de los coeficientes de regresión lineal

El valor de este coeficiente está comprendido en el intervalo, [-1,1]. El signo viene dado por el signo de la covarianza, dado que las desviaciones típicas son siempre positivas. Se deduce entonces que: Covarianza positiva correlación positiva Covarianza negativa correlación negativa Covarianza nula no existe correlación Dependiendo del valor del coeficiente de correlación se tienen los distintos tipos de dependencia entre las variables estadísticas, X, e, Y

r= -1

Correlación negativa y perfecta. Los puntos de la nube están alineados.

Todos los valores de la variable bidimensional, (X,Y), se encuentran situados sobre una recta de pendiente negativa. Se dice que entre las variables, X, e, Y, existe una dependencia funcional. Las rectas de regresión, y sobre x, y, x sobre y, son coincidentes. -1<r<0

Correlación negativa tanto más fuerte cuanto más se aproxime el valor de este coeficiente a, -1. A media que este valor se aproxima a, 0, aumenta la dependencia aleatoria entre las variables, X, e, Y. Las rectas de regresión, x sobre y, e, y sobre x, forman un ángulo

2 2

.

. .xy xy xy

x y x y

r

Page 16: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 542 Leopoldo E. Álvarez

tanto menor a medida que el coeficiente, r, se acerca a, -1.

r= 0

No existe relación funcional alguna entre las variables estadísticas, X, e, Y. Se dice que dichas variables son aleatoriamente independientes.

Las rectas de regresión, x sobre y, e, y sobre x, son perpendiculares. 0<r<1

Correlación positiva tanto más fuerte cuanto más se aproxime el valor de este coeficiente a, 1. A media que este valor se aproxima a, 0, aumenta la dependencia aleatoria entre las variables, X, e, Y. Las rectas de regresión, x sobre y, e, y sobre x, forman un ángulo tanto menor a medida que el coeficiente, r, se acerca a, 1.

r= 1

Correlación positiva y perfecta. Los puntos de la nube están alineados. Todos los valores de la variable bidimensional, (X,Y), se encuentran situados sobre una recta de pendiente positiva. Se dice que entre las variables, X, e, Y, existe una dependencia funcional. Las rectas de regresión, y sobre x, y, x sobre y, son coincidentes.

De todas las rectas posibles que se pueden ajustar a la nube de puntos de la dispersión se elige aquella que hace mínima la suma de las distancias entre las ordenadas de cada punto y dicha recta, denominándose a ésta recta de regresión Y sobre X. Otra forma de describir esta recta es que hace que la suma de las desviaciones de los puntos de la nube respecto de los correspondientes de la línea sea lo menor posible. De esta forma se dice que es la línea que menos se separa de la nube de puntos. La recta de regresión sirve para realizar estimaciones sobre una variable conocidos los valores de la otra. La línea de regresión puede ser: Recta afin, y= ax+b

La regresión se llama lineal si la línea que mejor se adapta a la nube de dispersión es una línea recta de ecuación y= ax+b Se deben calcular los parámetros, a, y, b, que definen dicha recta, y sobre x. Esta ecuación nos proporciona aproximadamente los valores de la variable, y, conocidos los valores de la variable, x. A cada valor, xi, le corresponde un valor:

yi observado, que en general no estará sobre la recta de regresión. yi* perteneciente a la recta de regresión

verificándose para ellos una de las siguientes expresiones: di

= yi - yi*> 0

Page 17: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 543 Leopoldo E. Álvarez

Si el punto de la nube de dispersión se encuentra por encima de la recta de regresión.

di = yi

- yi*< 0

Si el punto de la nube de dispersión se encuentra por debajo de la recta de regresión. di

= yi - yi*= 0

Si el punto de la nube de dispersión se encuentra sobre la recta de regresión. Para la determinación de los parámetros, a, y, b, se utiliza el método de mínimos cuadrados, que consiste en considerar que la recta que mejor se aproxima a la nube de puntos es aquella que hace mínima la suma de los cuadrados de las diferencias entre los valores observados u los valores estimados

E= 2*

1

n

i ii

y y

mínimo

teniendo en cuenta las expresiones de yi

- yi*= PiQi yi*= axi+b y sustituyéndola en la expresión anterior

E= 2* 2

1 1( . )

n n

i i i ii i

y y y a x b

esta expresión que ha de ser mínima es una función de dos incógnitas, a, y, b, por lo que sus derivadas respecto de dichas incógnitas ha de ser nula para que se verifique la condición de mínimo.

1

2. ( . ). 0n

i i ii

E y a x b xa

de donde se deduce (yi

- axi - b).xi= (xi.yi - axi

2 - b.xi)= 0 por lo que xi.yi

= axi2 + bxi

análogamente ocurre para la derivada con respecto a la incógnita, b

1

2. ( . ) 0n

i ii

E y a x bb

de donde se deduce (yi

- axi- b)= 0

Page 18: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 544 Leopoldo E. Álvarez

por lo que yi

= axi + bxi= axi

+ N.b

resolviendo el sistema que forman estas dos ecuaciones se obtienen los valores de los parámetros, a, y, b, de la recta de regresión, y sobre x.

xi.yi

= axi2 + bxi

yi

= axi + N.b

dividiendo por, N, la segunda ecuación

. . . .i i iy a x N b a x N b

N N N N

teniendo en cuenta la definición de media para estas variables estadísticas se escribe

la recta de regresión pasa por el punto, ( , )x y , ya que éste verifica la ecuación de dicha recta. Se puede entonces despejar el valor del parámetro, b. .b y a x

sustituyendo el valor de, b, en la primera ecuación del sistema resulta

xi.yi

= axi2 + bxi= axi

2 + ( .y a x )xi= axi2 + y xi - a. x xi

dividiendo por, N, los dos miembros de esta expresión

1

2 2 2 2

21 1 1 1 1 1 1 1 1i i i

n n n n n n n n

i i i i i i ii i i i i i i i i

x y a x y x ax x x x x x xa y ax a yx axx a yx ax

N N N N N N N

reagrupando términos y teniendo en cuenta la expresión de la varianza y de la covarianza se escribe

22

21 1i

n n

i ii i

x y xyx a x

N N

es decir, xy= a.x2

expresión de la que se obtiene el valor del parámetro, a

2xy

x

a

la ecuación de la recta de regresión, y sobre x, en la forma punto pendiente viene dada por

.y a x b

Page 19: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 545 Leopoldo E. Álvarez

2.( ) ( )xy

x

y y a x x x x

Análogamente se haría para la recta de regresión X sobre Y, que ajusta a la nube de puntos de la dispersión de forma que hace mínima la suma de las distancias entre las abscisas de cada punto y dicha recta. Esta recta permite hallar los valores de la variable, x, conocidos los valores de la variable, y.

2.( ) ( )xy

y

x x a y y y y

Ambas rectas de regresión, X sobre Y, e, Y sobre X, son siempre secantes y se cortan en el punto, ( , )x y . Dependiendo del valor del coeficiente de correlación, r, se verifica:

r= 1, ó, r= -1

La dependencia entre las variables, X, e , Y, es lineal exacta. Las dos rectas son coincidentes.

-1<r<0 ó, 0<r<1

A medida que este valor se aproxime a, 0, menor es la dependencia entre las variables y mayor será el ángulo que forman ambas rectas.

r= 0

La dependencia entre las variables es nula ó muy débil. Las dos rectas forman un ángulo de, 90º.

Parábola, y= ax2+b+c

Cúbica, y= ax3+bx2+cx+d

Exponencial, y= cx

Hiperbólica, y= 1

.a x b

Se quiere determinar si existe algún tipo de relación entre la altura de un grupo de personas, su peso y el número de libros que leen anualmente. Para ello se hizo una encuesta que reflejó los siguientes datos:

( ) 176 182 167 172 169 191 177 161 171 168( ) 68 76 61 65 70 79 69 56 61 64

16 9 12 11 14 14 8 5 12 7

Altura cmPeso kgLibros

¿Existe alguna relación entre la altura ó el peso de estos individuos?. ¿Existe alguna relación entre la altura y el número de libros que leen anualmente?.

Page 20: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 546 Leopoldo E. Álvarez

las desviaciones típicas de cada una de las variables existentes es X, altura x = 173’6 x= 8’05 Y, peso y = 66’9 y= 6’67 Z, altura z = 10’8 z= 3’31 se hallan las covarianzas

1

. .. 48 '16

n

i i ii

xy

x y fx y

N

1

. .. 11'42

n

i i ii

xz

x z fx z

N

coeficiente de correlación

0 '897.xy

xyx y

r

por ser próximo a, 1, existe una dependencia lineal fuerte entre las variables, X, e, Y. Por ser positivo a medida que aumenta la altura de una persona de este grupo aumenta su peso.

0 '428.xz

xzx z

r

por ser un valor alejado de, 1, existe una dependencia lineal débil entre las variables, X, y, Z. La altura y el número de libros que lee una persona tienen poca relación. No se puede extraer ninguna conclusión.

En una fábrica se midió la concentración en, g/l, de uno de los componentes de una pintura y el tiempo que tarda en secar. Los datos obtenidos fueron

( / ) 5 10 20 30

(min) 16 17 18 19concentración g l

tiempo

Hallar la recta de regresión y dibujarla con el diagrama de dispersión. Hacer una estimación del tiempo que tardaría en secar la pintura se la concentración del componente es de, 16 g/l. Si tardó en secar, 20 m, ¿cuál es la concentración del componente?.

Page 21: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 547 Leopoldo E. Álvarez

2 2 .5 16 25 256 80

10 17 100 289 17020 18 400 324 36030 19 900 361 57065 70 1425 1230 1180

i i i i i ix y x y x y

se construye una tabla de frecuencias con las columnas necesarias para hallar las medidas estadísticas. Total: se halla para cada variable la media, y para la variable, X, la varianza y la covarianza

x = 654

= 16’25 y = 704

= 15’5 2x =

14254

– 16’252= 92’19 xy =1180

4–16’25.17’5= 10’63

la recta de regresión de, Y sobre X, viene dada por

y-17’5= 10'6392'19

.(x-16’25) y= 0’12x+16’63

el tiempo que tardaría en secar si la concentración del componente es, 16 g/l, se deduce de la recta anterior haciendo, x= 16 y= 0’12.16+16’63= 17’55 minutos es lo que tardaría en secar la pintura. se determina la recta de regresión, X sobre Y, resultando ser x= 8’5y-132’57 la concentración del componente que debería tener la pintura para que tardase en secar, 20 m, se deduce de la recta anterior haciendo, y= 20 x= 8’5.20-132’27= 37’43 g/l En una fábrica se comprueba la resistencia de, 250, alfileres. Para ello a cada alfiler se le aplica una fuerza sobre seis puntos diferentes y se verifica si rompe ó no. La tabla adjunta muestra el número de roturas sufridas por cada alfiler. Hallar sus medidas estadísticas. Interpretar los resultados. Nº de roturas 0 1 2 3 4 5 Frecuencias 141 62 31 14 1 1 Con ayuda de la calculadora se obtienen estos parámetros:

Page 22: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 548 Leopoldo E. Álvarez

x = 0’7 n= 250 x= 175 x2= 353 = 0’96

Me= 0 dado que, 250

2= 125

Mo= 0

CV= x

= 1’37

comparando la media, x , con la mediana, Me, y con la moda, Mo, el valor, 0’7, de la primera indica que el número medio de roturas es casi, 1. Sin embargo la mayoría de alfileres no sufrieron roturas, Mo= 0, y lo mismo indica la mediana, Me= 0, es decir, más de la mitad de los alfileres no sufrieron ninguna rotura durante su estudio. el valor del coeficiente de variación, CV= 1’37, es relativamente grande, lo que indica que los datos no están demasiado concentrados. el valor de la desviación típica se comparan con la media. Dado que su valor es mayor que el de la media explica porque mientras la mediana y la moda indican que el mayor número de alfileres no tuvieron rotura, la media de roturas fue de casi, 1. El alto valor de la desviación típica indica que la media no es representativa. Un equipo de baloncesto necesita un alero. Seleccionaron dos jugadores que en los últimos cinco partidos anotaron los siguientes puntos. ¿Cuál se elegirá?. Jugador A 16 14 13 13 14 Jugador B 25 10 8 6 21 la media y la desviación típica de cada jugador es: x A= 14 x B= 14 A= 1’09 B= 7’56 dado que las medias son iguales, si el entrenador quiere un jugador regular elegirá al jugador, A, dado que tiene una desviación típica pequeña. No obstante si quiere un jugador que puede actuar de revulsivo elegirá el jugador, B, ya que alterna partidos muy buenos con otros peores, información que proporciona el valor de su desviación típica elevada. Una prueba a la que se presentaron, 20, personas consta de una prueba de inteligencia y otra de conocimiento. Las puntuaciones obtenidas por cada persona fueron respectivamente las dadas por las tablas: Prueba de inteligencia Prueba de conocimiento 90 102 110 91 100 115 93 0’4 2 4 0 2’4 4’6 0’8 104 116 95 107 116 96 109 3 5’4 1 3’4 5’9 1’6 3’6 103 111 92 97 104 99 2’2 5 0’6 1’4 3’8 1’8

Page 23: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 549 Leopoldo E. Álvarez

Agrupar las puntuaciones de la prueba de inteligencia en intervalos de, 10, puntos y las puntuaciones de la prueba de conocimiento en intervalos de, 2, puntos. Construir la tabla de frecuencias para los datos agrupados. para la primera variable los datos se agrupan en tres intervalos, con marcas de clase: [90,100) [100,110) [110,120) 95 105 115 para la segunda variable los datos se agrupan en tres intervalos, con marcas de clase: [0,2) [2,4) [4,6) 1 3 5 la tabla de frecuencias para los datos agrupados: Puntuación prueba de inteligencia 95 105 115 Puntuación prueba de conocimiento 1 3 5 Frecuencia absoluta 8 7 5 Una agencia de viajes preparó una encuesta para preguntar sobre el número de viajes realizados durante el último año tanto de trabajo como en período vacacional dependiendo de la edad. Se preguntó a un grupo de personas y los resultados fueron: (23,2), (34,1), (21,2), (29,5), (22,4), (27,0) (26,4), (38,5), (47,3), (49,3), (42,4), (35,5) (38,7), (36,5), (48,8), (39,2), (44,5), (37,7) (21,2), (24,5), (26,2), (27,0), (42,7), (43,8) (36,5), (37,5), (37,3), (53,5), (52,6), (64,7) Agrupar los resultados en intervalos y construir una tabla de doble entrada. Hallar: Cuantas personas menores de, 35, años fueron encuestadas. ¿Y mayores de, 50 años?. ¿Cuántas personas viajaron de, 3, a, 5, veces. se agrupan los datos en intervalos para cada una de las variables: 64-21= 44, 3, intervalos de longitud, 15 8-0= 8, 3, intervalos de longitud, 3 [20,35) [35,50) [50,65) [0,3) [3,6) [6,9)

Menores de, 35, años: 10 personas Mayores de, 50, años: 3 personas Las personas que viajaron de, 3, a, 5, veces al año fueron, 15

La siguiente tabla muestra los datos obtenidos sobre los ingresos mensuales en euros de, 25, familias y la superficie de la vivienda que habitan en metros cuadrados. Estudiar la correlación existente entre ambas variables.

[20,35) [35,50) [50,65)[0,3) 7 1 0 8[3,6) 3 11 1 15[6,9) 0 5 2 7

10 17 3 30

Y X Total

Total

Page 24: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 550 Leopoldo E. Álvarez

[1000,2000) [2000,3000) [3000, 4000)[40,70) 3 0 0 3[70,100) 4 2 0 6[100,130) 2 3 4 9[130,160) 0 2 5 7

9 9 7 25

Y X Total

Total

se construyen las tablas de frecuencias marginales:

( ) [1000, 2000) [2000,3000) [3000, 4000)1500 2500 3500

9 9 7i

Ingresos Xx

Frecuencuas

( ) [40,70) [70,100) [100,130) [130,160)55 85 115 1453 6 9 7

i

Superficie Yy

Frecuencias

las medias y desviaciones típicas de cada una de las variables es: x X= 2500 € x Y= 109 m2

X= 848’53 Y= 29’39 la covarianza

3 4

1 1. .

. 41800025

i i iji j

xy

x y fx y

el coeficiente de correlación

0'721.XY

X Y

r

dado que está próximo a, 1, se puede afirmar que hay cierta relación entre los ingresos mensuales de una familia y la superficie de su vivienda. Se realizó un estudio estadístico de un grupo de, 100, alumnos. Con los datos recogidos se obtuvo la estatura media del grupo que es de, 155 cm, con una desviación típica de, 15’5 cm. Además la recta de regresión que relaciona el peso de los alumnos, X, con su altura, Y, es, y= 80+1’5x. Hallar: El peso medio del grupo de alumnos.

Page 25: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 551 Leopoldo E. Álvarez

El signo de la covarianza. ¿Se puede afirmar que cuanto mayor sea el peso meyor es la altura del alumno?. de la recta de regresión se despeja la variable, x

x= 80

1'5y

como, y = 155, se deduce, x = 155 80

1'5

= 50 kg, peso medio de los alumnos del grupo.

la pendiente de la recta anterior es positiva, luego este es el signo de la covarianza, XY. el signo del coeficiente de correlación

.XY

X Y

r

es positivo por serlo la covarianza y las desviaciones típicas de ambas variables. De ello se deduce que hay una dependencia positiva entre la variable, X, y la variable, Y. Es decir, a medida que el peso del alumno crece también crece su estatura. La siguiente tabla recoge las notas de matemáticas, X, y las notas medias de todas las materias, Y, de, 10, alumnos. X 4 6 8 5 6 3 5 6 8 3 Y 5 7 8 6 6 4 6 7 8 4 ¿Si un alumno obtiene un, 7, en matemáticas qué nota media obtendría?. ¿Si un alumno obtiene un, 3, de nota media qué nota de matemáticas obtendría?. ¿Son fiables estas estimaciones? las medidas estadísticas necesarias para determinar las rectas de regresión son: x = 5’4 y = 6’1 X= 1’69 Y= 1’37 XY= 2’26 las pendientes de las rectas de regresión son:

2 2

2'261'69

xy

x

= 0’8 2 2

2'261'37

xy

y

= 1’2

recta de regresión, Y, sobre, X: recta de regresión, X, sobre, Y:

y- y = 2xy

x

.(x- x ), y-6’1= 0’8.(x-5’4) x- x = 2xy

y

.(y- y ), x-5’4= 1’2.(y-6’1)

las estimaciones se obtienen a partir de las recta de regresión correspondiente: y= 0’8.7+1’78= 7’38 x= 1’2.3+1’92= 5’52

Page 26: ESTADÍSTICA CPR. JORGE JUAN Xuvia-NarónEl seminario de Matemáticas sugirió que se les pasara una prueba de, 10 preguntas, para evaluar la capacidad de intuición espacial a los

estadística Departamento Matemáticas - CPR Jorge Juan – Xuvia 552 Leopoldo E. Álvarez

una vez determinado el coeficiente de correlación, r= 0’98, se deduce que ambas estimaciones son buenas por estar este valor próximo a, 1. La dependencia lineal entre ambas variables es fuerte.