Variables aleatorias bidimensionales

41
Estadística Variables aleatorias Bidimensionales OpenUepc.com 1.1.5.5 Ver 01:03/02/2010

description

Matematicas Bachillerato Estadistica Variables aletaorias bidimensionales

Transcript of Variables aleatorias bidimensionales

Page 1: Variables aleatorias bidimensionales

Estadística

Variables aleatorias Bidimensionales

OpenUepc.com 1.1.5.5 Ver 01:03/02/2010

Page 2: Variables aleatorias bidimensionales
Page 3: Variables aleatorias bidimensionales

NOTA

La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5 correspondiente a

1 SCIENCE

1.1 MATHEMATICS

1.1.5 STATISTICS

1.1.5.5 VARIABLES ALEATORIAS BIDIMENSIONALES

COPYLEFT

Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en

http://www.opencontent.org/openpub/).

El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente.

Miguel Pérez Fontenla [email protected]

INDICE AUTORES

Iniciado por: Miguel Pérez Fontenla 22/11/2009

Page 4: Variables aleatorias bidimensionales
Page 5: Variables aleatorias bidimensionales
Page 6: Variables aleatorias bidimensionales

+

| INTRODUCCIÓN 1

INTRODUCCIÓN

Vamos ahora a estudiar simultáneamente dos características de un mismo elemento de una población, por ejemplo altura y peso de una población, o edad y tensión arterial de los pacientes de un médico, o notas de un alumno en Física y en Matemáticas)

Relación entre Variables

Muy a menudo en la práctica se encuentra que existe más relación entre dos o

más variables. Por ejemplo, los pesos de hombres adultos dependen en cierto

modo de sus alturas. Las circunferencias de los dependen de los radios. La

presión de una masa dada de gas depende de su temperatura.

Frecuentemente se necesita expresar una relación mediante una ecuación

matemática que ligue las variables.

Historia

Page 7: Variables aleatorias bidimensionales

+

| CONCEPTOS BÁSICOS 2

CONCEPTOS BÁSICOS

Definición: Variable estadistioca bidimensional

Si se estudian acerca de una misma población las dos variables X e Y y se miden por las mismas unidades estadísticas, se obtienen series estadísticas de las variables X e Y conjuntas y se denominan una variable estadística bidimensional y se representan por pares de datos (x1, y1), (x2, y2), ..., (xn, yn)

Satillana (pag 244) Citar ejemplo

Definición: Frecuencias conjunta y marginal

Satillana (pag 244) Citar ejemplo

Tablas de doble entrada o de contingencia.

Sea una población estudiada simultaneamente según dos caracteres X e Y; que representaremos genéricamente como (xi; yj ; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el i-ésimo de Y.

Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, la cual podemos representar como sigue:

X\Y y1 y2 ….. yj …. yk ni .

x1 n11 n12 ….. n1j ….. n1k n1

x2 n21 n22 ….. n2j ….. n2k n2 .

.

.

.

.

.

.

.

.

….

.

.

.

.

….

.

.

.

.

.

Xi ni1 ni2 ….. nij ….. nik ni .

.

.

.

.

.

.

.

.

.

.

….

.

.

.

.

.

….

.

.

.

.

.

.

.

xh nh1 nh2 ….. nhj ….. nhk nh .

n. j n. 1 n. 2 …..

n. j ….. n. k N

En este caso, n11 nos indica el número de veces que aparece x1 conjuntamente con y1; n12, nos indica la frecuencia conjunta de x1 con y2, etc.

Ejemplo de Tabla de Santillana pg 245

Page 8: Variables aleatorias bidimensionales

+

| CONCEPTOS BÁSICOS 3

Diagrama de dispersión o nube de puntos

Por ejemplo, supongamos que x e y representan la altura y el peso de hombres adultos.

Una muestra de N individuos daría x1, x2, ... xn alturas y los pesos correspondientes serían y1, y2, ..yn.

El paso siguiente es representar los puntos correspondientes a cada elemento de la muestra (x1, y1); (x2, y2) ... (xn, yn) en un sistema de coordenadas cartesianas.

Este sistema de puntos resultante se denomina “Diagrama de Dispersión”.

Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y. Para indicar el número de coincidencias, o bien ponemos símbolos diferentes, o bien indicamos entre paréntesis, el número nii.

(sustituirla por otra de Geogebra y añadir ejemplo Santillana, pag 247)

Curva de Ajuste

Para llegar a encontrar la ecuación que relaciona las variables, el primer paso es la recolección de datos que muestran los valores correspondientes de las variables.

Teniendo el diagrama de dispersión es posible encontrar una curva que se aproxima a los datos. Esta curva recibe el nombre de “Curva de Aproximación”.

A los datos se aproximan a una línea recta, se dice que entre las variables existe una relación lineal. Si entre las variables existe una relación que no es lineal (que no se puede aproximar por una recta sino por una curva).

Se dice que entre las variables hay una “relación no lineal”.

El problema general de e4ncontrar ecuaciones de curvas e aproximación que se ajusten al conjunto de datos se denomina buscar la “curva de ajuste”.

Nube de puntos

Alturas (cm.)

Pesos (kg.)

150 155 160 165 170 175 180

57

62

67

72

77

82

Page 9: Variables aleatorias bidimensionales

+

| CONCEPTOS BÁSICOS 4

Las curvas de ajuste pueden ser varias y de diversos tipos. Desde lineas hasta

polinomos de grados altos o funciones transcendentes

Definición: Distribuciones marginales

Dada la distribución bidimensional (xi ; yj ; nij), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribución bidimensional;

X\Y y1

y2

y3

y4

ni.

x1 n11 n12 n13 n14 n1 .

x2 n21 n22 n23 n24 n2.

x3 n31 n32 n33 n34 n3 .

x4 n41 n42 n43 n34 n4.

n.j n.1 n.2 n.3 n.4 n

podemos obtener las siguientes distribuciones marginales

X Y xi ni. Yj n.j

x1 n1. y1 n.1

x2 n2. y2 n.2

x3 n3 . y3 n.3

x4 n4. y4 n.4

n n

Por tanto, podemos decir: . .1 1

n N

j j ij

i j

n n n n= =

= = =∑ ∑ ∑∑

Distribuciones Condicionadas

Cuando se establece una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como:

X/Y , para X condicionado por Y

Y/X , para Y condicionado por X

Page 10: Variables aleatorias bidimensionales

+

| CONCEPTOS BÁSICOS 5

Independencia estadística

Dadas dos variables X e Y se dice que son independientes estadísticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir:

. . ,ij j jn n ni j

n n n= ⋅ ∀

Si esto no se cumple para todos los valores se dice que hay dependencia estadística.

Page 11: Variables aleatorias bidimensionales

+

| COVARIANZA 6

COVARIANZA

Gráficamente, en el diagrama de dispersión podemos determinar si las dos variables X e Y que componen una variable estadística bidimensional tienen algún tipo de relación más o menos fuerte.

Vamos a establecer ahora una medida estadística matemática para cuantificar la relación que existe entre las dos variables X e Y que forman parte de una variable bidimensional. Esta medida se denomina covarianza y viene dada por

1

1 1

( )( )

n

i in ki j ij i

xy

i j

x yx x y y n

x yn n

σ=

= =

⋅− −

= = − ⋅∑

∑∑

Si σxy >0 hay dependencia directa (positiva), es decir a grandes valores de x corresponden grandes valores de y.

Si σxy = 0 las variables están incorreladas, es decir no hay relación lineal.

Si σxy < 0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden grandes valores de y.

(Geogebra) Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos:

Propiedades de la covarianza:

1.- Si a todos los valores de la variable X, les sumamos una constante k y a todos los valores de la variable Y les sumamos una constante k’, la covarianza no varía.

2.- Si a todos los valores de una variable X los multiplicamos por una constante k y a todos los valores de la variable Y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes.

σxy<0 σxy >0

Page 12: Variables aleatorias bidimensionales

+

| COVARIANZA 7

3.- Como consecuencia de las anteriores: si tenemos dos variables X, Y con la covarianza σxy, y transformaciones lineales de las variables de la forma z = ax + b, y t = cy + d, la nueva covarianza se relaciona con la anterior de la forma: σzt = ac σxy.

4.- Otra forma de calcular la Covarianza sería: 1

n

i i

ixy

x y

x yn

σ=

⋅= − ⋅∑

y que será la que

utilizaremos en la práctica por la simplificación de cálculos que nos ofrece.

Page 13: Variables aleatorias bidimensionales

+

| CORRELACIÓN 8

CORRELACIÓN

El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Habrá que definir una nueva medida, que no está afectada por los cambios en las unidades de medida. Esta medida es la siguiente:

Definición coeficiente de correlación lineal

El coeficiente de correlación rxy es una medida de la variable (X,Y), que cuantifica el grado de dependencia lineal entre las dos variables X e Y de una variable estadística bidimensional. Viene dado por la siguiente expresión:

xy

xy

x y

σ σ=

siendo σx y σy las desviaciones típicas de X e Y. Este coeficiente es adimensional y siempre estará entre –1 y 1.

• Si hay relación lineal positiva, rxy > 0 y próximo a 1 (a partir de 0.75). • Si hay relación lineal negativa rxy < 0 y próximo a –1 (a partor de -0.75) • Si no hay relación lineal rxy será próximo a 0 (entre -0.25 y +0.25).

Cuando las variables x e y son independientes, σxy = 0, y por tanto rxy = 0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes.

Ejemplo 1

Nubes de puntos con geogebra como en la página 248 Santillana

Ejemplo 2

Calcular la Covarianza y el coeficiente de correlación de una variable bidimensional (X,Y) cuyos datos viene dados por la tabla: X: Altura 175 180 162 157 180 173 171 168 165 165

Y: Peso 80 82 57 63 78 65 66 67 62 58

Solución

Hacemos los siguientes cálculos previos:

169.6 7.2139

67.8 8.7567

x

y

x

y

σ

σ

= =

= =

De donde: 175 80 180 82 162 57 ....

169.6 67.8 52.3210xyσ

− + − + − += − − =

Page 14: Variables aleatorias bidimensionales

+

| CORRELACIÓN 9

Calculamos ahora el coeficiente de correlación lineal rxy 52.32

0.82827.2139 8.7567xyr = =

Como es mayor de 0.75, nos indica que las variables están fuertemente relacionadas.

Incluir problema de

http://centros.edu.xunta.es/iesramoncabanillas/cuadmat/trabaj/omblig1.pdf

Sobre hombre de Vitrubio

Page 15: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 10

RECTA DE REGRESION

http://fce.ufm.edu/catedraticos/jhcole/Nociones.doc. Julio H. Cole. Profesor de Economía. Universidad Francisco Maroquín

El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable dependiente Y y otras variable independientes X1, X2,... , Xn.

Ahora, vamos a ver únicamente el caso de una sola variable independiente X, por lo que el análisis de regresión queda simplificado a una línea recta y de ahí que también se le denomine Regresión Lineal ó recta de regresión donde la relación viene dada por

Y mX b= +

donde los coeficientes b y m son parámetros que definen b el punto de corte con el eje Y de ordenadas y m la pendiente de la recta.

(Nótese que hemos usado el símbolo especial Y ya que se suele emplear esta notación en estadística cuando un valor es estimado. Como veremos, el valor real de Y rara vez coincide exactamente con el valor estimado, por lo que es importante hacer esta distinción.)

El parámetro b nos indica el valor de corte de la gráfica con el eje Y, es decir el valor de Y cuando X = 0. El parámetro m nos indica cuánto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X.

Estimación de la Recta de Regresión.

Para ajustar la recta de regresión que corresponde a un diagrama de dispersión, podemos considerar dos casos posibles,

la recta de Y sobre X, dada por ( )2

xy

x

y y x xσ

σ− = − y

la recta de X sobre Y, dada por ( )2

xy

y

x x y yσ

σ− = − .

Ejemplos

Santillana pag 250 y 251

Posiciones relativas de dos rectas de regresión

Con Geogebra hacer las nubes de puntos de la página 251

Page 16: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 11

Estimación de la Recta de Regresión. Método de los mínimos cuadrados

En el análisis de regresión, las estimaciones que hemos mencionado previamente se obtienen por medio del método de mínimos cuadrados.

Para estimar los coeficientes por medio de mínimos cuadrados, se utilizan las siguientes En la práctica los coeficientes b y m de la recta de regresión se estiman mediante las fórmulas

2

XY y Xm

X x X

∑ − ∑=∑ − ∑

y b y mx= − de donde, la recta de regresión viene dada por

( )2ˆ XY y X

Y X y mxX x X

∑ − ∑ = + − ∑ − ∑

Ejemplo

Como ejemplo, consideremos las cifras del Cuadro 1, Cuadro 1. Operaciones Mensuales en una Empresa de Transporte de Pasajeros. Mes Nº

Costos Totales (miles) Y

Millas Vehículo (Miles) X

Mes Nº

Costos Totales (miles) Y

Millas Vehículo (miles) X

1 213.9 3147 18 213.2 3338

2 212.6 3160 19 219.5 3492

3 215.3 3197 20 243.7 4019

4 215.3 3173 21 262.3 4394

5 215.4 3292 22 252.3 4251

6 228.2 3561 23 224.4 3844

7 245.6 4013 24 215.3 3276

8 259.9 4244 25 202.5 3184

9 250.9 4159 26 200.7 3037

10 234.5 3776 27 201.8 3142

11 205.9 3232 28 202.1 3159

12 202.7 3141 29 200.4 3139

13 198.5 2928 30 209.3 3203

14 195.6 3063 31 213.9 3307

15 200.4 3096 32 227.0 3585

16 200.1 3096 33 246.4 4073

17 201.5 3158

Fuente: J. Johnston, Análisis Estadístico de los Costes (Barcelona: Sagitario, S. A., 1966), p. 118. que muestra datos mensuales de producción y costos de operación para una empresa británica de transporte de pasajeros por carretera durante los años 1949-52 (la producción se mide en términos de miles de millas-vehículo recorridas por mes, y los costos se miden en términos de miles de libras por mes). Para poder visualizar el grado de relación que existe entre las variables, como primer paso en el análisis es conveniente elaborar un diagrama de dispersión, que es una representación en un sistema de coordenadas cartesianas de los datos numéricos observados. En el

Page 17: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 12

diagrama resultante, en el eje X se miden las millas-vehículo recorridas, y en el eje Y se mide el costo de operación mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehículo y costos de operación) que corresponde a un mes determinado.

Como era de esperarse, existe una relación positiva entre estas variables: una mayor cantidad de millas-vehículo recorridas corresponde un mayor nivel de costos de operación. Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de “dispersión”: no existe una relación matemáticamente exacta entre las variables, ya que no toda la variación en el costo de operación puede ser explicada por la variación en las millas-vehículo. Si entre estas variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo largo de la recta de regresión, que también ha sido trazada y que muestra la relación “promedio” que existe entre las dos variables. En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la recta, sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en Y que no puede atribuirse a la variación en X. Aplicando estas fórmulas del ajuste mínimo cuadrático tenemos:

25,216,020.3 – 219.1242(113,879) m = —————————————— = 0.044674 398,855,769 – 3,450.879(113,879) b = 219.1242 – 0.044674(3,450.879) = 64.96

Expresando los resultados en términos de la recta de regresión, tenemos: $Y = 64.96 + 0.044674 X Podemos concluir que por cada milla adicional recorrida, los costos de operación aumentan en aproximadamente 4.5 centavos—esto podría interpretarse como el “costo marginal” para la empresa de recorrer una milla adicional—mientras que el coeficiente b0 nos estaría indicando la parte del costo mensual que no varía

180

200

220

240

260

280

2500 3000 3500 4000 4500

MILLAS

CO

ST

OS

Page 18: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 13

directamente con la cantidad de millas recorridas (aproximadamente 64,960 libras mensuales).

Coeficiente de Determinación ( R 2 ).

Una pregunta importante que se plantea en el análisis de regresión es la siguiente: ¿Qué porcentaje de la variación total en Y se debe a la variación en X? En otras palabras, ¿cuál es la proporción de la variación total en Y que puede ser “explicada” por la variación en X? El estadístico que mide esta proporción o porcentaje se denomina coeficiente de determinación:

Re

Y y

22

21= −∑

∑ −( )

En este caso, al hacer los cálculos respectivos, se obtiene un valor de 0.946. Esto significa que la variación en las millas recorridas explica 94.6 % de la variación en el gasto de operación mensual.

Estimación

Pag 252 de Santillana

Mirar lo que se puede añadir del texto doc

[Estadistica] Regresion

Parece bueno

Page 19: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 14

Page 20: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 15

10.8 Ejemplos de Aplicación

1) – La tabla siguiente, muestra las alturas con aproximación de una pulgada y los pesos

con aproximación de una libra, de una muestra de 12 estudiantes extraídos al azar entre los

estudiantes de primer año de un colegio.

A – A partir de una recta de mínimos cuadrados siendo x la variable independiente.

B – Siendo y la variable independiente.

Altura

X

70 63 72 60 66 70 74 65 62 67 65 65

Peso

Y

155 150 180 135 156 168 178 160 132 145 139 152

Solución

A – El trabajo necesario para el cálculo de las sumas se puede ordenar en una tabla, como

la siguiente:

Altura X Peso Y

70 155 3,2 0,8 2,56 10,24 0,64

63 150 - 3,8 - 4,2 15,96 14,44 17,64

72 180 5,2 25,8 134,16 27,04 665,64

60 135 - 6,8 - 19,2 130,56 46,24 368,64

66 156 - 0,8 1,8 - 1144 0,64 3,24

70 168 3,2 13,8 44,16 10,24 190,44

74 178 7,2 23,8 171,36 51,84 566,44

65 160 - 1,8 5,8 - 10,44 3,24 33,64

62 132 - 4,8 - 22,2 106,56 23,04 492,84

67 145 0,2 - 9,2 - 184 0,04 84,64

65 139 - 1,8 - 15,2 27,36 3,24 231,04

68 152 1,2 - 2,2 - 1,64 1144 4,84

Luego la recta de mínimos cuadrados pedida es:

Page 21: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 16

O sea

Que puede escribirse también:

Esta ecuación de la recta, encontrada por el método de mínimos cuadrados se llama “recta

de regresión” y y sobre x, y se utiliza para estimar los valores de y a partir de valores dados

de x.

B – Si la variable independiente es x, la recta pedida será:

Que puede escribirse:

Que se4 denomina recta de regresión de x sobre y, y se usa para estimar valores de x a

partir de valores dados de y.

a)

Page 22: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 17

a) Primer Método

Se utiliza la ecuación donde . El trabajo puede

ordenarse en una tabla.

Año

1946 0 66,6 - 5 - 28,4 25 142,0

1947 1 84,9 - 4 - 10,1 16 40,4

1948 2 88.6 - 3 - 6,4 9 19,2

1949 3 78,0 - 2 - 17,0 4 34,0

1950 4 96,8 - 1 1,8 1 - 1,8

1951 5 105,2 0 10,2 0 0

1952 6 93,2 1 - 1,8 1 - 1,8

1953 7 111,6 2 16,5 4 33,2

1954 8 88,3 3 - 6,7 9 - 20,1

1955 9 117,0 4 22,0 16 88,0

1956 10 115,2 5 20,2 25 101,0

La ecuación planteada queda como sigue:

Que puede escribirse también como:

Donde el origen x = 0 es el año 1946 y las unidades de x son 1 año.

El gráfico de esa recta se llama a veces, recta de tendencia y aparece a trazos en la figura.

La ecuación se llama a menudo “ecuación de tendencia”, y los valores de y calculados para

diferentes valores de x se llaman valores de tendencia.

b) Segundo Método

Si se asignan valores de x a los años 1946 – 1956, la ecuación de la recta de mínimos

cuadrados puede escribirse:

En los datos y cálculos realizados en el ejemplo 1, representar graficamente ambas rectas y

estimar:

A – El peso de un estudiante cuya altura es de 63 pulgadas.

Page 23: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 18

B – La altura de un estudiante cuyo peso es de 168 libras.

Solución

A – Para estimar y de x se emplea la recta de regresión de y sobre x.

Y = 3,22 x – 60,9, Entonces si x = 63 Y = 3,22 . 63 – 60,9 = 142

B – Para estimar x de y se emplea la recta de regresión de x sobre y.

X = 31,0 + 0,232 y

Luego para Y = 168,06 la altura

X = 31,0 + 0,232 . 168 = 70,0 pulgadas

3 – Ejemplo de Aplicación a Series de Tiempo

La producción de acero en los EEUU en mill de

toneladas cortas (1 tonelada corta = 2000 libras), durante los años 1946 a 1956 se muestra

en la tabla.

A – Representar los datos.

B – Hallar la ecuación de la recta de mínimos cuadrados que se ajuste a los datos.

C – Estimar la producción de acero para los años 1957 y 1958 y comparar con los valores

112,7 y 89,6 mill.

D – Estimar la producción de acero durante los años 1945 y 1944 y comparar con los

valores reales de 79,6 y 89,6 mill de toneladas cortas.

Año Producción Acero

1946 66,6

1947 84,9

1948 88,6

Page 24: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 19

1949 78,0

1950 96,8

1951 195,2

1952 93,2

1953 111,6

1954 88,3

1955 117,0

1956 115,2

Trabajo Práctico

5 – Hallar:

a) la desviación típica de x b) la desviación típica de y c) la varianza de x d) la varianza de y e) la covarianza de x e y para los datos del problema 4.

6 – Comprobar la fórmula r = Sxy/SxSy para los datos del problema 4.

7 – La siguiente tabla muestra la edad x y la presión sanguínea y de 12 mujeres.

a) hallar el coeficiente de correlación entre x e y. b) Determinar la ecuación de regresión de mínimos cuadrados de y sobre x. c) Estimar la presión sanguínea de una mujer de 45 años con el 99 % de confianza.

Edad

(X)

56 42 72 36 63 47 55 49 38 42 68 60

Presió

n (Y)

147 145 160 118 149 128 150 145 115 140 152 155

8 – Hallar el coeficiente de correlación entre los valores de alturas y los pesos de 300

hombres de EEUU, dados en la siguiente tabla de frecuencias.

59 - 62 63 - 66 67 - 70 71 - 74 75 – 78

90 – 109 2 1

110 – 129 7 8 4 2

130 – 149 5 15 22 7 1

150 – 169 2 12 63 19 5

Page 25: Variables aleatorias bidimensionales

+

| RECTA DE REGRESION 20

170 – 189 7 28 32 12

190 – 209 2 10 20 7

210 - 229 1 4 2

9 – a) Hallar la ecuación de regresión de mínimos cuadrados de y sobre x para los datos del

problema anterior.

b) Estimar los pesos de dos hombres cuyas alturas sean 64 y 72 pulgadas respectivamente.

d) Estimar con el 95 % de confianza los pesos indicados en b.

Trabajo Práctico

1 – La producción de cigarros puros en EEUU durante los años 1945 – 1954 aparece en la

tabla.

a) Representar los datos. b) Hallar la ecuación de la recta de mínimos cuadrados que ajuste los datos. c) Estimar la producción de cigarro en el año 1955.

Año 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954

Cigarros

mill

98,2 92,3 80,0 89,1 83,5 68,9 69,2 67,1 58,3 61,2

2 – Ajuste una recta de mínimos cuadrados a los datos de la tabla adjunta tomando: a) x

como variable independiente, b) y como variable independiente.

Representar los datos y las rectas de mínimos cuadrados en el mismo sistema de ejes,

coordenads.

X 3 5 6 8 9 11

Y 2 3 4 6 5 8

3 – El tiempo total para detener un automóvil después de percibir un peligro se compone del

tiempo de reacción, más el tiempo de frenada. La tabla adjunta muestra las de parada en

pies D que marcha a la velocidad V (mmillas por hora), desde el instate en que se observa

el peligro.

a) Representar los datos b) Ajustar una parábola de mínimos cuadrados de la forma D = c) Estimar D cuando V = 45 mill/hs y 80 mill/hs

V 20 30 40 50 60 70

Page 26: Variables aleatorias bidimensionales

+

| EJERCICIOS 21

D 54 90 138 206 292 396

4 – Hallar el coeficiente de correlación lineal entre las variables x e y presentadas en la tabla

siguiente

EJERCICIOS

Ejercicio 1

¿Cuánto vale el coeficiente de correlación cuando la correlación es máxima y positiva?

Solución:

r = 1

Ejercicio 2

Los alumnos de una clase de 4º de ESO han obtenido las siguientes calificaciones en Matemáticas (x) y en Lengua (y):

Halla con la calculadora el coeficiente de correlación y contesta si puedes hacer estimaciones fiables.

Solución:

58,0=r por lo tanto la correlación no es muy fuerte y no es muy fiable hacer estimaciones.

Ejercicio 3

Obtén la nube de puntos correspondiente a los valores de la tabla siguiente:

¿De qué signo es la correlación?

Solución:

Matemáticas (x) 2 3 4 4 5 6 4 5 6 7 8 6 3 6 2 5 6 1 5 9

Lengua (y) 2 4 3 5 2 4 6 7 5 6 5 8 5 7 4 5 6 4 6 8

x 2 3 4 4 5 5 6 7 8 8

y 7 6 5 6 3 4 4 2 2 1

Page 27: Variables aleatorias bidimensionales

+

| EJERCICIOS 22

La correlación es negativa

Ejercicio 4

En una distribución bidimensional (x, y) se sabe que el coeficiente de correlación es 0,94 y la

recta de regresión 65,287,0 −= xy ¿Se puede estimar el valor de y para cuando 5=x ?¿Es fiable esta estimación?¿Por qué?

Solución:

La estimación es muy fiable porque la correlación es muy fuerte. El valor de y

correspondiente es 7=y

Ejercicio 5

En un bar se hace un estudio para ver los refrescos que se venden en función de la temperatura que hace. Se han elegido 10 días del año al azar, y se han obtenido los siguientes resultados:

Halla con la calculadora el coeficiente de correlación, la recta de regresión, y contesta si se puede predecir cuántos refrescos se venderán un día que haga 30º de temperatura.

Solución:

Coeficiente de correlación:

986,0=r

Se pueden hacer estimaciones fiables, porque la correlación es muy fuerte.

Recta de regresión:

xy 5,26,7 +−=

Para 30=x se obtiene 68=y

Temperatura (x) 12 28 11 32 35 9 25 16 7 23

Cantidad de refrescos (y) 23 64 20 70 79 14 61 25 12 58

Page 28: Variables aleatorias bidimensionales

+

| EJERCICIOS 23

Se esperan vender 68 refrescos.

Ejercicio 6

¿Qué significa que la correlación entre dos variables sea nula?

Solución:

Que no existe ninguna relación entre esas dos variables.

Ejercicio 7

Dos conjuntos de datos bidimensionales tienen como coeficiente de correlación 89,01 −=r y 27,02 =r . ¿En cuál de los dos conjuntos es más fiable hacer estimaciones mediante la recta de

regresión? ¿Por qué?

Solución:

En el conjunto de datos que tiene coeficiente de correlación 89,01 −=r porque la correlación es más fuerte.

Ejercicio 8

Los resultados de una encuesta realizada a un grupo de alumnos sobre el número de horas que se estudia al día y el número de suspensos obtenidos en una evaluación, se reflejan en la siguiente tabla:

Representar mediante una nube de puntos estos resultados.

Ejercicio 9

Dibuja la nube de puntos de la siguiente distribución bidimensional:

Nº horas (x) 2 0 1 0,5 1 2 3 1,5 2,5 2 1 1,5 0,5 2 1,5 0 0,5 1,5 1 3

Nº suspensos (y) 1 6 3 4 2 0 0 1 0 3 1 0 3 2 2 5 5 3 2 0

x 2 3 5 7 4 8 2 9 6 3

y 5 4 7 6 2 8 1 8 7 2

Page 29: Variables aleatorias bidimensionales

+

| EJERCICIOS 24

Solución:

Ejercicio 10

Los resultados de una encuesta realizada a un grupo de alumnos sobre el número de horas que se estudia al día y el número de suspensos obtenidos en una evaluación, se reflejan en la siguiente tabla:

Halla con la calculadora el coeficiente de correlación. ¿Qué significa que el coeficiente de correlación sea negativo?

Solución:

8,0−=r

Significa que cuando crece una variable la otra decrece, es decir, cuando aumenta el número de horas de estudio, el número de suspensos disminuye.

Ejercicio 11

En una distribución bidimensional (x, y) se sabe que el coeficiente de correlación es 0,28 y la

recta de regresión 32 += xy

¿Es fiable la estimación de y para 10=x ?

Solución:

No es fiable hacer estimaciones porque la correlación es débil.

Ejercicio 12

En un estudio estadístico hemos comprobado que las notas de Matemáticas (X) y Tecnología (Y) en un grupo de 4º de ESO tienen un coeficiente de correlación 88,0=r y la recta de regresión es 4,02,1 −= XY

¿Qué nota tendrá en Tecnología un alumno que ha sacado un 7 en Matemáticas?

Nº horas (x) 2 0 1 0,5 1 2 3 1,5 2,5 2 1 1,5 0,5 2 1,5 0 0,5 1,5 1 3

Nº suspensos (y) 1 6 3 4 2 0 0 1 0 3 1 0 3 2 2 5 5 3 2 0

Page 30: Variables aleatorias bidimensionales

+

| EJERCICIOS 25

Solución:

84,072,14,02,1 =−⋅=−= XY

Obtendrá un 8

Ejercicio 13

A un enfermo que tiene mucha fiebre se le administra un medicamento para que ésta descienda. Se observa al paciente controlándole la temperatura cada 30 minutos, durante 6 horas. Apuntamos los datos en una variable bidimensional en la cual:

X = Tiempo transcurrido desde la administración del medicamento

Y = Temperatura del paciente

Si el medicamento ha sido efectivo, ¿qué tipo de correlación existe entre estas dos variables, positiva o negativa?.

Solución:

La correlación es negativa, porque al aumentar la variable tiempo (X), disminuye la temperatura (Y).

Ejercicio 14

Dos conjuntos de datos bidimensionales tienen como coeficiente de correlación 89,01 −=r y 27,02 =r . ¿En cuál de los dos conjuntos es más fiable hacer estimaciones mediante la recta de

regresión? ¿Por qué?

Solución:

En el conjunto de datos que tiene coeficiente de correlación 89,01 −=r porque la correlación es más fuerte.

Ejercicio15

Halla con la calculadora el coeficiente de correlación y la recta de regresión para los datos que aparecen en la siguiente tabla:

Solución:

95,0−=r

xy 9,08,8 −=

Ejercicio 16

x 2 3 4 4 5 5 6 7 8 8

y 7 6 5 6 3 4 4 2 2 1

Page 31: Variables aleatorias bidimensionales

+

| EJERCICIOS 26

Halla con la calculadora la recta de regresión BxAy += correspondiente a los datos siguientes:

¿Puedes estimar con fiabilidad cuánto valdrá y para x = 7?

Solución:

xy 03,04,3 +=

No se pueden hacer estimaciones con fiabilidad porque el coeficiente de correlación vale 05,0=r (la correlación es muy débil)

Ejercicio 17

En un bar se hace un estudio para ver los refrescos que se venden en función de la temperatura que hace. Se han elegido 10 días del año al azar, y se han obtenido los siguientes resultados:

Halla con la calculadora el coeficiente de correlación, la recta de regresión, y contesta si se puede predecir cuántos refrescos se venderán un día que haga 30º de temperatura.

Solución:

Coeficiente de correlación:

986,0=r

Se pueden hacer estimaciones fiables, porque la correlación es muy fuerte.

Recta de regresión:

xy 5,26,7 +−=

Para 30=x se obtiene 68=y

Se esperan vender 68 refrescos.

Ejercicio 18

Dada la siguiente distribución:

X 2 2 2 4 7 7 10 10

x 1 2 3 4 5 6

y 3 4 3 5 2 4

Temperatura (x) 12 28 11 32 35 9 25 16 7 23

Cantidad de refrescos (y) 23 64 20 70 79 14 61 25 12 58

Page 32: Variables aleatorias bidimensionales

+

| EJERCICIOS 27

Y 3 4 5 5 4 5 3 5 n 5 10 17 19 20 16 9 4

Determina la recta de regresión de Y sobre X. Estudia el grado de dependencia lineal entre las variables.

Ejercicio 19

Dada la siguiente distribución bidimensional, obtén la recta de regresión de Y/X.

X / Y 2 4 6

3 2 3 5

4 0 1 0

5 3 1 1

Ejercicio 20

En el servicio central de turismo de un país se ha observado que el número de plazas hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total de plazas ocupadas en un año se tiene:

(Hacer tabla)

Precio (ptas./noche) 250 650 1000 1400 2100

Nº habitaciones ocupadas 4725 2610 1872 943 450

a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre las variables.

b) Halla la ecuación de la recta de regresión. ¿Cuántas habitaciones se llenarían a 1500 ptas.?

c) En qué medida podemos considerar que el nivel de ocupación depende de la estructura de precios?

Ejercicio 21

La siguiente tabla muestra las distribuciones de frecuencias de las puntuaciones finales de 100 estudiantes en matemáticas y física:

Física Matemáticas

40-49 50-59 60-69 70-79 80-89 90-99

90-99 2 4 4

Page 33: Variables aleatorias bidimensionales

+

| EJERCICIOS 28

80-89 1 4 6 5

70-79 5 10 8 1

60-69 1 4 9 5 2

50-59 3 6 6 2

40-49 3 5 4

a) Número de alumnos que recibieron puntuación entre 70 y 79 en matemáticas y entre 80 y 89 en física.

b) Porcentaje de estudiantes con puntuación en matemáticas inferior a 70.

c) Porcentaje de que un estudiante obtenga 70 ó más puntos en física y menos de 80 en matemáticas.

d) Porcentaje de estudiantes que aprobó al menos una de las dos asignaturas, suponiendo 60 la puntuación mínima para aprobar.

e) Porcentaje de que un estudiante tenga aprobadas las dos asignaturas.

f) Porcentaje de que un estudiante, que sabemos que tiene aprobada las matemáticas, tenga aprobada también física.

g) Porcentaje de estudiantes que tienen aprobada matemáticas de entre los que tienen aprobada física.

h) Sobre qué puntuación en física tendrá un estudiante del que sabemos que ha obtenido 86 puntos en matemáticas.

i) Da una medida de la exactitud del resultado obtenido en h).

Ejercicio 22

Una empresa del sector cerámico realiza un estudio sobre los metros cuadrados vendidos de sus productos por agentes de ventas en plantilla y la antigüedad en la empresa de los mismos:

Miles de m2

Años de antigüedad

1 2 3 4 5 6

11-13 1 2

13-15 5 4 3 3 5 1

15-17 3 5 6 6 2

17-19 2 4

Page 34: Variables aleatorias bidimensionales

+

| EJERCICIOS 29

a) Se gratifica con 200.000 ptas. al agente que sobrepase 15.000 m2 vendidos en el año.

Calcula los siguientes porcentajes:

• Agentes con gratificación y más de 4 años de antigüedad. • Agentes con gratificación de entre los de más de 4 años. • Agentes con más de 4 años de entre los gratificados.

b) Un agente tiene una antigüedad de 4 años 6 meses. Determina la cantidad que se espera que venda al año.

c) Determina y comenta la fiabilidad del resultado anterior.

d) Representación aproximada de las dos rectas de regresión (sin hacer nuevos cálculos). Justifica dicha representación.

e) El sueldo base anual de un agente es de 900.000 ptas. fijas más 100 ptas. por m2 vendido. ¿Cuál es la media y la desviación típica del sueldo base?

f) La paga extra es de 300.000 ptas., más 25.000 ptas. por año de antigüedad. ¿Cuál es la covarianza y el coeficiente de correlación entre “sueldo base” y “paga extra”?

g) Recorrido intercuartílico de la variable “m2 vendidos”.

Ejercicio 23

6) Dados los siguientes datos: (Hacer tabla)

xi -2 -1 0 1 2

yi 4 1 0 1 4

Estudia si procede o no un ajuste lineal, de dos formas: gráficamente y mediante alguna medida descriptiva.

Ejercicio 24

Un determinado partido político se plantea el problema de hasta qué punto le pueden compensar los gastos de la campaña de propaganda para las futuras elecciones. En las últimas elecciones, los gastos de publicidad y el número de diputados elegidos han sido:

(Hacer tabla)

Gastos en publicidad Diputados elegidos

(en millones de ptas.)

1500 3

1750 4

3250 4

4000 6

Page 35: Variables aleatorias bidimensionales

+

| EJERCICIOS 30

5000 8

La comisión electoral está estudiando la posibilidad de un presupuesto de propaganda de diez millones de pesetas.

a) ¿Cuál será el número de diputados que serían elegidos de ese partido de acuerdo con ese presupuesto, si la imagen del partido no varía respecto a las elecciones anteriores?

b) ¿Con qué confianza se puede esperar ese resultado?

c) ¿Cuál sería el porcentaje de causas diferentes a la publicidad que influirían en las elecciones?

Ejercicio 25

El volumen de ahorro y la renta del sector familias en billones de ptas. constantes de 1.977, para el período 77-86 fueron:

(Hacer tabla)

Año Ahorro Renta

77 1.9 20.5

78 1.8 20.8

79 2.0 21.2

80 2.1 21.7

81 1.9 22.1

82 2.0 22.3

83 2.2 22.2

84 2.3 22.6

85 2.7 23.1

86 3.0 23.5

a) Recta de regresión del ahorro sobre la renta.

b) Recta de regresión de la renta sobre el ahorro.

c) Para el año 87 se supone una renta de 24.1 billones de ptas. ¿Cuál será el ahorro esperado para el año 87?

d) Estudia la fiabilidad de la predicción del apartado anterior.

Ejercicio 26

Estudia en cuáles de los siguientes casos los resultados ofrecidos son compatibles entre sí:

Page 36: Variables aleatorias bidimensionales

+

| EJERCICIOS 31

a) rxy = -0.3; y = 4x + 5

b) σxy = 100; σy2 = 400; σx = 5; rxy = 1

c) y = 9x - 4; rxy = 3

d) y = 5x + 8; x = 5 y = -45; rxy = 0.2

e) x = 2y - 8; x = y + 4; x = 16; y = 12

f) La recta de regresión de y sobre x es: y = 4x + 5, y que el coeficiente de correlación: rxy = -0.3

g) σxy = 100; σx = 10; R2 = 1; σy

2 = 400.

h) Se calculan las rectas de regresión (de y sobre x, y de x sobre y) y aunque no sabemos cuál es cuál tenemos: y = 5x + 8; y = (1/5)x + 9; rxy = 0.2

i) La recta de regresión y = 2x + 5 se ha calculado para estudiar la relación entre dos variables que cumplen: σxy = -1; σx

2 = -0.5; x =1; y =7

Ejercicio 27

Sea una distribución bidimensional cuyas rectas de regresión son x + 4y = 1; x + 5y = 2. Obtén el coeficiente de determinación y comenta su significado.

Ejercicio 28

Un grupo de 10 amigos se ha presentado a una prueba de oposición. Anotaron el número de horas que dedicaron a estudiar la semana antes del examen y la nota obtenida en la prueba. La información se recoge en la siguiente tabla:

Representa los datos mediante una nube de puntos e indica cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,92; −0,44; −0,92; 0,44.

Ejercicio 29

Se ha realizado una encuesta preguntando por el número de personas que habitan el hogar familiar y el número de habitaciones que tiene la casa. La tabla siguiente recoge la información obtenida:

Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Page 37: Variables aleatorias bidimensionales

+

| EJERCICIOS 32

Ejercicio 30

Se ha analizado en distintos modelos de impresoras cuál es el coste por página (en céntimos de euro) en blanco y negro y cuál es el coste por página si esta es en color. La siguiente tabla nos da los seis primeros pares de datos obtenidos:

a) Halla la recta de regresión de Y sobre X.

b) ¿Cuánto nos costaría imprimir una página en color en una impresora en la que el coste por página en blanco y negro fuera de 12 céntimos de euro? ¿Es fiable la estimación? (Sabemos que r = 0,97).

Ejercicio 31

La estatura, en centímetros, de seis chicos de la misma edad y la de sus padres viene recogida en la siguiente tabla:

a) Halla las dos rectas de regresión y represéntalas.

b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 32

Se ha medido el número medio de horas de entrenamiento a la semana de un grupo de 10 atletas y el tiempo, en minutos, que han hecho en una carrera, obteniendo los siguientes resultados:

Representa los datos mediante una nube de puntos y di cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,71; −0,71; 0,45; −0,32.

Ejercicio 33

En seis modelos de zapatillas deportivas se ha estudiado el peso, en gramos, que tiene (para el número 42) y su precio, en euros. La información obtenida se recoge en esta tabla:

Page 38: Variables aleatorias bidimensionales

+

| EJERCICIOS 33

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Ejercicio 34

En seis institutos de la misma zona se ha estudiado la nota media de los estudiantes de 1º de bachillerato en Matemáticas y en Inglés, obteniéndose la información que se recoge en la siguiente tabla:

a) Halla la recta de regresión de Y sobre X.

b) Calcula $y (5.5)¿Es fiable esta estimación sabiendo que r = 0.87?

Ejercicio 35

En una academia para aprender a conducir se han estudiado las semanas de asistencia a clase de sus alumnos y las semanas que tardan en aprobar el examen teórico (desde que se apuntaron a la autoescuela). Los datos correspondientes a seis alumnos son:

a) Halla las dos rectas de regresión y represéntalas.

b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 36

Las notas de 10 alumnos y alumnas de una clase en Matemáticas y en Física han sido las siguientes:

Representa los datos mediante una nube de puntos y di cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,23; 0,94; −0,37; −0,94.

Ejercicio 37

Se ha medido la potencia (en kW) y el consumo (litros/100 km) de 6 modelos distintos de coches, obteniéndose los siguientes resultados:

Page 39: Variables aleatorias bidimensionales

+

| EJERCICIOS 34

Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Ejercicio 38

Se ha medido el peso, en kilogramos, y el volumen, en litros, de distintos tipos de maletas, obteniendo los resultados que se recogen en esta tabla:

a) Halla la recta de regresión de Y sobre X.

b) Calcula $y (solución 120) ¿Es fiable esta estimación sabiendo que r = 0.79?

Ejercicio 39

Un grupo de seis atletas ha realizado pruebas de salto de longitud y de altura. Las dos se han puntuado en una escala de 0 a 5. Los resultados obtenidos han sido los siguientes:

a) Halla las dos rectas de regresión y represéntalas.

b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 40

Se han realizado unas pruebas de habilidad (puntúan de 0 a 5) en un grupo de alumnos. Las siguientes puntuaciones corresponden a las obtenidas por seis alumnos en dos de ellas:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las variables?

Ejercicio 41

Se ha estudiado en distintas marcas de yogures naturales el porcentaje de grasa que contenían, así como las kilocalorías por envase. Estos son los resultados obtenidos en seis de ellos:

a) Halla la recta de regresión de Y sobre X.

Page 40: Variables aleatorias bidimensionales

+

| EJERCICIOS 35

b) Calcula $y (2.5) e $y (10) ¿Es fiable esta estimación sabiendo que r = 0.85?

Ejercicio 42

Se ha preguntado en seis familias por el número de hijos y el número medio de días que suelen ir al cine cada mes. Las respuestas han sido las siguientes:

a) Halla las dos rectas de regresión y represéntalas.

b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 43

En un reconocimiento médico a los niños de un colegio, se les ha pesado, en kilogramos, y se les ha medido, en centímetros. Aquí tienes los datos de los primeros seis niños:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Ejercicio 44

En distintos modelos de aspiradores se ha medido el peso, en kilogramos, y la capacidad útil de la bolsa, en litros, obteniendo los siguientes resultados:

a) Halla la recta de regresión de Y sobre X.

b) Calcula $y (6) ¿Es fiable esta estimación sabiendo que r = 0.85?

Page 41: Variables aleatorias bidimensionales

+

| EJERCICIOS 36

Uℕℤℚ∊ℝℂℙℐΩ⇐⇒⇔⇏∊∉∈∅⇾≈≔⇎≡ℤ≤≥≲≳≴≵≮≯∀⇒∊≠∅⊂⟇·∊∃ A⨯Bεαβηθλµξσφφδπεε

·∅U∩∪∼∿⊂⊃⊆⊇⊄⋂⋃⊅∧∨U⤳≮≠|∂∆√±∞ǀǁƟƩǃξχ∘I⊕⊗⊛⋅♯⨁⨂×