Variables estadísticas bidimensionales

32
Variables estadísticas Variables estadísticas bidimensionales bidimensionales Se trata de variables que Se trata de variables que surgen cuando se estudian dos surgen cuando se estudian dos características asociadas a la características asociadas a la observación de un fenómeno. observación de un fenómeno.

description

Variables estadísticas bidimensionales. Se trata de variables que surgen cuando se estudian dos características asociadas a la observación de un fenómeno. Variables estadísticas bidimensionales. - PowerPoint PPT Presentation

Transcript of Variables estadísticas bidimensionales

Variables estadísticas Variables estadísticas bidimensionalesbidimensionales

Se trata de variables que surgen Se trata de variables que surgen cuando se estudian dos cuando se estudian dos características asociadas a la características asociadas a la observación de un fenómeno.observación de un fenómeno.

Variables estadísticas Variables estadísticas

bidimensionalesbidimensionales Ejemplo 1.- Estudiamos la talla, medida en cm. y Ejemplo 1.- Estudiamos la talla, medida en cm. y

el peso, medido en kg. de un grupo de 10 el peso, medido en kg. de un grupo de 10

personas, podemos obtener los siguientes valorespersonas, podemos obtener los siguientes valores

TallaTalla

(cms(cms))

161600

161655

161688

171700

171711

171755

171755

181800

181800

181822

Peso Peso

(kgs)(kgs)5555 5858 5858 6161 6767 6262 6666 7474 7979 8383

Podemos llamar X a la talla e Y al peso con Podemos llamar X a la talla e Y al peso con lo que se obtendría la lo que se obtendría la variable variable bidimensional (X, Y)bidimensional (X, Y) que toma 10 valores, que toma 10 valores, que son las 10 parejas de valores de la que son las 10 parejas de valores de la tabla anterior: (160,55), (165,58), etc.tabla anterior: (160,55), (165,58), etc.

83797466626761585855Peso

(kgs)

182180180175175171170168165160Talla

(cms)

83797466626761585855Peso

(kgs)

182180180175175171170168165160Talla

(cms)

Variables estadísticas Variables estadísticas bidimensionalesbidimensionales

En algunos casos el número de "parejas" de En algunos casos el número de "parejas" de valores (x,y) es grande y además muchos de ellos valores (x,y) es grande y además muchos de ellos aparecen repetidos; en este caso se utiliza una aparecen repetidos; en este caso se utiliza una ""Tabla de doble entradaTabla de doble entrada"" como la que se como la que se

muestra a continuación en el ejemplo 2muestra a continuación en el ejemplo 2

En la primera fila se colocan los valores de una de En la primera fila se colocan los valores de una de las características o variable que componen la las características o variable que componen la variable bidimensional y en la primera columna variable bidimensional y en la primera columna

los de la otralos de la otra..

Variables estadísticas Variables estadísticas bidimensionalesbidimensionales

Ejemplo 2Ejemplo 2.- Se representa por .- Se representa por X el número de hijos X el número de hijos de de

100100 familias y por familias y por Y el número de hijasY el número de hijas

# de hijas (Y)# de hijas (Y) 00 11 22 33# de hijos # de hijos

(x)(x) ---------------------- -------- -------- -------- ------

00 ---------------------- 1010 1515 1515 33

11 ---------------------- 1010 1212 77 22

22 ---------------------- 88 44 33 11

33 ---------------------- 33 22 11 00

44 ---------------------- 22 11 11 00

Variables estadísticas bidimensionalesVariables estadísticas bidimensionales

00111122----------------------4400112233----------------------3311334488----------------------22227712121010----------------------1133151515151010----------------------00----------------------------------------------------# de hijos (x)# de hijos (x)

33221100# de hijas (Y)# de hijas (Y)

00111122----------------------4400112233----------------------3311334488----------------------22227712121010----------------------1133151515151010----------------------00----------------------------------------------------# de hijos (x)# de hijos (x)

33221100# de hijas (Y)# de hijas (Y)

La lectura de esta tabla es sencilla. Por La lectura de esta tabla es sencilla. Por ejemplo: habría 7 familias que tendrían 1 ejemplo: habría 7 familias que tendrían 1 hijo y 2 hijas y ninguna familia tendría 3 hijo y 2 hijas y ninguna familia tendría 3 hijos y 3 hijas.hijos y 3 hijas.

Representación gráficaRepresentación gráfica

Diagramas de dispersión o Diagramas de dispersión o nubes de puntos nubes de puntos

Variables Estadisticas Variables Estadisticas BidimencionalesBidimencionales

CovarianzaCovarianza

CorrelacionCorrelacion

Diagramas de dispersión o nubes de Diagramas de dispersión o nubes de

puntospuntos La representación gráfica de este La representación gráfica de este

tipo de variables es en realidad tipo de variables es en realidad semejante a la respresentación de semejante a la respresentación de puntos en el plano, usando unos ejes puntos en el plano, usando unos ejes de coordenadas. Cada pareja de de coordenadas. Cada pareja de valores da lugar a un punto en el valores da lugar a un punto en el plano y el conjunto de puntos que se plano y el conjunto de puntos que se obtiene se denomina obtiene se denomina ""diagrama de diagrama de dispersión o nube de puntosdispersión o nube de puntos".".

Diagramas de dispersión o nubes de Diagramas de dispersión o nubes de

puntospuntos En el En el ejemplo 1ejemplo 1 anterior en el que se estudiaba la talla y el anterior en el que se estudiaba la talla y el

peso de 10 personas se obtendría el siguiente diagrama de peso de 10 personas se obtendría el siguiente diagrama de dispersión: (En el eje X se representa la talla en cm. y en el dispersión: (En el eje X se representa la talla en cm. y en el eje Y el peso en kg.) eje Y el peso en kg.)

Diagramas de dispersión o nubes de Diagramas de dispersión o nubes de puntospuntos

Se puede ver en el primera figura que Se puede ver en el primera figura que correspondía al diagrama decorrespondía al diagrama de talla - peso talla - peso que la que la serie de puntos presenta una tendencia serie de puntos presenta una tendencia ""ascendenteascendente" . Se dice en este caso que existen " . Se dice en este caso que existen entre las dos variables una "entre las dos variables una "dependencia dependencia positivapositiva" . " .

En caso en que la tendencia sea "En caso en que la tendencia sea "descendentedescendente" " se diría que estaríamos ante una " se diría que estaríamos ante una " dependencia dependencia negativanegativa ""

Naturalmente en caso en que no se pueda Naturalmente en caso en que no se pueda observar una tendencia clara estaríamos ante una observar una tendencia clara estaríamos ante una dependencia muy débil que no se puede observar dependencia muy débil que no se puede observar mediante la nube de puntosmediante la nube de puntos

Diagramas de dispersión o nubes de Diagramas de dispersión o nubes de

puntospuntos

Covarianza y su Covarianza y su interpretacióninterpretación

Covarianza Covarianza

Sean (Sean (xxii,, yyii ) pares de observaciones ) pares de observaciones

de dos caracteristicas X y Y, y sean de dos caracteristicas X y Y, y sean sus respectivas medias. La sus respectivas medias. La covarianza entre entre las dos covarianza entre entre las dos variables se define por :variables se define por :

Covarianza Covarianza

Donde Donde xi xi e e yiyi representan los pares de representan los pares de valores de la variable y el producto valores de la variable y el producto corresponde al producto de las medias corresponde al producto de las medias aritméticas de las variables x e y aritméticas de las variables x e y respectivamente.respectivamente.

Pasos para calcular la covarianza de una serie de eventos

Paso 1: Se calcula Σxiyi , esto es la sumatoria de los productos de las variablares x y y; o sea: (x1 * y1) + (x2 * y2) + ... +(xn * yn ) Paso 2: se define n, que el numero de eventos o el numero de pares de cariables

Paso 3: Se calcula , que es el producto de las medias de ambas variables

Paso 4: Obtenidos todos los datos se sustituyen en la formula y se obtiene el resultado

Calculemos la covarianza para el ejemplo primero correspondiente a la variable talla - peso

83797466626761585855Peso

(kgs)

182180180175175171170168165160Talla

(cms)

83797466626761585855Peso

(kgs)

182180180175175171170168165160Talla

(cms)

Paso 1: La suma de todos los productos de los valores de x (talla) por los de y (peso) sería:

160 · 55 + 165 · 58 + 168 · 58 + 170 · 61 + 171 · 67 + 175 · 62 + 175 · 66 + 180 · 74 + 180 · 79 + 182 · 83 = 114987

Paso 2:

Definimos n como el numero de eventos en este caso es 10

Paso 3:

A este valor debemos restarle el producto de las medias de ambas variables que naturalmente sabes calcular:

Media de x (talla): 172.6 = 172.6 * 66.3 = 11443.38 Media de y (peso): 66.3

De acuerdo ala formula tenemos que:

Sxy = (114987 / 10 ) – 11443.38

Sxy = 55.32

Hemos obtenido un valor positivo para la covarianza que corresponde a una dependencia directa como ya habíamos intuido con la nube de puntos

Regresion y CorrelacionRegresion y Correlacion

Recta de regresionRecta de regresion

Relacion entre dos variablesRelacion entre dos variables

Variable independiente xVariable independiente x

Variable dependiente yVariable dependiente y

función lineal del tipo y = ax + b, su gráfica correspondería función lineal del tipo y = ax + b, su gráfica correspondería a una rectaa una recta

recta de regresión.recta de regresión.

se deduce que la recta de regresión debe pasar por el punto correspondiente a las medias de ambas variables y que debe tener por pendiente la covarianza dividida por la varianza de la variable x.Con ello la expresión de la recta de regresión será:

Esta es la llamada "Recta de regresión de y sobre x". Si se deseara estudiar la dependencia de x respecto a y sólo habría que cambiar en la expresión de la recta x por y, obteniéndose la recta regresión de x sobre y

En la imagen siguiente se muestra la recta de regresión de y (peso) sobre x (talla) del ejemplo 1 de este tema. En este caso se supone que represente cómo depende el peso de una persona de su talla

Si recordamos que entre la talla y el peso decíamos que existía una dependencia directa, la recta de regresión lo confirma ya que su pendiente es positiva: a medida que aumenta la talla aumenta el peso. Por tanto:

Dependencia directa o positiva - Pendiente positiva - Función creciente

Utilidad tiene la recta de regresión Utilidad tiene la recta de regresión Mediante la recta de regresión podríamos obtener de Mediante la recta de regresión podríamos obtener de

manera aproximada el valor de la variable dependiente (y) manera aproximada el valor de la variable dependiente (y) de la que conociéramos la variable independiente (x), en de la que conociéramos la variable independiente (x), en una población semejante a aquella de la que se ha obtenido una población semejante a aquella de la que se ha obtenido la muestrala muestra

De manera más precisa, si conocemos la expresión de la De manera más precisa, si conocemos la expresión de la recta de regresión, se pueden calcular valores para la recta de regresión, se pueden calcular valores para la variable y, conocidos los de x, como si se tratara de una variable y, conocidos los de x, como si se tratara de una funciónfunción

Ejemplo :Si observamos la gráfica, podríamos suponer por ejemplo que una persona de 185 cm pesaría algo más de 80 kg

De acuerdo ala formula

La recta de regresión de la variable y (talla) sobre x (peso) será la recta:

-que pasa por el punto (172,6 ; 66,3) (medias repectivas de (x,y))

-tiene de pendiente: 55.32 / 50.71 = 1.0909

Recta: y – 66.3 = 1.0909 ( x – 172.6) que operando y simplificando queda:

y = 1.0909x – 121.9

El valor del peso que suponíamos aproximado para una talla de 185 cm sería:

Peso= 1.0909 · 185 – 121.9 = 79.9

Este valor obtenido es algo menor al esperado. Eso quiere decir que las predicciones hechas con la recta de regresión no son exactas. Mas adelante precisaremos la "fiabilidad" de las mismas.

Por tanto la recta de regresión se puede utilizar para realizar predicciones para la variable y a partir de valores conocidos de la variable x.

Coeficiente de correlacionCoeficiente de correlacion

Una vez observado que en una variable bidimensional Una vez observado que en una variable bidimensional existe una cierta dependencia entre las dos características existe una cierta dependencia entre las dos características o variables que la forman (nube de puntos y covarianza), o variables que la forman (nube de puntos y covarianza), podemos precisar el grado de dicha dependencia. podemos precisar el grado de dicha dependencia.

- Si los puntos de la nube estuvieran todos sobre la recta de - Si los puntos de la nube estuvieran todos sobre la recta de regresión se diría que existe una regresión se diría que existe una dependencia funcionaldependencia funcional. . De su estudio se encargan las funciones.De su estudio se encargan las funciones.

- Si los puntos no están todos sobre la recta de regresión se - Si los puntos no están todos sobre la recta de regresión se dice que entre las variables hay una ciertadice que entre las variables hay una cierta correlación correlación lineal.lineal. Este es el caso que nos ocupa. Para cuantificar el Este es el caso que nos ocupa. Para cuantificar el grado de dicha correlación se usa elgrado de dicha correlación se usa el

Coeficiente de correlación de Pearson. Si le llamamos r, su valor es:

Puede observarse que el signo del coeficiente de correlación es el mismo que el de la covarianza y puede deducirse que el valor del mismo esta comprendico entre -1 y 1.

Se pueden deducir las siguientes conclusiones relativas al coeficiente de correlación (r):

- Su signo es el mismo de la covarianza, luego si r es positivo la dependencia es directa y si es negativo inversa.

- Si r se acerca a -1 o a +1, la dependencia es fuerte y por tanto las predicciones que se realicen a partir de la recta de regresión serán bastante fiables.

- Si r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables

Ejemplo:Calcularemos la correlacion para el ejemplo de las tallas y los pesos

Sxy = 55.32

Sx = 50.71

Sy = 752.81

r = 55.32 / (50.71 * 752.81)

r =0.0014

r se acerca a 0 la dependencia es débil y por tanto las predicciones que se realicen a partir de la recta de regresión serán poco fiables

Ejercicios Ejercicios

Covarianza Covarianza

Correlacion Correlacion

Ejercicio 1:En el ejemplo 2 (hijos - hijas) se puede comprobar que también la covarianza es positiva. (Se deja como ejercicio la comprobación). Téngase en cuenta que en este caso la variable bidimensional toma "100 valores"

00111122----------------------4400112233----------------------3311334488----------------------22227712121010----------------------1133151515151010----------------------00----------------------------------------------------# de hijos (x)# de hijos (x)

33221100# de hijas (Y)# de hijas (Y)

00111122----------------------4400112233----------------------3311334488----------------------22227712121010----------------------1133151515151010----------------------00----------------------------------------------------# de hijos (x)# de hijos (x)

33221100# de hijas (Y)# de hijas (Y)

Ejercicio 2:De la siguiente tabla de las perdidas Esperadas. En rendimiento de soya por riego Inoportuno Obtenga:a) La covarianza b) Tipo de dependenciac) correlacion

0.000.000.580.5885.0085.000.500.50438.60438.600.400.401064.201064.200.300.301965.201965.200.200.203141.603141.600.100.104593.004593.000.000.00

Perdida de pesos Perdida de pesos (y)(y)

Porcion de humedad Porcion de humedad consumida (x)consumida (x)

0.000.000.580.5885.0085.000.500.50438.60438.600.400.401064.201064.200.300.301965.201965.200.200.203141.603141.600.100.104593.004593.000.000.00

Perdida de pesos Perdida de pesos (y)(y)

Porcion de humedad Porcion de humedad consumida (x)consumida (x)

Ejercicio 3 - A la vista de la nube de puntos ¿qué tipo de dependencia se puede suponer?-Calcular la covarianza y confirmar la afirmación anterior- Calcular el valor de y si se sabe que x = 15- calcular la correlacion

Partimos de la escena siguiente, en la que se pueden ver inicialmente la nube de puntos de la variables bidimensional que toma los siguientes 6 pares de valores:

446666777788yy

1212101088664422XX

446666777788yy

1212101088664422XX