Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga...

9
18/02/2015 1 En la siguiente tabla se muestra el volumen (en pies cúbicos) de 31 cerezos. Observamos que no todos los cerezos tienen el mismo volumen, es decir, constatamos variabilidad en el volumen de los cerezos. ¿Por qué unos cerezos tienen mayor volumen que otros?

Transcript of Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga...

Page 1: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

1

En la siguiente tabla se muestra el volumen (en pies cúbicos) de 31 cerezos.

Observamos que no todos los cerezos tienen el mismo volumen, es decir,constatamos variabilidad en el volumen de los cerezos.

¿Por qué unos cerezos tienen mayor volumen que otros?

Page 2: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

2

Si identificamos otra variable, relacionada con el volumen de los cerezos, peromás fácil de medir, esto nos permitiría hacernos una idea aproximada delvolumen a partir de dicha variable.

Probamos con el diámetro del cerezo a cierta altura fija sobre el suelo.

¿Cómo comprobamos si ambasvariables están relacionadas?

¿Qué tipo de relación hay entre ambasvariables?

¿Cómo podemos explotar la relaciónentre ambas variables?

El diagrama de dispersión evidencia la relación entre ambas variables.

• En general, a mayores diámetros les correspondenmayores volúmenes.

• Los puntos se distribuyen alrededor de una línea recta.

• La recta Y = 5.1X‐37 nos proporciona una “estimación” del volumen (Y) quees diferente para cada diámetro (X).

Diámetro(pulgadas)

Volumen(pies

3 )

Page 3: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

3

PredicciónEl modelo Y=5,1X37 nos da, para cada valorde X, una estimación del valor de Y:

E[Y|X=x]=5,1x37Los cerezos para los que el diámetro, a unpie de altura, es de 15 pulgadas tendrán, enpromedio, un volumen de 5,1·1537 = 39,5pies cúbicos.

InterpretaciónY es la variable respuesta (volumen, en piescúbicos) y X es la variable explicativa(diámetro, en pulgadas).

El modelo Y=5,1X37 es una recta cuyapendiente es 5,1, es decir, por cada unidadque aumenta X, Y aumenta 5,1 unidades.

Por cada pulgada que aumenta el diámetrode un cerezo, medido a un pie de altura, elvolumen del árbol aumenta, en promedio,5,1 pies cúbicos.

ExplicaciónObservamos un amplio rango de variaciónpara el volumen de los cerezos.

El saber el diámetro de un cerezo, medido aun pie de altura sobre el suelo, reducenuestra incertidumbre acerca del volumentotal del árbol.

El modelo explica el 94% de la variabilidaden el volumen de los cerezos a partir de lavariabilidad en el diámetro medido a un piede altura para los 31 cerezos de la muestra.

Dadoundiagramadedispersión(nubedepuntos):

• ¿Cómoelegimoslarectaque“mejor”seajusta?

• ¿Acuáldelospuntosintentaráacercarselarecta?

• ¿Cómomediremoslo“cerca”queestálarectadeunpunto?

Hay que saber cual es la variable respuesta y cual la explicativa.
PROMEDIO examen.
Page 4: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

4

La Covarianza I

7

La Covarianza II

ySxy > 0 ySxy < 0

ySxy = 08

Page 5: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

5

La Covarianza IVCálculo de las varianzas y la covarianza con tabla simple

Observando la nube de puntos seaprecia que existe una relaciónlineal directa entre ambasvariables (covarianza positiva).

9

El Coeficiente de Correlación Lineal (r)La covarianza presenta el handicap de depender de la escala, por lo que esinteresante introducir otra medida para la relación lineal entre dos variables queno se vea afectada por cambios en las unidades de medida empleadas.Para desescalar la covarianza se define el coeficiente de correlación lineal, y lodenotamos con la letra r, como el cociente entre la covarianza y el producto delas desviaciones típicas de las dos variables:

El coeficiente de correlación lineal:• Carece de unidades de medida, es decir, es adimensional.• Es invariante frente a transformaciones lineales (cambio de origen y escala)

de las variables.• Sólo toma valores comprendidos entre –1 y +1.• Si |r| ≈ 1 existirá una relación lineal muy fuerte entre las variables. Si r >0 la

relación se dice positiva y si r < 0 la relación se dice negativa.• Si r ≈ 0 afirmamos que no existe relación lineal entre las variables.

10

Page 6: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

6

Regresión Lineal ILa existencia de una relación lineal entre las variables implica la existencia de una rectaque “se ajusta” a la nube de puntos, siendo “mayor” el ajuste cuanto más fuerte es larelación lineal (cuanto más cercano a 1 ó a –1 esté r).

El ajuste se entiende como la proximidad del valor de la y de los puntos al valor de la yque resulta de aplicar la ecuación de la recta sustituyendo la x de los puntos.

(xi, yi)

Error para el punto i-ésimo.

El error puede ser positivo o negativo, por lo que consideraremos el error elevado alcuadrado (error cuadrático).

Cada punto de la nube tendrá un error cuadrático, elegiremos, de entre todas las posiblesrectas, aquella para la que el promedio de los errores cuadráticos sea menor (mínimoerror cuadrático medio). 11

Regresión Lineal II

ECM=128,31 ECM=20,4412

Page 7: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

7

Regresión Lineal IIILa recta y = a + bx que proporciona un menor ECM verifica:La recta y = a + bx que proporciona un menor ECM verifica:

En el ejemplo de la diapositiva 14:

13

El Coeficiente de Determinación Lineal (R2)Viendo la ecuación de la recta de regresión junto a la nube de puntos podemos apreciarque el ajuste es bastante bueno, es decir, la recta de regresión es un buen modelo paraexplicar la relación lineal existente entre la variable x y la variable y.

Necesitamos un estadístico que mida de forma cuantitativa la calidad del ajuste.

Definimos el coeficiente de determinación lineal R2 como el cuadrado del coeficientede correlación y lo interpretaremos como la proporción de la variabilidad de la variable yexplicada por el modelo de regresión y = a + bx.

En el ejemplo anterior, al ser r = 0,95: R2 = 0,91.

El modelo explica el 91% de la variabilidad de y a partir de la variabilidad de x.14

Page 8: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

8

Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la concentraciónde estrona en saliva (X) para predecir la concentración del esteroide en plasma libre (Y). Se extrajeronlos siguientes datos de 14 varones sanos:

Ejemplo 1

E(Y | x) = 15,85 + 2,26x

Por cada unidad que aumenta la concentración deestrona en saliva, la concentración de estrona enplasma aumenta, en promedio, 2,26 unidades.

Para los individuos cuya concentración de estrona ensaliva es 0 la concentración de estrona en plasma es,en promedio, 15,85 unidades. 15

Ejemplo 2En la siguiente tabla se muestra la incidencia de bebés nacidos con Síndrome de Down de madresaustralianas desde 1942 hasta 1952, agrupando a las madres por edad, en siete categorías.

16

Page 9: Volumen de los cerezos...Microsoft PowerPoint - Volumen de los cerezos Author: francisco.arteaga Created Date: 2/18/2015 12:01:43 PM ...

18/02/2015

9

Ejemplo 2

Por cada año que aumenta la edad de la madre, la probabilidad de que el recién nacido tenga Síndrome de Down aumenta, en promedio, un 14%.

Para las madres de 20 años, el ratio de recién nacidos con Síndrome de Down, por cada 10.000

nacidos vivos, es, en promedio, 3,91.

Restando:

Ejemplo 2

Hasta los 35 años:Por cada año que aumenta la edad de lamadre, la probabilidad de que el reciénnacido tenga Síndrome de Downaumenta, en promedio, un 6,7%.

Desde los 35 años:Por cada año que aumenta la edad de lamadre, la probabilidad de que el reciénnacido tenga Síndrome de Downaumenta, en promedio, un 21,9%.

Por cada año que aumenta la edad de la madre, la probabilidad de que el recién nacido tenga Síndrome de Down aumenta, en promedio, un 14%.

18