Estadística inferencial maricela ayala

145
ESTADISTICA UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN INTERNACIONAL Tulcán – Ecuador MCS : JORGE POZO PORTAFOLIO DEL DOCENTE MARICELA AYALA MARZO 2012 – AGOSTO 2012

Transcript of Estadística inferencial maricela ayala

Page 1: Estadística inferencial maricela ayala

ESTADISTICA DESCRIPTIVA

UNIVERSIDAD POLITÉCNICA ESTATAL DEL CARCHI

ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN INTERNACIONAL

Tulcán – Ecuador

2012

MCS : JORGE POZO

PORTAFOLIO DEL DOCENTE

MARICELA AYALA

MARZO 2012 – AGOSTO 2012

Page 2: Estadística inferencial maricela ayala

´

CORRELACIÓN

TÉCNICAS DE CORRELACIÓN

En los capítulos anteriores, ustedes estudiaron las distribuciones de una sola

variable. A continuación abordaremos el estudio de dos variables y no

solamente de una. Particularmente estudiaremos qué sentido tiene afirmar que

dos variables están relacionadas linealmente entre sí y cómo podemos medir

esta relación lineal.

RELACIONES LINEALES ENTRE VARIABLES

Supongamos que disponemos de dos pruebas una de ellas una prueba de

habilidad mental y la otra una prueba de ingreso a la Universidad.

Seleccionemos cinco estudiantes y presentamos en la tabla Nº4.1.1, los

puntajes obtenidos en estas dos pruebas.

TABLA Nº4.1.1

ESTUDIANTES

X PRUEBA

DE HABILIDAD

MENTAL

Y EXAMEN DE ADMISIÓN

María 18 82Olga 15 68Susana 12 60Aldo 9 32Juan 3 18

Observamos las cinco parejas de puntajes de la tabla Nº4.1.1 ¿podemos

afirmar que la prueba de habilidad mental se puede usar para pronosticar el

puntaje de examen de admisión?. La tabla nos dice que si podemos hacer tal

suposición ya que los estudiantes con puntajes altos en la prueba de habilidad

mental tienen también un puntaje alto en el examen de admisión y los

Page 3: Estadística inferencial maricela ayala

estudiantes con puntajes bajos en la prueba de habilidad mental, tienen

puntajes bajos en el examen de admisión. En circunstancias como la presente

(cuando los puntajes altos de una variable están relacionados con los puntajes

altos de la otra variable y los puntajes bajos de una variable están relacionados

con los puntajes bajos de la otra variable), afirmamos que hay una relación

lineal positiva entre las dos variables, entonces podemos definir una relación

lineal positiva entre ese conjunto de pares de valores X y Y, tal como se

muestra en la tabla Nº4.1.1.

Supongamos que en lugar de los resultados de la tabla Nº 4.1.1, hubiéramos

obtenido los puntajes que se muestran en la tabla Nº 4.1.2 ¿Podríamos afirmar

que en esta situación los puntajes de la prueba de habilidad mental pueden

usarse para pronosticar los puntajes altos en el test de habilidad mental

aparecen con puntajes bajos en el examen de admisión y los sujetos con

puntajes altos en el examen de admisión, entonces podemos definir una

relación lineal negativa entre un conjunto de pares de valores X y Y (tal como

en la tabla Nº4.1.2), es decir, los puntajes altos de X están apareados con los

puntajes bajos de Y y los puntajes bajos de X están apareados con los puntajes

altos de Y.

TABLA Nº4.1.2

  X Y

ESTUDIANTES

PRUEBA DE

HABILIDAD MENTAL

EXAMEN DE ADMISIÓN

María 18 18Olga 15 32Susana 12 60Aldo 9 68Juan 3 82

TABLA Nº4.1.3

Page 4: Estadística inferencial maricela ayala

  X Y

ESTUDIANTES

PRUEBA DE

HABILIDAD MENTAL

EXAMEN DE ADMISIÓN

María 18 18Olga 15 82Susana 12 68Aldo 9 60Juan 3 32

Examinemos ahora la tabla Nº4.1.3. en este caso ya no podemos afirmar que

los puntajes de la prueba de habilidad mental sirvan para pronosticar los

puntajes del examen de admisión, ya que unos puntajes altos del test de

habilidad mental están aparejados con otros puntajes bajos del examen de

admisión y algunos puntajes bajos del test de habilidad mental están apareados

con otros puntajes altos del examen de admisión, entonces, en este caso,

decimos que no existe una relación lineal entre las variables X y Y.

DIAGRAMA DE DISPERSIÓN

En las situaciones que se presentan en la vida real no tenemos solamente cinco

parejas de valores para ambas variables, sino muchísimas parejas. Otra forma

alternativa de ver si existe o no relación lineal entre dos variables sería hacer

una gráfica de los valores X y Y en un sistema de coordenadas rectangulares,

este tipo de gráfica es conocido con el nombre de diagrama de dispersión,

gráfico de dispersión o nube de puntos. Dibujemos el diagrama que

corresponde a la tabla Nº4.1.1. lo haremos haciendo corresponder a cada valor

de la variable independiente X, un valor de la variable dependiente Y, es decir,

para la alumna Susana haremos corresponder su puntaje en la prueba de

habilidad mental (12) con su puntaje de la prueba de admisión (60); al alumno

Juan le hacemos corresponder su puntaje del test de habilidad mental (3) con

su puntaje del examen de admisión (18). Luego ubicaremos los cinco pares de

Page 5: Estadística inferencial maricela ayala

puntajes en el sistema de ejes rectangulares y obtendremos los gráficos Nº4.1.1

y Nº4.1.2.

Observaremos en el gráfico Nº4.1.1, que tabla Nº4.1.1, es descrita por el

diagrama de dispersión. Vemos en este gráfico que los cinco puntos dan la

sensación de ascender en línea recta de izquierda a derecha. Esto es

característico en datos en los que existe una relación lineal positiva. Aunque

estos cinco datos no configuren una línea recta en forma perfecta, se puede

trazar una línea recta que describa en estos puntos en forma bastante

aproximada, conforme se ve en el gráfico Nº4.1.2 y por esto decimos que la

relación es lineal.

Si ocurre que todos los puntos de la gráfica de dispersión están incluidos en

una sola línea en forma exacta afirmamos que la relación lineal es perfecta. El

grado en que se separan los puntos de una sola línea recta nos da el grado en

que la relación lineal no es perfecta. Así cuando menos puntos se encuentran

en una sola línea decimos que la relación lineal entre las dos variables es

menos fuerte y cuando más puntos queden incluidos en una línea recta

afirmaremos que la relación lineal es más fuerte.

GRÁFICO Nº4.1.1.

Page 6: Estadística inferencial maricela ayala

GRÁFICO Nº4.1.2

Usando los datos de la tabla Nº4.1.2 y utilizando la misma forma de razonar

empleada hasta ahora podemos construir el correspondiente gráfico de

dispersión, tal como se muestra en el gráfico Nº4.1.3.

Podemos observar en el gráfico Nº4.1.4 que la nube de puntos de la gráfica

puede delinearse bien por una línea recta, lo que nos indica que hay una

relación lineal entre las dos variables X y Y. vemos también que la línea

desciende de izquierda a derecha (tienen pendiente negativa) por lo que

decimos que la relación lineal entre las dos variables es negativa.

Page 7: Estadística inferencial maricela ayala

Si tenemos en cuenta la tabla Nº4.1.3 podemos obtener una figura como se

muestra en la gráfica Nº4.1.5. Notamos, en esta situación, que resultará inútil

cualquier línea recta que trate describir adecuadamente este diagrama de

dispersión.

GRÁFICO Nº4.1.3

GRÁFICO Nº4.1.4

Page 8: Estadística inferencial maricela ayala

GRÁFICO Nº4.1.5

COEFICIENTE DE CORRELACIÓN RECTILINEA DE PEARSON

Con ayuda de las gráficas nos podemos formar una idea si la nube de puntos, o

diagrama de dispersión, representa una relación lineal y si esta relación lineal

Page 9: Estadística inferencial maricela ayala

es positiva o negativa, pero con la sola observación de la gráfica no podemos

cuantificar la fuerza de la relación, lo que si conseguiremos haciendo uso del

coeficiente r de Pearson.

El coeficiente de correlación r de Pearson, forma valores comprendidos entre -1

y +1 pasando por 0. El número -1 corresponde a una correlación negativa

perfecta (los puntos del diagrama de dispersión deben encontrarse formando

perfectamente una línea recta). El coeficiente de correlación r=0 se obtiene

cuando no existe ninguna correlación entre las variables. Los valores negativos

mayores que -1 indican una correlación negativa y los valores positivos

menores que 1 indican una correlación positiva. Referente a la magnitud de r

podemos decir que independientemente del signo, cuando el valor absoluto de r

esté más cerca de uno, mayor es la fuerza de la correlación, as así que -0.20 y

+0.20 son iguales en fuerza (ambos son dos valores fuertes).

CÁLCULO DEL COEFICIENTE r DE PEARSON UTILIZANDO UNA MÁQUINA

CALCULADORA CUANDO LOS DATOS NO SON MUY NUMEROSOS

Dadas dos variables X y Y con sus respectivos valores. Tabla Nº4.1.4, podemos

calcular el coeficiente r de Pearson con una máquina calculadora mediana la

siguiente fórmula.

r=N (Ʃ x y )−(Ʃ x )(Ʃ y )

√ [(N Ʃ x2−(Ʃ x )2)] [(N Ʃ y2− (Ʃ y )2)]

TABLA AUXILIAR Nº4.1.4.

(1)

x

(2)

Y

(3)

x2

(4)

(5)

XY

18 82 324 6724 1476

Page 10: Estadística inferencial maricela ayala

15

12

9

3

∑x = 57

68

60

32

18

∑y= 260

225

144

81

9

∑x² = 783

4624

3600

1024

324

∑y² = 16296

1020

7200

288

54

∑xy = 3558

Con los datos de la tabla Nº4.1.1, se ha elaborado la Tabla Auxiliar Nº4.1.4.

En las columnas (1) y (2) se han escrito los valores de X y Y. en la columna (3),

se han elevado al cuadrado los valores de X. en la columna (4) se han elevado

al cuadrado los valores de Y. en la columna (5) se ha efectuado el producto de

cada pareja de valores X y Y. aplicando los datos en la fórmula 4.1.1, se tiene:

r=5 (3558 )−(57 )(260)

√ [(5(783)−(57 )2)] [(5(16296)−(260 )2)]

r= 17790−14820

√(3915−3249)(81480−67600)

r= 2970

√(666)(13880)

r= 2970

√9244080

r=0,98

INTERPRETACIONES DE UN COEFICIENTE DE CORRELACIÓN

Page 11: Estadística inferencial maricela ayala

¿Qué tan elevado es un coeficiente de correlación dado?. Todo coeficiente de

correlación que no sea cero indica cierto grado de relación entre dos variables.

Pero es necesario examinar más esta materia, porque el grado de intensidad de

relación se puede considerar desde varios puntos de vista. No se puede decir

que un r de 0.50 indique una relación dos veces más fuerte que la indicada por r

de 0.25. ni se puede decir tampoco que un aumento en la correlación de r=0.40

a r=0.60 equivalga a un aumento de r=0.70 a r=0.90. es de observar que una

correlación de -0.60 indica una relación tan estrecha como una correlación de

+0.60, la relación difiere en la dirección.

Siempre que esté establecida fuera de toda duda razonable una relación entre

dos variables, el que el coeficiente de correlación sea pequeño puede significar

únicamente que la situación medida está contaminada por algún factor o

factores no controlados. Es fácil concebir una situación experimental en la cual,

si se han mantenido constantes todos los factores que no sean pertinentes, el r

podría haber sido 1 en lugar de 0.20. por ejemplo: generalmente la correlación

entre la puntuación de aptitud y el aprovechamiento académico es 0.50 puesto

que ambos se miden en una población cuyo aprovechamiento académico

también es influenciable por el esfuerzo, las actitudes, las peculiaridades de

calificación de los profesores, etc. Si se mantuvieran constantes todos los

demás factores determinantes del aprovechamiento y se midieran exactamente

la aptitud y las notas, el r sería 1 en vez de 0.50.

Una conclusión práctica a la correlación es que ésta es siempre relativa a la

situación dentro de la cual se obtiene y su magnitud no representa ningún

hecho natural absoluto. El coeficiente de correlación es siempre algo puramente

relativo a las circunstancias en que se ha obtenido y se ha de interpretar a la luz

de esas circunstancias y sólo muy rara vez en algún sentido absoluto.

Page 12: Estadística inferencial maricela ayala

Además podemos agregar que la interpretación de un coeficiente de correlación

como medida del grado de relación lineal entre dos variables, es una

interpretación como medida del grado de relación lineal entre dos variables, es

una interpretación matemática pura y está completamente desprovista de

implicaciones de causa y efecto. El hecho de que dos variables tiendan a

aumentar o disminuir al mismo tiempo no implica que obligadamente una tenga

algún efecto directo o indirecto sobre la otra.

A continuación calcularemos con la fórmula Nº4.1.1, antes indicada coeficiente

de Pearson de la relación presentada en la tabla Nº4.1.2

CUADRO AUXILIAR 4.1.5

(1) x

(2) Y

(3) x2

(4) y²

(5) XY

18 18 324 324 32415 32 225 1024 48012 60 144 3600 7209 68 81 4624 6123 82 9 6724 246

∑x = 57 ∑y= 260 ∑x² = 783 ∑y² = 16296∑xy = 2382

r=5 (2382 )−(57 )(260)

√ [(5(783)−(57 )2)] [(5(16296)−(260 )2)]

r= 11910−14820

√(3915−3249)(81480−67600)

r= −2910

√(666)(13880)

r= −2910

√9244080

Page 13: Estadística inferencial maricela ayala

r=−0,96

Vemos que la correlación es fuerte y negativa.

Ahora calculemos con la misma fórmula de Pearson Nº4.1.1, el Coeficiente de

Correlación lineal con los datos de la tabla Nº4.1.3.

CUADRO AUXILIAR 4.1.6

(1) x

(2) Y

(3) x2

(4) y²

(5) XY

18 18 324 324 32415 32 225 6724 123012 60 144 4624 8169 68 81 3600 5423 82 9 1024 96

∑x = 57 ∑y= 260 ∑x² = 783 ∑y² = 16296 ∑xy = 3006

r=5 (3006 )−(57 )(260)

√ [(5(783)−(57 )2)] [(5(16296)−(260 )2)]

r= 15030−14820

√(3915−3249)(81480−67600)

r= 210

√(666)(13880)

r= 210

√9244080

r=0.07

Page 14: Estadística inferencial maricela ayala

La correlación es muy débil y positiva.

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS EN

CLASES

El presente tema nos conduce a calcular el coeficiente de correlación r, que nos

proporciona información de la fuerza de la relación que existe entre dos

conjuntos de datos que se encuentran agrupados, cada uno de ellos formando

por separados una distribución de frecuencias, mejor dicho teniendo por

separado sus intervalos de clase con sus respectivas frecuencias.

Para realizar una exposición del tema en forma más entendible, presentamos el

ejemplo del Cuadro Nº 4.1.7.

Ejemplo:

Calcular el grado de correlación entre las puntaciones obtenidas en inventario

de hábitos de estudio y los puntajes obtenidos en un examen de Matemática,

aplicados a un total de 134 alumnos de un colegio de la localidad.

CUADRO Nº 4.1.7

Page 15: Estadística inferencial maricela ayala

X Hábitos de estudio

Y Matemática

20→30 30→40 40→50 50→60 Total

f y

70→80 3 2 2 7

60→70 1 0 4 5 10

50→60 2 6 16 3 27

40→50 4 14 19 10 47

30→40 7 15 6 0 28

20→30 8 2 0 1 11

10→20 1 1 2 4

Total f x 23 40 48 23 134

Podemos notar que el problema no es tan simple, como el caso anterior, dado

que ahora los datos se han clasificado en una tabla de doble entrada Nº 4.1.7.

Este cuadro muestra, en la primera columna del lado izquierdo los intervalos de

clase de la variable Y, los que cubren todos los posibles datos acerca de las

puntuaciones alcanzadas por los estudiantes en la prueba de Matemática.

Nótese que los intervalos crecen de abajo hacia arriba. En la fila superior se

presentan los intervalos de clase todos los 134 posibles datos acerca de los

puntajes obtenidos por los estudiantes en la variable hábitos de estudios

representados por la letra X.

Dentro del Cuadro Nº 4.1.7 en los casilleros interiores o celdas de la tabla, se

encuentran las frecuencias de celdas f xy que corresponden a puntajes que

pertenecen tanto a un intervalo de la variable Y como a un intervalo de la

variable X.

En la fila interior del Cuadro se presentan los totales de los puntajes de la

variable X, hábitos de estudio. Esos totales se llaman frecuencias marginales de

la variable X y se representan por f x.

Page 16: Estadística inferencial maricela ayala

En la última columna de la derecha se encuentran los totales de los puntajes de

la variable rendimiento en matemática. Estos totales se denominan frecuencias

marginales de la variable Y.

Cuando los datos se presentan tal como el presente caso, formando tablas de

doble entrada, es conveniente usar el método clave que expondremos a

continuación porque con este procedimiento se evita manejar grandes números,

como sería el caso si se emplearán las fórmulas para trabajar con la

calculadora de bolsillo.

La fórmula que utilizaremos es la siguiente:

r=n∑ f xyux uy−¿ (∑ f xux )(∑ f y uy)

√ [n∑ f xu2x−(∑ f xux)

2 ] [n f yu2y−(∑ f y uy )

2 ]¿

Para obtener los datos que deben aplicarse en la fórmula Nº 4.1.2., vamos a

construir el cuadro auxiliar Nº 4.1.8, al mismo tiempo que se explica el

significado de los símbolos de esa fórmula.

Lo primero que hacemos es reemplazar los intervalos horizontales y verticales

por sus respectivas marcas de clase; a continuación adicionaremos al Cuadro

Nº 4.1.7, cinco columnas por el lado derecho; cuyos encabezamientos son: f y

para la primera uy para la segunda, f yu y para la tercera, f yu2y para la cuarta y

f xy uxuy para la quinta columna.

Por la parte inferior del cuadro le adicionamos cuatro filas que se nombran: f x

para la primera ux para la segunda fila que está debajo de la anterior, f x ux para

la tercera fila y por último, f x u2x para la cuarta fila que está debajo de todas; de

esta manera se va elaborando el Cuadro Auxiliar Nº 4.1.8.

1) Para determinar las frecuencias marginales que se deben colocar en la

columna f ypara la primera uy para la segunda, f yu y para la tercera, f y

Page 17: Estadística inferencial maricela ayala

sumamos las frecuencias de las celdas que están en la misma fila de la

marca de clase 75, obtenemos: 3+2+2=7, número que se escribe en el

primer casillero o celda de la columna f ypara la primera uy para la segunda,

f yu y para la tercera,f y . En la fila de la marca de clase 65, sumamos

1+4+5=10, número que se escribe debajo del 7.

Para la fila de la marca de clase 55, tenemos: 2+6+16+3=27.

Para la fila de la marca de clase 45, se tiene: 4+14+19+10=47.

En igual forma: 7+15+6=28.

Lo mismo: 8+2+1=11

Y en la última fila: 1+1+2=4

A continuación sumamos estas frecuencias marginales de la variable Y:

7+10+27+47+28+11+4=134 es el total general.

2) Ahora a determinar las frecuencias marginales de la variable X: En columna

encabezada con la marca de clase 25 sumemos verticalmente las

frecuencias: 1+2+4+7+8+1=23.

En la columna encabezada con 35, tenemos: 3+6+14+15+2=40

En la siguiente: 2+4+16+19+6+1=48

En la última: 2+5+3+10+1+2=23

3) Centremos nuestra atención en la columna encabezada f ypara la primera uy

para la segunda, f yu y para la tercera,uy este signo significa desviación

unitaria, y procedemos en la misma forma que en las Tablas Nº 2.1.2 y Nº

2.1.3 (b). recuerden que las desviaciones unitarias positivas: +1, +2, y +3

corresponden a los intervalos mayores y por el contrario las desviaciones

unitarias negativas: -1, -2 y -3 corresponden a los intervalos menores. Como

origen de trabajo se tomó la marca de clase 45 y por lo tanto su desviación

unitaria es cero.

4) Luego vamos a determinar las desviaciones unitarias horizontales de la

variable X. el origen de trabajo es la marca de clase 45 que se halla en la fila

Page 18: Estadística inferencial maricela ayala

superior del cuadro, por esa razón, escribimos cero debajo de la frecuencia

marginal 48. Las desviaciones unitarias negativas: -1 y -2 se escriben a la

izquierda cero, porque se corresponden con los intervalos de clase que

tienen menores marcas de clase y que están a la izquierda de 45. La

desviación unitaria positiva, se corresponde con el intervalo de mayor marca

de clase, 55 (en parte superior del Cuadro Nº 4.1.8.)

5) A continuación vamos a determinar los valores que deben colocarse en la

columna encabezada f yu y; este símbolo indica que se debe multiplicar cada

valor de f y por su correspondiente valor de uy, así: 7(+3)=21; 10(+2)=20;

27(+1)=27; 47(0)=0; 28(-1)=-28; 11(-2)=-22 y 4(-3)=-12. Sumando

algebraicamente, tenemos: 21+20+27=68 los positivos: y (-28)+ (-22)+

(-12)=-62 los negativos.

Por último: 68-62=6 total, que se coloca en la parte inferior de la columna

Para obtener los valores de la cuarta columna encabezada f yu2y debemos tener

en cuenta que (uy ¿ ( f yu y )=f yu2y, por lo tanto basta multiplicar cada valor de la

segunda columna por su correspondiente valor de la tercera columna así se

obtiene el respectivo valor de la cuarta columna. En efecto:

(+3)(21)=63; (+2)(20)=40; (+1)(27)=27; 0*0=0; (-1)(-28)=28; (-2)(-22)=44 y (-3)(-

12)=36

La suma: 63+40+27+28+44+36=238

Ahora nos fijamos horizontalmente en la tercera fila. Tenemos que ( f x ¿(ux)=f x ux

por consiguiente basta multiplicar verticalmente un valor de la primera fila por su

correspondiente valor de la segunda dila para obtener el respectivo valor de la

tercera fila.

Page 19: Estadística inferencial maricela ayala

(23)(-2)=-46; (40)(-1)=-40; (48)(0)=0 y (23)(+1)=23

Sumando horizontalmente:

(-46)+ (-40)+ (23)=-86+23=-63

Vamos por la cuarta fila; vemos que (ux ) ( f xux )=f x u2x. Luego basta multiplicar

cada elemento de la segunda fila por su correspondiente elemento de la tercera

fila para obtener el respectivo elemento de la cuarta fila así:

(-2)(46)=92; (-1) (-40)=40; 0*0=0 y (+1) (23)=23

Para obtener los valores de la quinta columna ∑ f xyuxu y observamos que hay

tres factores; el 1º es la frecuencia f xy de la celda o casillero que se está

considerando, el segundo factor es la desviación unitaria ux, el tercer factor es

la desviación unitaria uy. Por tanto el procedimiento será el siguiente: Tomemos

el número 3 que es la frecuencia de la celda determinada por el cruce de los

intervalos que tienen la marcha de clase 75 horizontalmente y 35 verticalmente.

Bajemos la vista del número 3 hacia donde se halla el respectivo valor (-1) de la

desviación unitaria ux (ver la línea punteada).

Para indicar el tercer factor corremos la vista del número 3 hacia su derecha

hasta llegar a la columna de las desviaciones unitarias uy y ubicamos el número

+3 (ver la línea punteada) formemos el producto de estos tres números: (3) (-1)

(+3)=-9. Este número -9 encerrado en un semicírculo lo escribimos en la celda

elegida.

Page 20: Estadística inferencial maricela ayala

En la misma fila tomamos la celda siguiente: (2) (0) (+3)=0

Continuando hacia la derecha: (2) (+1) (+3)=6

CUADRO AUXILIAR Nº 4.1.8

Page 21: Estadística inferencial maricela ayala

CUADRO CORREGIDO DEL CUADRO AUXILIAR Nº 4.1.8

La fórmula del paso (9) lleva el signo para indicar que se deben sumar

horizontalmente los números que están encerrados en los semicírculos de esa

primera fila elegida, así: -9+0+6=-3. Este número se escribe en la quinta

columna.

Trabajemos con la siguiente fila: (1) (-2) (+2)=-4 se encierra en un semicírculo.

(0)(-1)(+2)=0

(4)(0)8+2)=0

(5)(+1)(+2)=10

Page 22: Estadística inferencial maricela ayala

Sumando 0+0+10=10

Ahora con la tercera fila:

(2)(-2)(+1)=-4

(6)(-1)(+1)=-6

(16)(0)(+1)=0

(3)(+1)(+1)=3

Sumando: (-4)+(-6)+0+3=-7

Cuarta fila:

(7)(-2)(-1)=14

(15)(-1)(-1)=15

(6)(0)(-1)=0

(0)(+1)(-1)=0

La suma es: 14+15=29

(8)(-2)(-2)=32

(2)(-1)(-2)=4

(0)(0)(-2)=0

(1)(+1)(-2)=-2

La suma es: 32+4-2=34

Séptima fila:

(1)(-2)(-3)=6

(1)(0)(-3)=-6

Page 23: Estadística inferencial maricela ayala

(2)(1)(-3)=-6

Sumando: 6+0-6=0

Sumando los valores de la columna quinta.

-3+6-7+0+29+34+0=69-10=59

Reuniendo los resultados anteriores, se tienen los datos para aplicar en fórmula

Nº 4.1.2.

n=134

∑ f xyuxu y=59

∑ f xux=−63

∑ f y uy=6

∑ f xu2x=155

∑ f y u2y=238

r=(134) (59 )−(−63)(6)

√ [ (134 )(155)−(−63)2 ] [(134)(238 )−(6)2 ]

r= 7906+378

√(20770−3969)(31892−36)

r= 8284

√535212656

r= 828423134.66

r=0.358

Page 24: Estadística inferencial maricela ayala

EJERCICIO RESUELTO Nº2 DE CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

Calcular el coeficiente de correlación lineal de las puntuaciones en matemáticas

de 100 estudiantes de la Facultad de Ciencias de la Universidad MN.

CUADRO Nº4.1.9

CUADRO Nº4.1.10

Page 25: Estadística inferencial maricela ayala

En este problema tenemos que calcular el coeficiente de correlación lineal r

para dos conjuntos de datos, constituidos por los calificativos en una escala de

0 a 100, en matemáticas y en física para 100 estudiantes de la Facultad de

Ciencias de cierta Universidad.

Los datos se muestran en el cuadro Nº4.1.9. Notemos que a lo largo de la línea

horizontal superior se encuentran los intervalos que contienen los calificativos

de matemáticas desde 40 hasta 100.

Igualmente en la primera columna vertical izquierda, se encuentran los

calificativos para física de los mismos estudiantes, desde el calificativo 40 hasta

100. Nótese que en la columna de los calificativos de física los datos crecen de

abajo hacia arriba y para la fila horizontal superior vemos que los calificativos en

matemáticas crecen de izquierda a derecha.

Page 26: Estadística inferencial maricela ayala

A continuación procedemos a calcular el coeficiente de correlación r para estos

datos aplicando el mismo método que utilizamos en el problema anterior.

1) Traslademos los datos del cuadro Nº4.1.9 al cuadro Nº4.1.10. llamaremos

fxy a cualquiera de las frecuencias de los casilleros interiores del cuadro

Nº4.1.9. en el cuadro Nº4.1.10 podemos observar que se han agregado

cinco columnas por el lado derecho y cuatro filas por la parte inferior.

Observaremos en el cuadro Nº4.1.10 que los intervalos para la puntuación en

matemáticas y para la puntuación en física se han reemplazado por las marcas

de clase correspondientes. Así en la fila horizontal superior se ha reemplazado

el primer intervalo 4050 por su marca de clase 45, el segundo intervalo

5060 por su marca de clase 55 y de esta manera se han reemplazado los

demás intervalos por sus marcas de clases en el cuadro Nº4.1.10.

De igual forma para la columna primera de la izquierda vemos que los intervalos

se han reemplazado por sus respectivas marcas de clase así, para la

puntuación en física el primer intervalo superior 90 100 se han reemplazado

por su marca de clase 95, el segundo intervalo superior 8090 se ha

reemplazado por su marca de clase 85 y así sucesivamente hasta llegar el

intervalo inferior 4050 que se ha reemplazado por su marca de clase 45.

Ahora vamos a realizar los pasos siguientes:

1) Para determinar las frecuencias marginales f y sumemos todos los valores

f xy de la primera fila que tiene la marca de clase 95. De esta forma tenemos:

2+5+5=12. Para la segunda fila que corresponde a la marca de clase 85,

obtenemos: 1+3+6+5=15 que escribimos en el segundo casillero de f y.

Page 27: Estadística inferencial maricela ayala

Continuando con la suma de los números, f xy de las filas llenamos la

columna f y. .

2) Dediquemos nuestra atención a las frecuencias marginales f x. El primer

resultado de f x lo obtenemos sumando las frecuencias f xy para la columna

que tiene la marca de clase 45, de esta forma tenemos: 2+4+4=10 que se

escribe en el primer casillero de la fila f x. Para el segundo casillero tenemos

el número 15 que se obtiene sumando verticalmente las frecuencias f xy de la

columna que tiene la marca de clase 55. Continuando con la suma de las f xy

de las demás columnas, llenamos las frecuencias marginales f x.

3) Atendamos ahora la columna uy. La columna uytiene en total 6 casilleros

arbitrariamente escogemos uno de estos casilleros como origen de trabajo le

asignamos el número. Observemos ahora la primera columna de la

izquierda en donde están las marcas de clase de los puntajes de física. Aquí

observamos que las marcas de clase crecen de abajo hacia arriba, entonces

las desviaciones unitarias en la columna uy crecerán de abajo hacia arriba.

Entonces del 0 hacia abajo, las desviaciones unitarias son números

negativos que van decreciendo hacia abajo.

Desde el 0 hacia arriba las desviaciones unitarias serán positivas y

crecientes.

De manera que podemos observar que la columna uy está conformada por

los siguientes números que crecen del cero hacia arriba: 1,2 y desde el cero

hacia abajo decrecen: -1, -2, -3.

4) Veamos la fila ux

Notamos que en la fila horizontal superior las marcas de clase crecen de

izquierda a derecha, de igual forma las desviaciones unitarias crecerán de

izquierda a derecha. Elegimos como origen de trabajo arbitrariamente uno

de los casilleros de ux, el tercero contando de izquierda a derecha, y vamos

Page 28: Estadística inferencial maricela ayala

asignando números positivos crecientes hacia la derecha del 0, así tenemos

1, 2 y 3 y hacia la izquierda, a partir del cero, tendremos: -1 y -2.

5) Expliquemos la columna f yu y multipliquemos cada valor de f y por su

correspondiente valor de uy y se obtiene un valor f yu y. Por ejemplo el

número 24 se obtiene multiplicando la frecuencia marginal f y=12 por su

correspondiente desviación unitaria uy=2 esto es, 12x2=24. Para el segundo

casillero multiplicamos 15x1=15; para el tercero 25x0=0, así hasta terminar

con 11 x (-3)=-33.

6) Observamos la columna f yu2y. La primera celda de esta columna tiene el

número 48 que se obtiene multiplicando el valor uy=2de la segunda columna

por su correspondiente valor f yu y=24, de la tercera columna, es decir, 2 x 24

= 48. Para el segundo casillero de la columna f yu2y, tenemos 15 que es

igual a 1 x 15. De esta forma continuamos llenando los demás valores de la

columna f yu2y.

7) Veamos ahora la fila f x ux. El número -20 del primer casillero de esta fila se

obtiene multiplicando la frecuencia marginal f x=10 por su correspondiente

desviación unitaria ux=−2, es decir: 10(-2)=-20.

Para el segundo casillero de f x ux, multiplicamos (-1) x (-15) = 15 y así

sucesivamente hasta 12 x 3 = 36.

8) Veamos la fila f x u2x. El primer casillero de esta fila es 40 y es el resultado de

multiplicar -2 del primer casillero de la fila f x ux por -20 de su

correspondiente primer casillero de la fila ux esto es. (-2) x (-20) = 40. Para

el segundo casillero de f x u2x multiplicamos -1 del segundo casillero ux por -

15 de su correspondiente segundo casillero de f x ux, luego obtenemos (-1) x

(-15) = 15. Así continuamos multiplicando los valores de los valores de los

Page 29: Estadística inferencial maricela ayala

casilleros de la fila ux por sus correspondientes valores de la fila f x ux

hasta llegar a (3) (36) =108.

9) Interesa ahora obtener los números encerrados en semicírculos, por

ejemplo, el número 4, que corresponde a la marca de clase 75 para la

puntuación en matemáticas y a la marca de clase 95 de la puntuación en

física.

Para saber cómo se obtiene este número 4, corramos nuestra vista hacia la

derecha dirigiéndose hacia la columna uy y obtenemos el número 2. Del número

4, encerrado en semicírculo, bajemos la vista con dirección a la fila ux y

obtenemos 1. La frecuencia del casillero donde está el 4, encerrado en

semicírculo, es f xy=2. Multiplicando estos tres factores tendremos:

∑ f xyuxu y=(2 ) (1 ) (2 )=4.

Podemos enunciar la siguiente regla:

Para obtener los valores encerrados en semicírculos en los casilleros interiores

del cuadro Nº4.1.10, multiplicamos el valor de la frecuencia f xy del casillero para

la cual estamos haciendo el cálculo, por los valores de las desviaciones

unitarias uyy ux, obtenidas corriendo la vista hacia la derecha hasta columna uy

y también hacia abajo hasta llegar a la fila ux.

Así por ejemplo, para el casillero que corresponde a las marcas de clase 75 en

matemática y 85 en física, tenemos la frecuencia de la celda f xy=3, los otros

dos factores son: uy=1 y ux=1.

Luego (3) x (1) x (1) = 3 que es el valor encerrado en semicírculo.

Para el casillero correspondiente a la marca de clase 55 en matemáticas marca

de clase 45 en física, tenemos:

Page 30: Estadística inferencial maricela ayala

f xy=4, uy=−3, ux=−1

f xy uxuy= (4 ) (−3 ) (−1 )=12 que es el valor encerrado en semicírculo. Así podemos

proceder para obtener todos los demás valores encerrados en semicírculos.

Sumando las frecuencias marginales de la columna f y, se tiene ∑ f y=100.

Sumando los valores de la tercera columna se obtiene ∑ f y u2u y=253. La suma

de los valores de la quinta columna:

∑ f xyuxu y=150

Para todas las filas, en el último casillero de la derecha se tiene la suma de los

valores de la fila. Así por ejemplo. ∑ f x=100; ∑ f y=100.

Para la tercera fila: ∑ f xux=63.

Para la cuarta fila:∑ f xu2x=267

Estos totales de filas y columnas reemplazamos en la fórmula Nº4.1.2.

r=(100)(150 )−(63 )(−49)

√ [(100(267)−(63 )2)] [(100 (253)−(−49 )2)]

r= 15000+3087

√(26700−3969)(25300−2401)

r= 18087

√(22731)(22899)

r= 18087

√22815

r=0,79

Page 31: Estadística inferencial maricela ayala

Vemos que el coeficiente de correlación en este caso es 0,79

EJERCICIO PROPUESTO Nº1 DEL CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS AGRUPADOS DE DATOS.

Supongamos que tenemos 30 sujetos a los que hemos aplicado una prueba de

conocimientos de Psicología General (variable x) y un test de inteligencia

(variable y). los datos se muestran en el Cuadro Nº4.1.11.

Aplicando los datos tomados del Cuadro Auxiliar Nº4.1.12 en la fórmula Nº4.1.2,

tenemos:

Resultado:

r=30 (70 )−(35 )(26)

√ [(30(93)− (35 )2)] [(30 (78)−(26 )2)]

r= 2100−910

√(2790−1225)(2340−676)

r= 1190

√(1565)(1664 )

r= 11901613.7

r=0,74

REGRESIÓN LINEAL SIMPLE

REGRESIÓN LINEAL SIMPLE

Page 32: Estadística inferencial maricela ayala

Al comenzar a estudiar las técnicas de correlación afirmamos que

estudiaríamos dos variables y no solamente una. Llamamos en esa ocasión x a

una de las variables y a la otra. En el tema que nos ocuparemos ahora,

estudiaremos la forma tabla Nº4.2.1, similar a lo que utilizamos correlación,

conocimiento el puntaje en la prueba de habilidad mental (variable x) para un

alumno determinado, podemos anticipar el puntaje del examen de admisión

(variable y) del mismo alumno.

Consideramos la relación lineal expresada por el cuadro Nº4.2.1. si dibujamos

esa relación, obtenemos el gráfico Nº4.2.1. como podemos observar todos los

puntos se alinean “exactamente” en una sola línea recta lo que recibe el nombre

de línea de regresión. Teniendo en cuenta esta línea, podemos predecir

cualquiera de los valores de y conociendo el valor de x: Para x = 25, según la

recta, corresponde y = 35, para x =20, corresponde y=30, etc. En este caso se

trata de una correlación positiva perfecta cuyo coeficiente de correlación es +1.

CUADRO Nº4.2.1

PRUEBA DE HABILIDAD MENTAL

X

EXAMEN DE ADMISIÓN

YSusana 5 15Iván 10 20Lourdes 15 25Aldo 20 30Juan 25 35María 30 40César 35 45Olga 40 50

Recordemos el gráfico Nº4.2.1 que dibujamos cuando estudiamos correlación,

en este gráfico observamos el diagrama de dispersión “aproximado” por una

línea recta, la recta es mejor “ajuste”, a los puntos del diagrama de dispersión,

es decir, en la mejor medida procure dejar igual números de puntos del

Page 33: Estadística inferencial maricela ayala

diagrama de dispersión por encima de ella que igual número de puntos de

abajo, se llama línea de regresión.

ECUACIÓN DE LA REGRESIÓN RECTILÍNEA

La ecuación que describe la línea de regresión es.

Y R=Y +r ( SYSX )X-r( SYS X )X

En donde:

y=¿Media de variable y en la muestra

EJEMPLO PROPUESTO Nº2 DEL CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

Supongamos que se tienen 50 vendedores de cierta compañía. Estos

vendedores durante un año 1985 han realizado ventas tal como lo muestra el

cuadro Nº4.1.13, el que también muestra el número de años de experiencia que

tienen como vendedores.

Para dicho cuadro, se pide calcular el coeficiente de correlación lineal r.

CUADRO Nº4.1.13

Page 34: Estadística inferencial maricela ayala

Tomando los datos obtenidos en el Cuadro Auxiliar Nº4,1,14 apliquemos en la

fórmula Nº4.1.12, se tiene:

Resultado:

r=50 (46 )−(11 )(22)

√ [(50(59)−(11 )2)] [(50(72)− (22 )2)]

r= 2300−242

√(2950−121)(3600−484)

r= 2058

√(2829)(3116)

r=20582969

r=0,69

Page 35: Estadística inferencial maricela ayala

CUADRO AUXILIAR Nº4.1.14

GRÁFICO Nº 4.2.1

Page 36: Estadística inferencial maricela ayala

X= media de la variable X en la muestra.

X = un valor de la variable X

r = coeficiente de Pearson, de la correlación lineal entre las variables X y Y

SY=¿ desviación estándar de Y en la muestra

SX=¿ desviación estándar de X en la muestra

Y r=¿ valor Y resultante del cálculo de la fórmula.

Veamos cómo podemos predecir los valores de Y a partir de los valores de X.

Estudiemos el Cuadro Nº 4.2.1. Cómo el gráfico de este cuadro es una línea

recta ascendente sabemos que su coeficiente de correlación de Pearson r=+1.

Además tenemos los siguientes resultados:

X=22.5 SX=¿11.46 SY=¿11.46 Y=32.5

Estos resultados se pueden calcular a partir de los datos del cuadro Nº4.2.1.

Apliquemos estos datos a la fórmula Nº4.2.1, obtenemos la siguiente expresión:

Page 37: Estadística inferencial maricela ayala

Y R=32.5+(1)(11.4611.46 )X-(1)( 11.46

11.46 )22.5

Simplificando términos obtenemos:

Y R=32.5+X−22.5

Y R=10+X

Escojamos cualquier valor de X del Cuadro Nº4.2.1 por ejemplo para María

X=30, reemplazando este valor en (b).

Y R=10+30=40

Vemos en el Cuadro Nº4.2.1 el valor que corresponde a María efectivamente es

40. Es decir, podemos usar la ecuación Nº4.2.1 para predecir los valores de Y

conociendo los valores de X.

Esta fórmula de regresión se puede para dos variables X y Y, entre las cuales

no es obligatorio que exista una correlación lineal perfecta, es decir, no es

obligatorio que r para la correlación entre X y Y sea siempre igual a 1. Este

valor de r para otras aplicaciones de la regresión, puede tomar cualquier valor

distinto.

EJERCICIO RESUELTOS DE REGRESIÓN LÑINEAL SIMPLE

Page 38: Estadística inferencial maricela ayala

Al aplicar un test de inteligencia a una muestra representativa constituida por

800 alumnos, se obtuvo la puntuación media de 30,4 puntos, con la desviación

estándar de 12.6 puntos.

La edad media de la muestra fue de 14.5 años, con la desviación estándar de

3.2 años.

El coeficiente de correlación lineal de Pearson entre la variable Y, edad de

sujetos estudiados y la variables X, rendimiento mental de los mismos sujetos,

fue r=0,89

Con estos datos se pide determinar la ecuación de regresión rectilínea de edad

en base del puntaje del rendimiento mental.

¿Qué edad corresponde a los sujetos que alcanzan puntuaciones de:

X1=18 puntos X3=¿25 puntos X5=60 puntos

X2=25 puntos X 4=50 puntosX6=80 puntos?

Datos:

Y= 14.5

X=30.4

SY=¿ 3.2

SX=¿ 12.6

r=0.89

Aplicando estos datos en la fórmula Nº 4.2.1 se tiene:

Page 39: Estadística inferencial maricela ayala

Y R=14.5+0.89( 3.212.6 )X-0.89( 3.2

12.6 )30.4

Y R=14.5+0.226 X−6.87

Y R=7.63+0.226 X. Es la ecuación de regresión buscada

Respuesta de la primera pregunta

X1=18

Y R=7.63+0.226 (18 )=7.63+4.07

Y R=11.7 años

Segunda pregunta

X2=25

Y R=7.63+0.226 (25 )=7.63+5.65

Y R=13.28añ os

Tercera pregunta

X3=45

Y R=7.63+0.226 (45 )=7.63+10.17

Y R=17.8añ os

Cuarta pregunta

X 4=50

Y R=7.63+0.226 (50 )=7.63+11.3

Y R=18.93añ os

Page 40: Estadística inferencial maricela ayala

Quinta pregunta

X5=60

Y R=7.63+0.226 (60 )=7.63+13.56

Y R=21.19añ os

Sexta pregunta

X6=80

Y R=7.63+0.226 (80 )=7.63+18.08

Y R=25.71añ os

RELACIONES

La correlación se ocupa de establecer la magnitud y la dirección de las

relaciones. Antes de profundizar en estos aspectos particulares de las

relaciones, analizaremos algunas características generales de éstas, con las

cuales podemos comprender mejor el material específico acerca de la

correlación.

RELACIONES LINEALES

Para iniciar nuestro análisis de las relaciones, veamos una relación entre dos

variables. La siguiente tabla muestra el salario mensual que percibieron cinco

agentes ventas y el valor en dólares de la mercancía vendida por cada uno de

ellos en ese mes.

Page 41: Estadística inferencial maricela ayala

AGENTE VARIABLE X MERCANCÍA

VENDIDA ($)

Y VARIABLE

SALARIO ($)

1

2

3

4

5

0

1000

2000

3000

4000

500

900

1300

1700

2100

Podemos analizar mejor la relación entre estas variables si trazamos una

gráfica utilizando los valores X y Y, para cada agente de ventas, como los

puntos de dicha gráfica. Él es una gráfica de dispersión o dispersigrama.

Una gráfica de dispersión o dispersigrama es una gráfica de parejas de

valores X y Y.

La gráfica de dispersión para los datos de los agentes de ventas aparece en

la figura 6.1. En relación con esta figura, vemos que todos los puntos caen

sobre una línea recta. Cuando una línea recta describe la relación entre dos

variables, se dice que esta relación lineal.

Una relación lineal entre dos variables es aquella que puede representarse

con la mejor exactitud mediante una línea recta.

Observe que no todas las relaciones son lineales; algunas son curvilíneas.

En este caso, al trazar una gráfica de dispersión para las variables X y Y,

una línea curva ajusta mejor a los datos que una línea recta.

Page 42: Estadística inferencial maricela ayala

CÁLCULO DE LA (r) DE

PEARSON

Page 43: Estadística inferencial maricela ayala

La ecuación para calcular la r de Pearson mediante datos:

r=∑ z x z yN−1

Donde∑ z x z yes la suma de los productos de cada pareja de puntajes z.

Para utilizar esta ecuación, primero hay que convertir cada dato en bruto en su

valor transformado. Esto puede tardar mucho tiempo y crear errores de

redondeo. Con algún álgebra, esta ecuación se puede transformar en una

ecuación de cálculo que utilice datos en bruto:

ECUACIÓN PARA EL CÁLCULO DE LA (r) DE PEARSON

r=∑ XY−¿¿¿

Dónde: ∑ XY es la suma de los productos de cada pareja X y Y, ∑ XY

también se llama la suma de productos cruzados.

La tabla 6.4 contiene algunos de los datos hipotéticos reunidos a partir de cinco

sujetos.

Datos hipotéticos para el cálculo de la r de Pearson

TABLA 6.4

SUBJETIVO X Y X2 Y 2 XY

Page 44: Estadística inferencial maricela ayala

A 1 2 1 4 2

B 3 5 9 25 15

C 4 3 16 9 12

D 6 7 36 49 42

E 7 5 49 25 35

TOTAL 21 22 111 112 106

r=∑ XY−¿¿¿

r=106−

21(22)5

√ [111−(21)2

5 ] [112−(22)2

5 ]

r= 13.618.616

r=0.731

r=0.73

Utilicemos estos datos para calcular la r de Pearson:

r=∑ XY−¿¿¿

∑ XYes la suma de los productos cruzados; se determina multiplicando los

datos X y Y para cada sujeto y luego sumando los productos resultantes. El

cálculo de ∑ XY y de los otros términos aparece en la tabla 6.4. Al sustituir

estos valores en la ecuación anterior, obtenemos.

Page 45: Estadística inferencial maricela ayala

r=106−

21(22)5

√ [111−(21)2

5 ] [112−(22)2

5 ]

r= 13.618.616

r=0.731

r=0.73

PROBLEMA DE PRÁCTICA 6.1

Resolvamos otro ejercicio. Esta utilizaremos los datos de la tabla 6.1. Para su

conveniencia, hemos reproducido estos datos en las primeras tres columnas de

la tabla 6.5. En este ejemplo tenemos una relación lineal imperfecta y estemos

interesados en calcular la magnitud y dirección de la relación mediante la r de

Pearson. La solución también aparece en la tabla 6.5.

IQ y el promedio de las calificaciones: cálculo de la r de Pearson

TABLA 6.5

Page 46: Estadística inferencial maricela ayala

ESTUDIANTE

NÚMERO

IQX PROMEDIO

DE DATOS Y

X2 Y 2 XY

1

2

3

4

5

6

7

8

9

10

11

12

110

112

118

119

122

125

127

130

132

134

136

138

1.0

1.6

1.2

2.1

2.6

1.8

2.6

2.0

3.2

2.6

3.0

3.6

12,100

12,544

13,924

14,161

14,884

15,625

16,129

16,900

17,424

17,956

18,496

19,044

1.00

2.56

1.44

4.41

6.76

3.24

6.76

4.00

10.24

6.76

9.00

12.96

110.0

179.2

141.6

249.9

317.2

225.0

330.2

260.0

422.4

384.4

408.0

496.8

TOTAL 1503 27.3 189,187 69.13 3488.7

r=∑ XY−¿¿¿

r=3488.7−

1503(27.3)12

√ [189,187−(1503)2

12 ] [69.13−(27.3)2

12 ]

r=69.37581.088

r=0.856

r=0.86

PROBLEMA DE PRÁCTICA 6.2

Page 47: Estadística inferencial maricela ayala

Tratemos de resolver otro problema. ¿Se ha puesto a reflexionar si es verdad

que los opuestos se atraen? Todos hemos estado ante parejas en las que sus

miembros parecen ser muy diferentes entre sí. ¿Pero esto es lo usual? ¿Qué

fomenta la atracción: las diferencias o las similitudes? Un psicólogo social

abordó este problema pidiendo a 15 estudiantes que respondieran un

cuestionario relacionado con un sus actitudes hacia una amplia gama de temas.

Tiempo después les mostró las “actitudes” de un extraño hacia los mismos

temas y les pidió que evaluaran su agrado o inclinación por el extraño y si,

probablemente, disfrutarían el trabajar con él. En realidad, las “actitudes” del

extraño fueron elaboradas por el experimentador y variaron de sujeto a sujeto,

con respecto a la proporción de actitudes similares que hubo entre el extraño y

el individuo que participó en el experimento. De esa manera, se obtuvieron

datos, para cada sujeto a sus actitudes y la atracción que sintió hacia un

extraño, basada en las actitudes de este último hacia los mismos temas. Si los

iguales se atraen, entonces debería existir una relación directa entre la

atracción hacia un extraño y la proporción de actitudes similares. Los datos se

presentan en la tabla 6.6. Entre mayor sea la atracción, más alto será el

puntaje. El puntaje de atracción máximo es de 14. Calcule el coeficiente de

correlación r de Pearson * para determinar si existe una relación directa entre la

similitud de actitudes y el grado de atracción.

Datos y solución del problema de práctica 6.2

TABLA 6.6

Page 48: Estadística inferencial maricela ayala

ESTUDIANTE

NÚMERO

PROPORCIÓN DE

ACTITUDES

SIMILARES X

ATRACCIÓN Y X2 Y 2 XY

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0.30

0.44

0.67

0.00

0.50

0.15

0.58

0.32

0.72

1.00

0.87

0.09

0.82

0.64

0.24

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11.0

11.7

11.5

7.3

10.0

10.0

7.5

0.090

0.194

0.449

0.000

0.250

0.022

0.336

0.102

0.518

1.000

0.757

0.008

0.672

0.410

0.058

79.21

86.49

92.16

38.44

77.44

65.61

90.25

50.41

121.00

136.89

132.25

53.29

100.00

100.00

56.25

2.670

4.092

6.432

0.000

4.400

1.215

5.510

2.272

7.920

11.700

10.005

0.657

8.200

6.400

1.800

TOTAL 7.34 136.5 4.866 1279.69 73.273

r=∑ XY−¿¿¿

r=73.273−

7.34(136.5)15

√ [4.866−(7.34)2

15 ] [1279.69−(136.5)2

15 ]r=6.479

6.916

r=0.937

r=0.94

Page 49: Estadística inferencial maricela ayala

Por lo tanto, con base en estos estudiantes, existe una relación muy fuerte entre

las similitudes y las atracciones.

Una segunda interpretación de la r de Pearson. La r de Pearson también se

puede interpretar en términos de la variabilidad de Y explicada por medio de X.

este punto de vista produce más información importante acerca de r y la

relación entre X y Y. Considere, por ejemplo, la figura 6.9, en la cual se muestra

una relación imperfecta entre X y Y. En este ejemplo, la variable X representa

una competencia de ortografía y la variable Y la habilidad en la escritura de seis

estudiantes de tercer grado. Suponga que queremos predecir la calificación en

la escritura de María, la estudiante cuya calificación en ortografía es de 88. Si

no hubiese una relación entre la escritura y la ortografía.

EJERCICIOS DE APLICACIÓN

1. En un largo curso de introducción a la sociología, un profesor hace dos

exámenes. El profesor quiere determinar si las calificaciones de los

estudiantes en el segundo examen correlacionadas con las calificaciones

del primero. Para facilitar la los, se elige una muestra de ocho estudiar

calificaciones aparecen en la siguiente tabla.

Page 50: Estadística inferencial maricela ayala

a. Construya una gráfica de dispersión para datos, utilizando la

calificación del primer examen como la variable X. ¿Parece lineal

la relación? Y 2

b. Suponga que existe una relación lineal en calificaciones de los dos

exámenes, calcule la r de Pearson.

c. ¿Qué tan bien explican la relación, las calificaciones del segundo

examen?

50 55 60 65 70 75 80 850

20

40

60

80

100

120

Series2

Page 51: Estadística inferencial maricela ayala

r=∑ XY−¿¿¿

r=46239−365027

8

√ [39739−(559)2

8 ][54687−(653)2

8 ]r=¿0,629531757

Se puede decir que es una relación Baja y positiva que los dos exámenes

tienen entre si

2. Un investigador realiza un estudio de la relación entre el consumo de

cigarros y las enfermedades determinan la cantidad de cigarros fumados

diariamente y de días de ausencia en el trabajo dura último año debido a

una enfermedad para 13 individuos en la compañía donde trabaja este

investigador. Los datos aparecen en la tabla anexa.

SUJETO CIGARROS

CONSUMIDOS

DÍAS DE

AUSENCIA

1

2

3

4

5

6

7

0

0

0

10

13

20

27

1

3

8

10

4

14

5

Page 52: Estadística inferencial maricela ayala

8

9

10

11

12

35

35

44

53

60

6

12

16

10

16

a. Construya una gráfica de dispersión para estos datos: ¿Se ve una

relación lineal?

b. Calcule el valor de la r de Pearson.

c. Elimine los datos de los sujetos 1, 2, 3, 10, 11 y 12. Esto

disminuye el rango de ambas variables. Vuelva a calcular r para

los sujetos restantes. ¿Qué afecto tiene la disminución del rango

sobre r?

d. A utilizar todo el conjunto de datos, ¿qué porcentaje de la

variabilidad en el número de días de ausencia es explicado por la

cantidad de cigarros fumados diariamente? ¿De qué sirve ese

valor?

0 10 20 30 40 50 60 700

2

4

6

8

10

12

14

16

18

Series2

Page 53: Estadística inferencial maricela ayala

r=∑ XY−¿¿¿

r=3391−31185

12

√ [12193−(297)2

12 ] [1203−(105)2

12 ]

r=¿ 0,6753

Page 54: Estadística inferencial maricela ayala

5 10 15 20 25 30 35 400

2

4

6

8

10

12

14

16

Series2

r=∑ XY−¿¿¿

r=1197−7140

6

√ [3842−(140)2

6 ][517−(51)2

6 ]

r=¿ 0,0318

3. Un educador ha construido un examen para las aptitudes mecánicas y

desea determinar si éste es confiable, mediante dos administraciones

Page 55: Estadística inferencial maricela ayala

con un lapso de 1 mes entre ellas. Se realiza un estudio en el cual 10

estudiantes reciben dos administraciones del examen, donde la segunda

administración ocurre un mes después que la primera. Los datos

aparecen en la tabla.

a. Construya una gráfica de dispersión para las parejas de datos.

b. Determine el valor de r.

c. ¿Sería justo decir que éste es un examen confiable? Explique esto al

utilizar r2.

SUJETO ADMINISTRACIÓN 1 ADMINISTRACIÓN 2

1

2

3

4

5

6

7

8

9

10

10

12

20

25

27

35

43

40

32

47

10

15

17

25

32

37

40

38

30

49

5 10 15 20 25 30 35 40 45 500

10

20

30

40

50

60

Series2

Page 56: Estadística inferencial maricela ayala

r=∑ XY−¿¿¿

r=9907−85263

10

√ [9905−(291)2

10 ] [9977−(293)2

10 ]

r=¿ 0,9881

La investigación no es confiable por que los datos son tomados en dos fecha

totalmente distintas

4. Un grupo de investigadores ha diseñado un cuestionario sobre la tensión,

consistente en 15 sucesos. Ellos están interesados en determinar si

existe una coincidencia entre dos culturas acerca de la cantidad relativa

de ajustes que acarrea cada suceso. El cuestionario se aplica a 300

estadounidenses y 300 italianos. Cada individuo debe utilizar el evento

“matrimonio” como estándar y juzgar los demás eventos en relación con

Page 57: Estadística inferencial maricela ayala

el ajuste necesario para el matrimonio. El matrimonio recibe un valor

arbitrario de 50 puntos. Si se considera que un evento requiere de más

ajustes que el matrimonio, el evento debe recibir más de 50 puntos. El

número de puntos excedentes depende de la cantidad de ajustes

requeridos. Después de que cada sujeto de cada cultura ha asignado

puntos a todos los eventos, se promedian los puntos de cada evento. Los

resultados aparecen en la siguiente tabla:

EVENTOS ESTADOUNIDENSES ITALIANOS

Page 58: Estadística inferencial maricela ayala

Muerte de la esposa

Divorcio

Separación de la pareja

Temporada en prisión

Lesiones personales

Matrimonio

Despedido del trabajo

Jubilación

Embarazo

Dificultades sexuales

Reajustes económicos

Problemas con la familia

política

Problemas con el jefe

Vacaciones

Navidad

100

73

65

63

53

50

47

45

40

39

39

29

23

13

12

80

95

85

52

72

50

40

30

28

42

36

41

35

16

10

a. Suponga que los datos tienen al menos una escala de intervalo y

calcule la correlación entre los datos estadounidenses y la de los

italianos.

b. Suponga que los datos sólo tienen una escala ordinal y calcule la

correlación entre los datos de ambas culturas.

0 20 40 60 80 100 1200

102030405060708090

100

Series2

Page 59: Estadística inferencial maricela ayala

r=∑ XY−¿¿¿

r=39766− 491992

15

√ [39391−(691)2

15 ][42644−(712)2

15 ]

r=¿ 0,8519

La r es alta y positiva es decir que los comportamiento de las dos

nacionalidades son bastante similares

Page 60: Estadística inferencial maricela ayala

INDIVIDUO EXÁMEN CON LÁPIZ

Y PAPEL

SIQUIATRA

A

SIQUIATRA

B

1

2

3

4

5

6

7

8

9

10

11

12

48

37

30

45

31

24

28

18

35

15

42

22

12

11

4

7

10

8

3

1

9

2

6

5

9

12

5

8

11

7

4

1

6

2

10

3

5. Un psicólogo ha construido un examen lápiz - papel, a fin de medir la

depresión. Para comparar los datos del examen con los datos de los

expertos, 12 individuos “con perturbaciones emocionales” realizan el

examen lápiz – papel. Los individuos también son calificados de manera

independiente por dos siquiatras, de acuerdo con el grado de depresión

determinado por cada uno como resultado de entrevistas detalladas. Los

datos aparecen a continuación. Los datos mayores corresponden a una

mayor depresión.

a. ¿Cuál es la correlación entre los datos de los dos siquiatras?

b. ¿Cuál es la correlación entre las calificaciones del examen con

lápiz y papel y los datos de cada siquiatra?

Page 61: Estadística inferencial maricela ayala

0 2 4 6 8 10 12 140

2

4

6

8

10

12

14

Series2

r=∑ XY−¿¿¿

r=628−650

12

√ [650−(78)2

12 ] [650−(78)2

12 ]

Page 62: Estadística inferencial maricela ayala

r=¿ 0,8519

La relación se da con un mismo criterio por los psiquiatras

10 15 20 25 30 35 40 45 500

2

4

6

8

10

12

14

Series2

r=∑ XY−¿¿¿

r=2729−29250

12

√ [12941−(375)2

12 ][650−(78)2

12 ]r=¿ 0,6973

Page 63: Estadística inferencial maricela ayala

La relación entre las dos variables es baja y positiva

10 15 20 25 30 35 40 45 500

2

4

6

8

10

12

14

Series2

r=∑ XY−¿¿¿

r=2729−29250

12

√ [12941−(375)2

12 ][650−(78)2

12 ]r=¿ 0,697

Page 64: Estadística inferencial maricela ayala

6. Para este problema, suponga que usted es un psicólogo que labora en el

departamento de recursos humanos de una gran corporación. El

presidente de la compañía acaba de hablar con usted acerca de la

importancia de contratar personal productivo en la sección de

manufactura de la empresa y le ha pedido que ayude a mejorar la

capacidad de la institución para hacer esto. Existen 300 empleados en

esta sección y cada obrero fabrica el mismo artículo. Hasta ahora, la

corporación sólo ha recurrido a entrevistas para elegir a estos

empleados. Usted busca bibliografía y descubre dos pruebas de

desempeño, lápiz – papel, bien estandarizadas, y piensa que podrían

estar relacionados con los requisitos desempeño de esta sección. Para

determinar si alguna de ellas se puede utilizar como dispositivo de

selección, elige 10 empleados representativos de la sección de

manufactura, garantizando que un amplio rango de desempeño quede

representado en la muestra, y realiza las dos pruebas con cada

empleado. Los datos aparecen en la siguiente tabla.

Mientras mayor sea la calificación, mejor será el desempeño. Las

calificaciones de desempeño en el trabajo. Las calificaciones de

desempeño fabricados por cada empleado por semana, promediados

durante los últimos 6 meses.

a. Construya una gráfica de dispersión del desempeño en el trabajo

y la primera prueba, utilizando la prueba 1 como la variable X.

¿Parece lineal la relación?

b. Suponga que la relación anterior es lineal y calcule el valor de la r

de Pearson.

c. Construya una gráfica de dispersión del desempeño en el trabajo

y la segunda prueba, utilizando la prueba 2 como la variable X.

¿Parece lineal la relación?

d. Suponga que la relación anterior es lineal, calcule el valor de la r

de Pearson.

Page 65: Estadística inferencial maricela ayala

e. Si sólo pudiera utilizar una de las pruebas para la selección de los

empleados, ¿utilizaría alguna de ellas? En tal caso, ¿cuál de

ellas? Explique.

EMPLEADO 1 2 3 4 5 6 7 8 9 10Desempeño en el trabajo 50 74 62 90 98 52 68 80 88 76Examen 1 10 19 20 20 21 14 10 24 16 14Examen 2 25 35 40 49 50 29 32 44 46 35

8 10 12 14 16 18 20 22 24 260

20

40

60

80

100

120

Series2

Page 66: Estadística inferencial maricela ayala

r=∑ XY−¿¿¿

r=12804−123984

10

√ [3026−(168)2

10 ] [56772−(738)2

10 ]

r=¿ 0,5917

20 25 30 35 40 45 50 550

20

40

60

80

100

120

Series2

Page 67: Estadística inferencial maricela ayala

r=∑ XY−¿¿¿

r=29542−284130

10

√ [15493−(385)2

10 ] [56772−(738)2

10 ]

r=¿ 0,9076

Page 68: Estadística inferencial maricela ayala

ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN INTERNACIONAL

EVALUACIÓN

SEXTO A NOCHE

CÁLCULO DEL COEFICIENTE r DE PEARSON Y REALICE LA GRÁFICA

ESTUDIANTE

NÚMERO

PROPORCIÓN DE

ACTITUDES SIMILARES X

ATRACCIÓN Y

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0.30

0.44

0.67

0.00

0.50

0.15

0.58

0.32

0.72

1.00

0.87

0.09

0.82

0.64

0.24

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11.0

11.7

11.5

7.3

10.0

10.0

7.5

Page 69: Estadística inferencial maricela ayala

EJERCICIO RESUELTO Nº2 DE CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

DETERMINANCDO EL CUADRO AUXILIAR Y REALICE LA GRÁFICA

PRUEBA DE HABILIDAD MENTAL

X

EXAMEN DE ADMISIÓN

YSusana 5 15Iván 10 20Lourdes 15 25Aldo 20 30Juan 25 35María 30 40César 35 45Olga 40 50

Page 70: Estadística inferencial maricela ayala

ESCUELA DE COMERCIO EXTERIOR Y NEGOCIACIÓN INTERNACIONAL

EVALUACIÓN

SEXTO A NOCHE

EJERCICIO RESUELTO Nº2 DE CÁLCULO DEL COEFICIENTE DE

CORRELACIÓN ENTRE DOS CONJUNTOS DE DATOS AGRUPADOS

DETERMINANDO EL CUADRO AUXILIAR Y REALICE LA GRÁFICA

ESTADOUNIDENSES

ITALIANOS

100

73

65

63

53

50

47

45

40

39

39

29

23

13

12

80

95

85

52

72

50

40

30

28

42

36

41

35

16

10

Page 71: Estadística inferencial maricela ayala

c. Suponga que los datos tienen al menos una escala de intervalo y

calcule la correlación entre los datos estadounidenses y la de los

italianos.

d. Suponga que los datos sólo tienen una escala ordinal y calcule la

correlación entre los datos de ambas culturas.

BIBLIOGRAFÍA

Legoas, L. A. (2008). Estadística Básica. En L. A. Legoas, Estadística Básica (págs. 177-211). Lima: San Marcos.

Mendano, J. (2007). Estadística General. En J. Mendano, Estadística General. México: Majangrail.

Zamora, M. C. (2006). Estadística Inferencial. En M. C. Zamora, Estadística Inferencial. Lima: Moshera.

Universidad Politécnica Estatal del Carchi

Page 72: Estadística inferencial maricela ayala

Comercio Internacional, Integración, Administración y

Economía Empresarial.

Escuela: Comercio Exterior y Negociación Comercial

Internacional

PORTAFOLIO DEL ALUMNO

MARICELA AYALA

ESTADISTICA INFERENCIAL II

ING. JORGE POZO

Nivel: sexto Paralelo: “A” noche

AÑO-LECTIVO

2012

CORRELACIÓN

Page 73: Estadística inferencial maricela ayala

En capítulos anteriores se estudiaron las distribuciones de una frecuencia,

ordenaremos el estudio de 2 variables y qué sentido tiene afirmar que 2

variables están relacionadas linealmente entre sí.

En la correlación hasta ahora se a abordado en forma general problemas

relacionados únicamente con una solo variable es decir univariados sin

embargo existen muchas situaciones en las cuales se trabaja con pares de

variables, y donde se busca contestar la pregunta de si existe o no una

asociación entre ambas mediciones o variables. (Cortes, 2009)

El problema cercano de la correlación o grado de interconexión

entre var iables que intentan determinar con que precis ión

descr ibe o expl ica la relación entre var iables, una ecuación l ineal

o de cualquier otro t ipo, s i todos los valores de las var iables

están perfectamente correlacionados o que hay correlación

perfecta entre el las. (Spiegel, 1991)

COEFICIENTE DE CORRELACIÓN.- Expresa de una manera cuantitativa la

magnitud y dirección de una relación.

Coeficiente de correlación se lo designa en la letra r puede variar entre +1 a -1

el signo nos dice si la relación es positiva o negativa.

Como +1 es el mayor número posible este representa una relación perfecta

de una relación positiva.

Si el coeficiente es -1 que la relación se perfecta que la relación es negativa.

Cuando la correlación es cero (0) no existe una relación entre x ۸ y significa

que x ۸ y no crece ni decrece la recta es horizontal.

COEFICIENTE DE CORRELACIÓN

El coeficiente de correlación de la r de Person toma valores comprendidos entre

-1 y +1 pasando por (o) el numero -1 corresponde a una correlación negativa

Page 74: Estadística inferencial maricela ayala

perfecta y la +1 a una correlación positiva perfecta el coeficiente de r es igual a

O se obtiene cuando no existe ninguna correlación negativa y os valores

positivos menores que uno indica una correlación positiva.

COEFICIENTE DE CORRELACIÓN

El coeficiente entre la variación explicada y la variación total se llaman

coeficiente de determinación. Si la variación explicada es cero o sea toda la

variación es variación inexplicada, ese coeficiente es cero. Si la variación

inexplicada es cero o sea toda la variación es explicada, el coeficiente es uno.

(Spiegel, 1991)

COEFICIENTE DE CORRELACIÓN

El valor del coeficiente de correlación también llamado de Person ayuda a

contestar la pregunta ¿existe correlación lineal entre las dos variables? El

coeficiente de correlación de r siempre tiene un valor de -1 y +1 indica una

correlación positiva o negativa. (Cortes, 2009)

RELACIÓN PERFECTA.- Es aquella que existe una relación positiva o negativa

para lo cual todos los puntos caen sobre la recta.

Page 75: Estadística inferencial maricela ayala

RELACIÓN IMPERFECTA.- Es aquella que existe una relación pero no todos

los puntos caen sobre una recta.

Un plano cartesiano con una mejor exactitud mediante una línea recta por la

ecuación.

Y= bx + a

b=pendiente o m= y2− y1x2−x1

a= Ordenada

EJEMPLO DE UNA RELACIÓN NEGATIVA

Es una relación negativa perfecta, ya que los valores mayores se asocian con

los otros valores menores de la relación.

COEFICIENTE DE CORRELACIÓN DE PEARSON

Y

15 ∆X (8, 13)

∆Y (20,10)

10

5

X

5 10 15 20 25

Page 76: Estadística inferencial maricela ayala

Todo coeficiente de correlación que no sea cero indica cierto grado de relación

entre 2 variables, lo que el grado de intensidad es fuerte o débil de una

interpretación matemática pura, el hecho de que 2 variables tienden a aumentar

o disminución sobre una de ellas.

La r de Pearson es una medida del grado en el cual las parejas de datos

ocupan posiciones iguales u opuestas dentro sus propias distribuciones.

(PAGANO, Robert. Estadística para las ciencias del comportamiento. En

estadística inferencial. 7a.ed. Mexico. DF: 2006.pp 113 ISBN: 0534617670)

En estadística, el coeficiente de correlación de Pearson es un índice que mide

la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la

covarianza, la correlación de Pearson es independiente de la escala de medida

de las variables. De manera menos formal, podemos definir el coeficiente de

correlación de Pearson como un índice que puede utilizarse para medir el grado

de relación de dos variables siempre y cuando ambas sean cuantitativas.

(Cortes, 2009)

MATEMARICAMENTE Entre 2 variables se lo interpreta como:

r=N ¿¿

INTERPRETACIÓN.- Que tan elevado es el coeficiente de correlación dado

todo r=0 indica cierto grado de relación entre 2 variables, que grado de

Intensidad de relación se puede considerar, si la relación es fuerte o débil.

COEFICIENTE DE CORRELACIÓN DE RANGOS DE SPERMAN

El coeficiente de correlación mide el grado de asociación entre dos cantidades,

pero no mira el nivel de acuerdo o concordancia.

Page 77: Estadística inferencial maricela ayala

Esta prueba estadística permite medir la correlación o asociación de dos

variables y es aplicable cuando las mediciones se realizan en una escala

ordinal, aprovechando la clasificación por rangos. (Spiegel, 1991)

Se utiliza cuando una o ambas variables

corresponden solo a una escala ordinal

Sperman es en realidad el coeficiente de

correlación lineal r de Pearson aplicado a los

datos que satisfacen los requisitos de una escala

ordinal. (PAGANO, Robert. Estadística para

las ciencias del comportamiento. En estadística inferencial. 7a.ed. Mexico. DF:

2006.pp 121ISBN: 0534617670)

Cuando una o más variables son solo de escala ordinal.

FORMULA MATEMÁTICA:

rs = 1- 6∑ Di2

N3−N

Di= R(xi) – R(yi)

EJERCICIO EN CLASE Nº 1

Dados los siguientes conjuntos de parejas de datos muéstrales:

AX Y

BX Y

CX Y

1 1

4 2

7 3

10 4

13 5

4 2

5 4

8 5

9 1

10 4

1 5

4 4

7 3

10 2

13 1

Page 78: Estadística inferencial maricela ayala

a) Utilice la ecuación para el valor de la r de Pearson para cada conjunto.

Observe que en el conjunto B, donde la correlación es menor, algunos de los

valores;

r=∑ Z X ZY /(N−1)

Zx Zy son positivos y otros son negativos. Éstos tienden a cancelarse entre sí,

lo cual hace que r tenga una menor magnitud. Sin embargo, en los conjuntos A

Y C, todos los productos tienen el mismo signo, haciendo que la magnitud de r

aumente. Cuando las parejas de datos ocupan las mismas u opuestas

posiciones dentro de sus propias distribuciones, los productos Zx Zy tienen el

mismo signo, lo cual produce una mayor magnitud de r.

Para A calculamos los valores de X2Y 2, y las sumatorias respectivas.

b) Calcule r para el conjunto B, utilizando la ecuación para los datos en bruto.

¿Qué prefiere, utilizar la ecuación de los datos en bruto o la de los puntajes z?

C) Sume la constante 5 a los datos X en el conjunto A y calcule r de nuevo,

mediante la ecuación de los datos en bruto. ¿Ha cambiado el valor?

d) Multiplique los datos X del conjunto A por 5 y calcule r de nuevo. ¿ ha

cambiado algún valor?

e) generalice los resultados obtenidos en las partes c y d, restando y dividiendo

los datos entre una constante. ¿Qué le dice esto sobre r ?

Page 79: Estadística inferencial maricela ayala
Page 80: Estadística inferencial maricela ayala
Page 81: Estadística inferencial maricela ayala

2.- En un largo curso de introducción a la sociología, un profesor hace dos

exámenes. El profesor quiere determinar si las calificaciones de los estudiantes

en el segundo examen están correlacionadas con las calificaciones del primero.

Page 82: Estadística inferencial maricela ayala

Para facilitar, se elige una muestra de ocho estudiantes con las calificaciones

que aparecen en la siguiente tabla.

a) Construya una grafica de dispersión para los datos, utilizando la calificación

del primer examen como la variable X. ¿Parece lineal la ecuación?

b) Suponga que existe una relación lineal en las calificaciones de los dos

exámenes. Calcule el valor de la r de Pearson.

c) ¿Qué tan bien explican, las calificaciones del segundo examen.?

Ejercicio 14:

ejercicio 14ESTUDIANTE EXAMEN1 EXAMEN 2

1 60 602 75 1003 70 804 72 685 54 736 83 977 80 858 65 90

ESTUDIANTE EXAMEN1 EXAMEN 2 X2 Y2

Page 83: Estadística inferencial maricela ayala

1 60 60 3600 36002 75 100 5625 100003 70 80 4900 64004 72 68 5184 46245 54 73 2916 53296 83 97 6889 94097 80 85 6400 72258 65 90 4225 8100

TOTAL 8 559 653 39739 54687

DATOS∑XY 46239

R=7178,875

(∑X) 559 940835,891(∑Y) 653

n 8 R= 0,00763032∑X2 39739 % 0,76303158∑Y2 54687

Se puede analizar que de una perspectiva los estudiante han tenido un incremento del 73% para la realización del segundo examen es decir las políticas adoptadas por estudiante docente han funcionado.

La tabla muestra un salario mensual que perciben 5 agentes de ventas el valor

en dólares.

AGENTE VARIABLE X MERCANCIA VENDIDA

EN $

Y VARIABLE SALARIOS EN

$

1 0 500

2 1000 900

3 2000 1300

4 3000 1700

5 4000 2100

Page 84: Estadística inferencial maricela ayala

0 500 1000 1500 2000 2500 3000 3500 4000 45000

500

1000

1500

2000

2500

m = ∆ y∆ x

=1700−13003000−2000

m= 400

1000=0.40

a= 500

y= ax + b

y=0.40x + 500

La ecuación y=0.40x + 500 nos indica la relación entre el salario y la

mercadería vendida esto nos indica que y se incrementa 0.4 por cada unitario

de xi, con esta relación podemos producir cualquier valor de y si solo se conoce

el valor de xi.

EJEMPLO

X=1500

Y`= 0,40 x + 500

Y´= 0,40(1500) + 500

Y´= 1100

Así una agente vende $1500 de mercancía y su salario casi igual a $1100

Page 85: Estadística inferencial maricela ayala

EJERCICIO:

ESTUDIANTE PRUEBA DE HABILIDAD

MENTAL (X)

EXAMEN DE ADMISIÓN

(Y)

María

Jessica

Carla

Nancy

Juan

18

15

12

9

3

82

68

60

32

18

GRÁFICA:

Page 86: Estadística inferencial maricela ayala

2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

EJEMPLO DEL COEFICIENTE DE SPERMAN

ESTUDIANTE COEFICIENTE

INTELECTUAL X

X´ PUNTAJE

Y

Y´ Di=x´-y´ Di2

1

2

3

4

5

6

7

8

9

10

0.30

0.44

0.67

0

0.50

0.15

0.58

0.32

0.72

1

11

9

5

15

8

13

7

10

4

1

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11

11.7

9

8

6

15

10

11

7

14

3

1

2

1

-1

0

-2

2

0

-4

1

0

4

1

1

0

4

4

0

16

1

0

Page 87: Estadística inferencial maricela ayala

11

12

13

14

15

0.87

0.09

0.89

0.64

0.24

3

14

2

6

12

11.5

7.3

10

10

7.5

2

13

4.5

4.5

12

1

1

-2.5

1.5

0

1

1

6.25

2.25

0

41.50

r= 1 - 6∑ Di2

N3−N

r= 1 – 6(4.5)

3375−15

r= 1 - 249

3360

r= 0.93

EJEMPLOS DE EJERCICIOS:

X Y X2 Y 2 x.y

MaríaOlgaSusanaAldoJuan

18151293

8268603218

324225144819

6724462436001024324

1476102072028854

57 260 783 16296 3558

r = N (∑ XY )−¿¿

Page 88: Estadística inferencial maricela ayala

r = 5 (3558 )−(57 )(260)√¿¿¿

r = 17790−14820

√(3915−3249 )(81480−67600)

r = 2970

√9244080

r= 0.98

EJERCICIO Nº2

GRÁFICA

0 2 4 6 8 10 120

2

4

6

8

10

12

Page 89: Estadística inferencial maricela ayala

ECUACION

m=∆ y∆ x

=y2− y1

x2−x1

m=8.2−5.28−4.8

m=0.81

y} =mX+¿

y} =0.81 X+0.4 ¿

RESOLVER EL COEFICIENTE DE PEARSON

X Y X2 Y 2 x.y

1

2

3

4

5

6

7

6

5

7

10

2.5

2.5

9

5

3

4

8

1

6

10

36

25

49

100

6.25

6.25

81

25

9

16

64

1

36

100

30

15

28

80

2.5

15

90

Page 90: Estadística inferencial maricela ayala

8

9

10

11

12

1

11

4

8

12

2

9

7

11

12

1

121

16

64

144

4

81

49

121

144

2

99

28

88

144

78 78 649.50 650 621.50

r = N (∑ XY )−¿¿

r = 12 (621.50 )−(78 )(78)√¿¿¿

r = 7458−6084

√(7794−6084 )(7800−6084)

r = 1374

√(1710 )(1716)

r= 0.80

COEFICIENTE DE SPERMAN

X X´ Y Y´ Di=x´-y´ Di2

1

2

6

5

7

8

5

3

8

10

-1

-2

1

4

Page 91: Estadística inferencial maricela ayala

3

4

5

6

7

8

9

10

11

12

7

10

2.5

2.5

9

1

11

4

8

12

6

3

10.5

10.5

4

12

2

9

5

1

4

8

1

6

10

2

9

7

11

12

9

5

12

7

3

11

4

6

2

1

-3

-2

-1.5

3.5

1

1

-2

3

3

0

9

4

2.25

12.25

1

1

-4

9

9

0

48.5

r= 1 - 6∑ Di2

N3−N

r= 1 – 6(48.5)

1728−12

r= 1 - 291

1716

r= 0.83

Page 92: Estadística inferencial maricela ayala

EJERCICIO Nº3

GRÁFICA

0 2 4 6 8 10 120

2

4

6

8

10

12

ECUACION

m=∆ y∆ x

=y2− y1

x2−x1

m= 9.3−8.10.6−0.35

m=4.8

y} =mX+¿

y} =4.8 X+6.¿

Page 93: Estadística inferencial maricela ayala

RESOLVER EL COEFICIENTE DE PEARSON

X Y X2 Y 2 x.y

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

0.30

0.44

0.67

0

0.50

0.15

0.58

0.32

0.72

1

0.87

0.09

0.89

0.64

0.24

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11

11.7

11.5

7.3

10

10

7.5

0.09

0.19

0.45

0

0.25

0.02

0.34

0.10

0.52

1

0.76

0

0.79

0.41

0.06

79.21

86.49

92.16

38.44

77.44

65.61

90.25

50.41

121

136.89

132.25

53.29

100

100

56.25

2.67

4.09

6.43

0

4.4

1.22

5.51

2.27

7.92

11.7

10.01

0.66

8.9

6.4

1.8

7.41 136.50 4.98 1279.69 73.98

r = N (∑ XY )−¿¿

Page 94: Estadística inferencial maricela ayala

r = 15 (73.98 )−(7.41 )(136.50)√¿¿¿

r = 1109.70−1011.47

√(74.7−54.91 )(19195.35−18632.25)

r = 98.23

√(19.79 )(563.1)

r= 0.93

COEFICIENTE DE SPERMAN

ESTUDIANTE COEFICIENTE

INTELECTUAL X

X´ PUNTAJE

Y

Y´ Di=x´-y´ Di2

1

2

3

4

5

6

7

8

9

10

11

0.30

0.44

0.67

0

0.50

0.15

0.58

0.32

0.72

1

0.87

11

9

5

15

8

13

7

10

4

1

3

8.9

9.3

9.6

6.2

8.8

8.1

9.5

7.1

11

11.7

11.5

9

8

6

15

10

11

7

14

3

1

2

2

1

-1

0

-2

2

0

-4

1

0

1

4

1

1

0

4

4

0

16

1

0

1

Page 95: Estadística inferencial maricela ayala

12

13

14

15

0.09

0.89

0.64

0.24

14

2

6

12

7.3

10

10

7.5

13

4.5

4.5

12

1

-2.5

1.5

0

1

6.25

2.25

0

41.50

r= 1 - 6∑ Di2

N3−N

r= 1 – 6(4.5)

3375−15

r= 1 - 249

3360

r= 0.93

EJERCICIO Nº4

GRÁFICA

Page 96: Estadística inferencial maricela ayala

ECUACION

m=∆ y∆ x

=y2− y1

x2−x1

m=54,12−40,1811,7−8,1

m=3,87

y} =mX+¿

y} =3.87 X+1 ¿

Page 97: Estadística inferencial maricela ayala

RESOLVER EL COEFICIENTE DE PEARSON

X Y X2 Y 2 x.y

Maria

Olga

Susana

Aldo

Juan

18

15

12

9

3

82

68

60

32

18

324

225

144

81

9

6724

4624

3600

1024

324

1476

1020

720

288

54

57 260 783 16296 3558

r = N (∑ XY )−¿¿

r = 5 (3558 )−(57 )(260)√¿¿¿

r = 17790−14820

√(3915−3249 )(81480−67600)

r = 2970

√9244080

r= 0.98

Page 98: Estadística inferencial maricela ayala

COEFICIENTE DE SPERMAN

ESTUDIANTE COEFICIENTE

INTELECTUAL X

X´ PUNTAJE

Y

Y´ Di=x´-y´ Di2

Maria

Olga

Susana

Aldo

Juan

18

15

12

9

3

1

2

3

4

5

82

68

60

32

18

1

2

3

4

5

0

0

0

0

0

0

0

0

0

0

0

r= 1 - 6∑ Di2

N3−N

r= 1 – 6(0)

125−5

r= 1 - 0

120

r= 1

EJERCICIO Nº5

GRÁFICA

Page 99: Estadística inferencial maricela ayala

2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

EJERCICIO N º 5

ECUACION

m=∆ y∆ x

=y2− y1

x2−x1

m=60.68−44.289.9−6.3

m=4.56

y} =mX+¿

y} =4.56 X+1 ¿

RESOLVER EL COEFICIENTE DE PEARSON

X Y X2 Y 2 x.y

Page 100: Estadística inferencial maricela ayala

1

2

3

4

5

18

15

12

9

3

18

22

68

60

32

324

225

144

81

9

324

6724

4624

3600

1024

324

1230

816

540

96

57 260 783 16296 3006

r = N (∑ XY )−¿¿

r = 5 (3006 )−(57 )(260)√¿¿¿

r = 15030−14820

√(3915−3249 )(81480−67600)

r = 210

√(666 )(13880)

r= 0.07

COEFICIENTE DE SPERMAN

Page 101: Estadística inferencial maricela ayala

X X´ Y Y´ Di=x´-y´ Di2

1

2

3

4

5

18

15

12

9

3

1

2

3

4

5

18

82

68

60

32

5

1

2

3

4

-4

1

1

1

1

16

1

1

1

1

20

r= 1 - 6∑ Di2

N3−N

r= 1 – 6(20)

125−5

r= 1 - 120120

r= 0

EJERCICIO Nº6

Page 102: Estadística inferencial maricela ayala

GRÁFICO

2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

EJERCICIO Nº 6

m=∆ y∆ x

=y2− y1

x2−x1

m=62.32−44.2812−7.2

m=−3.76

y} =mX+¿

y} =-3.76 X+90.¿

Page 103: Estadística inferencial maricela ayala

RESOLVER EL COEFICIENTE DE PEARSON

X Y X2 Y 2 x.y

1

2

3

4

5

18

15

12

9

3

18

32

60

68

82

324

225

144

81

9

324

1024

3600

4624

6724

324

480

720

612

246

57 260 783 16296 2382

r = N (∑ XY )−¿¿

r = 5 (2382 )−(57 )(260)√¿¿¿

r = 11910−14820

√(3915−3249 )(81480−67600)

r = −2910

√(666 )(13880)

r= -0.96

Page 104: Estadística inferencial maricela ayala

EL COEFICIENTE DE PEARSON:

X Y X2 Y 2 x.y

J

K

L

P

F

Z

49

47

42

39

37

32

48

45

22

22

40

40

2401

2209

1764

1521

1369

1024

2304

2025

484

484

1600

1600

2352

2115

924

854

1480

1280

6 246 217 10288 8497 9009

r = N (∑ XY )−¿¿

r = 6 (9009 )− (246 )(217)√¿¿¿

r = 54054−53382

√(61728−60516 )(50982−47089)

r = 672

√(1212 )(3893)

Page 105: Estadística inferencial maricela ayala

r= 0.31

COEFICIENTE DE SPERMAN

X X´ Y Y´ Di=x´-y´ Di2

J

K

L

P

F

Z

49

47

42

39

37

32

1

2

3

4

5

6

48

45

22

22

40

40

1

2

5.5

5.5

3.5

3.5

0

0

-2.5

-1.5

1.5

2.5

0

0

6.25

2.25

2.25

6.25

17

r= 1 - 6∑ Di2

N3−N

r= 1 – 6(17)

216−6

r= 1 - 102210

r= 0.51

EJERCICIO Nº9

Page 106: Estadística inferencial maricela ayala

GRÁFICA

m=∆ y∆ x

=y2− y1

x2−x1

m=30.24−23.5232−20.58

m=0.59

y} =mX+¿

y} =0.59X+5.2¿

EJERCICIOS PROPUESTOS

Page 107: Estadística inferencial maricela ayala

Resolver los siguientes ejercicios:

COEFICIENTE DE CORRELACION

X Y10 7

8 49 5

11 411 814 610 9

9 811 713 515 416 6

X Y86 1574 4373 1665 1182 1078 1379 1470 1550 1065 9

Page 108: Estadística inferencial maricela ayala

FORMULAS

APRENDIZAJE MEDIADO

Expresa de una manera cuantitativa la magnitud y dirección de

una relación, se lo designa en la letra r puede variar entre +1 a -1

el signo nos dice si la relación es positiva o negativa.

Relación LinealRelación ImperfectaRelación perfecta

Existe 2 variables es aquella que puede representarse en un plano cartesiano con una mejor exactitud mediante una línea

Es aquella que existe una

relación positiva o negativa

para lo cual todos los

puntos caen sobre la recta.

Es aquella que existe una

relación positiva o negativa

para lo cual todos los puntos

caen sobre la recta.

PEARSON

r=N ¿¿

SPERMAN

rs= 1- 6∑ Di2

N3−N

Page 109: Estadística inferencial maricela ayala

NIVEL TEÓRICO PRÁCTICO

Lectura comprensiva de los conceptos básicos de la correlación.

Analizar los conceptos de la correlación.

NIVEL TEÓRICO AVANZADO

Elaborar un organizador grafico de la teoría de la correlación.

Realizar nuestros propios conceptos para mayor entendimiento.

NIVEL TEÓRICO BÁSICO PRÁCTICO

Resolver ejercicios sobre pruebas de psicológicas realizada a

estudiantes aplicando los coeficientes de correlación.

Establecer problemas y resolverlos aplicando los coeficientes de

correlación.

NIVEL TEÓRICO BÁSICO PRÁCTICO AVANZADO

Con datos de importaciones de productos aplicar los coeficientes de

correlación.

Resolver ejercicios con datos de exportaciones con la aplicación de los

coeficientes de correlación.

APRENDIZAJE AUTÓNOMO

NIVEL TEÓRICO PRÁCTICO

Page 110: Estadística inferencial maricela ayala

Investigar otros conceptos de la correlación en libros e internet.

Hacer un resumen de la investigación realizada.

NIVEL TEÓRICO AVANZADO

Elaboración de un Mentefacto de la correlación.

Elaboración de ejemplos pequeños para una mayor comprensión de los

conceptos de la correlación.

NIVEL TEÓRICO BÁSICO PRÁCTICO

Realizar ejercicios sobre pruebas que se tomaron a estudiantes,

coeficiente intelectual, psicológicas aplicando los coeficientes de

correlación.

Resolver un problema de una investigación realizada sobre el nivel de

herotina de los monos aplicando los coeficientes de correlación.

NIVEL TEÓRICO BÁSICO PRÁCTICO AVANZADO

Investigar los datos de importaciones o exportaciones de la página del

Banco Central del Ecuador en los años 2011- 2012 aplicar los

coeficientes de correlación.

Con los datos de las exportaciones o importaciones de datos reales de la

página del Banco Central recolectando datos del primer trimestre del año

2011 -2012 aplicar los coeficientes de correlación.

REGRESIÓN LINEAL

Page 111: Estadística inferencial maricela ayala

La regresión y la correlación están íntimamente ligados, ambos implican la

relación entre 2 variables y utilizan el mismo conjunto de datos básicos.

La regresión se centra en el uso de la relación para determinar una predicción,

cuando la relación es perfecta, esto es cuando todos los puntos están sobre la

recta y se utilizan para señalar la predicción, la situación se hace más compleja

cuando la relación es imperfecta.

Esta recta es la línea de regresión por los mínimos cuadrados. La distancia

vertical en cada punto y la recta representan el error de la predicción, pareciera

que el error total seria la suma algebraica y− y '.

El error total de predicción presentado por ∑ ( y− y' )2, es menor para la línea de

regresión por mínimos cuadrados.

En estadística la regresión lineal o ajuste lineal es un método matemático que

modeliza la relación entre una variable dependiente Y, las variables

independientes Xi y un término aleatorio (Cortes, 2009).

La palabra regresión se emplea para denotar el proceso de estimar el valor de

una de las variables en función de otra, cuyo valor se considerado. (MARTINEZ, 2001)

La ecuación por los mínimos cuadrados está dado por y '=by+ay, ecuación de

regresión lineal para predicción y dado por X.

y ' = Valor predicho

by = Pendiente

ay = Ordenado al origen

FORMULA DE LA REGRESIÓN

Page 112: Estadística inferencial maricela ayala

by=N ¿¿

ECUACIÓN PARA CALCULAR LA CONSTANTE DE REGRESIÓN

ay= y−by x

EJERCICIO Nº 1

El aprovechamiento de los estudiantes con relación al promedio de

calificaciones para cada uno.

ESTUDIANTES APROVECHAMIENTO

(X)

PROMEDIO

(Y)

XY X2

1 110 1 110 12100

2 112 1.6 179.20 12544

3 118 1.2 141.60 13924

4 119 2.1 249.90 14161

5 122 2.6 317.20 14884

6 125 1.8 225 15625

7 127 2.6 330.20 16129

8 130 2 260 16900

9 132 3.2 422.40 17424

10 134 2.6 384.40 17956

11 136 3 408 18496

12 138 3.6 496.80 19044

∑ 12 1503 27.30 3488.70 189187

by=N ¿¿

Page 113: Estadística inferencial maricela ayala

by=12(3488.70)−(1503)(27.30)

12 (189.87 )−¿¿

by= 41864.40−41031.902278.44−10609

by=0.074

ay= y−by x

ay=2.275−0.074 (125.25 )

ay=2.275−9.2685

ay=6.9935

y '=byx+ay

y '=0.074 x−6.9935

Page 114: Estadística inferencial maricela ayala

Ejemplo de la grafica de acuerdo con los resultados propuesta de los ejercicios

donde podemos observar una grafica positiva y unos puntos dispersos.

Esta es un gráfica con una relación imperfecta positiva (m +).

Page 115: Estadística inferencial maricela ayala

DETERMINAR EL COEFICIENTE DE PEARSON Y SPERMAN

COEFICIENTE DE PEARSON

rp=N (∑ xy )−(∑ x ) (∑ y)

√¿¿¿

rp=12 (22002037 )−(10225)(11201)

√¿¿¿

rp=264024444−114530225

√2323057445 X1016

rp=149494219152415795

rp=0.98

COEFICIENTE DE SPERMAN

rs=1−6∑ Di2

N3−N

rs=1−6(62)

123−12

rs=1− 3721728−12

rs=1− 3721716

rs=1−0.32

rs=0.78

Page 116: Estadística inferencial maricela ayala

LA ECUACIÓN LINEAL A TRAVÉS DEL MÉTODO ESTADÍSTICO Y LA

REGRESIÓN LINEAL

REGRESIÓN

by=N (∑ xy )−(∑ x)(∑ y)

N (∑ x2)−¿¿

by=12 (22002037 )−(10225)(11201)

12 (21737339 )−¿¿

by=264024444−114530225260848068−104550625

by=149494219156297443

by=0.96

CONSISTENTE DE REGRESIÓN

ay= y−by x

ay=1120112

−0.96( 1022512 )

ay=933.42−(0.96 ) 08

ay=933.42−817.99

ay=115.42

ECUACIÓN MÁTEMATICA

y '=byx+ay

y '=0.96 x+115.42

Page 117: Estadística inferencial maricela ayala

EJERCICIO PROPUESTO

Resolver los siguientes ejercicios:

X Y159.2 167.15206.3 95

188.07 197.5196.7 215.3143.9 145.7324.5 154.9248.3 153.5199.2 156.6110.2 178.2169.7 210.9174.5 215.3

X Y63 5660 6057 6158 6079 6555 6257 5858 6165 5673 6566 6963 5970 6665 6061 67

Page 118: Estadística inferencial maricela ayala

APRENDIZAJE MEDIDO

REGRESIÓN LINEAL

Es una relación entre 2 variables y utiliza un conjunto de datos

básicos. La regresión se centra en el uso de la relación para

determinar una predicción.

FÓRMULA

y '=by+ay

y ' = Valor predicho

by = Pendiente

ay = Ordenado al origen

Page 119: Estadística inferencial maricela ayala

NIVEL TEÓRICO PRÁCTICO

Lectura comprensiva de los conceptos básicos de la regresión lineal.

Interpretar los conceptos de la regresión lineal.

NIVEL TEÓRICO AVANZADO

Elaborar un organizador grafico de la teoría de la regresión lineal.

Realizar nuestros propios conceptos para mayor entendimiento.

NIVEL TEÓRICO BÁSICO PRÁCTICO

Resolver ejercicios sobre pruebas de psicológicas realizada a estudiantes

para obtener la ecuación de la regresión lineal.

Establecer problemas y resolverlos calculando la ecuación de la regresión

lineal.

NIVEL TEÓRICO BÁSICO PRÁCTICO AVANZADO

Con datos de importaciones de productos aplicar la ecuación de la

regresión lineal.

Resolver ejercicios con datos de exportaciones para calcular la ecuación de

la regresión lineal.

Page 120: Estadística inferencial maricela ayala

APRENDIZAJE AUTÓNOMO

NIVEL TEÓRICO PRÁCTICO

Investigar otros conceptos de la regresión lineal en libros.

Sacar los conceptos de la investigación realizada.

NIVEL TEÓRICO AVANZADO

Elaboración de un cuadro sinóptico de la regresión lineal.

Elaboración de ejemplos pequeños para una mayor comprensión de los

conceptos de la regresión lineal.

NIVEL TEÓRICO BÁSICO PRÁCTICO

Realizar ejercicios sobre pruebas que se tomaron a estudiantes, coeficiente

intelectual, psicológicas aplicando la ecuación de la regresión lineal.

Resolver un problema de una investigación realizada sobre la altura de un

individuo en distintas edades aplicando la ecuación de la regresión lineal.

NIVEL TEÓRICO BÁSICO PRÁCTICO AVANZADO

Investigar los datos de importaciones o exportaciones de la página del

Banco Central del Ecuador en los años 2011- 2012 aplicar los ejercicios

propuestos.

Con los datos de las exportaciones o importaciones de datos reales de la

página del Banco Central recolectando datos del primer trimestre del año

2011 -2012 aplicar a los ejercicios propuestos.