Post on 12-Jul-2016
description
Tecnólogo en Negociación
Internacional
Bienvenido (a):
El siguiente material, es una herramienta que
guía al aprendiz en su proceso formativo y
explica de manera detallada los conceptos
básicos de la estadística descriptiva e inferencial.
Contenido
• Términos iniciales.
• Medidas de tendencia central y dispersión
con datos no agrupados.
• Medidas de tendencia central y dispersión
con datos agrupados.
• Probabilidad.
• Distribución normal.
• Regresión lineal.
Términos iniciales
Población: conjunto en el cual sus elementos
poseen características comunes que serán objeto de
estudio.
Ejemplos:
Alemanes consumidores
de café.
Países con tratados
comerciales con Colombia.
En este Material de formación, se introducirán
conceptos básicos de la estadística que permitirán
analizar los datos recolectados hasta ahora.
Muestra: subconjunto de la población que al ser estudiado, permite inferir características de la población. Ejemplo:
Si de la población de consumidores de café
en Alemania se toma el subconjunto de las
mujeres, es probable que las conclusiones
no se puedan aplicar a toda la población,
quizá porque los hombres consuman mayor
cantidad de café.
En la segunda población, si el número de
países no es muy grande, no habrá
necesidad de muestra. Aunque, si por
alguna razón, como los costos se quisiera
escoger una muestra, se podrían tomar
países representantes de continentes.
Muchas veces se habla de una muestra aleatoria, aunque se
debe tener cuidado en que esta, quede bien distribuida.
Las características que se le pueden estudiar a una población
se denominan variables y estas las podemos clasificar en dos
grupos:
1. Variable cualitativa: hace referencia a
un atributo o característica de la
población diferente de la cantidad.
- En el ejemplo de los alemanes, sería
el género, el estilo de vida, profesión,
entre otros.
- En el ejemplo de los países, sería los
productos que importan o los
productos que no producen.
2. Variables cuantitativas: se expresan en cantidades.
- En el ejemplo de los alemanes, sería la cantidad de
café que consumen. (continua).
- En el ejemplo de los países, sería el tamaño de la
población (discreta).
En esta variable, se denomina discreta, si se pueden
colocar la correspondencia con los números enteros (…-
2,-1,0,1,2…) y se llama continúa, si la variable puede
tomar cualquier valor de los números reales
(“decimales”).
Medidas de tendencia central y
dispersión con datos no agrupados
Medidas para el análisis de datos
Calcularemos las medidas con los siguientes datos
recolectados a una muestra de 10 alemanes sobre su
consumo de café en kg durante el año 2011.
5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8
1. Media: se entiende como el promedio de
los datos.
Lo interpretamos que en promedio los alemanes toman
2.8 kg de café al año.
Si llamamos n a la cantidad de datos recolectados y xi
a cada valor, entonces la fórmula está dada por:
2. Mediana: se entiende como el valor intermedio de la
población.
Primero, organizar los datos en orden.
0.5, 1, 1.6, 2, 2.6, 3, 3.5 , 3.8, 5, 5
Segundo, se calcula la posición media.
De esto se deduce que si n es impar el valor no dará un
entero. Además que la fórmula es:
Por último se calcula la mediana, en este caso como el
valor intermedio dio 5.5 la mediana es un promedio entre
el 5º y 6º dato.
Se puede observar que este promedio no es necesario
si no es impar.
3. Moda: es el dato con mayor frecuencia, es decir el que
se repite mayor número de veces.
5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8
En este caso, la moda es 5, debido a que se repite dos
veces, mientras el resto aparece una vez. Cuando se
tenga dos valores que pueden ser modas, el conjunto de
valores es bimodal.
Observaciones:
1. Las herramientas anteriores son denominadas
medidas de tendencia central debido a que buscan
donde se concentran los datos.
2. Como la mediana señala el centro de la distribución y la
media su promedio, es interesante notar que:
- Si estas son iguales la distribución, es simétrica.
- Si la media es menor que la mediana, es asimétrica
negativa
- Si la media es mayor que la mediana, es asimétrica
positiva.
4. Desviación estándar: se interpreta como la dispersión
de los datos con respecto a la media. Se denota con la letra
griega sigma.
Primero se calcula la desviaciones de cada dato con
respecto a la media y se eleva al cuadrado para que los
negativos no anulen los demás.
5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8
Segundo, se realizará la sumatoria de todas las diferencias.
Por último, se divide la sumatoria por el número de datos y
se calcula su raíz cuadrada.
Con lo anterior, se deduce que la fórmula para la
desviación estándar es:
Se interpreta que los datos están alejados en promedio
1.47 kg, de la media de consumo de café.
5. Coeficiente de variación: al igual que la desviación
estándar, se conocerá el grado de dispersión de los datos
con respecto a la media, pero en este caso, se aíslan las
unidades del análisis. Es especialmente útil para
comparar la variación de diferentes muestras.
Para calcular el coeficiente de variación, se necesitan los
datos de la media y la desviación estándar.
Se interpreta que la muestra tiene una dispersión del
53%.
La fórmula general está dada por:
Medidas de tendencia central y
dispersión con datos agrupados
Datos ordenados
En los ejemplos anteriores, se realiza fácilmente el
análisis debido a que la cantidad de datos era pequeña,
pero cuando la cuantía de los datos es más grande, se
debe organizar en una tabla que facilite su tratamiento.
La elaboración de la tabla varía
dependiendo del tipo de variable
(cualitativa, cuantitativa discreta y
cuantitativa continua).
Además, se mostrarán dos tipos
de gráficos que brindan una
herramienta visual para la
interpretación.
Tabla de frecuencias variable cualitativa
Los siguientes datos fueron recolectados a una muestra
de 50 alemanes consumidores de café sobre la
procedencia del café que toman.
Brasil Indonesia Vietnam Brasil Brasil
Vietnam Indonesia Perú Vietnam Colombia
Colombia Colombia Colombia Colombia Indonesia
Indonesia Colombia Indonesia Indonesia Brasil
Perú Colombia Colombia Brasil Vietnam
Vietnam Perú Indonesia Vietnam Colombia
Colombia Brasil Brasil Indonesia Indonesia
Brasil Brasil Vietnam Brasil Brasil
Brasil Brasil Colombia Vietnam Vietnam
Brasil Vietnam Indonesia Indonesia Colombia
• Lo primero que se debe hacer, es realizar un listado de
los datos sin repeticiones.
Brasil Colombia Indonesia Perú Vietnam
• Luego, se crea una tabla donde la primera columna se
llame datos y se rellena con el listado anterior.
• Crear una columna llamada frecuencia absoluta y se
colocan las repeticiones de cada dato.
• Crear una columna llamada frecuencia relativa, en
donde se inserta el peso porcentual de la frecuencia de
cada dato con respecto al total de la muestra.
Datos Frecuencia
Absoluta (fi) Frecuencia Relativa(hi)
Brasil 14 28%
Vietnam 10 20%
Colombia 12 24%
Indonesia 11 22%
Perú 3 6%
50 100%
Por ejemplo, Brasil aparece 14 veces (frecuencia
absoluta) y su peso porcentual (frecuencia relativa) es:
Gráficos tabla de frecuencias
La primera gráfica que se puede deducir, se llama
histograma de frecuencias en la que en el eje x, se
colocan los datos y en el eje y, la frecuencia absoluta de
cada dato.
0
2
4
6
8
10
12
14
16
Brasil Vietnam Colombia Indonesia Perú
Histograma de frecuencias sobre la procedencia del café de Alemania
Nota: en cualquiera de los paquetes básicos de
office, se puede encontrar en insertar -gráfico -
columna.
Brasil 28%
Vietnam 20% Colombi
a 24%
Indonesia
22%
Perú 6%
Nota: en cualquiera de los paquetes básicos de
office lo podemos encontrar en insertar -gráfico -
circular.
Otro gráfico útil, es el diagrama circular en el cual se
grafica la frecuencia relativa, este coloca en proporción los
ángulos del círculo con los pesos porcentuales de los
datos. La fórmula para esto es multiplicar la frecuencia
relativa por 360.
Tabla de frecuencias variable cuantitativa discreta
Los siguientes datos fueron recolectados a una muestra
de 50 alemanes consumidores de café sobre la edad (en
años) en que iniciaron el consumo de café.
18 21 18 22 15
21 19 24 18 30
15 18 20 19 21
24 20 21 20 22
19 15 18 21 24
19 30 21 20 19
22 21 15 20 18
18 22 24 19 24
19 24 19 18 20
20 19 19 20 21
• Lo primero que se debe hacer, es realizar un listado
ordenado de los datos sin repeticiones.
• Al igual que con la variable cualitativa, se crean las
columnas datos, frecuencia absoluta y frecuencia
relativa.
• Luego, se crea una columna llamada frecuencia
absoluta acumulada, en donde se escribe la suma de la
frecuencia absoluta de ese dato y los menores.
• Por último, añadir una columna que se denomina
frecuencia relativa acumulada y en ella se consigna la
suma de la frecuencia relativa de ese dato y los
menores.
15 18 19 20 21 22 24 30
Por ejemplo, la frecuencia absoluta acumulada de
19 años es 22=4+8+10 y la frecuencia relativa
acumulada es 44%=8%+16%+20%.
Datos(xi) Frecuencia
Absoluta (fi) Frecuencia Relativa(hi)
Frecuencia Absoluta
Acumulada (Fi)
Frecuencia Relativa
Acumulada (Hi)
15 4 8% 4 8% 18 8 16% 12 24% 19 10 20% 22 44% 20 8 16% 30 60% 21 8 16% 38 76% 22 4 8% 42 84% 24 6 12% 48 96% 30 2 4% 50 100%
50 100%
Gráficos tabla de frecuencias
La primera gráfica que se puede deducir, se llama
histograma de frecuencias en la que en el eje x, se
colocan los datos y en el eje y, la frecuencia
absoluta de cada dato.
Nota: en cualquiera de los paquetes básicos de
office, se puede encontrar en insertar -gráfico -
columna.
0
2
4
6
8
10
12
15 18 19 20 21 22 24 30
Histograma de frecuencias sobre la edad inicial para el consumo de café
Otro gráfico útil es el diagrama circular en el cual se
grafica la frecuencia relativa, este coloca en proporción
los ángulos del círculo con los pesos porcentuales de los
datos. La fórmula para esto es multiplicar la frecuencia
relativa por 360.
Nota: en cualquiera de los paquetes básicos de office, se
puede encontrar en insertar -gráfico -circular.
15 8%
18 16%
19 20%
20 16%
21 16%
22 8%
24 12%
30 4%
Tabla de frecuencias variable cuantitativa
continua
Los siguientes datos fueron recolectados a una
muestra de 50 alemanes consumidores de café sobre
la cantidad de café (en kg) que toman durante un año.
3,6 4,11 2,8 1,3 3,4
2,5 4,8 0,4 2,2 2,2
4 1,7 4,1 3,6 2,6
0,2 2,6 2,9 1,7 3,4
3 3,4 3,4 2,6 2,8
2,2 3,8 2,86 0 3,5
5 2,1 3,1 3,4 4,2
1,6 4,3 4,4 5 2,9
1,9 2,7 1,7 2,6 3,02
2,8 3,5 2,4 1,9 1,4
• En este caso, se puede observar que realizar un
listado de datos independiente no es eficiente, porque
pueden salir un listado con una cantidad muy similar a
la de n.
• En este caso, parece conveniente utilizar 5
intervalos. Esta decisión depende del criterio del
analista y lo resumido que se necesite los datos.
• Por lo anterior, lo más aconsejable es colocar los
datos en intervalos (cajones) para que el listado que
se coloque en la tabla, sea tan resumido como se
pretende.
• Para calcular la amplitud (tamaño) de los intervalos,
calcular el rango de la muestra y dividir por la
cantidad de intervalos definidos.
En esta tabla, se adiciona una columna denominada,
marca de clase, que es el valor medio del intervalo.
En el intervalo del [1.01-2], se encuentran los valores
de 1.3, 1.4, 1.6, 1.7, 1.7, 1.7, 1.9, 1.9.
Intervalos Frecuencia Absoluta
(fi)
Frecuencia Relativa
(hi)
Frecuencia Absoluta Acumulad
a (Fi)
Frecuencia Relativa Acumulad
a (Hi)
Marca de clase (yi)
0 - 1 3 6% 3 6% 0.5
1.01 - 2 8 16% 11 22% 1.5
2.01 - 3 18 36% 29 58% 2.5
3.01 - 4 13 26% 42 84% 3.5
4.01 - 5 8 16% 50 100% 4.5
50 100%
Gráficos tabla de frecuencias
La primera gráfica que se puede deducir, se llama
histograma de frecuencias en la que en el eje x, se
colocan los datos y en el eje y, la frecuencia absoluta
de cada dato.
Nota: en cualquiera de los paquetes básicos de
office, se puede encontrar en insertar -gráfico -
columna.
0
5
10
15
20
0 - 1 1.01 - 2 2.01 - 3 3.01 - 4 4.01 - 5
Histograma de frecuencias sobre la cantidad de café que se consume al año.
Otro gráfico útil es el diagrama circular en el cual se
grafica la frecuencia relativa, este se coloca en
proporción los ángulo del círculo con los pesos
porcentuales de los datos. La fórmula para esto es
multiplicar la frecuencia relativa por 360.
Nota: en cualquiera de los paquetes básicos de
office, se puede encontrar en insertar -gráfico -
circular.
0 - 1 6%
1.01 - 2 16%
2.01 - 3 36%
3.01 - 4 26%
4.01 - 5 16%
Medidas de tendencia central datos agrupados
Para calcular las medidas de tendencia central para los
datos agrupados, se tomará el ejemplo de la variable
cuantitativa continua, debido a que es el más completo.
Media:
Recordar que es la suma de todos los datos dividido por
n.
Para calcular la suma de todos los datos en la tabla, se
debe naturalmente sumar las multiplicaciones de cada
dato por su frecuencia.
Como en la tabla de frecuencias de la variable continua,
no existen los datos de manera individual sino intervalos.
Se toma un representante de cada uno, el cual se
estableció en la marca de clase.
Con lo anterior, se puede plantea
la fórmula como sigue:
Es importante notar que si la variable fuera
cuantitativa discreta, se reemplaza el yi con xi.
También debemos ver que esta medida no es
aplicable a variables cualitativas.
Se interpreta que en promedio los alemanes
consumen 2.8 kg de café al año.
Mediana
Recordar que es el dato que se encuentra en el centro
de la distribución.
Para esto, se debe identificar el
intervalo en el que está dicho
dato, dividiendo la cantidad de
datos (n) por 2.
En el ejemplo, el dato debe estar en la posición 25 y esta
posición, se encuentra en el tercer intervalo [2.01 - 3].
Luego para escoger la mediana dentro de los datos del
intervalo, se podría escoger el representante llamado
marca de clase, aunque con esta elección se estaría
suponiendo que la mediana se encuentra exactamente
en la mitad del intervalo.
Cuando el intervalo tiene abundantes datos, se debe
tener cuidado con hacer la suposición anterior y se
debe refinar la búsqueda de la mediana, identificando
hacia qué parte del intervalo se encuentra. Para esto,
se utiliza el siguiente factor:
La diferencia entre la posición media y la frecuencia
absoluta acumulada del intervalo anterior, indica la
cantidad de datos que hay desde que empieza el
intervalo hasta la mediana. Y la división con la
frecuencia del intervalo, da una proporción en donde
se encuentra.
Este factor se puede escribir
en general como:
Luego de tener la posición de la mediana dentro del
intervalo en forma de factor necesitamos conocerla en
kg y para esto resta multiplicarla por la amplitud del
intervalo.
0.77 kg es lo que recorre la mediana desde que
comienza el intervalo, por lo cual, para establecer el
valor de la mediana se debe sumar el límite inferior del
intervalo que se nota: Li (inf).
Con lo anterior se puede escribir una expresión general
para la mediana como sigue:
Moda:
La moda es el dato que más se repite, debido a que
para su cálculo, se observa el intervalo con mayor
frecuencia y se toma el representante llamado marca
de clase.
En el ejemplo la mayor frecuencia, está en el tercer
intervalo [2.01 - 3] y su marca de clase es 2.5, por lo
cual:
Medidas de dispersión
Desviación estándar:
Recordar que esta medida representa la dispersión de
los datos con respecto a la media.
La fórmula para calcularla es idéntica a la de los datos
no agrupados, recordar:
Aunque como en este caso, las Di, no se realizan por
elemento, se debe escoger el representante y
multiplicarlo por la frecuencia.
Cuando la tabla de frecuencias pertenezca a una
variable cuantitativa continua, el representante es la
marca de clase.
Se interpreta como la dispersión promedio del
consumo de café anual con respecto a 2.8kg es de
1.1 kg.
Calcular:
Probabilidad
Se va a introducir la probabilidad con un ejemplo para
luego definirla formalmente.
Ejemplo. Se supone que se quiere conocer las
preferencias de las empresas de cierto país y para esto se
aplica una encuesta vía e-mail a 60 compañías.
Suponiendo que de las 60 sólo 25 respondieron. Entonces
¿Cuál es la probabilidad de que una empresa responda
una encuesta?, sí se necesita tener 60 encuestas para
realizar el análisis ¿Cuántas encuestas debería enviar?
Respuesta pregunta 1:
Si llamamos R al evento que una empresa responda una
encuesta vía e-mail, entonces:
Se interpreta como la probabilidad de que una empresa
responda una encuesta vía e-mail es de 41.66%.
La probabilidad de un experimento o suceso donde se
conocen todos los posibles resultados es un valor entre
0 y 1. Este número mide la frecuencia de obtener un
resultado, luego de realizar el experimento cierto número
de veces. Su fórmula es:
Respuesta pregunta 2:
Si la probabilidad de R es de 41.66% y si se nota como
E, el número de encuestas enviadas, se tiene que:
Por lo cual, para que se reciban 60 encuestas se
deben enviar 144. Luego del ejemplo, conceptualizar.
Nótese que si P(A)=0 implica que ese evento nunca
ocurre, y si P(A)=1 indica que ese evento siempre
sucede.
Lógica y probabilidad
La relación entre la lógica y la probabilidad se ve
claramente expresada en las siguientes tres reglas para
calcular probabilidad.
Regla de la adición:
Esta regla se utiliza cuando dados 2 eventos se quiera
conocer la probabilidad que ocurra alguno de los dos.
Su fórmula es la siguiente:
Ejemplo. Se supone que se quieren conocer las
preferencias de las empresas de cierto país y para esto
se aplica una encuesta vía e-mail y otra vía telefónica a
60 compañías. Suponiendo que de las 60 sólo 25
respondieron vía e-mail, 36 vía telefónica y 20
contestaron por ambos medios.
Encontrar la probabilidad de que una empresa responda
una encuesta por cualquier vía.
Utilizar la siguiente notación:
R: evento de que una empresa responda una encuesta
vía e-mail.
K: evento de que una empresa responda una encuesta
vía telefónica.
La probabilidad de que una empresa responda una
encuesta por cualquier vía e-mail o telefónica es de
68,32%.
Nótese que si los eventos son mutuamente
excluyentes, la probabilidad de la intersección es
igual a 0.
Regla de la probabilidad condicional
Esta regla se utiliza cuando se quiere conocer la
probabilidad de un evento A dado un evento B. Se nota
como P(A/B). La fórmula está dada por:
Véase el ejemplo con los datos anteriores. Se quiere
conocer la probabilidad de que una empresa responda
una encuesta vía telefónica, luego de haber respondido
una encuesta vía e-mail. Es decir P(K/R).
Comprobar que:
Regla de la probabilidad conjunta
Se utiliza cuando se quiere que ocurran dos eventos a la
vez.
Cuando los eventos están relacionados y se conoce la
probabilidad condicional, la fórmula está dada por:
Nótese que si A y B son independientes P(A/B)=P(A), por
lo cual, la fórmula se reduce a:
Véase esta regla en el ejemplo, como K y R están
relacionados, se debe utilizar la primera:
La probabilidad de que una empresa responda una
encuesta vía telefónica y e-mail es de 33,33%.
Distribución Normal
Al realizar un análisis estadístico de los datos obtenidos
por una variable cuantitativa continua, es útil asociar un
tipo de distribución.
En lo sucesivo, se presentará la distribución normal y se
verá su utilidad en el análisis de datos.
Se dice que una cantidad de datos sigue una
distribución normal si cumple las siguientes
características: 1. Tiene una única moda, que coincide con su media y su mediana.
2. La curva normal es asintótica al eje x, es decir, la curva no toca el eje x pero se acerca mucho a este. Por ello, cualquier valor del eje x es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.
3. Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
4. El área bajo la curva comprendido entre los
valores situados aproximadamente a dos
desviaciones estándar de la media, es igual a
0.95. En concreto, existe un 95% de
posibilidades de observar un valor comprendido
en el intervalo.
Se dice que una cantidad de datos sigue una
distribución normal si cumple las siguientes
características.
El gráfico de la distribución normal teórica, es la
llamada campana de Gauss.
Para identificar si nuestros datos corresponden a
una distribución normal, se puede analizar
visualmente el histograma de frecuencias. Por
ejemplo:
Poseen distribución normal:
No poseen distribución normal:
Para el ejemplo de variable continua que hay, se observa
que la distribución se puede asociar a una normal.
Cuando se tiene asociada la distribución normal a
unos datos, se pueden resolver preguntas de
probabilidad acerca del comportamiento de variables.
Por ejemplo, la probabilidad de encontrar alemanes
que consuman menos de 3kg de café al año.
Para obtener información como la del ejemplo anterior,
se debe asociar nuestros datos a una distribución
normal con media cero y varianza 1, debido a que para
este tipo de distribución existen tablas con la
probabilidad ya calculada.
Dicha asociación se debe hacer con la siguiente
transformación:
Realizar el ejemplo propuesto sobre la probabilidad de
encontrar alemanes que consuman menos de 3kg de
café al año.
Buscar la probabilidad en la tabla para un valor menor
o igual que 0.18, es decir:
Obsérvese que la
gráfica toma una
probabilidad
acumulada desde el
infinito negativo, por
esto, la probabilidad de
Z=0 es de 50%.
Según la tabla la probabilidad de encontrar un alemán
que consuma menos de 3kg de café al año es de
57.14%.
Ejemplo 2. ¿Cuál es la probabilidad de encontrar un
alemán que consuma entre 3.5kg y 4kg de café
anualmente?
Como se busca en la tabla el área (probabilidad) entre
dos valores y la tabla, da el área acumulada, se debe
realizar la resta entre las dos áreas, es decir:
Primero, hay que realizar la respectiva transformación:
Se interpreta como la probabilidad de que un
alemán consuma entre 3.5kg y 4kg al año es de
12.64%.
Ejemplo 3. ¿Cuál es la probabilidad de encontrar un
alemán que consuma menos de 1kg al año?
Para revisar un resultado negativo, se debe recordar
que la media de la distribución Z es cero y como esta es
simétrica el cero, está en la mitad de la distribución.
Recordado lo anterior, es fácil ver en la gráfica que el
área entre -1.63 y cero es igual al área entre 0 y 1.63, es
decir:
Como en la tabla no aparecen los negativos para
calcular el área menor que -1.63 debo al área menor
que cero restarle el área entre 0 y -1.63 que es lo
mismo por la igualdad anterior que el área entre 0 y
1.63 , es decir:
Además:
Lo que se interpreta como la probabilidad de
encontrar un alemán que consuma menos de 1kg
de café es de 5.16% .
Consideraciones
Hasta ahora se ha realizado el trabajo de análisis con
la distribución normal, acerca de la población de
consumidores de café alemanes sobre una muestra
de 50 de estos, deducción a partir de las
características de la población de muestra.
Aplicar al ejemplo, la característica de la distribución
normal del intervalo de confianza que se presentó
anteriormente. Recordar que en esta decía que había
una probabilidad del 95% que los datos estuvieran en
el siguiente intervalo:
Entonces existe una probabilidad de un 95% de que
se encuentre un alemán que consuma entre 0.644kg
y 4.956kg de café al año.
Si esto no ocurre, se escogió en la muestra
aleatoriamente, un teorema de la estadística, que indica
que la desviación estándar de la muestra dividida por la
raíz cuadrada de n, es igual a la de la población y que
las medias son iguales. Por lo cual, la función de
transformación Z. queda expresada como sigue:
Para que en los ejemplos anteriores sea válido realizar
la inferencia, se debe suponer que la media y
desviación estándar de la muestra es igual a la de la
población.
Realizar este tipo de análisis es lo que se denomina
inferencia y hace parte de la estadística inferencial.
Otras distribuciones de probabilidad
De las gráficas se puede observar que tienen diferencias
con la distribución normal. Por ejemplo, la simetría y
donde se concentran los datos.
La distribución normal que se acabó de estudiar, es
ampliamente utilizada, pero no por ello se puede pensar
que es la única, existen otras que se describen, otros
tipo de distribuciones, véanse los siguientes ejemplos:
Profundizar sobre estos tipos de distribuciones esta
fuera del alcance de los objetivos de esta guía, aunque
su manejo es similar al que se realiza con la distribución
normal.
Regresión lineal
En ocasiones, cuando se está analizando datos, el
interés de conocer cómo se relacionan con otra
variable y así predecir cambios en los datos a partir de
modificaciones de la variable. Por ejemplo, si se tiene
el valor de las importaciones de cierto país en una
cantidad de años y se quiere conocer qué va a pasar
en los años venideros.
Esto se realiza, aproximando los datos a una función
conocida. Por ejemplo, la función lineal gráficamente
sería:
Aquí los puntos representa los datos, la línea y la
función conocida.
En el cálculo de la regresión, se calculan dos valores
notados; a y b. El valor a, representa la tasa de variación
de la variable y con respecto a la variable x, en el
ejemplo de las importaciones, si este valor diera positivo,
implica que las importaciones están creciendo y si fuera
negativo muestra un decrecimiento. La fórmula para este
cálculo es:
El valor b, se interpreta como el valor de la variable y
cuando la variable tenga un valor nulo, su fórmula es:
Véase con un ejemplo la aplicación.
Ejemplo
Los siguientes son los datos de importaciones
hechas por Alemania de especias y café durante los
correspondientes años. El valor está dado en
millones de dólares.
Nótese que para aplicar las fórmulas, se deben
añadir las siguientes columnas.
x 2006 2007 2008 2009 2010 2011
y
4.336
4.749
7.831
6.627
8.149
8.360
xy
8.698.016
9.531.243
15.724.648
13.313.643
16.379.490
16.811.960
x.x
4.024.036
4.028.049
4.032.064
4.036.081
4.040.100
4.044.121
Ahora, se mostrarán los cálculos que se necesitan
para las fórmulas.
y = 831,89x - 1.664.167,12
4.000
4.500
5.000
5.500
6.000
6.500
7.000
7.500
8.000
8.500
9.000
2005 2006 2007 2008 2009 2010 2011 2012
Con esta fórmula, ahora calcular un valor futuro. Por
ejemplo, las importaciones alemanas de café y
especias para el año 2012 y 2015.
y = 831,89x - 1.664.167,12 Si x=2012 entonces
y = 831,89(2012) - 1.664.167,12 = 9.586,93 Es decir, que en el 2012 las importaciones alemanas
de café y especias serán por valor de 9.586,93
millones de dólares.
Si x=2015 entonces
y = 831,89(2015) - 1.664.167,12 = 12.082,59
Es decir que en el 2015 las importaciones alemanas de
café y especias serán por valor de 12.082,59 millones de
dólares.
Nótese que los valores de los años se podrían tomar del
1 al 6 para facilitar los cálculos, y para las dos
proyecciones se utilizarán los valores de 7 y 10.
Analizar ahora los a y b
El valor a=831,89 significa que las importaciones están
creciendo a una tasa de 831,89 millones de dólares al
año.
El valor b=-1.664.167,12 es negativo, significa que no se
realizaron importaciones, aunque se muestra que un
análisis al año 0 no tiene sentido, por lo cual sería mejor
para el análisis de la b tomar los años del 1 al 6.