minimos cuadrados

30
TRABAJO DE ESTADISTICA Estudiantes BLANCA SUSANA BRAVO PORTILLA LIDA ROSERO WILLIAM ERAZO ANDRES LOPEZ UNIVERSIDAD MINUTO DE DIOS FACULTAD DE ADMINISTRACION EN SALUD OCUPACIONAL PROGRAGRA ADMINISTRACION MOCOA – COLOMBIA

description

chimba

Transcript of minimos cuadrados

TRABAJO DE ESTADISTICA

Estudiantes

BLANCA SUSANA BRAVO PORTILLA

LIDA ROSERO

WILLIAM ERAZO

ANDRES LOPEZ

UNIVERSIDAD MINUTO DE DIOS

FACULTAD DE ADMINISTRACION EN SALUD OCUPACIONAL

PROGRAGRA ADMINISTRACION

MOCOA – COLOMBIA

2015

LINDON OSPINA – Docent

INTRODUCCIÓN

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información

con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la

distribución de datos se denomina medida o parámetro de tendencia central o de

centralización.

Es decir; Cuando se hace referencia únicamente a la posición de estos parámetros dentro

de la distribución, independientemente, de que ésta esté más o menos centrada, y se habla de

estas medidas como medidas de posición.

MINIMOS CUADRADOS 1

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de

la optimización matemática, en la que, dados un conjunto de pares ordenados: variable

independiente, variable dependiente, y una familia de funciones, se intenta encontrar

la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor

ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las

ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los

correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados

promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por

gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el

residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un

gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de

mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria.

El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de

sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución

normal. También es importante que los datos a procesar estén bien escogidos, para que

permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en

particular, véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros

problemas de optimización pueden expresarse también en forma de mínimos cuadrados,

minimizando la energía o maximizando la entropía.

MEDIA ARITMÉTICA

1 Investigado en www.wikipedia .com

Es la medida de posición central más utilizada, la más conocida y la más sencilla de

calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo

cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de

uno de sus valores o a los valores extremos demasiado grandes o pequeños.

La media se define como la suma de todos los valores observados, dividido por el

número total de observaciones.

Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa

cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con

muestras de la población todas las ecuaciones que se presenten a continuación serán

representativas para las muestras. La media aritmética para una muestra está determinada

como

Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi)

representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los

datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la

multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la

información; es decir,

Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número

de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las

frecuencias de cada clase.

Para entender mejor este concepto vamos a suponer que hemos tomado la edad de

5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su

interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30

años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los

puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización de estos

datos se representados en la tabla.

Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a

Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si a estos

mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3), tomando

como referencia cada uno de los valores individuales, obtendríamos que la media es igual a

Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años

aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la

exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos

inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores

desagrupados, aunque tiene algunos procedimientos para valores agrupados.

MEDIANA

Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es

decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de

datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica

que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del

mismo. Para determinar la posición de la mediana se utiliza la fórmula

Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2,

5, 8, 10 y 13), la posición de la mediana sería:

Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie,

que equivale al número (8). Si por el contrario contamos con un conjunto de datos que

contiene un número par de observaciones, es necesario promediar los dos valores medios de la

serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8,

10, 13 y 15) y la posición de la mediana sería,

Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y

medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir

una mediana equivalente, que para el caso corresponden a  (8 + 10)/2 =9. Lo que nos indicaría

que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por

encima de este valor.

En conclusión la mediana nos indica el valor que separa los datos en dos fracciones

iguales con el cincuenta por ciento de los datos cada una. Para las muestras que cuentan con

un número impar de observaciones o datos, la mediana dará como resultado una de las

posiciones de la serie ordenada; mientras que para las muestras con un número par de

observaciones se debe promediar los valores de las dos posiciones centrales.

EJEMPLO DE LA MEDIANA:

Hallar la mediana de las siguientes edades.

17, 18, 20, 23, 30, 32, 40, 50,34

1. Se ordena de mayor a menor

2. Si se tiene un número impar la mediana seria el central

3. Pero si tiene un par se suman los dos centrales y se divide por dos

4. 17,18,20,23,30,32,34,40,50

5. Me= 30

LA MODA

La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir,

si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2

quien sería la moda de los datos. Es posible que en algunas ocasiones se presente dos valores

con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo

que se conoce como multimodal.

En conclusión las Medidas de tendencia central, nos permiten identificar los valores más

representativos de los datos, de acuerdo a la manera como se tienden a concentrar.

La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría

cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el

contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las

cuales cuenta con el cincuenta por ciento de los datos. Por último la Moda nos indica el valor

que más se repite dentro de los datos.

EJEMPLO

Se realizó una encuesta en el barrio san Agustín del municipio de Mocoa en la escuela del

cabildo indígena kamsa biya. Se midieron a 35 alumnos para saber cuál era la estatura más

frecuente en los alumnos. Hallar la media, mediana y moda

1.48 1.50 1.47 1.46 1.45 1.52 1.53 1.50 1.47 1.46 1.45 1.48 1.48 1.50 1.50 1.53

1.53 1.47 1.54 1.55 1.56 1.50 1.47 1.46 1.45 1.44 1.43 1.44 1.45 1.51 1.48 1.53

1.40 1.42 1.42

Hallar la media.

X=1.40+1.42+1.42+1.43+1.44+1.44+1.45+1.45+1.45+1.46+1.46+1.46+1.47+

1.47+1.47+1.47+1.48+1.48+1.48+1.48+1.50+1.50+1.50+1.50+1.50+1.51+1.52+

1.53+1.53+1.53 +1.54+1.55+1.56

35

X=1.39

ESTATURA Frecuencia

1.40 1

1.42 2

1.43 1

1.44 2

1.45 3

1.46 3

1.47 4

1.48 4

1.50 5

1.51 1

1.52 1

1.53 3

1.54 1

1.55 1

1.56 1

Total 35

MEDIANA

1.40, 1.42, 1.42, 1.43, 1.44, 1.44, 1.45, 1.45+1.45+1.46+1.46+1.46+1.47+

1.47+1.47+1.47+1.48+1.48+1.48+1.48+1.50+1.50+1.50+1.50+1.50+1.51+1.52+

1.53+1.53+1.53 +1.54+1.55+1.56

LOS DATOS SE PUEDEN GRAFICAR

CUANTILES

Los cuantiles son medidas de posición que se determinan mediante un método que determina

la ubicación de los valores que dividen un conjunto de observaciones en partes iguales.

Los cuantiles son los valores de la distribución que la dividen en partes iguales, es decir, en

intervalos que comprenden el mismo número de valores. Cuando la distribución contiene un

número alto de intervalos o de marcas y se requiere obtener un promedio de una parte de ella,

se puede dividir la distribución en cuatro, en diez o en cien partes.

Los más usados son los cuartiles, cuando dividen la distribución en cuatro partes; los deciles,

cuando dividen la distribución en diez partes y los centiles o percentiles, cuando dividen la

distribución en cien partes. Los cuartiles, como los deciles y los percentiles, son en cierta

forma una extensión de la mediana.

Para algunos valores u , se dan nombres particulares a los cuantiles, Q (u):

u Q(u)

0.5 Mediana

0.25, 0.75 Cuartiles

0.1, ... , 0.99 Deciles

0.01, ..., 0.99 Centiles

CUARTILES

Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes

porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la

mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%)

de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por

debajo del cual quedan las tres cuartas partes (75%) de los datos.

Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de

datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una

tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos

agrupados es la siguiente:

k= 1, 2,3

Dónde:

Lk = Límite real inferior de la  del cuartil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.

fk = Frecuencia de la clase del cuartil k

c = Longitud del intervalo de la clase del cuartil k

Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente:

El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es

decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el

75% de las observaciones.

Fórmula de Q1, para series de Datos agrupados:

Dónde:

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor

valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son

mayores que la mediana y el 50% son menores.

Fórmula de Q2, para series de Datos agrupados:

Dónde:

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es

decir aquel valor de la variable que supera al 75% y es superado por el 25% de las

observaciones.

Fórmula de Q3, para series de Datos agrupados

Dónde:

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del

percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.

Para Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes

fórmulas:

El primer cuartil:

Cuando n es par:

Cuando n es impar:

Para el tercer cuartil

Cuando n es par:

Cuando n es impar:

DECILES

Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes

porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en

diez partes iguales, son también un caso particular de los percentiles. Los deciles se denotan

D1, D2,..., D9, que se leen primer decil, segundo decil, etc.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el

aprovechamiento académico.

Datos Agrupados

Para datos agrupados los deciles se calculan mediante la fórmula.

k= 1,2, 3,... 9

Dónde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra fórmula para calcular los deciles:

El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es

superado por el 60% de las observaciones.

El quinto decil corresponde a la mediana.

El noveno decil supera al 90% y es superado por el 10% restante.

Donde (para todos):

L1 = límite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3... Xn, se localiza mediante las siguientes

fórmulas:

Cuando n es par:

 Cuando n es impar:

Siendo A el número del decil.

CENTILES O PERCENTILES

Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o

clasificación de las personas cuando atienden características tales como peso, estatura, etc.

Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes

porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el

conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer percentil,...,

percentil 99.

Datos Agrupados

Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la

fórmula:

k= 1, 2,3,... 99

Dónde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra forma para calcular los percentiles es:

Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y

nueve por ciento restante.

El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es

superado por el 40% de las observaciones.

El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes

fórmulas:

Para los percentiles, cuando n es par:

Cuando n es impar:

Siendo A, el número del percentil.

Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el

percentil 50 y el tercer cuartil con el percentil 75.

3. EJEMPLO

Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla:

Salarios No. De fa

(I. De Clases) Empleados (f1)

200-299 85 85

300-299 90 175

400-499 120 295

500-599 70 365

600-699 62 427

700-800 36 463

Como son datos agrupados, se utiliza la fórmula

Siendo,

 La posición del primer cuartil.

La posición del 7 decil.

La posición del percentil 30.

Entonces,

El primer cuartil:

115.5 – 85 = 30.75

Li = 300, Ic = 100, fi = 90

El 7 decil:

Posición:

324.1 – 295 = 29.1

Li = 500, fi = 70

El percentil 30

Posición:

138.9 – 85 = 53.9

fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $ 334;

que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los

empleados.

CONCLUSIÓN

Podemos concluir que este tipo de medidas nos permiten identificar y ubicar el punto (valor)

alrededor del cual se tienden a reunir los datos (“Punto central”). Estas medidas aplicadas a

las características de las unidades de una muestra se les denomina estimadores o estadígrafos;

mientras que aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la

población. Los principales métodos utilizados para ubicar el punto central son la media, la

mediana y la moda.

La estadística trata en primer lugar, de acumular la masa de datos numéricos provenientes

de la observación de multitud de fenómenos, procesándolos de forma razonable. Mediante la

teoría de la probabilidad analiza y explora la estructura matemática subyacente al fenómeno

del que estos datos provienen y, trata de sacar conclusiones y predicciones que ayuden al

mejor aprovechamiento del fenómeno.