ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

135
1 ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA Autora: Ing. Inés González de Rubiano Versión corregida y aumentada en el AÑO 2008

Transcript of ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

Page 1: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

1

ESTADÍSTICA Y PROBABILIDAD

NOTAS DE CATEDRA

Autora: Ing. Inés González de Rubiano

Versión corregida y aumentada en el

AÑO 2008

Page 2: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

2

Conceptos previos

Podemos decir que entendemos por estadística a la técnica o método que se utiliza para recopilar, organizar, presentar, analizar e interpretar información numérica, con la finalidad de extraer conclusiones útiles que sirvan para tomar decisiones lógicas. Esto a partir de todo el conjunto de datos o del conocimiento de una parte del mismo. Esta definición de estadística nos lleva a hacer dos consideraciones: Primero, éste concepto no se compadece con el que normalmente se tiene en el uso cotidiano del término. Comúnmente, al hablar de estadística, se quiere hacer referencia a uno o más números referidos a determinados fenómenos. Así oímos hablar de las “estadísticas” de lluvia caída durante un determinado período, importación o exportación de ganado o muebles, sobre analfabetismo, deserción escolar, problemas de conducta, etc. etc. En todos estos casos, de lo que se está hablando en realidad, es de los datos estadísticos referidos a cada uno de éstos temas, o sea magnitudes numéricas asociadas a cada uno de ellos. De acuerdo a la definición que adoptamos, la estadística es una técnica o un método que aplicaremos al estudio de los datos estadísticos, que no han a ser considerados en forma aislada, sino dentro de un contexto que posibilite efectuar comparaciones y plantear relaciones Segundo, otro aspecto que debemos señalar es la distinción entre las dos grandes partes de la estadística: la descriptiva y la inferencial. Para la primera el propósito central es mostrar las características de un determinado fenómeno que ha ocurrido y cuyo comportamiento conocemos, como por ejemplo las ventas de un determinado comercio durante el primer trimestre del presente año, los alumnos matriculados en determinado nivel y período de tiempo en la provincia de Formosa, los casos de violencia de género denunciados durante el año, la distribución de ingresos mensuales según tipo de ocupación y las temperaturas medias diarias de un mes.

La estadística inferencial nos permite proyectar los resultados obtenidos en una muestra a toda la población representada por esa muestra, pudiéndose medir la confianza de la generalización, en términos de probabilidad. La inferencia nos permite además, formular conjeturas o predicciones acerca de las características de un fenómeno que se producirá en el futuro, o que habiéndose presentado en el pasado desconocemos su actual comportamiento. Si todas las investigaciones fueran posibles de efectuarse observando o recogiendo informaciones de todos los elementos que componen una población, el método estadístico se reduciría fundamentalmente a la Estadística Descriptiva. Pero en la investigación en general muy rara vez se puede estudiar a todos los miembros de la población, sea por razones de tiempo, de costo o de simple imposibilidad física, la mayoría de las investigaciones tiene que limitarse a las observaciones o

Page 3: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

3

experimentación en muestras. De allí que debamos recurrir a la Estadística Inferencial. Ya que hemos utilizado los términos de población y muestra, los vamos a definir diciendo que llamamos: POBLACIÓN: al conjunto de individuos u objetos en los cuales un investigador está interesado. MUESTRA: es el conjunto de individuos u objetos que componen una parte representativa de la población. Es un subconjunto de la población. La población puede ser finita o infinita. Una población finita es aquella que puede ser físicamente listada. Una población puede ser definida como los alumnos regulares de la Universidad Nacional de Formosa y, en ese caso, pueden ser listados e individualizados todos los elementos que constituyen la población. Pero en la investigación científica, muchas veces la población es considerada infinita a causa de la imposibilidad física de listar todos sus elementos. Así, si se considera la población de eucaliptus de un determinado radio o la población de un cierto insecto que ataca a los animales, o los alumnos con problemas de adaptación escolar, etc., todas son ejemplos de poblaciones infinitas y, por lo tanto hipotéticas. Luego la población infinita es aquella que en la práctica no puede ser físicamente listada.

Las medidas que se calculan teniendo en cuenta todos los elementos que componen una cierta población, se denominan parámetros poblacionales. Un estadístico muestral, en cambio, es una medida que se calcula teniendo en cuenta solamente los elementos que integran una muestra determinada. Insistimos entonces que la muestra es una parte representativa de la población. El estadístico muestral nos sirve, pues es la única información con la que contaremos para decir algo acerca de todos los elementos de la población, utilizando las herramientas que nos brinda la estadística inferencial. Breve reseña histórica El origen de la palabra “estadística” tiene que ver con la administración de los estados, que exigía la recopilación y el análisis de datos relativos a la población y a la riqueza, para los fines de la guerra y de las finanzas. Con el tiempo fueron obteniéndose datos para otros usos del gobierno. La teoría de probabilidad fue desarrollada a pedido de los nobles franceses y tenía que ver con los juegos de azar.

Page 4: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

4

Las tasas y seguros motivaron que la gente llegara a interesarse en problemas de censos, longevidad y mortalidad.

Se cree que el primer personaje importante en bioestadística fue Adolphe Quetelet (1796-1874), astrónomo y matemático belga, que en su trabajo combinaba los métodos teóricos y prácticos de estadística y los aplicaba a problemas de biología, medicina y sociología. A Francis Galton (1822-1911), primo de Charles Darwin, se le denominó padre de la bioestadística y eugenesia, dos materias que estudió interrelacionadamente. Lo imperfecto de las teorías genéticas de Darwin estimuló a Galton a intentar resolver los problemas de herencia.

La mayor contribución de Galton a la biología es su aplicación de la metodología estadística al análisis de la variación biológica, así como el análisis de variabilidad y su estudio de regresión y correlación en medidas biológicas.

A Weldon se le ha atribuido incidentalmente la creación del término biometría para el tipo de estudios a que se dedicaba. En el siglo XX la figura dominante en estadística y biometría ha sido Ronald A. Fisher (1890-1962).

En la actualidad la estadística posee un campo amplio, cuyas aplicaciones conciernen a casi todas las ciencias e incluso a aquellas que parecen alejadas de los números como son los estudios de humanidades. Etapas del método estadístico

Cuando definimos estadística, mencionamos las etapas del método estadístico que son:

Recopilación Organización Presentación Análisis Interpretación

Recopilación: consiste en la captación de los datos estadísticos. Puede ser interna o externa. Es interna cuando se realiza dentro del ente que la va a utilizar. Por

ejemplo los datos de las ventas de un establecimiento se recogen internamente, son de la propia empresa o establecimiento. Es externa cuando los datos provienen de

afuera del ente, ya sea porque las tomamos de alguna publicación o porque se captan directamente mediante una encuesta o censo. Como ejemplo tenemos los datos sobre la población total de nuestro país que la podemos obtener de las publicaciones censales. En cuanto a la periodicidad de la recolección puede ser:

Page 5: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

5

Permanente Continua: por medio de registros diarios. Periódica: por ejemplo los censos de población que se realizan cada diez años, o la

encuesta permanente de hogares que se realiza cada tres meses. No permanente: está referida a estudios especiales, que pueden utilizar las encuestas o los censos para la obtención de los datos. Organización: esta etapa comprende dos operaciones importantes que deben llevarse a cabo una vez finalizada la recopilación. La primera es la corrección de los datos, que resulta sumamente importante, particularmente en los casos de encuestas. Consiste en la eliminación de las inconsistencias internas de algunos datos o el completamiento de otros. Por ejemplo si en una encuesta que estamos realizando en el año 2000 figura una pregunta sobre el año de nacimiento del encuestado, y por otro lado figura otra que solicita la edad, habrá que verificar la coherencia en la respuesta entre ambas. Si no existe esta coherencia habrá que subsanarla tratando de conseguir el dato cierto o bien deducir la edad correcta sobre la base de algunos indicios que puedan surgir de otros aspectos de la información del cuestionario. Durante la organización también se realiza la clasificación de los datos, que consiste en establecer cuales son los aspectos relevantes que vamos a tener en cuenta para la tabulación y presentación. Pueden tener en cuenta aspectos temporales, (fechas, períodos), aspectos cuantitativos, (ingresos, edad, etc.), aspectos cualitativos, (nivel de instrucción, nacionalidad, religión, etc.). En realidad esta tarea se realiza normalmente antes de finalizada la recopilación, porque forma parte de la programación previa del operativo y de sus objetivos. Presentación: ya sea para uso propio o para el ajeno, los datos deben presentarse

en forma adecuada. Pueden utilizarse tres formas: textual, tabular, semi-tabular y gráfica. Estas formas de presentación no son excluyentes entre sí, pudiendo en una misma presentación, emplear mas de una de ellas. En la forma textual se expresan los resultados a través de enunciados o textos escritos. Entre las ventajas de ésta forma de presentación se puede mencionar que permite dirigir la atención hacia determinadas cifras haciéndolas resaltar. Como desventaja mencionamos que solo se puede utilizar cuando los datos a representar son pocos, ya que es necesario leer o por lo menos registrar el párrafo antes de que se pueda comprender el significado de todo el conjunto de cifras. También resulta difícil aislar inmediatamente las cifras individuales del texto.

Page 6: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

6

La presentación tabular es la que hace uso de cuadros o tablas estadísticas. Es superior al uso de los textos porque es más breve, puesto que los encabezados de las columnas y el título de cada renglón eliminan la necesidad de repetir explicaciones. Además la disposición en filas y columnas de las cifras hace que el cuadro sea claro y fácil de leer. También facilita las comparaciones. La presentación semi-tabular es una combinación de las dos anteriores. La gráfica es otra forma de presentar los datos, no excluyente con respecto a los cuadros. Entre las ventajas podemos mencionar que es más atractiva y más sencilla de interpretar. Además son más eficaces para llamar la atención sobre algún dato que interese particularmente. Dan rápida idea de la situación general. Como desventaja de ésta presentación podemos mencionar que solo se puede presentar una cantidad limitada de información y que solo permite presentar valores aproximados o sea que se pierde precisión con respecto al cuadro.

Variable Al observar la realidad notamos la enorme cantidad de distinciones sensibles que podemos establecer en ella. Por ejemplo, la altura, el diámetro, la edad, el sexo, la conducta, el tamaño, etc. Definimos como variable a la propiedad con respecto a la cual los objetos de estudio difieren entre sí de algún modo verificable. Las variables se clasifican en dos grandes grupos: las categóricas o cualitativas y las numéricas o cuantitativas.

Las variables categóricas o cualitativas son aquellas que están definidas por las

clases o categorías que las componen. Por ejemplo los animales pueden clasificarse de acuerdo al color de su pelaje, las especies forestales en familias, las personas de acuerdo a la profesión, etc. Las categorías pueden ser naturales como al definir la variable sexo, (macho, hembra o masculino, femenino) según se trate de animales o personas; o arbitrarias como la clasificación de alturas, (ya sea de personas, animales o vegetales), en bajos, medianos o altos. Las variables categóricas generadas por la forma de presencia-ausencia de una categoría, se llaman dicotómicas o binarias.

Page 7: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

7

Por ejemplo personas con trabajo o sin trabajo, vegetales comestibles o no comestibles, árboles ornamentales o no ornamentales, animales con crías o sin ellas, etc. Otro tipo de variables son las numéricas o cuantitativas.

Como su nombre lo indica, las variables numéricas son aquellas que se expresan por medio de un número. Estas variables se dividen en: discretas o discontinuas, que se obtienen por conteo y solo toman valores numéricos fijos, sin posibles valores intermedios. Por ejemplo el número de animales o personas en un establecimiento podrá ser 1.000, 2.000 o 2.500, pero nunca 1.000,6; 2.000,5 o 2.500,7. Continuas, éstas surgen de mediciones efectuadas sobre cada unidad experimental,

y pueden tomar infinitos valores entre dos valores dados, por lo menos en teoría. Por ejemplo entre las dos medidas de longitud 1,5 y 1,6 cm podrían medirse infinitas longitudes, siempre que se estuviese dispuesto a hacerlo y si se dispone de un método suficientemente preciso para obtener tales medidas. Ejemplos de variables continuas son: longitud, peso, temperatura, etc.

Escala o nivel de medición Las escalas o nivel de medición se diferencian por propiedades de orden y de distancia. Se las puede clasificar en: nominal, ordinal, intervalar y de razón. Escala nominal es aquella en la que no se hace ningún supuesto respecto de las relaciones que existen entre las categorías de la variable. Por ejemplo el sexo de una persona, es una variable medida en escala nominal, porque no tiene un orden pre establecido; (de mayor o menor), entre sus categorías: varón, mujer. Otros ejemplos de variables medidas en escala nominal son: religión, lugar de nacimiento, color del follaje, color del pelo, etc. Escala ordinal es aquella que surge de ordenar todas las categorías de la variable,

de acuerdo a algún criterio. Por ejemplo, clasificar las personas de acuerdo al puesto que ocupan en su lugar de trabajo, como: peón, encargado, administrador, etc. El nivel socioeconómico puede ordenarse como alto, medio, bajo. En éstos casos lo único que sabemos es que el nivel de encargado es superior al de peón y el de administrador superior al de encargado. Que el nivel socioeconómico alto implica un ingreso mayor que el nivel bajo. No obstante, en ningún caso sabemos con certeza cuánto “mayor” es una categoría de la variable con respecto a otra pues no existe una medición de distancia.

Page 8: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

8

Escala intervalar es aquella que tiene la propiedad de asignar una medición de

distancia entre los valores de la variable. Entonces cuando se dice que un objeto es mayor que otro, se puede especificar cuantas unidades de diferencia hay entre ambos o por cuantas unidades, un objeto es mayor que el otro. Por ejemplo, con la medición es posible decir no sólo que Antonio es más alto que Pedro, sino también se puede decir que Antonio es 10 cm mas alto que Pedro. Una característica de la escala intervalar es que el punto de origen o punto cero en la escala de medición es un punto de acuerdo o punto convencional. Otras variables que se pueden medir con escala intervalar son: temperatura, inteligencia, etc. En todos estos casos es posible hacer comparaciones de distancia entre mediciones pero no entre sus magnitudes proporcionales. El punto cero o de origen, es convencional. Escala de razón: es aquella que presenta todas las propiedades de orden y distancia

de una escala intervalar adicionando el punto “0” o punto de origen que es natural. Por ejemplo medidas de distancia, ingreso familiar, medidas de superficie, etc.

En ésta escala de razón, al igual que en una escala intervalar, las unidades de medida son equidistantes unas de otras con la única diferencia que, en las escalas de razón, existe un punto cero correctamente definido por lo tanto se pueden efectuar comparaciones proporcionales.

El tipo de escala de medición que se utiliza al medir una variable condiciona el tratamiento estadístico que se efectuará a los datos.

MUESTREO

En la vida cotidiana una buena parte de las actitudes y juicios de la gente dependen y han dependido de la práctica consciente o inconsciente del muestreo. Desde el ama de casa que después de examinar algunos artículos en una mueblería, les dice a sus amigas que el mismo es un lugar caro, hasta el periodista que después de permanecer algunos pocos días en un país extraño escribe un libro sobre los problemas del país en cuestión, son ejemplos de inferencia por muestreo, que van

Page 9: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

9

desde lo que tiene base científica, hasta lo que tiene sentido común, hasta lo que puede ser arbitrariamente simplista.

Vemos que la práctica del muestreo antecede a la Estadística en muchos

siglos y constituye un procedimiento familiar y empírico de emitir conclusiones. Que es válido sacar de un grupo de elementos representativos, conclusiones generales acerca de todos los elementos de la población.

En resumen, la Inferencia Estadística establece que el muestreo, realizado

bajo ciertas condiciones y sometido a ciertos requisitos, constituye un procedimiento científico, en muchos casos insustituible, por lo práctico y económico, para proyectar las conclusiones derivadas de una muestra, a toda la población de la que forma parte la muestra, dentro de límites pre-establecidos de confianza.

Previa a la aplicación de una técnica de muestreo, habrá que fijar el máximo

error, en exceso o en defecto, que consideramos aceptable en la medición del atributo investigado en una muestra. O sea el máximo error aceptable del estadístico, con respecto al parámetro.

Otro criterio que habrá que fijar previamente es el nivel de confianza con el que

se desea trabajar. Por ejemplo, supongamos que el objeto de la investigación es determinar la

edad promedio de varios miles de trabajadores de cierto sector industrial, para lo cual queremos utilizar una muestra, cuyo error no exceda del 5%, (en exceso o en defecto), con un nivel de confianza de 99%. Estas condiciones implican que la edad promedio que se obtenga de la muestra de trabajadores no debe discrepar en más de 5% con respecto a la edad promedio que obtendríamos si averiguáramos la edad individual de cada uno de los trabajadores en cuestión. Y, por otra parte, significa que la edad promedio obtenido de la muestra, (con el margen de error tolerado) es la misma que obtendremos del estudio de, cuando menos el 99% de todas las posibles muestras, iguales en tamaño a la muestra original, que se pueden sacar de la población.

Ventajas del muestreo: menor costo: menor número de personas dedicadas

a recolectar la información; mayor rapidez en la recolección; mejor preparación del personal dedicado a la recolección; mejores métodos de control e inspección del trabajo, entre otras.

El muestreo, es muchas veces el único método para obtener información, por ejemplo en el caso de poblaciones que se consideran infinitas; o cuando el estudio implica la destrucción del objeto investigado, como en los casos de tests de resistencia a la rotura o a la fusión, tests de duración, los que implican consumo de alimentos o medicamentos, etc.

En ciertas condiciones, el muestreo, aporta resultados más precisos que el

conteo o la medición de toda una población, por ejemplo cuando ésta es muy grande

Page 10: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

10

y difícil de examinar individualmente, por lo cual se vuelve vulnerable a ocasionar errores aún mayores que los que pueden derivarse del muestreo. Criterios de utilización del muestreo: a) no es aplicable cuando se requiere conocer las peculiaridades de cada miembro

de la población.

b) tampoco cuando la variabilidad del atributo que se investiga en la población es muy grande o su incidencia muy rara.

c) antes de aplicarlo hay que definir claramente la población de la cual se extraerá

la muestra. d) Clara determinación previa del atributo que deseamos investigar. e) Indagar y obtener toda información previa de la población que se va investigar.

Realizar una prueba piloto. Probabilísticas TIPOS DE MUESTRAS No probabilísticas

Probabilísticas: cuando cada uno de los miembros de la población, tiene alguna probabilidad conocida, de ser elegido para formar parte de la muestra. El riesgo de conclusiones incorrectas puede ser medido en forma de probabilidades.

No probabilísticas: la probabilidad de elección de los miembros de la muestra no puede ser determinada, por ende, no hay manera de medir el riesgo de conclusiones erróneas. Al azar simple Sistemático proporcional Muestreo probabilístico Estratificado al azar no proporcional

Page 11: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

11

Por conglomerados Por conveniencia Muestreo no probabilístico Por juicio Por cuota

Al azar simple: Se obtiene utilizando algún procedimiento aleatorio que asegure que

cada elemento de la población tenga la misma probabilidad de estar incluido en la muestra elegida.

Cuando la muestra es pequeña, puede utilizarse para la elección, algún

procedimiento primitivo como los papelitos o procedimientos similares. Sin embargo, el método más aconsejable, especialmente cuando la población es grande, es efectuar esta elección por medio de una Tabla de números Aleatorios.

A continuación se transcribe un pequeño fragmento de una TABLA DE NUMEROS ALEATORIOS (Cambridge)

20 17 42 28 23 17 59 66 38 61 02 10 86 10 51 55 92 52 44 25 74 49 04 49 03 04 10 33 53 70 11 54 48 63 94 60 94 49 57 38 94 70 49 31 38 67 23 42 29 65 40 88 78 71 37 18 48 64 06 57 22 15 78 15 69 84 32 52 32 54 15 12 54 02 01 37 38 37 12 93 93 29 12 18 27 30 30 55 91 87 50 57 58 51 49 36 12 53 96 40

Por ejemplo, supongamos que una empresa, tiene a su servicio 20 camiones numerados de 1 a 20 y que los números 1 al 3 son de gran tonelaje, los números 4 al 10 de tonelaje medio y los números 11 al 20 son de bajo tonelaje. Supongamos además, que el kilometraje por litro de combustible de las 20 unidades es la siguiente:

Alto tonelaje Medio tonelaje Bajo tonelaje N° km/lt N° km/lt N° km/lt 1 2,6 4 5,6 11 8,1 2 3,0 5 5,2 12 7,5 3 2,5 6 5,0 13 7,6 7 5,7 14 6,9

Page 12: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

12

8 4,9 15 7,3 9 5,2 16 7.7 10 5,5 17 7,4 18 7,1 19 7.5 20 7.9 __ ___ ___ 8,1 37,1 75,0 Media: 2,7 5,3 7,5

Si utilizando la tabla de números aleatorios, eligiéramos una muestra de 6

camiones, por el método al azar simple y sacamos el promedio de km/lt, el resultado seria el siguiente: N° km/lt 4 5,6 12 7,5 15 7,3 17 7,4 18 7,1 20 7,9 _____ 42,8 Media: 7,1 km/lt

Se puede observar claramente que este método no es él más conveniente, pues la población esta constituida por 3 grupos heterogéneos con respecto a rendimiento de combustible y, además, de tamaños muy diferentes dentro de la población. Se puede apreciar que ninguna unidad de alto tonelaje llega a constituir parte de la muestra aleatoria.

En resumen si la población esta claramente dividida en grupos más o menos

heterogéneos y las proporciones de dichos grupos dentro de la población son desiguales, el muestreo aleatorio simple no es él más aconsejable. Muestreo sistemático:

Consiste en elegir los individuos de la muestra a intervalos sistemáticos del listado, es decir intervalos iguales a partir de un primer caso elegido según

Page 13: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

13

el método de números al azar. Para fijar el intervalo se divide él número de casos de la población por él número de elementos que se desea en la muestra.

Por ejemplo N = 20 camiones y queremos una muestra de 5, se tomara:

N/n = 20 / 5 = 4

Es decir, uno de cada 4 individuos de la población, siendo el primer número entero entre 1 y 4 tomado al azar. Supongamos que sale el 2; el siguiente será el 2 + 4 = 6; el siguiente 6 + 4 = 10, etc. Este método es más conveniente cuando el listado es largo. Puede producir deformaciones, si el listado presenta alguna tendencia, pero esto suele poder corregirse mezclando bien los individuos de la lista. Muestreo estratificado:

Cuando la población puede dividirse en estratos homogéneos, con respecto al atributo que se investiga; el muestreo estratificado da resultados más precisos que el simple al azar.

El muestreo estratificado consiste en tomar una muestra de cada estrato,

para reunir todas las submuestras en una gran muestra total. Puede ser proporcional: que implica que cada submuestra es proporcional al

tamaño del estrato del que procede, dentro de la población.

En el no proporcional o por muestras iguales, todas las submuestras son

del mismo tamaño y es el método aconsejable, cuando se desconoce la proporción de cada estrato de la población

Muestreo por conglomerados

Consiste en dividir la población en grupos llamados conglomerados. Estos grupos se usan generalmente cuando hay que hacer trabajos que abarcan una superficie geográfica muy amplia, por ejemplo, estudiar algún aspecto de la población de un país. Se divide a la población en sectores, llamados conglomerados que deben ser lo más homogéneos posible.

Además deben ser exhaustivos, es decir donde estén representados todos los

aspectos de la población y mutuamente excluyentes, o sea que cada individuo de la población pertenezca a uno y tan solo un conglomerado.

Aquí lo que se elige es una muestra de conglomerados. Suele tener mucho

mayor error que la muestra elegida por el método simple al azar.

Page 14: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

14

MUESTRAS NO PROBABILISTICAS Muestras por conveniencia

Son aquellas compuestas por los miembros más accesibles de una población, o los que se consideran mas dispuestos a someterse a una encuesta. Por ejemplo las personas que salen de un supermercado. Muestreo por juicio

Son aquellas cuyos miembros se eligen entre aquellos que se consideran los más representativos de una población.

Por ejemplo si queremos averiguar sobre los gustos para preparar comidas a base de pescados, se elige una población consumidora de este alimento. Muestreo por cuotas

Es una variante del muestreo estratificado, que lleva implícita una selección

más o menos no probabilística de los miembros de cada submuestra.

ORGANIZACIÓN Y RESUMEN DE DATOS

Un conjunto de datos puede ser trabajado en forma bruta, o sea en el orden aleatorio en que se han recolectado. Pero cuando el número de

observaciones es muy grande se hace difícil trabajar de ésta manera, por ello es conveniente resumirlos y clasificarlos de acuerdo con criterios adecuados, de modo de facilitar su análisis y así sacar conclusiones. Puede ser en: a) arreglo ordenado: pone los datos brutos en orden, de la observación menor a la mayor. Esto facilita la evaluación por parte del investigador. Esta forma de trabajar es también aconsejable cuando los datos no son demasiado numerosos. b) En exhibiciones de “tallo y hojas” o “tronco y ramas”. Esta es una técnica sencilla de gran utilidad para explorar y describir una gran masa de datos, que fue desarrollada por Tukey.

Supongamos que se han contabilizado la cantidad de personas empleadas en un grupo de establecimientos agrícola ganadero de una zona geográfica determinada, y los resultados obtenidos fueron los siguientes: 15 60 54 19 80 12 17 44 22 21 16

Page 15: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

15

23 82 19 50 15 29 9 10 11 52 26 95 20 41 17 33 35 57 61 50 43 10 16 30 27 32 6 47 36 8 84 43 43 67 27 44 16 22 90 29 76 37 17 16 Se comienza colocando en una columna todos los números que conforman los datos eliminando la última cifra (unidades), y se ordenan de menor a mayor. A la derecha de cada uno de éstos números se escribe la última cifra (unidad) de cada dato, que comienza con el número escrito anteriormente. Posteriormente, se ordenan también de menor a mayor los números de cada fila. Cabe aclarar que en la columna cada número aparece una sola vez en tanto que en las filas pueden repetirse de acuerdo a las cantidades que conforman los datos. Por ejemplo el valor 19 se coloca en la fila del 1 agregando el 9; el 22 en la fila del 2 agregando el 2; etc. El diagrama de tallo y hojas correspondiente al ejemplo planteado es el siguiente: 0 6 8 9 1 0 0 1 2 5 5 6 6 6 6 7 7 7 9 9 2 0 1 2 2 3 6 7 7 9 9 3 0 2 3 5 6 7 4 1 3 3 3 4 4 7 5 0 0 2 4 7 6 0 1 7 7 0 2 8 0 2 4 9 5

De ésta manera se ha obtenido una distribución de frecuencias, donde la frecuencia ahora esta representada por una fila de números en lugar de un rectángulo.

La interpretación de éste gráfica es la siguiente:

Por ejemplo, tomando la segunda fila puede observarse que hay dos establecimientos con 10 empleados cada uno; 1 de 11; 1 de 12; 2 de 15; 4 de 16, etc.

De ésta manera se interpretan las demás filas. c) En tablas de distribución de frecuencias: éstas asocian cada valor de la variable,

con la cantidad de veces que se observa dicho valor.

Page 16: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

16

TABLAS DE DISTRIBUCION DE FRECUENCIAS

Se puede definir a una distribución de frecuencias como el cuadro o tabla que presenta en forma ordenada a los distintos valores de una variable y sus correspondientes frecuencias.

Para variable discreta: se construye una tabla simple. Si una variable continua

es tratada como discreta, también podrá presentarse en éste tipo de tabla.

Para variable continua: se construye una tabla con intervalos de clase. Este tipo de tabla también puede utilizarse para variable discreta con amplio recorrido.

Mediante un ejemplo veremos la presentación de una tabla simple de distribución de frecuencias, (variable discreta).

El número de días que no asistieron a trabajar durante un año, un grupo de 40 obreros fue el siguiente, de acuerdo al registro obtenido en el período considerado: ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, Nº de inasistencias Nº de obrer. Frec.ac. Frec.rel.% Frec.rel % acum. (xi) (fi) (Fi) (f ri) (Fri)

,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 0 1 1 2,5 2,5 1 2 3 5,0 7,5 2 4 7 10,0 17,5 3 12 19 30,0 47,5 4 10 29 25,0 72,5 5 7 36 17,5 90,0 6 4 40 10,0 100,0 ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, TOTAL 40 -- 100,0 ---- ,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

En la primer columna (xi) se observan los valores que toma la variable “número de inasistencias por obrero”, ordenados en forma creciente, cuyo campo de variabilidad o dominio, para éste caso, es de 0 a 6.

En la columna siguiente (fi), se ha colocado el número de obreros u

observaciones correspondientes a cada valor de la variable, es decir la frecuencia absoluta que presenta cada valor de la misma. Si sumamos ésta columna tendremos el total de obreros cuyas inasistencias se estudia.

Decimos entonces que la frecuencia absoluta está dada por el número de veces que se repite cada valor de la variable.

Page 17: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

17

La suma de las frecuencias absolutas es igual al total de observaciones, que simbolizamos con N o n, según se trate de una población o una muestra la que está en estudio. Luego:

fi = n

En el ejemplo anterior: 1 + 2 + 4 + 12 + 10 + 7 + 4 = 40

La frecuencia absoluta es siempre un número positivo comprendido entre 0 y n

0 fi n

Luego en la columna tercera (Fi), sumamos para cada valor dado de la variable, las frecuencias absolutas de los valores menores o iguales al valor que se está considerando. Esto se denomina frecuencia acumulada. O sea: Fi

Por ejemplo, hasta 2 inasistencias se acumularon 7 obreros, o sea 1 obrero con 0 inasistencia, 2 con 1 inasistencia y 4 con 2 inasistencias.

En la columna cuarta (fri) calculamos el cociente de cada uno de los valores

de la columna segunda (fi) respecto del total de obreros, por cien, o sea: fi 40 x 100. Llamaremos a estos valores frecuencia relativa porcentual. Es decir: fri = fi . 100 n

La frecuencia relativa porcentual es un número positivo comprendido entre 0 y 100

0 fri 100 La suma de las frecuencias relativas porcentuales es siempre igual a 100.

fri 100 Finalmente en la última columna efectuaremos el cociente de (Fi) sobre el total de observaciones por cien, lo que nos indica el peso relativo porcentual de los casos acumulados hasta cada uno de los valores de la variable y llamaremos a esta columna “frecuencias relativas porcentuales acumuladas”.

Page 18: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

18

Las frecuencias relativas porcentuales acumuladas para el último valor de la variable son siempre igual a 100.

REPRESENTACIÓN GRÁFICA

En general la representación gráfica de una tabla de frecuencias permite percibir con mayor claridad algunas características de la masa de datos que se investiga. Por ello, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de distribuciones de frecuencias cuando se utilizan gráficos estadísticos.

Se utiliza un par de ejes de coordenadas. En el eje de las abscisas se

representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias (absolutas o relativas). En el caso de una variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede representar por un bastón vertical construyéndose de esta forma un “ gráfico de bastones”.

Podemos decir entonces que el gráfico de bastones es la representación gráfica de las frecuencias de una variable discreta, mediante un gráfico de puntos, en un sistema de coordenadas cartesianas ortogonales cuyas abscisas son los valores de la variable y cuyas ordenadas son las frecuencias absolutas o relativas.

Para el cuadro del ejemplo anterior, el gráfico sería: fi 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 inasistencias

Page 19: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

19

Gráfico de bastones

El gráfico de frecuencias acumuladas, o “gráfico de escalones”, es la representación gráfica de las frecuencias acumuladas (absolutas o relativas), de una variable discreta mediante segmentos paralelos al eje de abscisas. Cada segmento se extiende entre dos valores consecutivos de la variable, siendo las respectivas ordenadas las frecuencias acumuladas correspondientes al valor de la variable que es abscisa del punto inicial del segmento. Fi

40

30

20 10 0 1 2 3 4 5 6 7 inasistencias gráfico de escalones

Como ya dijimos, los mismos tipos de gráficos se utilizan para representar las frecuencias relativas.

PARA EL CASO CONTINUO

Para el caso de variables continuas será necesario fijar intervalos de clase para llegar a un resumen efectivo de la información original que se presenta en una tabla de frecuencias para datos agrupados

Page 20: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

20

Los intervalos de clase o simplemente clases son cada una de las

subdivisiones o intervalos en que se ha dividido el dominio o campo de variabilidad de una variable.

Para ello en principio habrá que observar el mayor y el menor valor que toma la variable en estudio y obtener el rango.

El rango se define como la diferencia que existe entre el mayor y el menor valor observado, que toma la variable en estudio.

Por ejemplo si las remuneraciones por cátedra de un grupo de docentes fueran las siguientes: 103 153 079 146 150 149 150 070 128 129 116 087 093 132 110 068 069 086 103 085 100 109 123 114 083 106 118 093 106 106 126 132 102 093 097 106 113 111 095 069 111 141 126 114 114 099 063 079 119 128 131 137 099 067 087 103 087 116 063 085 078 078 105 109 095 087 084 097 106 109 140 113 069 089 089 101 118 106 136 073 086 106 108 105 113 101 081 098 113 069 107 098 069 064 068 078 075 106 096 086 El rango sería igual a: R = 153 - 63 = 90

Este intervalo que contiene a todos los valores registrados puede dividirse, por ejemplo en 10 intervalos de 10 $ cada uno. Se puede así construir una tabla de frecuencias donde en lugar de escribir los valores originales de la variable se los reemplaza por 10 intervalos de amplitud (h) 10, cada uno.

Los valores colocados a la izquierda de cada intervalo de clase se denominan límite inferior de la clase y lo simbolizamos con Li. Los de la derecha son los límites superiores de las mismas y el símbolo es Ls.

El límite superior de cada intervalo se obtiene, sumando la amplitud (h) a cada límite inferior.

Page 21: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

21

Para establecer la frecuencia de cada intervalo se cuentan los valores de la variable que caen en cada uno de ellos. Por ejemplo, agrupando las remuneraciones tendremos: INTERV. DE CLASE fi

60 - 70 11 70 - 80 9 80 - 90 14 90 - 100 11 100 - 110 22 110 - 120 14 120 - 130 7 130 – 140 5 140 – 150 4 150 - 160 3

La decisión en cuanto a la cantidad de intervalos y a la amplitud de cada uno

de ellos es arbitraria. La única recomendación que debemos hacer aquí es tratar de que no queden intervalos de clase con frecuencia nula. En general se aconseja que los intervalos no sean menos de cinco ni más de quince.

Además como el rango total de los intervalos de clase debe incluir a todos los valores de la variable registrados, se aconseja redondear el rango calculado a un número entero superior para evitar que el menor o el mayor valor que toma la variable queden excluidos.

En el ejemplo el rango era igual a 9 y fue redondeado a 10, decidiendo entonces hacer 10 intervalos de amplitud 10 cada uno. El menor valor de la variable era 63 y se empezó a construir a los intervalos desde el valor 60.

El valor de la variable que coincida con un límite, por ejemplo 80 podría ubicarse en el segundo o tercer intervalo de clase. Libremente se puede decidir en cuál de los dos hacerlo, pero siguiendo siempre el mismo criterio a través de todo el proceso de agrupamiento. O sea si se decide ubicarlo en el segundo intervalo, cuando aparezca un valor de 100, se lo ubicará en el cuarto intervalo, si se tiene un valor de 150, se lo debe ubicar en el noveno intervalo.

A través del agrupamiento de las observaciones en una tabla de distribución de frecuencias con intervalos de clase se pierde la información correspondiente a los valores individuales de la variable, ya que se da por supuesto que todas las observaciones de una clase se encuentran en el punto medio del intervalo.

El punto medio o marca de clase de cada intervalo es el valor de la variable en el que se da por supuesto que se encuentran todas las observaciones del mismo. Se lo simboliza con xi.

Page 22: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

22

Se puede hallar sumando el límite inferior y el superior de cada intervalo y dividiendo por dos.

Por ejemplo el punto medio o marca de clase del primer intervalo, de la tabla anterior, es:

Xi = 60 + 70 = 65 2

Otra forma de encontrarlo es sumando al límite inferior la mitad de la amplitud, o sea: Xi = Li + h / 2

Para el ejemplo sería: 60 + 10/5 = 60 + 5 = 65 Como la mitad de la amplitud es una constante para todos los intervalos de

ésta tabla, se puede obtener el punto medio de cada uno de ellos, sumándole 5 a cada límite inferior. Así tendremos: 60 + 5 = 65; 70 + 5 = 75; 80 + 5 = 85; etc., etc.

REPRESENTACIÓN GRÁFICA

Existen dos gráficos, llamados histograma, para representar la distribución de éste tipo de variable: • para las frecuencias, ya sean absolutas o relativas • para las frecuencias, absolutas acumuladas, o relativas acumuladas

En el eje horizontal se pondrán los distintos intervalos de clase y en el eje vertical las correspondientes frecuencias (absolutas o absolutas acumuladas).

Cuando, como en éste caso, se estudian variables continuas, las frecuencias se representan mediante áreas o superficies, pues la escala en la que están medidas las mismas permiten tomar valores en cualquier punto del eje horizontal del gráfico.

El mismo nos permite, entre otras cosas, la identificación de valores típicos y atípicos de una distribución.

Llamamos valor atípico al que se diferencia sustancialmente de los demás.

Page 23: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

23

Otro gráfico útil es el polígono de frecuencias, que para el caso del gráfico de frecuencias absolutas, la frecuencia del intervalo se representa por una ordenada en el punto medio del mismo. Para que quede cerrada la figura, ya

que la superficie dentro del polígono de frecuencias es igual a la del histograma para la misma distribución, se coloca un punto medio inmediato anterior y otro inmediato posterior de lo que sería un intervalo anterior y posterior ficticio con frecuencia cero.

Histograma y polígono de frecuencias

Histograma de frecuencias absolutas

En el histograma de frecuencias acumuladas, (gráfica siguiente), éste

polígono se denomina ojiva y es una línea que une los límites superiores de cada uno de los intervalos de clase. Esta línea empieza en lo que sería el límite

superior de un intervalo inmediato anterior ficticio con frecuencia cero. La mayor utilidad de éste gráfico consiste en la comparación de la distribución

empírica de los datos, proporcionada por la tabla de frecuencias, con una distribución estándar denominada distribución normal.

31,10 32,00 32,90 33,80 34,70 35,60 36,50 37,40 38,30 39,20

PC (cm)

0

2

4

6

8

10

12

fre

cu

en

cia

ab

so

luta

Page 24: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

24

Histograma de frecuencias acumuladas y ojiva

MEDICIÓN DE DATOS

Las distribuciones de frecuencias aportan información preliminar de interés, acerca de una variable investigada en una población o en una muestra. Sin embargo, a menudo necesitamos una medida que caracterice o distinga a la distribución, en los siguientes aspectos: • en cuanto a su posición • en cuanto a su dispersión • en cuanto a su forma

Como ya dijimos, cuando a éstos valores se los obtiene a partir de toda la población se denominan parámetros y si son calculados con los datos de una muestra se denominan estadísticos. a) las medidas de posición: nos indican la “posición”, que ocupa la distribución sobre

el eje de las abscisas. También se las denomina de tendencia central porque muchas de ellas tienden a ubicarse en el centro de la distribución.

31,10 32,00 32,90 33,80 34,70 35,60 36,50 37,40 38,30 39,20

PC (cm)

0

10

20

30

40

50

fre

c.

ab

s.

acu

mu

lad

a

Page 25: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

25

b) las medidas de dispersión: nos reflejan cómo se distribuyen los valores de la

variable a lo largo del eje de las abscisas. c) Entre las medidas de forma, tenemos:

- las de asimetría: que indican la deformación horizontal que tiene la distribución. Una distribución perfectamente simétrica es aquella en la que las frecuencias equidistantes de la frecuencia máxima son iguales.

- las de puntiagudez: expresan la altura relativa de la distribución.

MEDIDAS DE POSICIÓN

Se definen varios tipos de medidas de posición o tendencia central, siendo las más comunes: media aritmética moda mediana Medidas cuartiles Medidas de deciles fractilas de orden Posición percentiles

Cada una tiene ventajas y desventajas, según los datos y el objetivo perseguido.

El cálculo de las mismas difiere de acuerdo al tipo de variable con que se

trabaja y presenta pequeñas modificaciones según se disponga de datos agrupados o no.-

LA MEDIA ARITMÉTICA

O simplemente media, o promedio, es el más conocido y quizás el más usado de los parámetros de posición por las ventajas que ofrece en algunos aspectos. Se

_ denota con x, (léase “x barra”) y para un conjunto N de números x 1 , x 2, x 3, ..., x n se define por:

Page 26: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

26

_ i=n

X = x1 + x2 + x3 + ... + xn = Xi

N i=1 N

i=n

Media aritmética simple: x i i=1 N

Es decir la media aritmética simple es la sumatoria de los valores de la

variable xi, (variando i de 1 hasta n), dividido por el total de observaciones.

La igualdad i = 1 indica que los valores (datos) deben ser sumados empezando

por el primero y terminando por el enésimo como nos indica la igualdad i = n escrita encima del signo.

Por ejemplo: la media aritmética de los números 8, 3, 5, 12 y 10 es: _ X = 8 + 3 + 5 + 12 + 10 = 7,6 5

Si los números x 1 , x 2 , ...x i se repiten diferente número de veces, o sea tienen frecuencias diferentes, (simbolizadas por fi), podemos agruparlos en una tabla simple de distribución de frecuencias.

Es necesario tener en cuenta el diferente peso que los datos tienen en la distribución y en éste caso deberá aplicarse el concepto de media aritmética ponderada.

Por ejemplo si tenemos los siguientes valores, correspondientes al número de animales por corral, o al número de árboles por parcela: x i * fi * xi . fi 50 * 3 * 150 50 que se repite 3 veces 60 * 1 * 60 70 que se repite 2 veces 70 * 2 * 140 60 que se repite 1 vez Tot. * 6 * 350

Los valores 3, 2 y 1 constituyen las respectivas ponderaciones de cada dato o valor observado. La media aritmética ponderada será:

Page 27: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

27

_

X = 50 x 3 + 70 x 2 + 60 = 58,33 58 6

O sea que en promedio cada parcela tiene 58 árboles, o cada corral en promedio tiene 58 animales.

Reemplazando los valores numéricos por sus respectivos símbolos:

_ X = X 1. f 1 + X 2. f 2 + X 3. f3

N

_

X = x i . f i Media aritmética ponderada N

Donde N es la frecuencia total (o sea el número total de casos, que en la tabla de distribución de frecuencias está dado por la sumatoria de las f i ).

En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media aritmética es similar al caso anterior, es decir:

_

X = Xi fi N

Ahora bien, qué valor tomará xi en la fórmula de cálculo de la media aritmética.

Ya hemos expresado que cuando se agrupan datos continuos en intervalos de clase, se pierde información original.

Luego, para solucionar este problema, xi se calcula como el promedio entre los extremos de cada intervalo, es decir, xi representa el punto medio, (o marca de clase), de cada intervalo de clase.

Calculemos la media aritmética en la siguiente tabla de distribución de frecuencias:

Page 28: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

28

Categoría fi x i x i . fi 50 - 100 2 75 150 100 - 150 6 125 750 150 - 200 11 175 1925 200 - 250 5 225 1125 250 - 300 3 275 825 _ ____________________ ___ X = 4.775 = 176,85 TOTAL 27 4775 27

Significa que el valor promedio es de 176,85.

Por supuesto que el valor que se obtiene debe estar comprendido entre el mínimo y el máximo de la serie, en éste caso entre 50 y 300.

Características de la media aritmética:

- Como dijimos anteriormente es un valor comprendido entre el mínimo y el máximo valor de la variable en estudio.

- Posee la misma unidad de medida que la variable considerada. - En su cálculo intervienen todos los valores de la variable estudiada. Esto

se presenta como una ventaja ya que permite el tratamiento algebraico de la misma.

- Otra ventaja es que resulta de fácil cálculo e interpretación.

- No se la puede calcular cuando los datos están agrupados en una tabla de distribución de frecuencias con intervalos abiertos, (porque de los mismos no se puede obtener el punto medio). Obviamente esto es una desventaja.

- Se ve afectada o arrastrada por los valores extremos, lo que la hace poco significativa cuando éstos existen. Por lo tanto no se aconseja su cálculo en éstos casos.

PROPIEDADES DE LA MEDIA ARITMÉTICA 1. “La suma de los desvíos de cada valor de la variable con respecto a la media aritmética es siempre igual a cero”. En símbolos:

_

( xi - x ) = 0

Page 29: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

29

En general, entendemos por desvío, a la diferencia entre los valores de la variable y un valor fijo cualquiera. Cuando ese valor fijo es la media aritmética tendremos desvíos con respecto a ella. Por ejemplo: _ Xi Xi - X 2 2 - 5 = - 3 3 3 - 5 = - 2 _ 5 5 - 5 = 0 X = 25 = 5 7 7 - 5 = 2 5 8 8 - 5 = 3 _____________________ _ 25 - 5 + 5 = 0 X = 5

Veamos la demostración analítica de ésta importante propiedad: _ Xi Xi - X

_ X1 (X 1 - X) = d 1

_

X2 (X 2 - X) = d 2

_______

X 3 (X 3 - X) = d 3

. . . . . . . . _ . Xn (X n - X) = d n

_

( X i - X) = d i _

d i = x i - N x

d i = x i - N x i N

d i = x i - x i

d i = 0

Page 30: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

30

2.- “La suma de los cuadrados de los desvíos con respecto a la media aritmética, da un mínimo”.

Es decir que cuando los desvíos son con respecto a la media, la suma de los cuadrados nos da un valor que será siempre menor que el valor que se obtiene cuando los desvíos y sus cuadrados se calculan respecto de cualquier otra constante distinta a la media. Por ejemplo: _ _ xi xi – x ( xi – x )2 (xi – 1) (xi – 1)2 ( xi – 4) ( xi – 4)2 2 - 1 1 1 1 - 2 4 3 0 0 2 4 - 1 1 4 1 1 3 9 0 0 2 14 5 _ x = 3 tomando, la constante: 1 constante: 4 Observamos que: _ (xi - x)2 = 2

(xi - 1)2 = 14 (xi - 5)2 = 5

Por medio de éste ejemplo hemos comprobado, que si hacemos la sumatoria de los desvíos al cuadrado con respecto a cualquier otro valor, menor o mayor que la media, ésta será siempre mayor que si lo hacemos con respecto al valor promedio.

MODO O MODA

Es el valor de la variable que se repite la mayor cantidad de veces, o sea, al que le corresponde la máxima frecuencia.

^ En símbolos: Mº ó x

Si tenemos datos sin agrupar, bastará con identificar cuál es el valor de la variable que más se repite.

Page 31: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

31

Podremos tener series, con un modo es decir unimodales, con más de un modo, o sea bimodales, o que no tengan modo, llamadas amodales.

Por ejemplo, para las siguientes series de datos el modo sería: a) 2 3 5 7 2 Mº = 2 b) 10 14 10 12 10 20 14 45 14 Mº = 10 y 14 c) 23 24 25 30 45 54 Sin Mº

En el caso de pocos datos provenientes de una variable discreta, una vez agrupados es posible determinar inmediatamente el valor modal. Bastará con identificar al valor de la variable al que le corresponde la mayor frecuencia. Ejemplo: Nº de obreros Cantidad de establecimientos

10 44 11 84 12 73 13 189 14 32

Mirando la tabla, directamente podemos determinar el modo o valor modal

fijándonos cual es la máxima frecuencia absoluta, (189 en éste caso), y luego a qué valor de la variable le corresponde, (13, en éste ejemplo). Por lo tanto: Mº = 13 obreros

Esta medida de tendencia central está indicando que lo mas frecuente es que los establecimientos observados, tengan 13 obreros.

En una tabla con intervalos de clase el modo se puede obtener gráfica y analíticamente.

El siguiente es un ejemplo de una distribución de frecuencias referida a la producción de un grupo de establecimientos, (en kg).

Page 32: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

32

Peso (en kg) punto medio(xi) fi Fi

50 - 100 75 1 1 100 - 150 125 3 4 150 - 200 175 9 13 200 - 250 225 30 43 250 - 300 275 60 103 300 - 350 325 52 155 TOTAL 155

En primer término, vamos a determinar el intervalo con mayor frecuencia

absoluta: es 250 – 300. Dicho intervalo se denomina intervalo de clase modal.

Determinación gráfica: 1.- Se confecciona el histograma con la barra de mayor frecuencia y las adyacentes. 2.- Se trazan dos diagonales en el interior de la barra del intervalo modal, partiendo de los vértices de la barra hasta los vértices de las adyacentes. 3.- Se traza luego una línea perpendicular desde la intersección de las dos diagonales hasta el eje de las x, (escala horizontal). El punto donde se cortan será el valor de la variable al que le corresponde la máxima frecuencia, o sea el modo. En el ejemplo: ^

X 289 60 d2

d1

40

20

0 200 250 300 350 289

Determinación analítica:

Page 33: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

33

Se deriva la fórmula partiendo del dibujo geométrico que resulta de calcular gráficamente el modo.

Mº = Li + d1 . h d1 + d2

Donde: Li = límite inferior del intervalo modal d1 = fi - f(i – 1) , o sea, diferencia entre la frecuencia absoluta del intervalo modal, menos la inmediata anterior. d2 = fi – f(i + 1), o sea, diferencia entre la frecuencia absoluta del intervalo modal, menos la inmediata posterior h = amplitud del intervalo modal

MEDIANA

La mediana es un estadístico de localización útil a veces en investigación biológica.

Se define como el valor de la variable, (en una serie ordenada), que divide al conjunto de datos en dos subconjuntos con igual número de elementos.

Se simboliza de la siguiente manera: Med o x

En la siguiente muestra de cinco medidas: 14 15 16 19 23 Med = 16

ya que la tercera observación tiene el mismo número de observaciones a ambos lados.

Podemos hacer visible la mediana fácilmente si pensamos en una ordenación de menor a mayor. Por ejemplo una fila de animales o personas, alineadas por sus estaturas.

El animal o la persona mediana será el/la que tiene igual número de animales o personas a su derecha y a su izquierda. Su altura será la altura mediana de la muestra considerada. Esta cantidad se calcula fácilmente en una muestra ordenada de un número impar de individuos.

Page 34: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

34

Cuando el número es par, la mediana se calcula convencionalmente como el punto medio entre los valores que ocupan el lugar: n/2 y (n/2) + 1. En una muestra de cuatro medidas: 20 21 22 26 la mediana será el punto medio entre la segunda y la tercera medida, o sea: 21,5.

También podemos definir a la mediana como aquel valor de la variable que cumple con la condición de superar a no mas de la mitad de las observaciones y ser superado por no más de la mitad de las observaciones.

Simbólicamente para calcular la mediana hay que distinguir distintas situaciones: a) Cuando la serie es simple y la cantidad de observaciones es un número impar, es decir, n = número impar. Sea la serie simple: x = x1, x2 , x 3, ... ... , x n

En éste caso hay que ordenar las observaciones de menor a mayor y luego localizar la observación central que será aquella que ocupe el lugar n + 1 2 b) Cuando la serie es simple y la cantidad de observaciones es par.

En ese caso hay dos valores centrales: los que ocupan la posición n/2 y (n/2) + 1. Como dijimos por convención se adopta el promedio simple de ambos como única mediana de la serie. O sea: Med = x(n/2) + x (n/2) + 1 2

c) Serie agrupada, con variable discreta:

El procedimiento de cálculo resulta de practicar el análisis anterior para serie simple, pero teniendo en cuenta las ponderaciones que ahora aparecen.

Hay que calcular el valor de n/2 y las frecuencias absolutas acumuladas. Luego se relaciona el valor n/2 con las frecuencias absolutas acumuladas para encontrar dos de estos valores entre los que esté comprendido el mismo.

Supongamos que ese par de valores sean Fj – 1 y Fj y que satisface que:

Fj – 1 < n/2 < Fj Ejemplo:

Page 35: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

35

x i f i F i

7 32 32 8 40 72 58 9 12 84 10 10 94 11 22 116 Total 116 n/2 = 58 32 < n /2 < 72 Mna = 8

d) Distribución de variable continua Ejemplo: Intervalos fi Fi

20 - 40 2 2 40 - 60 6 8 60 - 80 11 19 n/2 = 15 80 -100 6 25 100 -120 5 30 Total 30 Los pasos para obtener el valor mediana, son:

- Agregar la columna de frecuencias acumuladas ( Fi ). Obtener el punto medio de la distribución mediante la siguiente operación: n/2 = 30/2 = 15

- Ubicar en la columna de Fi ( frecuencias acumuladas), los valores entre los cuales se encuentra el n/2, (15 para nosotros), o sea entre 8 y 19, quiere decir que la mediana, en éste caso, se ubicará en una posición mayor que 8 y menor que 19. Por lo tanto ya sabemos que será un valor entre 60 y 80.-

- Determinado el intervalo en el cual cae la mediana sabemos que el valor será; el límite inferior (Li ) de ese intervalo más una cierta cantidad x, o sea:

Page 36: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

36

Med = Li + x

No necesitamos incorporar las 11 observaciones del intervalo 60 – 80, sino que interpolamos esas frecuencias de la tercera clase, suponiendo que las frecuencias están distribuidas en ella por igual. Las observaciones cuyas frecuencias necesitamos incorporar surgen de la diferencia entre el punto medio del total de observaciones, (n/30), menos la frecuencia acumulada hasta el intervalo inmediato anterior al de la mediana, o sea: 15 - 8 = 7 Decimos: 11 observaciones -------------- 20 amplitud 7 “ -------------- x = 20 x 7 = 12,73 x = 12,73 11 Mna = Li + x Mna = 60 + 12,73 = 72,73

Mna = Li + n/2 - (F(i-1)) h fi

Donde: Li = límite inferior del intervalo donde cae la mediana n/2 = total de observaciones dividido 2 Fi-1 = frecuencias acumuladas hasta el intervalo inmediato anterior al de la mediana fi = frecuencia absoluta del intervalo donde se encuentra la mediana h= amplitud del intervalo donde cae la mediana

CUARTILES, DECILES Y PERCENTILES Son también parámetros de posición. El concepto de cada uno de ellos responde a un razonamiento similar al de la mediana. En la mediana buscábamos el valor de la variable que separa a la distribución en dos partes con igual número de elementos. Si nosotros pedimos en cambio, el valor de la variable que supere a no más de ¼ del total de las observaciones y que

Page 37: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

37

sea superado por no mas de ¾ del total de las observaciones, tendremos el primer cuartil ( Q1). Hay tres cuartiles que dividen la distribución en cuatro partes con igual número de elementos. Por supuesto que el Q2 es la mediana y así se lo designa generalmente. El tercer cuartil (Q3), o cuartil superior, es el valor situado de modo que las tres cuartas partes de los términos son inferiores y la cuarta parte mayores que él. El mecanismo para calcular los cuartiles es el mismo que utilizamos para el cálculo de la mediana. En la última tabla de distribución de frecuencias: N = 30 para ubicar la categoría donde se encuentra el Q1 hacemos: n/4 = 30/4 = 7,50 El valor 7,50 nos permite determinar que el mencionado cuartil se ubica en el intervalo 40 - 60. O sea que: Q1 = Li + xi

Para averiguar el valor de x, efectuamos la interpolación como en la x La fórmula a utilizar para hallar el valor de Q1 es la siguiente:

Q1 = Li + n/4 - F(i-1) h fi

Q1 = 40 + 7,50 – 2 . 20 6 Q1 = 40 + 18,33 = 58,33

Este es el valor de la variable que está situado de modo que el 25% de los datos es menor o igual que el mismo y el 75% restante es igual o lo superan. Para averiguar el valor del Q3, debemos realizar en primer término el cálculo de:

Page 38: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

38

3 n = 3 . 30 = 22,5 4 4

Este valor nos permitirá ubicar el intervalo donde se encuentra el Q3. Para averiguar el valor exacto, aplicamos la fórmula ya conocida:

Q3 = Li + 3.n/4 - F(i-1) . h fi

Q3 = 80 + 22,5 - 19 . 20 = 91,67 6 Este, (91,67), es el valor de la variable que está situado de modo que el 75% de los datos son menores o iguales que él y el 25% restante son iguales o lo superan. El tercer cuartil es el tercer punto que vemos en el tramo correspondiente: 75% 25%

_______________________ Q1 Q3

Deciles: Permiten estudiar a la distribución en tramos de 10%. Si tomamos el total de observaciones y lo dividimos por 10, nos ubicaremos en el lugar correspondiente al primer decil, simbolizado por: D1

10% 10% 10% 10%

0 D1 D2 D3 D4 D5 D6 D7 D8 D9 Se tienen 9 puntos sobre el eje de las x. El procedimiento para obtener cada uno de los deciles, es el mismo que para los cuartiles.

D1 = Li + n/10 – F(i-1) . h fi

Page 39: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

39

Siguiendo con el ejemplo anterior, n/10 = 3, este valor, con el cual entro a la columna de Fi, me ubica en el intervalo 40 – 60. D1 = 40 + 3 - 2 . 20 = 43,33 6 Significa que del total de observaciones, el 10% son valores inferiores o iguales a 43,33 y el 90% restante son iguales o lo superan.

Percentiles:

Permiten el estudio, aún más detallado de la distribución, ya que el análisis se hace por tramos del 1%. Para encontrar la ubicación de los percentiles, hacemos el siguiente cálculo:

P1 n/100 P2 2 n/100 P82 82 n/100 Fácilmente se podrá advertir que el P75 = Q3 Por otra parte: P50 = D5 = Q2 = Mna A menos que una distribución sea muy extensa, no tiene objeto calcular los percentiles. En realidad, por lo general, sólo se usan los percentiles 10, 20, 30, etc., que son, por supuesto, los deciles 1, 2, 3, etc.

MEDIDAS DE FORMA De asimetría :

_ _ _ x x x x = x = x x x x asimétrica negativa simétrica asimétrica positiva

Page 40: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

40

El grado de asimetría de una distribución se conoce como sesgo, es decir cuanto se aparta de la simetría. Si la curva de frecuencias (polígono de frecuencias suavizado) tiene a la derecha una cola mas larga que a la izquierda, se dice sesgada a la derecha o de sesgo positivo. En caso contrario, sesgada a la izquierda o de sesgo negativo.

Una medida de asimetría está dada por la diferencia: media aritmética – modo,

dividida por el desvío estándar _ _ Sesgo = x - modo ó Sesgo = 3( x - mediana) s s Estos son llamados primer y segundo coeficientes de sesgo de Pearson,

respectivamente. El signo de este coeficiente nos indicará si el sesgo es positivo o negativo.

Cuando mas lejano este su valor del 0, la distribución se apartará mas de la simetría. En una distribución simétrica coinciden la media aritmética, la mediana y el modo.

Cuando la distribución se vuelve asimétrica, a la media aritmética la afecta, no

solo el hecho de que haya un exceso de frecuencia de un lado, sino también se ve arrastrada, por los valores atípicos, por lo cual se ubica hacia el extremo donde se encuentran éstos valores.

La mediana divide a la curva en dos áreas iguales. No se presta para el

tratamiento algebraico que estudiamos para la media aritmética. El valor de la mediana también cambia en dirección de la asimetría.

El modo se ubica en el valor de la variable al que le corresponde la mayor

frecuencia, (el máximo de la curva). El modo no es una medida útil, a menos que se base sobre bastantes términos para presentar una concentración bien definida.

Page 41: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

41

De puntiagudez: Leptocúrtica mesocúrtica platicúrtica Esta deformación tiene que ver con el cambio de la dispersión de los datos alrededor de un valor central, que en general es la media aritmética. La curtosis mide cuán puntiaguda es una distribución, en general con respecto a la normal. Si tiene un pico alto como en la figura de la izquierda, se dice leptocúrtica, mientras si es aplastada como la de la derecha, se dice platicúrtica. La distribución normal, (la del centro), no es ni muy puntiaguda, ni muy aplastada, se llama mesocúrtica. Una medida de curtosis, llamada coeficiente percentil de curtosis, basada

en cuartiles y percentiles, está dada por: k = ______Q_______ P90 - P10 Donde: Q = rango semi – intercuartilico, o sea Q 3_ - Q 1 2

Page 42: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

42

El valor teórico de curtosis para una distribución normal es de 0,263. Si en una curva, k es mayor al valor mencionado, la distribución es platicúrtica, si es menor a 0,263 es leptocúrtica.

MEDIDAS DE DISPERSIÓN

De la característica más importante que describe o resume un grupo de datos, o sea de su posición, ya hemos hablado. En ésta sección hablaremos de la segunda característica en orden de importancia, que describe un conjunto de datos: la dispersión

La dispersión es la cantidad de variación, desperdigamiento o diseminación de los datos. Dos o más conjuntos de datos pueden diferir tanto en tendencia central como en dispersión o, pueden tener las mismas medidas de tendencia central, pero pueden tener grandes diferencias en términos de dispersión, como se muestra en el diagrama siguiente: Mayor concentra- ción de los valores

_ x

Por ejemplo si los pesos correspondientes a tres animales son 169; 170 y 171

kg, su media es 170 kg. Pero si los pesos de los tres animales hubiesen sido 120; 170 y 220 kg, el peso medio también hubiera sido 170 kg.

Para poder determinar si los datos del primer grupo son más parecidos entre

sí que los del segundo, deberíamos tomar un punto de referencia y medir las diferencias entre cada valor observado y el punto de referencia establecido.

Page 43: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

43

Generalmente, el punto de referencia elegido corresponde a una medida de posición adecuada.

En general, disponiendo de un punto de referencia podemos juzgar si una respuesta es extrema o no, a partir de la diferencia entre el punto-respuesta y el punto de referencia.

Como ya sabemos, cuando el punto-respuesta corresponde al valor observado de una variable y el punto de referencia a una medida de posición, tomamos la diferencia como sinónimo de desviación.

Debido a la propiedad de la media aritmética que dice: “La suma de las desviaciones de cada valor de la variable con respecto a la media aritmética es 0”; nos damos cuenta que el simple promedio de las desviaciones no nos sirve para determinar la variabilidad de un conjunto de datos; por ello será necesario recurrir a otros indicadores que actúen como medidas resúmenes.

Por tanto, al manejar datos numéricos, es insuficiente resumir los datos con la mera presentación de algunas medidas descriptivas de la tendencia central. Los datos también se deben caracterizar en términos de su dispersión o variabilidad.

Estos indicadores se conocen con el nombre de medidas de dispersión. Rango o recorrido de la variable ® Desviación media (MD) Desviación mediana (D M)

Principales medidas Variancia ( 2 (x) ó S2 (x) ó V (x) )

de dispersión Desvío estándar ( (x) ó S (x) ó D.S (x) ) Rango o desvío entre percentiles (D.P.) Rango o desvío semi-intercuartílico (D.S.Q.) Medida de dispersión Coeficiente de variación (C.V.) relativa Rango: se denomina rango de un conjunto de observaciones a la diferencia entre el mayor y el menor valor de la variable.

R = X M - X m

Es la más sencilla, pero también suele ser la más imperfecta de las medidas. Es completamente dependiente de los dos valores extremos que toma la variable.

Page 44: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

44

Es satisfactoria únicamente cuando la muestra es pequeña, prácticamente

menor a 10 observaciones. Es muy utilizada en los estudios de control de procesos productivos para la confección de gráficos de control, dado que en éstos casos, los procesos son generalmente evaluados por muestras frecuentes y de reducido tamaño.

No obstante, si se desea obtener el rango para datos agrupados, las formas de hacerlo es: R = marca de clase de la clase más alta - marca de clase de la clase más baja Ó R = Ls de la clase más alta - Li de la clase más baja

DESVIACIÓN MEDIA:

Se denomina también desviación promedio, y se la define como la sumatoria del valor absoluto de las desviaciones de los valores de la variable, con respecto a la media aritmética. (El valor absoluto de un número es el número

sin signo y se denota con dos barras verticales). _

MD = xi - x N

Si los datos están agrupados, y cada valor de la variable presenta una

frecuencia fi, la desviación media se obtiene con la siguiente fórmula: _

MD = xi - x fi N

No se usa con mucha frecuencia, porque al usar valores absolutos no es fácil de manipular algebraicamente.

DESVIACIÓN MEDIANA

Page 45: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

45

En la fórmula anterior se reemplaza a la media aritmética por la mediana,

obteniendo la siguiente:

DMe = xi - Me N

o si los datos están agrupados: DMe = x i - M e f i N

Las desviaciones son definidas ahora, como diferencias entre las

observaciones y la mediana. La utilización de la desviación media o de la desviación mediana depende de

la naturaleza de los datos que intervienen en el estudio.

VARIANZA Y DESVÍO ESTÁNDAR

Dos medidas de dispersión que tienen en cuenta cómo se distribuyen todas las

observaciones de los datos, son la varianza y su raíz cuadrada, la desviación estándar.

Vimos que la manera más adecuada de estudiar la mayor o menor dispersión

de los datos alrededor de un cierto valor de referencia es utilizar la desviación de cada uno de los valores individuales con respecto al valor de referencia establecido.

Volvemos ahora a considerar las desviaciones con respecto a la media

aritmética de un conjunto de datos. Mediante un artificio matemático, elevaremos cada desviación al cuadrado.

Obtendremos así, promediando estas desviaciones elevadas al cuadrado, una nueva medida de dispersión ampliamente conocida y que se denomina varianza,

Si hacemos uso de la propiedad de los mínimos cuadrados de la media,

entonces, como medida de las diferencias promedio al cuadrado en torno a la media; la varianza debe ser menor que cualquier otra medida de diferencias promedio al cuadrado en torno a cualquier otro indicador de tendencia central.

Page 46: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

46

La varianza es la suma de las desviaciones con respecto a la media

aritmética elevadas al cuadrado dividida por el número de observaciones.

_

V(x) = (xi - x )² N

Un valor de éste parámetro más alto que otro, para una misma variable, indica

mayor dispersión y viceversa.

A ésta fórmula se la denomina fórmula definicional, teórica o general. Ejemplo: para los tres valores de pesos de animales que hemos considerado anteriormente, obtendríamos la varianza de la siguiente manera: _ _ xi xi - x (xi - x)²

120 - 50 2.500 170 0 - 220 50 2.500 5.000

V(x) = 5.000 = 1.666,66 kg²

3

Vemos que al utilizar éste artificio matemático de elevar las desviaciones al cuadrado, nos ha quedado alterada la unidad de medida.

Para evitar éste inconveniente se emplea como medida de dispersión la raíz cuadrada de la varianza, la que se conoce con el nombre de desviación estándar

De acuerdo a lo establecido, podemos entonces decir que:

La desviación estándar es la raíz cuadrada positiva de la varianza

D.S. = V(x)

Más adelante veremos el papel fundamental que juega la desviación estándar en la estadística.

Page 47: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

47

Obteniendo la varianza con la fórmula dada, exige el cálculo de los desvíos,

que a veces es poco práctico. Hay una forma alternativa que evita éste cálculo y resulta de aplicar una fórmula que se obtiene desarrollando la fórmula de la Varianza, como sigue:

_

V(x) = (x i - x)2

N _ _

V(x) = (x i)² - 2 x i x + (x)² N _ _

V(x) = x i² - 2x i xi + N (x)² N _ _

V(x) = xi² - 2 x xi + N x² N N N _

V(x) = x i² - x² N

Ésta fórmula se denomina computacional o de trabajo.

Cuando se tienen datos agrupados en una distribución de frecuencias, la única

diferencia en el cálculo de las medidas de dispersión consiste en ponderar a cada desviación por su correspondiente frecuencia absoluta. Las fórmulas serían:

_ _

V(x) = (x i - x )2 f i o V(x) = xi2 fi - x 2

N N

Page 48: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

48

Propiedades de la varianza: a) la varianza de una variable es siempre no negativa, esto surge de la propia definición

V(x) 0 b) la varianza de una constante es igual a 0 V(a) = 0 _ Si x = a, su media será: x = a; por lo tanto:

V(a) = ( a - a)² = 0 N Gráficamente, no hay variabilidad. c) la varianza de una variable más o menos una constante es igual a la varianza de la variable.

V( x a ) = V(x)

______ ____

V(x-a) = (xi – a) - ( x - a )² x - a = ( xi – a) N N _ ____

V(x-a) = xi – a – x + a² x - a = xi – N a N N N _ ____ _

V(x-a) = xi - x² x – a = x – a N V(x - a) = V(x) d) la varianza de una variable por una constante es igual al cuadrado de la constante por la varianza de la variable.

Page 49: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

49

__

V(x.a) = a2 V(x) x.a = (x.a) N __ __

V(x.a) = (xi.a - ax)² x.a = axi N N _ __ _

V(x.a) = a 2 (xi - a x)² x.a = a. x N V(x.a) = a 2 V(xi)

e) la varianza de una variable dividida una constante es igual a la varianza de la variable sobre el cuadrado de la constante.

V(xa) = V(x) a 2

RANGO ENTRE PERCENTIL 10 – 90 Se define por: RP = P 90 - P 10

En éste caso se trabaja solo con el 80% de los datos.

RANGO SEMI INTERCUARTIL

Page 50: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

50

Esta simple medida considera la extensión en el 50 % medio de los datos y, por tanto, no sufre ninguna influencia de los valores extremos que podrían ocurrir, es decir:

RSI = Q 3 - Q 1 2

La desventaja de ésta medida es que solo mide el medio de la distancia entre

el cuartil tres y el cuartil uno.

COEFICIENTE DE VARIACIÓN

La desviación estándar tiene todavía el problema que no permite comparaciones de la dispersión de dos o más distribuciones, especialmente cuando las variables de estas distribuciones tienen distintas unidad de medida.

Por ejemplo, para la variable “x” expresada en $ que representa los salarios de

un grupo de obreros, podemos tener un S que es igual a $260 y para una variable “w” expresada en kilogramos, (kg), que representa la producción de carne de un determinado establecimiento ganadero, su S es igual a 2.500 Kg. La comparación directa de ambos desvíos no es posible y no podríamos afirmar que los salarios tienen menor dispersión que la producción de carne porque posee un menor S.

Para posibilitar la comparación, se define el Coeficiente de Variación que es el

cociente entre: s . 100 _ x

Por lo tanto:

C.V. = D.S . 100 _ x

El coeficiente de variación expresa la desviación estándar como un porcentaje de la media aritmética.

Es una medida de dispersión relativa y, dado que surge como el cociente

entre dos cantidades expresadas en la misma unidad de medida, es independiente de ella.

Page 51: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

51

Se debe hacer notar aquí que a medida que el coeficiente de variación

disminuye, se observa una mayor homogeneidad de los datos o, lo que es lo mismo, los datos están más concentrados alrededor del promedio.

En el ejemplo mencionado anteriormente, si el salario medio fuese de $400 y

la producción media fuese 10.000Kg, la distribución de la producción de carne tendría menor dispersión que la de salarios a pesar de su mayor desvío estándar, dado que:

C.V ( x ) = 260 $ . 100 = 65% 400 $ C.V.(x) = 2.500 Kg. 100 = 25% 10.000Kg Siempre se verifica que:

0 C.V.

Además el coeficiente de variación es útil también al comparar dos o más

conjuntos de datos, (distribuciones), que se miden en las mismas unidades de medida pero difieren a un grado tal que las comparaciones directas de las respectivas desviaciones estándar no es muy útil. Por ejemplo: si estuviéramos comparando la dispersión de los pesos de los animales recién nacidos y la de los pesos de otro grupo de animales adultos.

Ahora veremos algunos ejemplos a fin de clarificar los pasos a seguir para

obtener éstas que denominamos principales medidas de dispersión y su aplicación práctica. Ejemplos:

Los siguientes datos corresponden al número de días en que faltaron al trabajo 15 personas empleadas en un aserradero, en un determinado período: 1 8 2 2 3 9 2 3 5 2 4 7 9 8 5

Page 52: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

52

a) Obtenga el rango, la desviación mediana y la desviación media b) Obtenga variancia, desvío estándar y coeficiente de variación R = XMax - X min

R = 9 – 1 = 8 días _ _ _ _ _ Xi fi Fi xi.fi xi - Med xi – Medfi xi - x xi- xfi (xi-x) (xi- x)² (xi – x)² fi

1 1 1 1 3 3 3,66 3,66 -3,66 13,1052 13,1052 2 4 5 8 2 8 2,66 10,64 -2,66 6,7852 27,1408 3 2 7 6 1 2 1,66 3,32 -1,66 2,4652 4,9304 4 1 8 4 0 0 0,66 0,66 -0,66 0,1452 0,1452 5 2 10 10 1 2 0,34 0,68 0,34 0,1166 0,2332 6 0 10 0 2 0 1,34 0 1,34 1,7956 0 7 1 11 7 3 3 2,34 2,34 2,34 5,47 56 5,4756 8 2 13 16 4 8 3,34 6,68 3,34 11,1556 22,2112 9 2 15 18 5 10 4,34 8,68 4.34 18,8356 37,6712

• 15 -- 70 -- 36 -- 36,66 -- -- 110,9128 -------------------------------------------------------------------------------------------------------------

D.Med. = xi - Med fi = 36 = 2,4 días N 15 _

D. M. = xi - x fi = 36,66 = 2,444 días N 15 _

V (x) = (xi - x )² fi = 110,9128 = 7,394 días2

N 15

_ __________

D. S. (x) = ( xi - x )² fi = 7,394 días2 = 2,72 días

N

Page 53: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

53

C. V. = D. S. . 100 = 58,37 % _ X

A un grupo de operarios que participaron de un experimento se les pidió que realizaran diez actividades diferentes. Más tarde se evaluaron las mismas. El número de actividades bien realizadas fueron las siguientes: _ _ _ Nº ACT. fi Fi xi xi. fi (xi - x) (xi - x)² (xi - x)² fi 0 - 2 1 1 1 1 4,8 23,04 23,04 2 - 4 2 3 3 6 -2,8 7,84 15,68 4 - 6 7 10 5 35 -0,8 0,64 4,48 6 - 8 8 18 7 56 1,2 1,44 11,52 8 - 10 2 20 9 18 3,2 10,24 20,48 ---- 20 -- -- 116 -- -- 75,20 _

x = 5,8 actividades

V(x) = 75,20 = 3,76 actividades ² 20

D. S (x) = 3,76 act2 = 1,94 actividades C. V. = 1,94 . 100 = 33,43 % 5,8

Page 54: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

54

ANÁLISIS DE REGRESIÓN

Hasta ahora hemos estudiado metodologías estadísticas para analizar la información de una variable, proporcionada por una o más muestras, utilizando las herramientas que nos brinda la estadística descriptiva.

En la práctica observamos muchas veces que existe una relación entre dos o más variables. Por ejemplo entre la cantidad de alimento consumido y los litros de leche producidos, entre el peso de los animales y su edad, la edad de los árboles y su diámetro, etc.

Ahora nos abocaremos a estudiar que pasa cuando tenemos dos variables y

deseamos efectuar inferencias acerca de los cambios que se producen en una de ellas cuando cambia la otra.

Para describir la forma de la relación que liga a estas dos variables utilizaremos

los llamados modelos de regresión.

Por ejemplo, supongamos que la variable x, (llamada independiente), define el precio de la carne, y la variable y, (llamada dependiente), los kilogramos de carne consumidos en nuestra provincia.

Si descubrimos la relación que liga al precio de la carne con los kilogramos consumidos en el mercado podremos predecir la cantidad de carne que se venderá cuando se producen variaciones en los precios del bien.

Asimismo cuando hablemos del grado de la relación que liga a dos variables

también utilizaremos complementariamente el análisis de correlación, a través de

un indicador del grado de intensidad de la relación entre las dos variables que es independiente de sus respectivas escalas de medición, llamado coeficiente de correlación lineal entre x e y, o coeficiente de correlación de Pearson.

O sea: el análisis de regresión se utiliza en la predicción. Para el caso de

dos variables se desarrolla un modelo que utiliza la variable independiente x, para obtener una mejor predicción de la otra variable: la variable dependiente y.

Por ejemplo: cuánta pastura deberá consumir cada animal para obtener

determinado peso; que cantidad de fertilizante se necesitará para obtener determinado rendimiento; la humedad relativa que habrá que mantener para evitar el desarrollo de pulgones.

El análisis de correlación, por contraste con el de regresión, se utiliza

para medir la fuerza de la asociación entre las variables. Por ejemplo: peso - estatura.

Page 55: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

55

SIGNIFICADO DEL TÉRMINO REGRESIÓN

Por los años 1800 surge el término “regresión” a partir de estudios realizados

por Sir Francis Galton, un experto inglés en estudios de herencia, que fue uno de los primeros investigadores que estudió relaciones entre variables. El investigó la relación existente entre la altura de los hijos con respecto a la de sus padres.

Observó que padres altos tenían hijos cuya altura era mayor a la altura promedio, pero no eran mas altos que sus padres. De la misma manera, padres bajos tenían hijos bajos pero no tan bajos como ellos. Las tendencias de las alturas de los hijos eran más hacia un cierto promedio de la población que hacia las alturas de sus respectivos padres. Galton expresó que las alturas de los hijos regresaban a un promedio y de allí surgió el término regresión.

En la actualidad, la palabra regresión se utiliza para definir la naturaleza

de la relación entre dos o más variables. A partir del concepto de que para cada valor de la variable x se genera una distribución de valores de la variable y, el modelo de regresión estima una recta promedio que denominaremos recta de regresión

EL DIAGRAMA DE DISPERSION

Para hallar la ecuación que relacione las variables, el primer paso es recoger los datos de las variables en consideración, y es conveniente presentarlos en una forma de más fácil interpretación visual.

Anteriormente, cuando recopilamos información, desarrollamos varias

gráficas, como histogramas, polígonos y ojivas, para la presentación de datos. En un análisis de regresión (que incluye una variable independiente y una dependiente), los valores individuales se trazan en una gráfica bidimensional llamada diagrama de dispersión. Cada valor se traza en sus coordenadas x e y particulares.

Ejemplos: precio-kilogramos de carne consumidos; pastura-kilogramos de

peso de los animales, edad-altura de las especies forestales, etc. Examinaremos si hay o no una relación entre dos variables y, si la hay, cómo

se puede prever una mejor predicción de la existencia de la variable, y, dependiente.

TIPOS DE MODELOS DE REGRESIÓN

Page 56: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

56

La naturaleza de la relación puede adoptar muchas formas, que van desde funciones matemáticas muy sencillas hasta las muy complicadas. La relación más simple consiste en una línea recta o relación lineal. En la figura siguiente se muestra un ejemplo de la relación lineal.

a 0

El modelo para la línea recta (lineal) se puede representar como: y = a + b x donde a = ordenada al origen, o sea, intercesión real con el eje y, de la población b = pendiente real de la población

En este modelo, la pendiente b de la recta representa el cambio en y, por cada

cambio en x, es decir, representa la cantidad de cambio de y (positivo o negativo) para un cambio unitario particular en x. Por otra parte, la intercesión a con el eje y, representa un factor constante que está incluido en la ecuación. Representa el valor de y cuando x es igual a cero. El modelo estadístico es sólo una aproximación a la relación exacta entre las dos variables.

La distribución de los valores x e y en el diagrama de dispersión influye en la selección del modelo matemático adecuado.

DETERMINACION DE LA ECUACION PARA REGRESION LINEAL SIMPLE

Page 57: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

57

Una vez confeccionado el diagrama de dispersión y observado que los puntos tienen una tendencia lineal, trataremos de deducir los parámetros a y b a partir de los datos estadísticos de ésa distribución de frecuencias conocida.

La técnica que posibilita la obtención de los parámetros para una relación funcional dada, se denomina:

AJUSTAMIENTO.

En general, las trayectorias lineales responden a la expresión a + bx, es decir que podemos escribir:

yc = a + bx y representa a todos y cada uno de los puntos de la recta.

Existen dos métodos para realizar el ajustamieto:

El método libre: en el que, luego de confeccionado el diagrama de dispersión,

el observador analiza el comportamiento de los datos para determinar el tipo de curva que mejor se ajusta a los mismos. Definido el tipo de curva, si por ejemplo esta es una recta se eligen dos puntos y se la traza.

El inconveniente es que diferentes observadores tendrán diferentes rectas, porque es difícil de que coincidan a la hora de elegir la recta que mejor muestre el comportamiento del conjunto de puntos.

El método de los mínimos cuadrados: es mas preciso, pues permite obtener la mejor recta de ajuste, o sea la que hace mínima la sumatoria de las distancias al cuadrado, de cada valor observado y el calculado.

yo

yc _

y

0 x1 x2 x3

Page 58: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

58

Entre los valores observados y calculados ( yc e yo ) hay una diferencia o

distancia .

Lo ideal para nosotros sería encontrar una recta que pasara por todos los puntos de las observaciones, o sea, que dejara diferencias o residuos nulos. Esto sería posible si las observaciones estuvieran perfectamente alineadas (caso muy especial). Gráficamente sería:

Normalmente esto no se da y debemos buscar aquella recta que deja los menores residuos posibles.

Una forma de trabajar sería planteando las distintas rectas con las que podemos ajustar un diagrama y para cada una de ellas obtener la suma de los residuos que deja, y escoger la que tiene menor suma. Esto encierra el inconveniente de que puede haber compensaciones de residuos positivos y negativos, llevándonos a un resultado equívoco. Para obviarlo podríamos tomar la suma de los valores absolutos de los residuos y después comparar, pero la presencia del valor absoluto ocasiona algunas limitaciones algebraicas que convienen evitar.

La tercera alternativa es trabajar con los cuadrados de los residuos y elegir la recta que posea menor suma de estos cuadrados. Este método se conoce como de “mínimos cuadrados” y se basa en hacer:

di = mínimo; o sea: (Yo - Yc )² = mínimo Esto se basa en la segunda propiedad de la media aritmética. La ventaja es que vamos a obtener una única recta de ajustamiento cualquiera sea el observador y va minimizar la suma de los cuadrados de los desvíos, siendo por tanto, la mejor recta de ajuste, porque lleva implícita la idea de minimizar errores. Este es un método objetivo, no como el anterior que es subjetivo, por depender del observador. Para conocer el valor de los parámetros “a” y “b” con lo que conoceríamos la recta Yc y como x e y son conocidos, (porque son las observaciones). 1.- Multiplico todas las ecuaciones por el coeficiente de a

Page 59: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

59

y 1 = a + b x1

y 2 = a + b x2

y 3 = a + b x3

... 2.- Sumo miembro a miembro

yi = Na + b x i (1)

3.-Multiplico las n ecuaciones por el coeficiente de b y1 x1 = ax1 + bx2

1

y2 x2 = ax2 + bx22

y3 x3 = ax3 + bx23

.. .. yn xn = axn + bx 2n

4.-Sumo miembro a miembro

yi xi = a xi + b x 2 i (2) 5.- Con (1) y (2) formo un sistema de ecuaciones normales, a partir del cual determinaremos el valor de los parámetros a y b. Para ello multiplicamos todos los

términos de la primera ecuación por: x i N

Este es un artificio para lograr el fin sin alterar el valor de la ecuación:

y xi = N a xi + b xi xi N N N

yi xi = a xi + b ( xi)2 (3) N N 6.- Se resta (3) de (2)

Page 60: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

60

yi xi = a xi + b xi 2

-

yi xi = a xi + b ( xi)2

N N

yi xi - yi xi = b xi 2 - b ( xi)2

N N 7.-Sacando común denominador:

N yi xi - yi xi = N b xi 2 - b ( xi)² N N

N yi xi - yi xi = b N xi ² - ( xi )² 8.-Queda determinado el valor de uno de los parámetros de la ecuación que es la pendiente o coeficiente angular

b = N yi xi - yi xi

N xi² - ( xi )²

9.- Tomando éste valor b y reemplazando en la primera ecuación del sistema de ecuaciones normales podemos determinar cuánto vale el segundo parámetro con lo cual quedaría definida la ordenada al origen.

y i = N a + b x i

yi = N a + N yi xi - yi xi xi

N xi ² - ( xi )² Saco común denominador

yi = Na [ N xi 2 - ( x i)2 ] + N yi x i - y i ( x i)²

N xi 2 - ( x i )2

yi [N xi 2 - ( xi )2 ] = a N2 xi2 - a N ( xi)2 + N yi xi - yi (xi)² ]

Page 61: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

61

yi N xi 2 - yi ( xi)2 - N xi yi + yi ( xi)² = aN [N xi 2 - y i xi ]

N (yi xi 2 - xi yi ) = a N [ N x i 2 - ( y i x i) ]

a = yi xi 2 - x iy i x i

N xi ² - ( xi )² Ó _ _ a = y - b x _ _

donde y = yi x = xi N N

La ecuación de regresión se puede utilizar para predecir el valor Y para un valor dado de x.

ERROR ESTÁNDAR DE ESTIMACIÓN

Aunque el método de los mínimos cuadrados da por resultado una línea que ajusta en los datos con la mínima cantidad de variación, la ecuación de regresión no es perfecta para las predicciones, sobre todo cuando se toman las muestras de la población, excepto si todos los datos observados caen en la línea de regresión predicha. Así como no se puede esperar que todos los valores de los datos estén ubicados exactamente en su media aritmética, en la misma forma tampoco se puede esperar que todos los puntos de los datos caigan exactamente en la línea de regresión. Por tanto, la línea de regresión sirve sólo para predicción aproximada de un valor de y, para un valor dado de x. Entonces, se necesita desarrollar un estadístico que mida la variabilidad en los valores observados de Y y el valor calculado de Y , a partir de los valores predichos de Yo e Yc , en la misma forma que se desarrolló una medida de la variabilidad de cada observación en torno a su media. la medida de la variabilidad en torno a la línea de regresión se llama el error estándar de la estimación.

Page 62: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

62

Este error de estimación se obtiene haciendo la raíz cuadrada del promedio de la suma de los cuadrados de los desvíos, entre cada valor observado y la recta de estimación.

ANALISIS DE CORRELACION

Cuando la correlación es de tipo lineal, el análisis de correlación se realiza a través del coeficiente de correlación de Pearson, que se simboliza con la letra r, y se calcula de la siguiente manera:

r = N x y - (x ) ( y)_______________

N x 2 - ( x ) 2 N y2 - ( y ) 2

El campo de variación del coeficiente de correlación de Pearson es de - 1 a 1,

o sea:

- 1 r 1

Generalmente se dice que los coeficientes de correlación mayores de 0,7 indican fuerte correlación; de 0,3 a 0,7 correlación moderada y de menos de 0,3 débil o nula correlación. No obstante habrá que tener algunos cuidados ya que el simple criterio valorativo no es suficiente para juzgar el significado de la correlación, y menos afirmar que un coeficiente 0,93 indica correlación mas alta que un coeficiente 0,78; sin que antes se haya indicado, con toda claridad, si el mismo se obtuvo de una población o de una muestra y la naturaleza de la población y de las variables correlacionadas.

Un índice de correlación nos indica tres cosas fundamentales: - la existencia o no de una relación entre las variables estudiadas - la dirección de esta relación, (si es que existe), positiva o negativa. - el grado o intensidad de esta relación, (el valor máximo es 1 y el mínimo 0, que es la no correlación).

Coeficiente de determinación

Page 63: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

63

Es el coeficiente de correlación elevado al cuadrado, ( r2 ), e indica la proporción de la varianza de y que queda explicada por el conocimiento de x. El campo de variación de este coeficiente es de:

0 r 2 1

r 2 = variación explicada variación total

El coeficiente de indeterminación es: 1 - r 2 , e indica la proporción de la

varianza de y que no queda explicada por el conocimiento de x. Gráficamente:

yo

var. no explicada

var. total yc

var. explicada _

y

TEORÍA DE LA PROBABILIDAD

Si todas las investigaciones se pudieran realizar observando o recogiendo información de todos los elementos que componen la población, el método estadístico se reduciría fundamentalmente en lo expuesto en la Estadística Descriptiva. Pero en la investigación muy rara vez se puede estudiar a todos los miembros de la población, por lo que se recurre a las muestras, a partir de las cuales el investigador, haciendo uso de las técnicas que le brinda la estadística inferencial proyecta los resultados obtenidos, a toda la población, explicitando el grado de precisión y de confianza que le merecen las mismas.

Page 64: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

64

La inferencia estadística está basada en la teoría matemática de la probabilidad.

Antes de empezar a hablar de la misma, definiremos los fenómenos

determinísticos y los aleatorios.

Los fenómenos determinísticos son aquellos de un comportamiento exacto, perfectamente previsible. Por ejemplo si pongo al fuego un recipiente con

agua, cuando este alcance 100º C hervirá; si un ser viviente deja definitivamente de consumir alimentos, en mayor o menor tiempo, morirá.

Los fenómenos aleatorios, en cambio, son de resultado incierto, pueden

presentarse de una forma u otra, sin que podamos saber de antemano qué forma final tendrán. Por ejemplo, si tiramos una moneda no sabemos de antemano, si caerá cara o cruz; ante la gestación de un ser viviente, éste podrá ser macho o hembra, si nos hacemos un análisis de sangre, podremos o no tener el número de glóbulos rojos que se considere normal para la edad y el sexo correspondiente, etc. Solamente cuando se trata de éste tipo de fenómenos, podremos hablar de probabilidad.

Cuando los designamos con el nombre de aleatorios confirmamos nuestra incertidumbre acerca de sí el evento ocurrirá o no ocurrirá, en el momento que efectuamos la observación.

Lo que se propone la teoría de probabilidad es asignar un valor a ésta incertidumbre, en otros términos cuantificar el azar.

En éste momento se hace necesario definir algunos términos que utilizaremos al estudiar la teoría de probabilidad.

Un experimento aleatorio es una operación realizada un cierto número de veces, bajo las mismas condiciones de experimentación.

Un resultado no puede preverse cuando el experimento aleatorio se realiza una sola vez, pero si se repite un gran número de veces, los resultados responden a cierta “ley” de comportamiento regular y previsible.

Llamamos evento aleatorio a cada uno de los resultados de un experimento aleatorio.

Esto nos lleva al concepto de espacio probabilístico que es el conjunto que contiene todos los resultados posibles de un experimento aleatorio.

Lo simbolizamos con ó , (letra griega omega). Para el caso de la gestación y la moneda, respectivamente, el espacio probabilístico sería:

Page 65: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

65

= macho, hembra

= cara, cruz

La formulación del espacio probabilístico es muy importante, ya que nos permite situarnos en el problema.

Este espacio probabilístico puede estar compuesto por “eventos simples”, como en los ejemplos anteriores, es decir que los resultados están dados en su forma más sencilla. Ahora bien, entre los eventos simples podemos efectuar combinaciones que dan lugar a eventos compuestos. Por ejemplo, si tenemos dos bolilleros, con las bolillas 1 y 2 pintadas de blanco, el primero. El segundo bolillero tiene bolillas rojas, numeradas del 1 al 4. Si extraemos una bolilla de cada uno de ellos, podemos estar interesados en “todos los pares de bolillas en los que la suma sea un número par”. Este resultado está compuesto por un conjunto de resultados o eventos simples, y conforma un evento compuesto. Si designamos con A el evento compuesto, será:

A = pares de bolillas cuya suma sea par y tendremos que el espacio probabilístico de A, sería:

A = b1 r1, b2 r2 , b1 r3 , b2 r4

TEORIAS DE PROBABILIDAD

Dijimos que los eventos tienen una probabilidad asociada, o sea una

probabilidad de presentación. Desde muy antiguo se quiso llevar a una forma medible a ésta probabilidad, fundamentalmente a partir de los estudios de los matemáticos, orientados a examinar los juegos de azar.

Hay varios enfoques para cuantificar la probabilidad de un evento, expresados en las siguientes teorías:

Clásica o “a priori”: es la más antigua, se la debemos a Laplace, dice que

la probabilidad (P) de un evento (A), o sea P(A) , es igual al número de casos favorables a A, dividido por el número total de casos igualmente posibles, es decir, los casos que son “favorables”, mas los casos que “no son favorables”: P(A) = casos favorables a “A” f+nf ( o sea todo el espacio)

Definición a priori, en el sentido de que podemos determinar la probabilidad de

los hechos sin necesidad de investigación empírica alguna.

Page 66: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

66

Por ejemplo si sabemos que un dado tiene 6 caras numeradas del 1 al 6,

= 1, 2, 3, 4, 5, 6 y consideramos el evento “A”, como:

A = presentación del número 3 Así, de 6 resultados posibles, sólo 1 es favorable al 3, por tanto: P(x=3) = 1/6 = 0,166

El problema de éste enfoque de la probabilidad reside en la exigencia de que los eventos deben ser igualmente posibles. Así, si la moneda es defectuosa no habría forma de calcular ésta probabilidad. Frecuencial o “a posteriori”: es también denominada empírica porque se determina

por la vía experimental y de define como el cociente entre dos frecuencias: P (E) = f e

Ft

esta expresión P(E) es la probabilidad del evento E; fe es la frecuencia con que ocurre el evento E dentro de la población en la que investigamos su ocurrencia; ft es la frecuencia total, o sea la frecuencia de la ocurrencia, sumada a la frecuencia de su no-ocurrencia: suma que, naturalmente es igual a la frecuencia de la población.

Este enfoque a posteriori se debe al ruso Kolmogorof.

Por ejemplo: la probabilidad a priori de obtener un 1 al arrojar un dado es 1/6, pues el dado tiene 6 caras posibles y sólo una lleva escrito un 1.

Para la definición a posteriori tendríamos que arrojar un dado una gran

cantidad de veces. Por ejemplo, si tiramos el dado 60 veces, teóricamente tendríamos que sacar el 1, 10 veces, pero esto no suele suceder. Para lograr empíricamente hallar 1, una vez cada seis hay que tirar el dado muchas veces. ¿Cuántas?. En teoría una cantidad de veces infinita. En matemática

se dice que cuando N tiende a , p es el límite de la probabilidad de una serie de tiradas.

Por ejemplo, si yo tiro un dado 60 veces es posible que halle no 10, sino 8 veces un 1, entonces la probabilidad de hallar 1 en este caso será 8/60 = 0,133. Si lo

Page 67: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

67

tiro 600 veces tal vez salga 95/600 = 0,158 que es un valor muy cercano a 0,166. Esto se llama frecuencia relativa.

En la práctica, la diferencia entre la definición a priori y la definición a posteriori no es vital. El enfoque de Laplace es una definición teórica y el de la probabilidad como frecuencia relativa es operacional.

Axiomática: dice que la probabilidad de un evento A en el experimento aleatorio E, es el valor numérico que satisface los 3 axiomas siguientes: 1.- Sí A es un evento, luego:

P(A) 0 para todo A

2.- Si representa el conjunto de todos los resultados posibles de un experimento aleatorio, luego:

P() = 1

3.- P (A1 U A2 U ... ) = P (A1) + P (A2) + .....

si A1, A2, .... es una sucesión finita o infinita de eventos incompatibles o mutuamente excluyentes. El símbolo U implica la unión o suma de eventos.

Eventos mutuamente excluyentes: son aquellos que no pueden presentarse conjuntamente. Por ejemplo un determinado animal no puede ser de dos razas diferentes a la vez, una especie vegetal no puede ser arbusto y gramínea a la vez, una persona no puede ser delgada y gorda a la vez, etc.

Ejemplo: Un establecimiento tiene 30 empleados, de los cuales, 20 son varones y 10 son mujeres. Si se considera el experimento de seleccionar un empleado al azar de éste establecimiento, determine la probabilidad de que: a) sea elegido un varón b) sea elegida una mujer c) sea elegido un varón o una mujer Estos eventos son mutuamente excluyentes?

Evento imposible: es aquel que no tiene ningún resultado favorable dentro del conjunto de resultados posibles de un experimento aleatorio.

Se simboliza: P ( ) = 0 _

Page 68: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

68

Evento complemento (A): de un evento A es el evento compuesto por todos los

resultados que no contiene el evento A. _ Por definición, los eventos A y A son mutuamente excluyentes. Entonces: _ _ P(A o A) = P(A) + P(A) = 1

_ Luego, despejando P(A), se tiene: _ P(A) = 1 – P(A)

Podemos decir que la probabilidad es un número que varía entre 0 y 1 ya que,

considerando las dos situaciones extremas, tenemos: 0 ≤ P(A) ≤ 1

P () = 0 y P() = 1

Siendo el evento imposible y el evento seguro o cierto.

Eventos no mutuamente excluyentes: son aquellos que tienen resultados

en común. Supongamos que simbolizamos con A el hecho de ser flaco y con B el hecho

de que ser alto. Si de un grupo de personas quisiéramos hallar la probabilidad de que al

seleccionar una ésta sea flaca o alta.

P(A o B) = P(A U B) = P(A) + P(B) - P(A B)

El primer término de la suma representa la probabilidad de ocurrencia del

evento A y el segundo término representa la probabilidad de ocurrencia del evento B. Pero cada uno, incluye los resultados de aparición conjunta de ambos eventos

(A y B), o sea que la persona sea flaca y alta a la vez. Por éste motivo, el tercer término resta una vez la probabilidad de la intersección que, de otro modo, sería sumada dos veces.

Page 69: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

69

Ley de la multiplicación o probabilidad compuesta: Si A y B son dos hechos

cualesquiera, la probabilidad de obtener ambos A y B es el producto de la probabilidad de un hecho por la probabilidad condicional de obtener el otro una vez que se ha obtenido el primero.

P(A y B) = P (A) . P(B/A)

El término “probabilidad condicional” significa que nosotros

reconocemos que la probabilidad de A puede depender de sí B se presenta o no.

Dos hechos son “independientes” cuando, y solo cuando, la probabilidad de

un hecho A, habiéndose dado otro B, es igual a la probabilidad de A no habiéndose dado B, es decir sí: P(A/B) = P (A) y P(B/A) = P(B)

Podemos decir que A y B son hechos “independientes”. En este caso la

probabilidad compuesta de A y B sería su producto

P(A y B) = P (A) . P (B)

Ejemplo: Supongamos que la probabilidad de que una pequeña fábrica sea

destruida por un incendio en un período de 12 meses es de 0,005, según cálculos efectuados por un organismo pertinente. Una compañía de seguros ofrece al propietario de la fábrica una póliza contra incendio por el término de un año valuando la misma en 80.000 pesos y cobrándole una prima de 500 pesos. ¿Cuál es la ganancia esperada de la compañía?.

En primer lugar definimos la variable aleatoria y establecemos los distintos

valores que asume. La variable aleatoria G = ganancia de la compañía,

Page 70: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

70

puede tomar los valores 500 pesos si la fábrica no sufre un accidente de incendio y – 79.950 pesos si se quema la fábrica durante el año que cubre la póliza. La función de probabilidad de G es entonces:

Gi P(Gi)

500 0,995

-79.950 0,005

Total 1,000

Con esta información podemos calcular la ganancia esperada promedio de la compañía de seguros: E(G) = 500 . 0,995 + (-79.950). 0.005 = 97,75 pesos

La compañía de seguros espera ganar 97,75 pesos, en promedio, con operaciones de este tipo.

Distribuciones de probabilidad

Es muy frecuente que a los distintos eventos de un espacio probabilístico, se les haga corresponder números pertenecientes al conjunto de los números reales.

Así por ejemplo, si lanzamos dos monedas al mismo tiempo y simbolizándola con xi , definimos la variable como la aparición de cara. El espacio probabilístico será:

= c c , c x , x c , x x

A éste conjunto de resultados posibles, los podemos cuantificar asociándoles

un número, de la siguiente manera: Resultados del experimento xi

cc 2 cx 1 xc 1 xx 0

Page 71: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

71

Tenemos aquí una variable aleatoria, que la definimos así:

Una variable aleatoria es aquella cuyos valores surgen asignando números, a los resultados de un experimento aleatorio.

Como los eventos tienen probabilidad asociada, cada uno de los valores de la

variable aleatoria tendrá, indirectamente, asociada la probabilidad del respectivo evento, surgiendo así la función de probabilidad. En nuestro caso:

xi Probabilidad

0 ¼ 1 2/4 2 ¼ -- 4/4 = 1

Una función de probabilidad es aquella que surge al asignar probabilidades a cada uno de los valores de una variable aleatoria.

Las probabilidades correspondientes a todos los valores posibles que toma la

variable aleatoria es siempre igual a 1. Esto se debe a que surge de la cuantificación de todos los resultados posibles de un experimento aleatorio.

Entonces, podemos afirmar que una de las condiciones que debe cumplir una

función de probabilidad es que la suma de todas las probabilidades debe dar uno. A esto se le denomina condición de cierre.

Generalmente, cuando consideramos una variable aleatoria y su correspondiente función de probabilidad, la media aritmética de esta variable se denomina esperanza matemática.

La esperanza matemática de una variable aleatoria discreta, se calcula como

la suma de cada valor que toma la variable multiplicado por su respectiva probabilidad.

En símbolos: E (x) = xi p (xi ) La varianza de una variable aleatoria discreta, se define como la suma de los

desvíos de cada valor que toma la variable aleatoria con respecto a la esperanza matemática, elevados al cuadrado y multiplicados por su respectiva probabilidad.

Page 72: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

72

En símbolos: V(x) = xi - Ex2 p(xi)

Para las variables continuas hablamos de función de densidad:

- f (x) dx = 1

La presencia de la integral, responde a que, gráficamente, cuando la variable es continua, la suma de todas las probabilidades equivale a calcular un área que es la que está debajo de la curva f(x)

- +

En éste gráfico el área rayada es igual a 1

Con la función de densidad podemos encontrar las probabilidades pero utilizando siempre integrales, ya que en el campo continuo dichas probabilidades están representadas por áreas, (superficies).

El área bajo la curva y entre las rectas x = a y x = b, (área sombreada de la figura siguiente), da la probabilidad de que x se encuentre entre a y b, lo que se puede

representar por: P(a X b).

a b

p(X)

Page 73: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

73

Además la variable aleatoria x tiene asociada una función de densidad de probabilidad:

Si recordamos el concepto de función, veremos que dando valores a x podemos obtener los correspondientes valores de f(x) y representar gráficamente esta función de densidad de probabilidad en un eje de coordenadas cartesianas.

Por ejemplo Sí x=0 f(x)=1/2 .0 = 0 Sí x=1/2 f(x)=1/2. ½ = ¼ Sí x=1 f(x)=. 1 = ½ Sí x=2 f(x)=1/2. 2 = 1

Resumimos los resultados obtenidos en la siguiente tabla:

X f(x)

0 0

½ ¼

1 ½

2 1

Si la función de densidad de probabilidad consistiera en una curva, que es el caso más frecuente, se debe apelar al procedimiento matemático llamado integración.

Que sirve para calcular áreas o superficies.

Para variables aleatorias continuas también podemos definir y calcular una

función de distribución que acumula probabilidades. La función de distribución será simbolizada con F(x)

La función de distribución es siempre creciente, o a lo sumo se mantiene

constante. Para calcular las probabilidades acumuladas, siempre comenzamos a calcular

las correspondientes superficies desde el menor valor que asume la variable aleatoria, hasta el valor de X sobre el que queremos calcular la probabilidad.

Page 74: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

74

Ahora bien si deseamos calcular la probabilidad de que X tome valores entre un valor genérico a y otro b siendo a < b tenemos:

a b

Esta probabilidad puede calcularse como la diferencia entre la probabilidad acumulada hasta el valor b y la probabilidad acumulada hasta el valor a.

Si a la probabilidad acumulada hasta el valor a, la denominamos F(a) y a la acumulada hasta el valor b, F(b). Entonces podemos escribir:

f(x) F(a) a b x i F(b)

MODELOS ESPECIALES DE DISTRIBUCIONES DE PROBABILIDADES

DISTRIBUCIÓN BINOMIAL Se llama binomial a la población que ha sido clasificada en forma dicotómica, exhaustiva y mutuamente excluyente. O sea que es una población en la que solamente existen dos categorías de eventos. Por consiguiente, todos los eventos que constituyen la población caen dentro de una de las dos categorías y no existe evento alguno que no caiga dentro de esta clasificación dual.

Por ejemplo, todos los eventos de la población “crías” caen en la categoría

“machos” o en la categoría “hembras” y la población queda agotada con sólo esas dos categorías. La población de plantines de un vivero podrá clasificarse en

Page 75: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

75

ejemplares “sanos” o “enfermos”; una persona podrá ser, agresiva o no agresiva; un alumno podrá aprobar o no aprobar un examen, etc.

En éstos casos de hechos discretos, si llamamos p (denominado éxito), a la

probabilidad de que el hecho ocurra, y q, (denominado fracaso), a la posibilidad de que un hecho no ocurra, entonces la probabilidad de que un hecho ocurra x veces en n pruebas está dada por la siguiente fórmula, que se llama Distribución binomial:

P(x) = Cn

x p x q n – x En ésta expresión, naturalmente, p + q = 1, ya que existe completa

certidumbre de que el hecho ocurrirá o no ocurrirá. En ésta fórmula los parámetros son: n y p n = al número de veces que se repite el experimento p = éxito q = 1 – p (fracaso) x puede tomar valores de 0 a n Esta distribución corresponde a n pruebas independientes, por lo tanto su

probabilidad es constante de prueba a prueba. La probabilidad de que un hecho ocurra (p) y la probabilidad de que no ocurra

(q) pueden ser iguales, en cuyo caso la distribución será simétrica. Por ejemplo: la probabilidad de acertar o no acertar la respuesta a una pregunta falso-verdadero. La probabilidad será 0,50 para cada uno de los eventos.

Si las probabilidades no son iguales, la distribución binomial no es simétrica

sino asimétrica. Por ejemplo la probabilidad de una pieza defectuosa (p) es 0,05, la de una sin defectos (q) es 0,95.

Para éste último ejemplo si quisiéramos hallar la probabilidad de 0, 1 y 2 defectuosas elegidas al azar sobre 2 piezas ( n = 2). Tendríamos que hacer:

2 P(x = 0) = 0,05 0 0,95 2 = 0,9025 0 2 P(x = 1) = 0,051 0,95 1 = 0,0950 1

Page 76: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

76

2 P(x = 2) = 0,052 0,95 0 = 0,0025 2 Naturalmente, la suma de todos los resultados posibles debe ser igual a 1,0. Una distribución de probabilidades binomial es una distribución teórica que

puede generarse matemáticamente usando el método del desarrollo binomial. Sin embargo, en la práctica no es necesario efectuar estos cálculos, ya que se dispone de Tablas para la Distribución Binomial, (que se encuentran en el Anexo).

Para hallar la probabilidad de encontrar 1 defectuosa sobre 2 piezas, (n = 2;

x = 1), es necesario en primer lugar ubicar el valor de n = 2. Después correr un lugar hacia la derecha donde se encuentran los valores de x y de allí hacia abajo hasta encontrar el x = 1. Por último moverse horizontalmente por esa fila hasta el número que corresponda a la columna de p = 0,05. Como se puede observar, es el 0,0950.

Del mismo modo se procede para encontrar los otros valores de x, ya que se

mantienen los valores de los parámetros p y n. La distribución binomial, como toda distribución, tiene su media aritmética y su

desviación estándar. La media aritmética de una distribución de probabilidades se llama esperanza

matemática, cuyo símbolo es E(x), es decir el valor esperado para una variable

aleatoria x. Se obtiene multiplicando el número de eventos n por la probabilidad de

éxito (p), o sea: E(x) = n. p

El desvío estándar, se calcula de la siguiente manera: _______

S = n . p . q

DISTRIBUCIÓN DE POISSON Cuando en una distribución binomial de probabilidades, n es un número grande y la probabilidad del evento x es cercana a O; de modo que q = 1 – p, se aproxima a 1, la distribución tiene un enorme sesgamiento.

Page 77: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

77

En éstos casos de utiliza la distribución de Poisson, denominada también de los “casos raros”. Fue desarrollada por el matemático francés Poisson, en el siglo XIX. Es por tanto también, una distribución para variable aleatoria discreta.

En la práctica se la utiliza, por ejemplo en el control de cantidad de ciertas bacterias, en física para contar la cantidad de partículas emitidas por una sustancia radioactiva, etc. La ecuación de ésta distribución, es la siguiente: p(x) = mx e -m

X!

En la que: p(x) = probabilidad de que ocurra el evento x m = media de la distribución, o sea: m = np e = base de los logaritmos naturales x! = factorial de x La solución de los casos en que es aplicable la distribución de Poisson, se facilita con el uso de las tablas, ( ver Anexo), que indican las probabilidades para distintos valores de x y de m.

La esperanza y la varianza en una distribución de Poisson son: E(x) = V(x) = n.p Supongamos que se han realizado anotaciones sobre la cantidad de imperfecciones por panel de madera que debían repararse antes de fletarlos al comprador. La distribución de la cantidad de imperfecciones, (como ralladuras, superficies sin pulir adecuadamente, etc), se aproximaba a la distribución de Poisson. Es decir, una cantidad apreciable de paneles no tenían imperfecciones, algunos tenían una falla, muy pocos tenían dos, y así sucesivamente. La cantidad media de imperfecciones por panel, se calculó en 0,5. Si buscamos en la tabla, la probabilidad de ninguna imperfección, ubicando en la primer columna,

x = 0 y el la parte superior = 0,5, tenemos que el valor es: 0,606531, para: P(X = 1) = 0,303265 P(x = 2) = 0,075816 P(x = 3) = 0,012636 P(x = 4) = 0,001580 Se ha recibido un pedido de compra por 1.000 paneles. El departamento de costos debe calcular el costo total de reparar los paneles, antes de comenzar la tarea.

Page 78: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

78

La experiencia anterior indicaba que la reparación de cada imperfección costó 10 centavos. El número de casos esperados, con:

O imperfecciones es: 1.000 .0,606531 606 paneles

1 “ 303 paneles

2 “ 75 paneles

3 “ 12 paneles

4 “ 1 panel El costo será entonces: 606.0 = 0 303 . 10 centavos = 30,30 75 . 20 centavos = 15,00 12 . 30 centavos = 3,60

1.40cemtavos = 0,40 TOTAL: $ 49,30

DISTRIBUCIÓN NORMAL

A partir de ejemplos de la vida cotidiana veremos como a menudo utilizamos

la palabra normal. Cuando vemos caminar un animal decimos que está realizando un movimiento

normal, hablamos además de peso normal, diámetro normal, conducta normal, altura normal, etc.

Cuando utilizamos la palabra normal lo que se quiere decir es que a la mayoría de los seres, en situaciones similares les pasa lo mismo.

Pero, siempre habrá un porcentaje mínimo de acontecimientos que no suceden de ésta manera, pero que tienen una baja probabilidad de ocurrencia.

Las distribuciones de frecuencia de muchas variables educacionales,

psicológicas, biológicas, etc., se aproximan mucho a un tipo de curva en forma de campana que se conoce como curva normal. Los errores de medición también suelen distribuirse de esta manera. Por todo ello, la curva normal se ha empleado como modelo matemático para explicar los fenómenos que empíricamente presentan distribuciones en forma de campana.

Una aplicación muy importante de la distribución normal la veremos en el área

del muestreo. Se ha descubierto que, independientemente de la forma de la población original, la distribución de las medias de las muestras extraídas de esa población estará distribuida normalmente. La importancia de éste descubrimiento será evidente cuando hablemos de muestreo.

Page 79: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

79

La ecuación de la curva normal es una compleja expresión matemática, que define toda esta familia de curvas, en función de la media y de la desviación estándar.

En esta ecuación intervienen también como magnitudes constantes, el número pi (), que como sabemos representa la relación de la circunferencia al diámetro, y cuyo valor aproximado es de 3,1416 y el número e, que representa la base de los llamados logaritmos naturales o neperianos, cuyo valor aproximado es 2,7183.

Esta función de probabilidad es de la forma:

f(x) = _ 1 e - ½ ( x

- )2

2

Aquí aparece como símbolo de la media la letra griega mu () y como símbolo

de la desviación estándar la letra griega minúscula () sigma Se trata de una distribución de variable continua. Es la más importante dentro

de la estadística, por la gran cantidad de aplicaciones que posee.

La forma gráfica es la de una campana cuyo eje pasa por el valor de la

variable ( x = ) que es la media o valor esperado de la variable x.

área = 1

_________________________

-

Características de la distribución normal

Page 80: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

80

Tiene forma campanular, y se la llama también campana de Gauss.

Es una distribución para variable aleatoria continua

Es asintótica, es decir no toca el eje de las x

Se distribuye de - a +

El área bajo la curva es igual a uno

Es simétrica

Coinciden el valor de la media aritmética, mediana y modo ( = Mº = Med )

68,26 % de los datos

2 95,44 % “ “ “

3 99,73 % “ “ “

Construir una distribución normal aplicando la fórmula sería una tarea pesada, a causa de la gran cantidad de cálculos necesarios. Para facilitar la construcción y uso de la distribución normal se ha elaborado una Tabla de áreas bajo la Curva Normal, (ver Anexo), ésta ha sido estandarizada a fin de hacerla aplicable a cualquier

problema que incluya una distribución normal. Cuando la distribución normal se expresa con la variable estandarizada, o sea

cuando la media es igual a 0 y la desviación estándar es igual a 1, la curva normal toma el nombre de Curva Normal estandarizada o tipificada.

Para utilizar la tabla, varios valores deben transformarse en una medida

estándar, denominada valor z, que se halla mediante la fórmula:

Z x -

Cálculo de probabilidades como áreas bajo la curva normal

En la Tabla de Areas bajo la Curva Normal, que figura en el Anexo, los valores de z que figuran allí (desviaciones estándar), aparecen expresados con dos cifras decimales, desde 0,00 hasta 5,00. A partir de 5,00 desviaciones estándar las áreas bajo la curva normal se vuelven infinitamente pequeñas y, por tanto, sin ningún valor práctico. Las áreas que se dan en la tabla y que corresponden a cada valor de z, deben

leerse como probabilidades entre = 0 y los valores de z que se leen en el renglón y bajo la columna adecuada. Por ejemplo, cuando el valor de z es 1,00. Debemos buscar el valor 1 en la primera columna y luego avanzar horizontalmente hasta encontrar la columna del 00. Como se observa el valor del área es 0,3413. Esto significa que entre el eje vertical

de la curva normal ( ) y z = 1 desviación estándar está comprendida el 34,13% del área total bajo la curva normal. Así:

P(0 z 2,5) = 0,4938

P(0 z 0,47) = 0,1808

Page 81: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

81

P(0 z 1,53) = 0,4370 Como se puede advertir es muy fácil encontrar el área bajo la curva normal entre dos valores cualesquiera de z, por medio de la suma o resta de áreas. Así por ejemplo, si quisiéramos determinar la probabilidad de que z se encuentre entre 0,75 y 2,75. Evidentemente el área pedida se obtiene restando del

área comprendida entre y z = 2,75, el área comprendida entre y z = 0,75. En símbolos:

P (0 z 2,75) - P (0 z 0,75) = 0,4970 – 0,2734 = 0,2236 Para utilizar la distribución normal como una aproximación de la distribución binomial, las variables aleatorias z se obtendrán por medio de la siguiente fórmula: Z = x - n.p ______

n.p.q

Por ejemplo, si estuviéramos buscando la probabilidad de que la variable rendimiento de un cultivar, o rendimiento de carne, tome valores menores a un valor determinado, podría indicar la posibilidad de obtener rendimientos que no justifiquen el costo de la producción. Por otra parte si buscáramos la probabilidad de que la variable en estudio tome valores mayores a un valor determinado y la variable aleatoria fuera la cantidad de semillas de maleza en el suelo antes de la siembra, el encontrar esta probabilidad podría indicar si se necesitará o no aplicar herbicida.

OTRAS DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS CONTINUAS

LA DISTRIBUCIÓN CHI CUADRADO Esta distribución está estrechamente relacionada con la distribución normal. Supongamos que se tiene una población de N individuos y se quiere estudiar la altura de los mismos. La variable aleatoria altura es una variable continua que puede considerarse distribuida de manera muy similar a la distribución normal. Por lo tanto, si X = altura de personas de una cierta población

Page 82: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

82

Podemos decir que: X ~ N (µ, σ ) Esto es, X se distribuye normalmente con media µ y desviación estándar σ. Se decide seleccionar aleatoriamente un número n de individuos de esta población. A cada uno de los individuos seleccionados se les medirá la altura y obtendremos una seie de observacions que simbolizaremos como:

X1, x2, x3, …….. xn Las observaciones muestrales también seguirán distribuyéndose de acuerdo a una distribución N(µ, σ). Si la muestra es representativa de la población de origen, es lógico suponer que las observaciones muestrales también son variables aleatorias con media µ y desviación estándar σ. Si transformamos estas variables normales (μ,σ) en variables normales estandarizadas, restando a cada una de ellas la media μ y dividiéndola por la desviación estándar σ, tendremos: z1= x1 – μ, z2 = x2 – μ z3 = x3 - μ, ……..zn = xn - μ σ σ σ σ Si ahora elevamos al cuadrado cada una de estas variables normales estandarizadas y las sumamos, obtendremos: ∑ z2

i = (x1 – μ)2 + (x2 – μ)2 + (x3 – μ)2 + ……… + (xn – μ)2 = σ2 σ2 σ2 σ2 n

∑ z2i = ∑ (xi - μ)2

i=1 σ2

Page 83: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

83

Esta suma de zi2 es lo que denominamos variable chi cuadrado y se simboliza:

.2א

Una distribución chi cuadrado se define como la suma de n variables normales estandarizadas elevadas al cuadrado.

Por la propia definición de una variable chi cuadrado, su campo de variación es de 0 a ∞, ya que al ser una suma de cuadrados nunca puede tomar valores negativos. La representación gráfica de esta distribución es como la que se observa en la siguiente figura, siendo la curva menos asimétrica a medida que aumenta el tamaño de la muestra.

Como el valor de la ∑ zi

2 o de la variable chi cuadrado cambiará de muestra a muestra, se deduce que ∑ zi

2 es una variable aleatoria. Supongamos que tenemos una población normal con media igual, μ = 50 y σ2= 100 y se extrae una muestra con los siguientes datos: X1 = 50; x2 = 57; x3 = 42; x4 = 63 y x5 = 32 Si se calcula en dicha muestra la ∑ zi

2, esta será:

Page 84: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

84

∑ zi

2 = (50-50)2 + (57-50)2 + (42-50)2 + (63-50)2 + (32-50)2 100 100 100 100 100 = 0 + 49 + 64 + 169 + 324 = 606 = 6,06 100 100 Si ahora se extrae una segunda muestra cuyo valores son. X1 = 55; x2 = 44; x3 = 37; x4 = 40 y x5 = 52 Con estos valores se vuelve a computar ∑ zi

2

∑ zi

2 = (55-50)2 + (44-50)2 + (37-50)2 + (40-50)2 + (52-50)2 100 = 25 + 36 + 169 + 100 + 4 = 334 = 3,34

100 100

Si se extraen todas las muestras posibles de dicha población normal, cada una tendrá su propio valor para la ∑ zi

2. La distribución de probabilidad de la variable ∑ zi2

se denomina distribución chi cuadrado ( 2א).

El valor que toma la variable ∑zi2 no depende solamente de las observaciones

muestrales sino que depende también del tamaño de la muestra: n.

El tamaño de la muestra, que especifica la cantidad de sumandos independientes que intervienen en la definición de una variable chi cuadrado se denomina grados de libertad.

En general, si la muestra tiene tamaño n, se dice que se tiene una variable

chi cuadrado con n grados de libertad y se simboliza como: 2א

n La esperanza matemática de una variable chi cuadrado, es igual a sus

correspondientes grados de libertad.

Si la variable 2א surge de sumar n variables normales estandarizadas elevadas

al cuadrado, sus grados de libertan serán n y: E( 2א) = n

Page 85: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

85

La varianza de una variable 2א es el doble de sus grados de libertad:

V ( 2א) = 2 n

LA DISTRIBUCIÓN t de STUDENT

Una variable con distribución t de Student se define como el cociente entre una variable normal estandarizada y la raíz cuadrada positiva de una variable 2א dividida por sus grados de libertad. zi T = ------------------ ----------------------- i = 1,2,…, n _____________________ √ 1 (z2

1 + z22 + ….. + z2

n) │ n Algunas propiedades de la distribución:

La variable t varía de - ∞ a + ∞, exactamente como una distribución normal.

Al igual que en el caso de una distribución normal estandarizada, la distribución t de Student es simétrica con respecto al 0.

Una distribución t de Student presenta una mayor dispersión que la distribución normal por lo cual la correspondiente representación gráfica tiene la forma de una campana mas achatada. A medida que aumentan los grados de libertad, o sea el tamaño de la muestra, la distribución t de Student se va aproximando a la distribución normal.

INFERENCIA ESTADÍSTICA El procedimiento que generalmente se sigue en cualquier investigación consiste en obtener resultados a partir de una muestra y luego generalizarlos a la población objetivo. Una población cualquiera queda perfectamente especificada por ciertas medidas denominadas parámetros poblacionales.

Por ejemplo si el ingreso promedio de un peón de campo de la provincia de Formosa se calcula teniendo en cuenta a todos los peones de campo de la provincia, este ingreso promedio es un parámetro.

Page 86: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

86

Es evidente que los parámetros poblacionales son generalmente imposibles de calcular. En la práctica, casi siempre se trabaja con muestras de las que obtenemos los estadísticos muestrales. Si se toma una muestra de 100 peones de campo de la provincia de Formosa, y se les pregunta el ingreso y, en base a ésta información recogida se calcula un ingreso promedio, este promedio es un estadístico muestral. Uno de los objetivos principales del análisis estadístico consiste en utilizar estadísticos (como el promedio de la muestra, la desviación estándar de la muestra y la proporción de la muestra) que se obtienen con los datos de la muestra para estimar su verdadero valor en la población, a esto se denomina inferencia estadística.

Como los estadísticos son variables aleatorias tienen una distribución asociada, por lo tanto necesitamos conocer y comprender la naturaleza aleatoria de los estadísticos muestrales, estudiar las propiedades estadísticas de la media y varianza muestrales y adquirir destrezas en el cálculo de probabilidades asociadas a estos estadísticos. Cuando se estudian las propiedades de los estadísticos muestrales se hace desde un punto de vista teórico, suponiendo poblaciones de tamaño infinito. Si se quieren observar estas propiedades a través de simulación, partiendo de poblaciones finitas, entonces se recurre a la técnica de muestreo con reposición, porque de esa forma se emula una población de tamaño infinito.

DISTRIBUCIONES EN EL MUESTREO

Supongamos que tenemos una población de 4 observaciones con valores: 1.-) 40 2.) 60 3.) 80 4.) 100 la media, μ = 70

Si de esta población con N = 4, queremos sacar muestras, con reemplazo de

tamaño 2, (n =2), hay 16 posibles muestras que se podrían seleccionar (Nn=42=16), con los siguientes posibles resultados:

Page 87: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

87

Nº de

muestras

Muestra

Valor de la muestra

_ Media de la muestra xi

_ 1 1 y 1 40, 40 x1 = 40 _ 2 1 y 2 40, 60 x2 = 50 _ 3 1 y 3 40, 80 x3 = 60 _ 4 1 y 4 40 y 100 x4 = 70 _ 5 2 y 1 60 y 40 x5 = 50 _ 6 2 y 2 60 y 60 x6 = 60 _ 7 2 y 3 60 y 80 x7 = 70 _ 8 2 y 4 60 y 100 x8 = 80 _ 9 3 y 1 80 y 40 x9 = 60 _ 10 3 y 2 80 y 60 x10 = 70 _ 11 3 y 3 80 y 80 x11 = 80 _ 12 3 y 4 80 y 100 x12 = 90 _ 13 4 y 1 100 y 40 x13 = 70 _ 14 4 y 2 100 y 60 x14 = 80 _ 15 4 y 3 100 y 80 x15 = 90 _ 16 4 y 4 100 y 100 x16 = 100 ____________ μx = 70 = μ

Consideremos ahora la tabla de frecuencias para la variable aleatoria media muestral y observemos que la densidad no es homogénea y que el valor mas probable es 70 que corresponde a la esperanza de la distribución original.

Page 88: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

88

Variable aleatoria _ P(X = x)

40 1.1/16

50 2.1/16

60 3.1/16

70 4.1/16

80 3.1/16

90 2.1/16

100 1.1/16

La esperanza de la distribución de las medias muestrales es igual a la esperanza de la distribución de la variable aleatoria original μ = 70 = μx La varianza de la distribución de las medias es igual a la varianza de la distribución de la variable estudiada, dividida por el tamaño muestral usado, (en este caso n = 2). σ2

x = σ2 = 0,625 n Por otra parte, si el muestreo se hace sin reemplazo, tendremos: Combinaciones de 4 elementos tomados de a 2; C4

2 = 6, que serian: 1 y 2, con media igual a 50 1 y 3, con media igual a 60 1 y 4, con media igual a 70 2 y 3, con media igual a 70 2 y 4, con media igual a 80 3 y 4, con media igual a 90

Tenemos así una población de medias muestrales, cuya media de las medias es también igual a 70. El conocimiento de las probabilidades de todas las medias posibles de muestras, conforma un modelo que se denomina distribución muestral.

Page 89: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

89

Xi Pi

50 0,166 = 1/6 60 0,166 = 1/6 70 0, 333 = 2/6 80 0,166 = 1/6 90 0,166 = 1/6 __________ 1,000

Cuando el N de la población es grande, (igual a 100), y n mayor a 30, la distribución muestral se acerca mucho a la normal, y cada vez más, a medida que N y n aumentan.

DISTRIBUCIÓN DEL MUESTREO DE MEDIAS

Para muestreo con reposición, de población infinita.

μx = μ y σx = σ √n

Para mustreo sin reposición, de población finita de tamaño N mayor a n: _____

μx = μ y σx = σ √ N – n √n N – 1

ERROR ESTÁNDAR DE LA MEDIA Es una medida de variabilidad entre muestra y muestra. Es la desviación estándar de la media muestral Cuando la muestra se realiza con reemplazo:

Page 90: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

90

σx = σ √n

Mayor tamaño de la muestra, menor desvío estándar Un establecimiento ganadero tiene 5.000 animales. Los litros de leche obtenidos tienen una distribución normal con μ = 25.000 y σ = 5.000. _ Si se seleccionan 100 animales y se calcula el x de leche. Qué se espera?

Determinar la probabilidad de que la muestra de 100 animales tenga media

24.000 y 25.000 _ Z = x - μ σ En el muestreo: _ Z = x - μ σ √ n Z = 24.000 - 25.000 = - 2,0 5.000 √100 P (24.000 ≤ z ≤ 25.000 = 0,4772 = 47,72 % El 47,74 % de todas las muestras posibles, tendrán un promedio entre 24.000 y 25.000.

Determinar el porcentaje de animales con promedio entre 24.000 y 25.000

_

Page 91: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

91

Z = x - μ = - 0,20 σ

P (24.000 ≤ z ≤ 25.000) = 0,0793 = 7,93 %

Determinar el intervalo que contiene al 95 % de las muestras

_

Z = x – μ

σ

√ n

_ X = μ + z σ √n _ X = 25.000 + (1,96) 5.000 = 25.980 √ 100 _ X = μ – z σ √n _ X = 25.000 – (1,96) 5.000 = 24.020 √100 El 95 % de todas las medias muestrales de tamaño 100 estarían comprendidas en el intervalo 24.020 – 25.980

Page 92: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

92

DISTRIBUCIÓN RELACIONADA CON LA VARIANZA MUESTRAL

Consideremos todas las muestras posibles de n = 2, con reposición, de la

población de cuatro plantas y su número de frutos. Ahora calculamos la varianza muestral para cada una de ellas.

DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES

Supongamos que una población es infinita y que la probabilidad de ocurrencia

de un seceso (su éxito) es p, mientras la probabilidad de no ocurrencia es q = 1 – p. Por ejemplo la población de plantas, en que la probabilidad del evento “con fruto” es p = ½.

Consideremos todas las muestras posibles de tamaño n de tal población y para cada una de ellas la proporción de éxitos: p

Obtendremos una distribución del muestreo de proporciones cuya media

μp y cuya desviación estándar σp vienen dadas por:

_____ ________

μp = p y σp = √ pq/n = √p(1 – p)/n

Para poblaciones grandes la distribución del muestreo está, muy

aproximadamente, normalmente distribuida. Observen que la población está binomialmente distribuida.

Estas ecuaciones son válidas también para una población finita en la que se hace muestreo con reposición. Para poblaciones finitas en que se haga muestreo sin reposición, las ecuaciones son las siguientes: ___ μ= p y σ = √ pq

POBLACIONES NO NORMALES

Page 93: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

93

Teorema Central del Límite

Dice que si se sacan repetidamente muestras de tamaño n de una población

normal con media igual a y variancia a 2, la distribución muestral de las medias

de la muestra será normal con una media igual a y una variancia 2

n También podemos enunciar éste teorema de la siguiente manera: “si se extraen al azar una gran cantidad de muestras de cualquier población (ya sea normal o asimétrica), las medias de éstas muestras se aproximarán a una distribución normal de probabilidades. La media de éstas medias muestrales se

aproximará a la media de la población () En la realidad no es factible tomar miles de muestras sólo para calcular la media de la población. El costo y las limitaciones de tiempo obligan por lo general al investigador a circunscribirse a tomar una muestra de la población. Sobre la base de esta muestra, él podrá hacer una estimación puntual y dar los límites de confianza para la media de la población.

Los límites de confianza de la media se fundan en una medida de la tendencia

central y en una medida de dispersión. Ésta última se conoce como el error estándar de la media.

Por lo tanto, la desviación estándar, que en este caso se llama error estándar

es:

x p

n

TEORÍA DE LA ESTIMACIÓN PROCEDIMIENTOS DE ESTIMACIÓN

Los procedimientos de estimación se pueden dividir básicamente en dos tipos:

Estimación puntual

Estimación por intervalos Estimación puntual:

Page 94: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

94

La estimación puntual es un proceso mediante el cual se estima un parámetro

en un punto, dando un valor específico como estimación. Estimación por intervalos: La estimación por intervalos es un procedimiento mediante el cual se puede afirmar, con una determinada probabilidad, que el intervalo (a, b) encierra el verdadero valor del parámetro. Para realizar una estimación por intervalos se hace la siguiente afirmación: P (a ≤ ө ≤ b) = 1 – α

Donde a y b son variables aleatorias que dependen de cierto estimador puntual. El intervalo a, b se llama intervalo de confianza; b – a es una medida de precisión de la estimación y 1 – α es una medida de confianza con la que contamos paras efectuar la estimación. ESTIMACIÓN DEL PARÁMETRO MEDIA POBLACIONAL μ Estimación puntual _ La media de la muestra x es una estimación puntual de la media μ de la población. Estimación por intervalos _ Dada una muestra en particular donde se ha calculado x , se puede definir un intervalo alrededor del estadístico media muestral y establecer una cierta probabilidad de que μ esté comprendido en dicho intervalo. El parámetro es un valor constante, desconocido, pero fijo en algún lugar de la distribución de probabilidad poblacional correspondiente a la variable que se está estudiando. En la estimación por intervalos lo que cambian son los extremos del intervalo, pues su construcción depende de una variable aleatoria, (la media muestral) que cambia de valor en función de los elementos que fueron seleccionados en la muestra.

El parámetro es una cantidad desconocida pero fija, el intervalo es aleatorio.

Page 95: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

95

El coeficiente de confianza es un valor fijado por el investigador antes de comenzar la estimación. Si decide trabajar con una confianza del 95 % para efectuar la estimación, esto quiere decir que: “Sobre 100 muestras aleatorias de un cierto tamaño n de una población, si en cada _ una se calcula la media muestral x y, a partir de ella se construyen 100 intervalos de confianza para el parámetro que se desea estimar, 95 contendrán el verdadero valor del parámetro poblacional, mientras que 5 no lo abarcarán”. Una vez fijado el coeficiente 1 – α, por ejemplo igual a 0,95, podemos buscar en la tabla de probabilidades correspondientes a la distribución normal los valores de z1 y z2, que definen un intervalo simjétrico de probabilidad igual a 0,95 alrededor de μ = 0. Z2 es un valor de la variable normal estandarizada que acumula una probabilidad igual a 0,975 y z1 es un valor de la misma variable que acumula una probabilidad de 0,025. Si buscamos en la tabla de probabilidades, vemos que z1 = - 1,96 y z2 = 1,96, entonces podemos escribir: _ P (-1,96 ≤ (x - μ) ≤ 1,96) = 0,95 σ ∕ √n Como estamos tratando de estimar el parámetro μ, despejamos de modo que quede en el centro del intervalo solo este parámetro. Obviando los pasos algebraicos previos, tendremos:

_ _ P (x – 1,96 σ ≤ μ ≤ x + 1,96 σ ) = 0,95 √n √ n

Este es el intervalo de confianza para el parámetro μ, cuando trabajamos con una confianza del 95%.

Page 96: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

96

Si el tamaño de la muestra es suficientemente grande, no hay problema en seguir utilizando la distribución de probabilidad normal para medir la confianza de la estimación. En cambio, si la muestra es chica y no se puede por razones de costo o de tiempo u otras, aumentar su tamaño, para calcular la confianza de la estimación utilizaremos la distribución de probabilidad correspondiente a la variable t de Student.

Intervalos de confianza para las medias de muestras grandes

En la mayoría de las situaciones reales los parámetros, media y desviación estándar, no se conocen y tenemos que hacer la inferencia para los valores de la población a partir únicamente de los datos de la muestra.

Para poder estimar la media de la población debemos especificar un intervalo

dentro del cual podamos afirmar, con cierto grado de confianza conocido, que está la media de la población.

Supongamos que para una muestra de n = 100 casos la media sea de 20. Como no tenemos la desviación estándar de la población, usamos para estimar, el error estándar de la distribución muestral. La s de la muestra que es s = 5.

Tenemos

Ahora tenemos todos los datos: = 20 N = 100 S = 5

x = 0,5

Podemos establecer un intervalo de confianza que sea 95% y establecer los límites de confianza entre los cuales colocamos a la media de la población dado que sabemos que la distribución muestral de medias es normal. Gráficamente vemos que se el intervalo es 95%, quedan fuera de ese limite el 2,5 superior y el 2,5 inferior.

Buscamos en la tabla de las áreas 0,500 – 0,025 = 0,475; a este valor corresponde un z = 1,96.

Podemos ver que la media de la población con una certeza del 95%, estará

entre los límites de la media muestral más o menos z por la variancia de la muestra, o sea:

Page 97: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

97

= 1,96 s

n

= 1,96 . 0,5

= 20 0,98 O sea que la media estará entre 19,01 y 20,98

Si queremos fijar límites más exactos, por ejemplo el 99%, buscamos en la tabla 0,500 – 0,005 = 0,495 tenemos una z de 2.58 y la media estará entre:

20 + 1,29 o sea, entre 18,71 y 21,29

Estos valores de z se usan convencionalmente siempre que sea una muestra

grande o sea con un n 30

Estimaciones no sesgadas: se dice que un estadístico muestral no es sesgado cuando la media de una gran cantidad de valores muestrales obtenidos por muestreo repetido, se acerca al valor de la población o sea al parámetro.

La media de la muestra es uno de ellos, sin embargo la variancia es sesgada.

Cuando el número de casos de la muestra es chico hay que corregir ese sesgo, dividiendo por n-1.

Grados de libertad: si n es el tamaño de la muestra, n – 1, es el número de

grados de libertad, es decir la cantidad, de valores de la variable que tenemos libertad para cambiar.

Por ejemplo, si tenemos 3 valores: 5, 6 y 7. Su media aritmética es 6, los

desvíos de estos valores con respecto a la media son: - 1; 0 y 1. En consecuencia si se conocen dos cualesquiera de éstos desvíos, el desvío restante está determinado. O sea que dos desvíos pueden variar independientemente, por ello su grado de libertad es tan solo 2, (n – 1 = 2)

Distribución de la media de la población para muestras pequeñas Distribución de la t de Student

Cuando la muestra es pequeña, se utiliza un múltiplo t en vez de z. El concepto de múltiplo t fue ideado por un estadístico irlandés que escribía con el seudónimo de “Student”.

Page 98: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

98

El ideó una serie de múltiplos t para cada tamaño de muestra. Esta distribución se conoce como distribuciones t de Student.

Es una distribución más aplanada que la distribución normal, mas platicúrtica, y esto depende del tamaño de la muestra; si n es muy pequeña la distribución de t será muy chata. Como dijimos anteriormente, hay una distribución de t para cada tamaño de muestra.

Se usa igual que la distribución normal.

ESTIMACIÓN DEL PARÁMETRO POBLACIONAL σ2

Existen situaciones prácticas, generalmente ligadas a la investigación industrial, en las que interesa estimar el parámetro variancia poblacional. Por ejemplo si se desea comprar una máquina para empaquetar semillas, se requiere que la misma mida con la mayor precisión posible.

Estimación puntual

El estimador lógico de σ2 es S2, pero este no es un estimador insesgado. Para obtener un estimador insesgado de σ2 tenemos que dividir la suma de los

desvios por n – 1 en lugar de n.

Estimación por intervalos

El estadístico es el siguiente: (n – 1) S2 ~ אn-1 σ2

El intervalo de confianza para estimar σ2 es el siguiente: ESTIMACIÓN DEL PARÁMETRO PROPORCIÓN POBLACIONAL p

Estimación puntual

Page 99: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

99

El mejor estimador puntual de P será, intuitivamente, la proporción muestral p. Esta proporción se obtiene:

p = x n Donde la cantidad x significa el número total de éxitos en n pruebas binomiales

y n el total de pruebas. La proporción muestral p es un estimador insesgado de P y posee varianza

mínima cuando se lo compara con otros estimadores.

Estimación por intervalos _

De acuerdo al teorema central del límite x tiene distribución aproximadamente normal cuando n es grande. Como n es una constante se puede pensar que p es también aproximadamente normal cuando n es grande, y esto es realmente así.

Dado que x es una variable aleatoria, tenemos: E(x) = nP V(x) = nPQ Y como

p = x n

Cuando n es suficientemente grande podemos decir que p se distribuye normalmente con media P y varianza PQ

_____ P ~ N (P, √PQ ) ) n

Podemos estandarizar: Z = (p – P) ~ N(0,1) _____

√PQ ) n

Haciendo los reemplazos y despejando tenemos:

Page 100: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

100

_____ _____ P (p – Z1 - α∕2 √ p(1-p) ≤ P ≤ p - Zα∕2 √ p(1-p ) = 1 – α І n І n

Ejemplo: Una empresa dedicada al sondeo de opinión pública realiza una encuesta para averiguar la intención de voto hacia un candidato A, en una elección futura. Para ello toma una muestra al azar de 100 posibles votantes, de los cuales 59 opinan que se inclinan por el candidato A. Para estimar la proporción de simpatizantes del candidato A en la población, la empresa decide construir un intervalo estableciendo un coeficiente de confianza del 95 %. Los datos son: p = 59 = 0,59 q = 0,41 n = 100 100 De acuerdo al coeficiente de confianza establecido: Zα∕2 = - 1,96 Z1- α∕2 = 1,96 _________ ________ P (0,59 – 1,96. √ 0,59. 0,41 ≤ P ≤ 0,59 + 1,96. √0,59. 0,41 ) = 0,95

100 100

P ( 0,49 ≤ P ≤ 0,69 ) = 0,95 De acuerdo al resultado obtenido, la empresa puede asegurar que la

proporción de simpatizantes del candidato A en la población será un valor comprendido entre el 49 % y el 69 % con una confianza del 95 %.

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA LA MEDIA

Page 101: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

101

La determinación del tamaño adecuado de la muestra es un procedimiento

complicado, sujeto a restricciones de presupuesto, tiempo y facilidad de selección. El investigador por anticipado deberá decir la cantidad de error que estaría

dispuesto a aceptar al estimar el promedio. También tendría que determinar anticipadamente la seguridad, (confianza), con la que desea trabajar para la estimación correcta del parámetro poblacional.

Al determinar el tamaño de la muestra para estimar la media, se deben tener

presentes estos requisitos junto con la información relacionada con la desviación estándar.

Si se conoce σ, la estimación del intervalo de confianza para la media de la

población se obtiene con la ecuación: X ± Z σ

√n Sabemos que: _ _ Z = x – μ por lo tanto: x - μ = Z σ σx √n _ La diferencia entre el estadístico x y el parámetro poblacional μ que se va

estimar, es el error muestral, simbolizado con la letra e. Por lo tanto e, se puede definir

como:

e = Z σ √n

Al resolver esta ecuación para n, se tiene:

n = Z2 σ2 e2

Por tanto, para determinar el tamaño de la muestra, se deben conocer tres

factores:

Page 102: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

102

El nivel de confianza deseado Z

El error muestral permitido e

La desviación estándar, σ

Por ejemplo si se quiere estimar el ingreso promedio de la población con aproximación ± $5 del valor real y querría tener un 95 % de confianza en la estimación

correcta de la media real y de acuerdo a estudios realizados el año anterior, se estima la desviación estándar en $21. Con esta información se puede determinar el tamaño de la muestra, de la siguiente manera:

n = Z2 σ2 = (1,96)2 (21)2 = 67,8 e2 25 por lo tanto, n = 68 La regla empírica a utilizar para determinar el tamaño de la muestra es siempre

redondear al siguiente entero a fin de sobresatisfacer ligeramente los criterios deseados.

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA UNA PROPORCIÓN

Los métodos para determinar el tamaño de la muestra que se utiliza en la determinación de una proporción real son similares a los empleados en la estimación de la media.

La estimación del intervalo de confianza en una proporción real p, se obtiene

con: __________ p ± Z √ ps (1 – ps)

| n

Z = ps – p √p q │ n por lo tanto:

n = Z2 p q e2

Page 103: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

103

En la determinación del tamaño de la muestra para estimar una proporción, se necesitan tres factores:

El nivel de confianza deseado Z

El error muestral permitido e

La proporción real de éxito estimada, p

La proporción real, (verdadera), de éxito en la población p, es la cantidad que se querría estimar al tomar la muestra. Hay dos caminos disponibles para esto:

- si la proporción real de éxito se puede estimar en base a los datos o experiencias pasadas, esta estimación se puede utilizar para.

- si no hay datos, se debe ser lo mas conservador posible, al estimar p, usando el valor de p que hace a la cantidad pq, lo mas grande posible. Por tanto cuando no se tiene conocimiento o estimación previos de la proporción p verdadera, se debería usar p = 0,5, como el medio mas conservador para estimar el tamaño de la muestra.

ESTIMACIÓN Y DETERMINACIÓN DEL TAMAÑO DE MUESTRA PARA POBLACIONES FINITAS Cuando se muestrea sin reemplazo en poblaciones finitas, el factor de corrección de esa población finita, sirve para reducir el error estándar, por un factor (N – n) / (N – 1). Al estimar parámetros de una población finita se debe utilizar para el desarrollo de estimaciones del intervalo de confianza. Así pues, la estimación del intervalo de confianza para la media se convertiría: _ _____ X ± tn-1 S √N – n

√n │N – 1 Y _____ _____ ps ± Z √ ps q √ N – n │ n │N – 1

Page 104: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

104

Al estimar proporciones el error muestral seria: ____ _____ e = Z √ pq √ N – n │ n │N – 1 Mientras que al estimar medias, el error muestral sería: _____ e = Z σ √ N – n √n │N – 1 Entonces, el tamaño necesario de la muestra se puede determinar con un procedimiento en dos etapas, primero se determinaría el tamaño de la muestra como lo vimos inicialmente, sin tener en cuenta el factor de corrección, (le llamamos no), y luego le aplicamos el factor de corrección: no = Z2 σ2 e2

n = __no______

no + N – 1 n

FORMULACIÓN Y PRUEBA DE HIPÓTESIS ESTADÍSTICA

INTRODUCCIÓN: El hombre reconoce cotidianamente situaciones que lo afectan, como la pérdida de cosechas, enfermedades, las contingencias climáticas, etc. Tomar acciones para evitar o prevenir estos problemas requiere comprender como funciona el sistema que los origina. En el proceso de comprensión existe un proceso de idealización que se llama técnicamente modelación, que tiene por objeto identificar

los elementos que son relevantes y plantear sus relaciones.

Page 105: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

105

Si el sistema es correcto en el sentido que representa bien el sistema bajo estudio, se tendrá una herramienta valiosa para planificar acciones en el mundo real. Para que un modelo sea incorporado al patrimonio de la ciencia tiene antes que ser validado, es decir mostrar que las predicciones que se deducen de él son

aceptables. Lo usual es realizar un experimento y observar el comportamiento del sistema y comparar los resultados obtenidos en estos estudios con los que se deducen del modelo. Si no hay diferencias significativas entre lo observado y lo esperado, entonces se dirá que el modelo es correcto para esa situación (o desde un punto de vista mas estricto: que el modelo es “provisoriamente” aceptable). El problema es definir que se entiende por diferencia significativa. No es simple establecer un criterio para decir si las discrepancias entre lo que se observa y lo que se espera es grande o pequeña. La idea es entonces: dado un modelo no validado, que se llama hipótesis científica, se debe seguir algún procedimiento para deducir alguna consecuencia

cuya verificación o no, sirva para establecer la veracidad de la hipótesis científica. Si la o las consecuencias de la hipótesis científica se pueden visualizar como propiedades estadísticas de una variable aleatoria, será factible utilizar herramientas estadísticas para tomar una decisión sobre la veracidad del modelo. Para ello se debe expresar la hipótesis científica como una hipótesis estadística. Estas hipótesis consisten en una afirmación sobre uno o más parámetros de la distribución de la variable aleatoria en cuestión. Por ejemplo indicando que la esperanza de la distribución μ = 300 kg Conceptualmente la prueba estadística o prueba de hipótesis es sencilla: se

examina un conjunto de datos muestrales y a partir de ellos se calcula un estadístico cuya distribución depende de la hipótesis planteada. Sobre la base de la distribución especificada para el estadístico y de su valor observado en la muestra, se decide el rechazo o no de la hipótesis estadística. Por ejemplo supongamos que establecemos la siguiente hipótesis y su correspondiente deducción con respecto a un aula de la Facultad, que está con las puertas cerradas:

A: el aula está vacía (hipótesis)

B: no se ve a nadie (deducción)

Si miramos por el ojo de la cerradura y vemos a un alumno sentado en el banco, podemos sentirnos seguros al decir que la hipótesis es falsa.

Deducción no se cumple --------------→ hipótesis falsa _ _ B -----------------------→ A

Page 106: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

106

Si miramos por el ojo de la cerradura y no vemos a nadie en el aula, decir que la hipótesis es verdadera es incorrecto. Deducción se cumple ------------------→ aceptar la hipótesis es una afirmación

Incorrecta B -----------------------→ A es una afirmación incierta

El hecho de mirar por el ojo de la cerradura equivale a mirar solo una parte del aula. Podemos asimilar esta situación con la inferencia estadística por cuanto debemos tomar una decisión en base a una información limitada, (muestra), respecto a la totalidad del aula, (población).

Si la evidencia de la muestra lleva a la decisión de rechazar la hipótesis

planteada estaremos mucho mas seguros de nuestra determinación que cuando no existan evidencias para su rechazo.

HIPÓTESIS NULA Y ALTERNATIVA

La hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional.

La hipótesis nula, (Ho), es un supuesto acerca de uno o más parámetros de la población que debe ser rechazado o no en base a la evidencia muestral.

Se denomina nula en el sentido que supone que no existe diferencia real entre el verdadero valor del parámetro de la población de la que hemos obtenido la muestra y el valor hipotetizado.

Ahora bien, si la evidencia presentada no es contundente, se decidirá no

rechazo de la hipótesis nula. En caso contrario, se rechaza la hipótesis nula.

Page 107: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

107

Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera.

Esta hipótesis recibe el nombre de hipótesis alternativa.

A la hipótesis alternativa la simbolizaremos: H1.

PASOS DE LA PRUEBA DE HIPÓTESIS

1. Expresar la hipótesis nula 2. expresar la hipótesis alternativa. 3. especificar el nivel de significación, α 4. determinar el tamaño de la muestra, n 5. establecer los eventos que conducen al rechazo o no rechazo de la hipótesis

nula mediante la definición de regiones de rechazo y no rechazo

6. realizar el muestreo “ad hoc”, según la planificación realizada previamente, para obtener las observaciones con las que se realizará la prueba.

7. finalmente calcular el valor del estadístico postulado y determinar si está dentro o fuera de la región de rechazo. En el primer caso se dice que se rechaza Ho y en el segundo que no.

Ejemplo: Se desea probar si una nueva variedad de cierto cultivo logrado por un proceso de mejoramiento genético supera la base de 20qq/ha De acuerdo a los pasos enunciados precedentemente se tiene:

planteo de la hipótesis estadística

Ho: μ = μo (20 qq/ha) H1: μ > μo (20 qq/ha)

para probar la hipótesis se planifica una experiencia consistente en repetir el cultivo de la nueva variedad en 30 parcelas de ¼ de hectárea cada una, y registrar sus rendimientos a cosecha

elección del estadístico para la prueba e identificación de su función,(le llamaremos T.

_ se tomará T(x1, ….,xn) = (x - μo) √ s2 │ n

Page 108: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

108

Este estadístico, cuando μ = μo bajo el supuesto de normalidad para la variable en estudio, se distribuye como una t(n-1).

Se fija el nivel de significación α, por ejemplo, en 0,05.

Para el establecimiento de las zonas de aceptación y de rechazo, es necesario establecer el punto crítico (PC). El PC para T es el cuantil 0,95 de la distribución t con (n-1) grados de libertad y se denota como t(n-1);0,95.

Si de acuerdo a la planificación hay 30 repeticiones, en la tabla t de Student se obtiene PC = 1,699, por lo tanto la zona de aceptación de Ho (ZA) y la de rechazo de la Ho (ZR), serán: ZA = ( - ∞, 1,699) y ZR = (1,699, ∞)

De acuerdo a la planificación, al cabo de la cosecha se obtienen los siguientes resultados:

_

X = 25 qq/ha y s = 4 qq/ha.

Se calcula T y se observa a cuál de los intervalos definidos anteriormente pertenece. En función de ello se acepta o no la hipótesis, así:

T = 25 - 20 = 6,847 4__ √10 Como T є ZR se concluye que se rechaza la hipótesis nula, por lo tanto la nueva variedad supera en promedio el rendimiento de 20 qq/ha. PRUEBA DE HIPÓTESIS PARA UNA PROPORCIÓN

Page 109: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

109

Ejemplo: El Instituto Pasteur de París y un Laboratorio desarrollaron una vacuna contra el SIDA. Luego de que los resultados en chimpancés resultaron positivos comenzó a probarse en seres humanos. Cincuenta voluntarios, hombres y mujeres de 18 a 55 años seleccionados minuciosamente entre mas de 600 candidatos debían ser todos sero-negativos, y con un alto riesgo de contraer la enfermedad. Previamente, en los chimpancés inoculados con la vacuna, se obtuvo una respuesta favorable en un 75% de los casos. Por ello se decidió que la vacuna podía ser considerada efectiva en seres humanos cuando ella prevenga de la enfermedad a más del 80 % de los pacientes tratados. La hipótesis nula, deberá expresarse: Ho) P ≤ 0,80 donde P es la proporción poblacional Los 50 voluntarios de la muestra serán inoculados con la vacuna y se les efectuará un seguimiento de un año luego de lo cual se obtendrán las primeras conclusiones. Evidentemente: H1 > 0,80 El estadístico para efectuar el test T será la proporción muestral p de personas que quedaron inmunizadas por su acción y las reglas de decisión determinarán en cuál de las dos regiones se posiciona el valor muestral. Debemos recordar nuevamente que se está decidiendo algo con respecto al parámetro poblacional p a partir de la información proporcionada por una muestra. En realidad, estamos mirando por el ojo de la cerradura y, en consecuencia, el investigador podrás cometer dos tipos de errores. Por una parte, podría rechazar la hipótesis nula diciendo que la vacuna es efectiva cuando en realidad no lo es. Esto muy peligroso en cuanto a la salud de los pacientes. Otro error que puede cometer consiste en no rechazar la hipótesis cuando en realidad es falsa. Estaría diciendo que la vacuna no es efectiva cuando en realidad lo es. Se pueden cometer dos tipos de errores: de tipo I y error de tipo II

El error de tipo I es aquel que se comete al rechazar una hipótesis nula cuando ella es verdadera

Page 110: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

110

La probabilidad de cometer un error de tipo I se simboliza con α, conocida como p o nivel de significación de un test.

El error de tipo II es aquel que se comete al no rechazar una hipótesis nula cuando en realidad es falsa

La probabilidad de cometer un error de tipo II se simboliza con ß Cuando tratamos de reducir la probabilidad de cometer el error Tipo I (α), aumenta la probabilidad de cometer el error de Tipo II (ß). La única manera que tiene el investigador de disminuir ambos tipos de errores a la vez consiste en aumentar el tamaño de la muestra (n). PRUEBA DE HIPÓTESIS REFERIDA AL PARÁMETRO POBLACIONAL σ2

Un ingeniero asegura que las máquinas enfardadoras que produce, enfardan con muy poca variabilidad en el peso de los fardos. Dice que la misma es σ2 = 0,2. Un cliente, quien debe hacer una fuerte inversión, decide poner a prueba la hipótesis del fabricante, estableciendo las siguientes hipótesis: Ho ) σ2 ≤ 0,2 H1 ) σ2 > 0,2

Para probar esta hipótesis, selecciona una muestra de 15 días donde registra el peso. El cálculo de la varianza en su muestra dio S2 = 0,4.

El estadístico utilizado es el siguiente: (n-1) S2 ~ 2א (n-1) σ2 Se distribuye como chi cuadrado con n-1 grados de libertad. De acuerdo a la hipótesis estadística establecida, la regla de decisión a seguir

será: Rechazar Ho si: 1-α (n-1) 2א < S2 (n – 1) = 2א σ2

o

Page 111: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

111

Si fijamos α = 0,05 el valor 2א0,95; 14 = 23,7

Calculamos ahora el valor del estadístico planeado para efectuar el test: (n – 1) S2 = 14 . 0,4 = 28 σ2

o 0,2 Como podemos observar en el gráfico correspondiente, el estadístico utilizado como criterio para realizar el test, cae en la zona de rechazo de la hipótesis nula. La evidencia muestral parece indicar que el ingeniero estaba equivocado y que en realidad la enfardadora realiza el trabajo con bastante mas variabilidad de la que él cree.

Page 112: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

112

A N E X O I

Tablas Estadísticas

Page 113: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

113

Tabla 1. Áreas bajo la curva de Gauss tipificada entre 0 y z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916 2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936 2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952 2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964 2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974 2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981 2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986 3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990

Page 114: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

114

TABLA 2: PROBABILIDADES BINOMIALES p

n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

1 0 0.9500 0.9000 0.8500 0.8000 0.7500 0.7000 0.6500 0.6000 0.5500 0.5000

1 1 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500 0.5000

2 0 0.9025 0.8100 0.7225 0.6400 0.5625 0.4900 0.4225 0.3600 0.3025 0.2500

2 1 0.0950 0.1800 0.2550 0.3200 0.3750 0.4200 0.4550 0.4800 0.4950 0.5000

2 2 0.0025 0.0100 0.0225 0.0400 0.0625 0.0900 0.1225 0.1600 0.2025 0.2500

3 0 0.8574 0.7290 0.6141 0.5120 0.4219 0.3430 0.2746 0.2160 0.1664 0.1250

3 1 0.1354 0.2430 0.3251 0.3840 0.4219 0.4410 0.4436 0.4320 0.4084 0.3750

3 2 0.0071 0.0270 0.0574 0.0960 0.1406 0.1890 0.2389 0.2880 0.3341 0.3750

3 3 0.0001 0.0010 0.0034 0.0080 0.0156 0.0270 0.0429 0.0640 0.0911 0.1250

4 0 0.8145 0.6561 0.5220 0.4096 0.3164 0.2401 0.1785 0.1296 0.0915 0.0625

4 1 0.1715 0.2916 0.3685 0.4096 0.4219 0.4116 0.3845 0.3456 0.2995 0.2500

4 2 0.0135 0.0486 0.0975 0.1536 0.2109 0.2646 0.3105 0.3456 0.3675 0.3750

4 3 0.0005 0.0036 0.0115 0.0256 0.0469 0.0756 0.1115 0.1536 0.2005 0.2500

4 4 0.0000 0.0001 0.0005 0.0016 0.0039 0.0081 0.0150 0.0256 0.0410 0.0625

5 0 0.7738 0.5905 0.4437 0.3277 0.2373 0.1681 0.1160 0.0778 0.0503 0.0313

5 1 0.2036 0.3281 0.3915 0.4096 0.3955 0.3602 0.3124 0.2592 0.2059 0.1563

5 2 0.0214 0.0729 0.1382 0.2048 0.2637 0.3087 0.3364 0.3456 0.3369 0.3125

5 3 0.0011 0.0081 0.0244 0.0512 0.0879 0.1323 0.1811 0.2304 0.2757 0.3125

5 4 0.0000 0.0005 0.0022 0.0064 0.0146 0.0284 0.0488 0.0768 0.1128 0.1563

5 5 0.0000 0.0000 0.0001 0.0003 0.0010 0.0024 0.0053 0.0102 0.0185 0.0313

6 0 0.7351 0.5314 0.3771 0.2621 0.1780 0.1176 0.0754 0.0467 0.0277 0.0156

6 1 0.2321 0.3543 0.3993 0.3932 0.3560 0.3025 0.2437 0.1866 0.1359 0.0938

6 2 0.0305 0.0984 0.1762 0.2458 0.2966 0.3241 0.3280 0.3110 0.2780 0.2344

6 3 0.0021 0.0146 0.0415 0.0819 0.1318 0.1852 0.2355 0.2765 0.3032 0.3125

6 4 0.0001 0.0012 0.0055 0.0154 0.0330 0.0595 0.0951 0.1382 0.1861 0.2344

6 5 0.0000 0.0001 0.0004 0.0015 0.0044 0.0102 0.0205 0.0369 0.0609 0.0938

6 6 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0018 0.0041 0.0083 0.0156

7 0 0.6983 0.4783 0.3206 0.2097 0.1335 0.0824 0.0490 0.0280 0.0152 0.0078

7 1 0.2573 0.3720 0.3960 0.3670 0.3115 0.2471 0.1848 0.1306 0.0872 0.0547

7 2 0.0406 0.1240 0.2097 0.2753 0.3115 0.3177 0.2985 0.2613 0.2140 0.1641

7 3 0.0036 0.0230 0.0617 0.1147 0.1730 0.2269 0.2679 0.2903 0.2918 0.2734

7 4 0.0002 0.0026 0.0109 0.0287 0.0577 0.0972 0.1442 0.1935 0.2388 0.2734

7 5 0.0000 0.0002 0.0012 0.0043 0.0115 0.0250 0.0466 0.0774 0.1172 0.1641

Page 115: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

115

7 6 0.0000 0.0000 0.0001 0.0004 0.0013 0.0036 0.0084 0.0172 0.0320 0.0547

7 7 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0016 0.0037 0.0078

8 0 0.6634 0.4305 0.2725 0.1678 0.1001 0.0576 0.0319 0.0168 0.0084 0.0039

8 1 0.2793 0.3826 0.3847 0.3355 0.2670 0.1977 0.1373 0.0896 0.0548 0.0313

8 2 0.0515 0.1488 0.2376 0.2936 0.3115 0.2965 0.2587 0.2090 0.1569 0.1094

8 3 0.0054 0.0331 0.0839 0.1468 0.2076 0.2541 0.2786 0.2787 0.2568 0.2188

8 4 0.0004 0.0046 0.0185 0.0459 0.0865 0.1361 0.1875 0.2322 0.2627 0.2734

8 5 0.0000 0.0004 0.0026 0.0092 0.0231 0.0467 0.0808 0.1239 0.1719 0.2188

8 6 0.0000 0.0000 0.0002 0.0011 0.0038 0.0100 0.0217 0.0413 0.0703 0.1094

TABLA 2 (CONTINUACIÓN)

p

n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

8 7 0.0000 0.0000 0.0000 0.0001 0.0004 0.0012 0.0033 0.0079 0.0164 0.0313

8 8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0007 0.0017 0.0039

9 0 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.0020

9 1 0.2985 0.3874 0.3679 0.3020 0.2253 0.1556 0.1004 0.0605 0.0339 0.0176

9 2 0.0629 0.1722 0.2597 0.3020 0.3003 0.2668 0.2162 0.1612 0.1110 0.0703

9 3 0.0077 0.0446 0.1069 0.1762 0.2336 0.2668 0.2716 0.2508 0.2119 0.1641

9 4 0.0006 0.0074 0.0283 0.0661 0.1168 0.1715 0.2194 0.2508 0.2600 0.2461

9 5 0.0000 0.0008 0.0050 0.0165 0.0389 0.0735 0.1181 0.1672 0.2128 0.2461

9 6 0.0000 0.0001 0.0006 0.0028 0.0087 0.0210 0.0424 0.0743 0.1160 0.1641

9 7 0.0000 0.0000 0.0000 0.0003 0.0012 0.0039 0.0098 0.0212 0.0407 0.0703

9 8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0013 0.0035 0.0083 0.0176

9 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0020

10 0 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.0010

10 1 0.3151 0.3874 0.3474 0.2684 0.1877 0.1211 0.0725 0.0403 0.0207 0.0098

10 2 0.0746 0.1937 0.2759 0.3020 0.2816 0.2335 0.1757 0.1209 0.0763 0.0439

10 3 0.0105 0.0574 0.1298 0.2013 0.2503 0.2668 0.2522 0.2150 0.1665 0.1172

10 4 0.0010 0.0112 0.0401 0.0881 0.1460 0.2001 0.2377 0.2508 0.2384 0.2051

10 5 0.0001 0.0015 0.0085 0.0264 0.0584 0.1029 0.1536 0.2007 0.2340 0.2461

10 6 0.0000 0.0001 0.0012 0.0055 0.0162 0.0368 0.0689 0.1115 0.1596 0.2051

10 7 0.0000 0.0000 0.0001 0.0008 0.0031 0.0090 0.0212 0.0425 0.0746 0.1172

10 8 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0043 0.0106 0.0229 0.0439

10 9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016 0.0042 0.0098

10 10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010

11 0 0.5688 0.3138 0.1673 0.0859 0.0422 0.0198 0.0088 0.0036 0.0014 0.0005

11 1 0.3293 0.3835 0.3248 0.2362 0.1549 0.0932 0.0518 0.0266 0.0125 0.0054

11 2 0.0867 0.2131 0.2866 0.2953 0.2581 0.1998 0.1395 0.0887 0.0513 0.0269

11 3 0.0137 0.0710 0.1517 0.2215 0.2581 0.2568 0.2254 0.1774 0.1259 0.0806

11 4 0.0014 0.0158 0.0536 0.1107 0.1721 0.2201 0.2428 0.2365 0.2060 0.1611

11 5 0.0001 0.0025 0.0132 0.0388 0.0803 0.1321 0.1830 0.2207 0.2360 0.2256

11 6 0.0000 0.0003 0.0023 0.0097 0.0268 0.0566 0.0985 0.1471 0.1931 0.2256

11 7 0.0000 0.0000 0.0003 0.0017 0.0064 0.0173 0.0379 0.0701 0.1128 0.1611

Page 116: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

116

11 8 0.0000 0.0000 0.0000 0.0002 0.0011 0.0037 0.0102 0.0234 0.0462 0.0806

11 9 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018 0.0052 0.0126 0.0269

1110 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0007 0.0021 0.0054

11 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0005

12 0 0.5404 0.2824 0.1422 0.0687 0.0317 0.0138 0.0057 0.0022 0.0008 0.0002

12 1 0.3413 0.3766 0.3012 0.2062 0.1267 0.0712 0.0368 0.0174 0.0075 0.0029

12 2 0.0988 0.2301 0.2924 0.2835 0.2323 0.1678 0.1088 0.0639 0.0339 0.0161

12 3 0.0173 0.0852 0.1720 0.2362 0.2581 0.2397 0.1954 0.1419 0.0923 0.0537

12 4 0.0021 0.0213 0.0683 0.1329 0.1936 0.2311 0.2367 0.2128 0.1700 0.1208

TABLA 2 (CONTINUACIÓN) p

n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

12 5 0.0002 0.0038 0.0193 0.0532 0.1032 0.1585 0.2039 0.2270 0.2225 0.1934

12 6 0.0000 0.0005 0.0040 0.0155 0.0401 0.0792 0.1281 0.1766 0.2124 0.2256

12 7 0.0000 0.0000 0.0006 0.0033 0.0115 0.0291 0.0591 0.1009 0.1489 0.1934

12 8 0.0000 0.0000 0.0001 0.0005 0.0024 0.0078 0.0199 0.0420 0.0762 0.1208

12 9 0.0000 0.0000 0.0000 0.0001 0.0004 0.0015 0.0048 0.0125 0.0277 0.0537

12 10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0025 0.0068 0.0161

12 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0029

12 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002

13 0 0.5133 0.2542 0.1209 0.0550 0.0238 0.0097 0.0037 0.0013 0.0004 0.0001

13 1 0.3512 0.3672 0.2774 0.1787 0.1029 0.0540 0.0259 0.0113 0.0045 0.0016

13 2 0.1109 0.2448 0.2937 0.2680 0.2059 0.1388 0.0836 0.0453 0.0220 0.0095

13 3 0.0214 0.0997 0.1900 0.2457 0.2517 0.2181 0.1651 0.1107 0.0660 0.0349

13 4 0.0028 0.0277 0.0838 0.1535 0.2097 0.2337 0.2222 0.1845 0.1350 0.0873

13 5 0.0003 0.0055 0.0266 0.0691 0.1258 0.1803 0.2154 0.2214 0.1989 0.1571

13 6 0.0000 0.0008 0.0063 0.0230 0.0559 0.1030 0.1546 0.1968 0.2169 0.2095

13 7 0.0000 0.0001 0.0011 0.0058 0.0186 0.0442 0.0833 0.1312 0.1775 0.2095

13 8 0.0000 0.0000 0.0001 0.0011 0.0047 0.0142 0.0336 0.0656 0.1089 0.1571

13 9 0.0000 0.0000 0.0000 0.0001 0.0009 0.0034 0.0101 0.0243 0.0495 0.0873

13 10 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0022 0.0065 0.0162 0.0349

13 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0012 0.0036 0.0095

13 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016

13 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

14 0 0.4877 0.2288 0.1028 0.0440 0.0178 0.0068 0.0024 0.0008 0.0002 0.0001

14 1 0.3593 0.3559 0.2539 0.1539 0.0832 0.0407 0.0181 0.0073 0.0027 0.0009

14 2 0.1229 0.2570 0.2912 0.2501 0.1802 0.1134 0.0634 0.0317 0.0141 0.0056

14 3 0.0259 0.1142 0.2056 0.2501 0.2402 0.1943 0.1366 0.0845 0.0462 0.0222

14 4 0.0037 0.0349 0.0998 0.1720 0.2202 0.2290 0.2022 0.1549 0.1040 0.0611

14 5 0.0004 0.0078 0.0352 0.0860 0.1468 0.1963 0.2178 0.2066 0.1701 0.1222

14 6 0.0000 0.0013 0.0093 0.0322 0.0734 0.1262 0.1759 0.2066 0.2088 0.1833

14 7 0.0000 0.0002 0.0019 0.0092 0.0280 0.0618 0.1082 0.1574 0.1952 0.2095

14 8 0.0000 0.0000 0.0003 0.0020 0.0082 0.0232 0.0510 0.0918 0.1398 0.1833

Page 117: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

117

14 9 0.0000 0.0000 0.0000 0.0003 0.0018 0.0066 0.0183 0.0408 0.0762 0.1222

14 10 0.0000 0.0000 0.0000 0.0000 0.0003 0.0014 0.0049 0.0136 0.0312 0.0611

14 11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0033 0.0093 0.0222

14 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0019 0.0056

14 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0009

14 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

15 0 0.4633 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.0001 0.0000

15 1 0.3658 0.3432 0.2312 0.1319 0.0668 0.0305 0.0126 0.0047 0.0016 0.0005

15 2 0.1348 0.2669 0.2856 0.2309 0.1559 0.0916 0.0476 0.0219 0.0090 0.0032

TABLA 2 (CONTINUACIÓN)

p

n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

15 3 0.0307 0.1285 0.2184 0.2501 0.2252 0.1700 0.1110 0.0634 0.0318 0.0139

15 4 0.0049 0.0428 0.1156 0.1876 0.2252 0.2186 0.1792 0.1268 0.0780 0.0417

15 5 0.0006 0.0105 0.0449 0.1032 0.1651 0.2061 0.2123 0.1859 0.1404 0.0916

15 6 0.0000 0.0019 0.0132 0.0430 0.0917 0.1472 0.1906 0.2066 0.1914 0.1527

15 7 0.0000 0.0003 0.0030 0.0138 0.0393 0.0811 0.1319 0.1771 0.2013 0.1964

15 8 0.0000 0.0000 0.0005 0.0035 0.0131 0.0348 0.0710 0.1181 0.1647 0.1964

15 9 0.0000 0.0000 0.0001 0.0007 0.0034 0.0116 0.0298 0.0612 0.1048 0.1527

15 10 0.0000 0.0000 0.0000 0.0001 0.0007 0.0030 0.0096 0.0245 0.0515 0.0916

15 11 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0074 0.0191 0.0417

15 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052 0.0139

15 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010 0.0032

15 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005

15 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

16 0 0.4401 0.1853 0.0743 0.0281 0.0100 0.0033 0.0010 0.0003 0.0001 0.0000

16 1 0.3706 0.3294 0.2097 0.1126 0.0535 0.0228 0.0087 0.0030 0.0009 0.0002

16 2 0.1463 0.2745 0.2775 0.2111 0.1336 0.0732 0.0353 0.0150 0.0056 0.0018

16 3 0.0359 0.1423 0.2285 0.2463 0.2079 0.1465 0.0888 0.0468 0.0215 0.0085

16 4 0.0061 0.0514 0.1311 0.2001 0.2252 0.2040 0.1553 0.1014 0.0572 0.0278

16 5 0.0008 0.0137 0.0555 0.1201 0.1802 0.2099 0.2008 0.1623 0.1123 0.0667

16 6 0.0001 0.0028 0.0180 0.0550 0.1101 0.1649 0.1982 0.1983 0.1684 0.1222

16 7 0.0000 0.0004 0.0045 0.0197 0.0524 0.1010 0.1524 0.1889 0.1969 0.1746

16 8 0.0000 0.0001 0.0009 0.0055 0.0197 0.0487 0.0923 0.1417 0.1812 0.1964

16 9 0.0000 0.0000 0.0001 0.0012 0.0058 0.0185 0.0442 0.0840 0.1318 0.1746

16 10 0.0000 0.0000 0.0000 0.0002 0.0014 0.0056 0.0167 0.0392 0.0755 0.1222

16 11 0.0000 0.0000 0.0000 0.0000 0.0002 0.0013 0.0049 0.0142 0.0337 0.0667

16 12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0040 0.0115 0.0278

16 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0029 0.0085

16 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018

16 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002

16 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

17 0 0.4181 0.1668 0.0631 0.0225 0.0075 0.0023 0.0007 0.0002 0.0000 0.0000

Page 118: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

118

17 1 0.3741 0.3150 0.1893 0.0957 0.0426 0.0169 0.0060 0.0019 0.0005 0.0001

17 2 0.1575 0.2800 0.2673 0.1914 0.1136 0.0581 0.0260 0.0102 0.0035 0.0010

17 3 0.0415 0.1556 0.2359 0.2393 0.1893 0.1245 0.0701 0.0341 0.0144 0.0052

17 4 0.0076 0.0605 0.1457 0.2093 0.2209 0.1868 0.1320 0.0796 0.0411 0.0182

17 5 0.0010 0.0175 0.0668 0.1361 0.1914 0.2081 0.1849 0.1379 0.0875 0.0472

17 6 0.0001 0.0039 0.0236 0.0680 0.1276 0.1784 0.1991 0.1839 0.1432 0.0944

17 7 0.0000 0.0007 0.0065 0.0267 0.0668 0.1201 0.1685 0.1927 0.1841 0.1484

17 8 0.0000 0.0001 0.0014 0.0084 0.0279 0.0644 0.1134 0.1606 0.1883 0.1855

17 9 0.0000 0.0000 0.0003 0.0021 0.0093 0.0276 0.0611 0.1070 0.1540 0.1855

TABLA 2 (CONTINUACIÓN)

p

n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

17 10 0.0000 0.0000 0.0000 0.0004 0.0025 0.0095 0.0263 0.0571 0.1008 0.1484

17 11 0.0000 0.0000 0.0000 0.0001 0.0005 0.0026 0.0090 0.0242 0.0525 0.0944

17 12 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0081 0.0215 0.0472

17 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0021 0.0068 0.0182

17 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0016 0.0052

17 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010

17 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

17 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

18 0 0.3972 0.1501 0.0536 0.0180 0.0056 0.0016 0.0004 0.0001 0.0000 0.0000

18 1 0.3763 0.3002 0.1704 0.0811 0.0338 0.0126 0.0042 0.0012 0.0003 0.0001

18 2 0.1683 0.2835 0.2556 0.1723 0.0958 0.0458 0.0190 0.0069 0.0022 0.0006

18 3 0.0473 0.1680 0.2406 0.2297 0.1704 0.1046 0.0547 0.0246 0.0095 0.0031

18 4 0.0093 0.0700 0.1592 0.2153 0.2130 0.1681 0.1104 0.0614 0.0291 0.0117

18 5 0.0014 0.0218 0.0787 0.1507 0.1988 0.2017 0.1664 0.1146 0.0666 0.0327

18 6 0.0002 0.0052 0.0301 0.0816 0.1436 0.1873 0.1941 0.1655 0.1181 0.0708

18 7 0.0000 0.0010 0.0091 0.0350 0.0820 0.1376 0.1792 0.1892 0.1657 0.1214

18 8 0.0000 0.0002 0.0022 0.0120 0.0376 0.0811 0.1327 0.1734 0.1864 0.1669

18 9 0.0000 0.0000 0.0004 0.0033 0.0139 0.0386 0.0794 0.1284 0.1694 0.1855

18 10 0.0000 0.0000 0.0001 0.0008 0.0042 0.0149 0.0385 0.0771 0.1248 0.1669

18 11 0.0000 0.0000 0.0000 0.0001 0.0010 0.0046 0.0151 0.0374 0.0742 0.1214

18 12 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0047 0.0145 0.0354 0.0708

18 13 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0045 0.0134 0.0327

18 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011 0.0039 0.0117

18 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0009 0.0031

18 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006

18 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

18 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

19 0 0.3774 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.0001 0.0000 0.0000

19 1 0.3774 0.2852 0.1529 0.0685 0.0268 0.0093 0.0029 0.0008 0.0002 0.0000

19 2 0.1787 0.2852 0.2428 0.1540 0.0803 0.0358 0.0138 0.0046 0.0013 0.0003

19 3 0.0533 0.1796 0.2428 0.2182 0.1517 0.0869 0.0422 0.0175 0.0062 0.0018

19 4 0.0112 0.0798 0.1714 0.2182 0.2023 0.1491 0.0909 0.0467 0.0203 0.0074

Page 119: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

119

19 5 0.0018 0.0266 0.0907 0.1636 0.2023 0.1916 0.1468 0.0933 0.0497 0.0222

19 6 0.0002 0.0069 0.0374 0.0955 0.1574 0.1916 0.1844 0.1451 0.0949 0.0518

19 7 0.0000 0.0014 0.0122 0.0443 0.0974 0.1525 0.1844 0.1797 0.1443 0.0961

19 8 0.0000 0.0002 0.0032 0.0166 0.0487 0.0981 0.1489 0.1797 0.1771 0.1442

19 9 0.0000 0.0000 0.0007 0.0051 0.0198 0.0514 0.0980 0.1464 0.1771 0.1762

19 10 0.0000 0.0000 0.0001 0.0013 0.0066 0.0220 0.0528 0.0976 0.1449 0.1762

19 11 0.0000 0.0000 0.0000 0.0003 0.0018 0.0077 0.0233 0.0532 0.0970 0.1442

19 12 0.0000 0.0000 0.0000 0.0000 0.0004 0.0022 0.0083 0.0237 0.0529 0.0961

TABLA 2 (CONTINUACIÓN)

p

n k 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

19 13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0024 0.0085 0.0233 0.0518

19 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0006 0.0024 0.0082 0.0222

19 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0022 0.0074

19 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0018

19 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003

19 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

19 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

20 0 0.3585 0.1216 0.0388 0.0115 0.0032 0.0008 0.0002 0.0000 0.0000 0.0000

20 1 0.3774 0.2702 0.1368 0.0576 0.0211 0.0068 0.0020 0.0005 0.0001 0.0000

20 2 0.1887 0.2852 0.2293 0.1369 0.0669 0.0278 0.0100 0.0031 0.0008 0.0002

20 3 0.0596 0.1901 0.2428 0.2054 0.1339 0.0716 0.0323 0.0123 0.0040 0.0011

20 4 0.0133 0.0898 0.1821 0.2182 0.1897 0.1304 0.0738 0.0350 0.0139 0.0046

20 5 0.0022 0.0319 0.1028 0.1746 0.2023 0.1789 0.1272 0.0746 0.0365 0.0148

20 6 0.0003 0.0089 0.0454 0.1091 0.1686 0.1916 0.1712 0.1244 0.0746 0.0370

20 7 0.0000 0.0020 0.0160 0.0545 0.1124 0.1643 0.1844 0.1659 0.1221 0.0739

20 8 0.0000 0.0004 0.0046 0.0222 0.0609 0.1144 0.1614 0.1797 0.1623 0.1201

20 9 0.0000 0.0001 0.0011 0.0074 0.0271 0.0654 0.1158 0.1597 0.1771 0.1602

20 10 0.0000 0.0000 0.0002 0.0020 0.0099 0.0308 0.0686 0.1171 0.1593 0.1762

20 11 0.0000 0.0000 0.0000 0.0005 0.0030 0.0120 0.0336 0.0710 0.1185 0.1602

20 12 0.0000 0.0000 0.0000 0.0001 0.0008 0.0039 0.0136 0.0355 0.0727 0.1201

20 13 0.0000 0.0000 0.0000 0.0000 0.0002 0.0010 0.0045 0.0146 0.0366 0.0739

20 14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0012 0.0049 0.0150 0.0370

20 15 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0049 0.0148

20 16 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0013 0.0046

20 17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0011

20 18 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002

20 19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

20 20 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000

Page 120: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

120

TABLA 3: PROBABILIDADES DE POISSON

_ K 0.005 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0.9950 0.9900 0.9802 0.9704 0.9608 0.9512 0.9418 0.9324 0.9231 0.9139

1 0.0050 0.0099 0.0196 0.0291 0.0384 0.0476 0.0565 0.0653 0.0738 0.0823

2 0.0000 0.0000 0.0002 0.0004 0.0008 0.0012 0.0017 0.0023 0.0030 0.0037

3 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001

_

k 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679

1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679

2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839

3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613

4 0.0000 0.0001 0.0003 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153

5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031

6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005

7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

_

k 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0

0 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353

1 0.3662 0.3614 0.3543 0.3452 0.3347 0.3230 0.3106 0.2975 0.2842 0.2707

2 0.2014 0.2169 0.2303 0.2417 0.2510 0.2584 0.2640 0.2678 0.2700 0.2707

3 0.0738 0.0867 0.0998 0.1128 0.1255 0.1378 0.1496 0.1607 0.1710 0.1804

4 0.0203 0.0260 0.0324 0.0395 0.0471 0.0551 0.0636 0.0723 0.0812 0.0902

5 0.0045 0.0062 0.0084 0.0111 0.0141 0.0176 0.0216 0.0260 0.0309 0.0361

6 0.0008 0.0012 0.0018 0.0026 0.0035 0.0047 0.0061 0.0078 0.0098 0.0120

7 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0020 0.0027 0.0034

8 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009

9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002

_

K 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0

0 0.1225 0.1108 0.1003 0.0907 0.0821 0.0743 0.0672 0.0608 0.0550 0.0498

1 0.2572 0.2438 0.2306 0.2177 0.2052 0.1931 0.1815 0.1703 0.1596 0.1494

2 0.2700 0.2681 0.2652 0.2613 0.2565 0.2510 0.2450 0.2384 0.2314 0.2240

3 0.1890 0.1966 0.2033 0.2090 0.2138 0.2176 0.2205 0.2225 0.2237 0.2240

4 0.0992 0.1082 0.1169 0.1254 0.1336 0.1414 0.1488 0.1557 0.1622 0.1680

5 0.0417 0.0476 0.0538 0.0602 0.0668 0.0735 0.0804 0.0872 0.0940 0.1008

Page 121: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

121

6 0.0146 0.0174 0.0206 0.0241 0.0278 0.0319 0.0362 0.0407 0.0455 0.0504

7 0.0044 0.0055 0.0068 0.0083 0.0099 0.0118 0.0139 0.0163 0.0188 0.0216

8 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0057 0.0068 0.0081

9 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0022 0.0027

10 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008

11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002

12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

TABLA 3 (CONTINUACION)

K 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0

0 0.0450 0.0408 0.0369 0.0334 0.0302 0.0273 0.0247 0.0224 0.0202 0.0183

1 0.1397 0.1304 0.1217 0.1135 0.1057 0.0984 0.0915 0.0850 0.0789 0.0733

2 0.2165 0.2087 0.2008 0.1929 0.1850 0.1771 0.1692 0.1615 0.1539 0.1465

3 0.2237 0.2226 0.2209 0.2186 0.2158 0.2125 0.2087 0.2046 0.2001 0.1954

4 0.1733 0.1781 0.1823 0.1858 0.1888 0.1912 0.1931 0.1944 0.1951 0.1954

5 0.1075 0.1140 0.1203 0.1264 0.1322 0.1377 0.1429 0.1477 0.1522 0.1563

6 0.0555 0.0608 0.0662 0.0716 0.0771 0.0826 0.0881 0.0936 0.0989 0.1042

7 0.0246 0.0278 0.0312 0.0348 0.0385 0.0425 0.0466 0.0508 0.0551 0.0595

8 0.0095 0.0111 0.0129 0.0148 0.0169 0.0191 0.0215 0.0241 0.0269 0.0298

9 0.0033 0.0040 0.0047 0.0056 0.0066 0.0076 0.0089 0.0102 0.0116 0.0132

10 0.0010 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0045 0.0053

11 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0016 0.0019

12 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006

13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002

14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001

_

K 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0

0 0.0166 0.0150 0.0136 0.0123 0.0111 0.0101 0.0091 0.0082 0.0074 0.0067

1 0.0679 0.0630 0.0583 0.0540 0.0500 0.0462 0.0427 0.0395 0.0365 0.0337

2 0.1393 0.1323 0.1254 0.1188 0.1125 0.1063 0.1005 0.0948 0.0894 0.0842

3 0.1904 0.1852 0.1798 0.1743 0.1687 0.1631 0.1574 0.1517 0.1460 0.1404

4 0.1951 0.1944 0.1933 0.1917 0.1898 0.1875 0.1849 0.1820 0.1789 0.1755

5 0.1600 0.1633 0.1662 0.1687 0.1708 0.1725 0.1738 0.1747 0.1753 0.1755

6 0.1093 0.1143 0.1191 0.1237 0.1281 0.1323 0.1362 0.1398 0.1432 0.1462

7 0.0640 0.0686 0.0732 0.0778 0.0824 0.0869 0.0914 0.0959 0.1002 0.1044

8 0.0328 0.0360 0.0393 0.0428 0.0463 0.0500 0.0537 0.0575 0.0614 0.0653

9 0.0150 0.0168 0.0188 0.0209 0.0232 0.0255 0.0281 0.0307 0.0334 0.0363

10 0.0061 0.0071 0.0081 0.0092 0.0104 0.0118 0.0132 0.0147 0.0164 0.0181

11 0.0023 0.0027 0.0032 0.0037 0.0043 0.0049 0.0056 0.0064 0.0073 0.0082

12 0.0008 0.0009 0.0011 0.0013 0.0016 0.0019 0.0022 0.0026 0.0030 0.0034

13 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013

14 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005

15 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002

_

Page 122: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

122

K 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0

0 0.0061 0.0055 0.0050 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0025

1 0.0311 0.0287 0.0265 0.0244 0.0225 0.0207 0.0191 0.0176 0.0162 0.0149

2 0.0793 0.0746 0.0701 0.0659 0.0618 0.0580 0.0544 0.0509 0.0477 0.0446

3 0.1348 0.1293 0.1239 0.1185 0.1133 0.1082 0.1033 0.0985 0.0938 0.0892

4 0.1719 0.1681 0.1641 0.1600 0.1558 0.1515 0.1472 0.1428 0.1383 0.1339

5 0.1753 0.1748 0.1740 0.1728 0.1714 0.1697 0.1678 0.1656 0.1632 0.1606

6 0.1490 0.1515 0.1537 0.1555 0.1571 0.1584 0.1594 0.1601 0.1605 0.1606

7 0.1086 0.1125 0.1163 0.1200 0.1234 0.1267 0.1298 0.1326 0.1353 0.1377

TABLA 3 (CONTINUACION)

K 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0

8 0.0692 0.0731 0.0771 0.0810 0.0849 0.0887 0.0925 0.0962 0.0998 0.1033

9 0.0392 0.0423 0.0454 0.0486 0.0519 0.0552 0.0586 0.0620 0.0654 0.0688

10 0.0200 0.0220 0.0241 0.0262 0.0285 0.0309 0.0334 0.0359 0.0386 0.0413

11 0.0093 0.0104 0.0116 0.0129 0.0143 0.0157 0.0173 0.0190 0.0207 0.0225

12 0.0039 0.0045 0.0051 0.0058 0.0065 0.0073 0.0082 0.0092 0.0102 0.0113

13 0.0015 0.0018 0.0021 0.0024 0.0028 0.0032 0.0036 0.0041 0.0046 0.0052

14 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013 0.0015 0.0017 0.0019 0.0022

15 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009

16 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003

17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001

k 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0

0 0.0022 0.0020 0.0018 0.0017 0.0015 0.0014 0.0012 0.0011 0.0010 0.0009

1 0 0137 0.0126 0.0116 0.0106 0.0098 0.0090 0.0082 0.0076 0.0070 0.0064

2 0.0417 0.0390 0.0364 0.0340 0.0318 0.0296 0.0276 0.0258 0.0240 0.0223

3 0.0848 0.0806 0.0765 0.0726 0.0688 0.0652 0.0617 0.0584 0.0552 0.0521

4 0.1294 0.1249 0.1205 0.1162 0.1118 0.1076 0.1034 0.0992 0.0952 0.0912

5 0.1579 0.1549 0.1519 0.1487 0.1454 0.1420 0.1385 0.1349 0.1314 0.1277

6 0.1605 0.1601 0.1595 0.1586 0.1575 0.1562 0.1546 0.1529 0.1511 0.1490

7 0.1399 0.1418 0.1435 0.1450 0.1462 0.1472 0.1480 0.1486 0.1489 0.1490

8 0.1066 0.1099 0.1130 0.1160 0.1188 0.1215 0.1240 0.1263 0.1284 0.1304

9 0.0723 0.0757 0.0791 0.0825 0.0858 0.0891 0.0923 0.0954 0.0985 0.1014

10 0.0441 0.0469 0.0498 0.0528 0.0558 0.0588 0.0618 0.0649 0.0679 0.0710

11 0.0244 0.0265 0.0285 0.0307 0.0330 0.0353 0.0377 0.0401 0.0426 0.0452

12 0.0124 0.0137 0.0150 0.0164 0.0179 0.0194 0.0210 0.0227 0.0245 0.0263

13 0.0058 0.0065 0.0073 0.0081 0.0089 0.0099 0.0108 0.0119 0.0130 0.0142

14 0.0025 0.0029 0.0033 0.0037 0.0041 0.0046 0.0052 0.0058 0.0064 0.0071

15 0.0010 0.0012 0.0014 0.0016 0.0018 0.0020 0.0023 0.0026 0.0029 0.0033

16 0.0004 0.0005 0.0005 0.0006 0.0007 0.0008 0.0010 0.0011 0.0013 0.0014

17 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006

Page 123: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

123

18 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002

19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001

_

k 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0

0 0.0008 0.0007 0.0007 0.0006 0.0006 0.0005 0.0005 0.0004 0.0004 0.0003

1 0.0059 0.0054 0.0049 0.0045 0.0041 0.0038 0.0035 0.0032 0.0029 0.0027

2 0.0208 0.0194 0.0180 0.0167 0.0156 0.0145 0.0134 0.0125 0.0116 0.0107

3 0.0492 0.0464 0.0438 0.0413 0.0389 0.0366 0.0345 0.0324 0.0305 0.0286

4 0.0874 0.0836 0.0799 0.0764 0.0729 0.0696 0.0663 0.0632 0.0602 0.0573

5 0.1241 0.1204 0.1167 0.1130 0.1094 0.1057 0.1021 0.0986 0.0951 0.0916

6 0.1468 0.1445 0.1420 0.1394 0.1367 0.1339 0.1311 0.1282 0.1252 0.1221

7 0.1489 0.1486 0.1481 0.1474 0.1465 0.1454 0.1442 0.1428 0.1413 0.1396

8 0.1321 0.1337 0.1351 0.1363 0.1373 0.1381 0.1388 0.1392 0.1395 0.1396

k 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0

9 0.1042 0.1070 0.1096 0.1121 0.1144 0.1167 0.1187 0.1207 0.1224 0.1241

10 0.0740 0.0770 0.0800 0.0829 0.0858 0.0887 0.0914 0.0941 0.0967 0.0993

11 0.0478 0.0504 0.0531 0.0558 0.0585 0.0613 0.0640 0.0667 0.0695 0.0722

12 0.0283 0.0303 0.0323 0.0344 0.0366 0.0388 0.0411 0.0434 0.0457 0.0481

13 0.0154 0.0168 0.0181 0.0196 0.0211 0.0227 0.0243 0.0260 0.0278 0.0296

14 0.0078 0.0086 0.0095 0.0104 0.0113 0.0123 0.0134 0.0145 0.0157 0.0169

15 0.0037 0.0041 0.0046 0.0051 0.0057 0.0062 0.0069 0.0075 0.0083 0.0090

16 0.0016 0.0019 0.0021 0.0024 0.0026 0.0030 0.0033 0.0037 0.0041 0.0045

17 0.0007 0.0008 0.0009 0.0010 0.0012 0.0013 0.0015 0.0017 0.0019 0.0021

18 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009

19 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0003 0.0004

20 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002

21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001

Page 124: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

124

Distribución T de Student

F

n

0,75 0,8 0,85 0,9 0,95 0,975 0,99 0,995 0,9995

1 1 1,376 1,963 3,078 6,314 12,706 31,821 63,656 636,578

2 0,816 1,061 1,386 1,886 2,92 4,303 6,965 9,925 31,6

3 0,765 0,978 1,25 1,638 2,353 3,182 4,541 5,841 12,924

4 0,741 0,941 1,19 1,533 2,132 2,776 3,747 4,604 8,61

5 0,727 0,92 1,156 1,476 2,015 2,571 3,365 4,032 6,869

6 0,718 0,906 1,134 1,44 1,943 2,447 3,143 3,707 5,959

7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 5,408

8 0,706 0,889 1,108 1,397 1,86 2,306 2,896 3,355 5,041

9 0,703 0,883 1,1 1,383 1,833 2,262 2,821 3,25 4,781

10 0,7 0,879 1,093 1,372 1,812 2,228 2,764 3,169 4,587

11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 4,437

12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 4,318

13 0,694 0,87 1,079 1,35 1,771 2,16 2,65 3,012 4,221

14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 4,14

15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 4,073

16 0,69 0,865 1,071 1,337 1,746 2,12 2,583 2,921 4,015

17 0,689 0,863 1,069 1,333 1,74 2,11 2,567 2,898 3,965

18 0,688 0,862 1,067 1,33 1,734 2,101 2,552 2,878 3,922

19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,883

20 0,687 0,86 1,064 1,325 1,725 2,086 2,528 2,845 3,85

21 0,686 0,859 1,063 1,323 1,721 2,08 2,518 2,831 3,819

22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,792

23 0,685 0,858 1,06 1,319 1,714 2,069 2,5 2,807 3,768

24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,745

25 0,684 0,856 1,058 1,316 1,708 2,06 2,485 2,787 3,725

26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,707

-5,59 -2,80 0,00 2,80 5,59

Variable

0,00

0,10

0,19

0,29

0,39

De

nsid

ad

Page 125: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

125

27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,689

28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,674

29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,66

30 0,683 0,854 1,055 1,31 1,697 2,042 2,457 2,75 3,646

40 0,681 0,851 1,05 1,303 1,684 2,021 2,423 2,704 3,551

60 0,679 0,848 1,045 1,296 1,671 2 2,39 2,66 3,46

120 0,677 0,845 1,041 1,289 1,658 1,98 2,358 2,617 3,373

0,674 0,842 1,036 1,282 1,645 1,96 2,326 2,576 3,29

0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0005

A N E X O II

I n d i c a d o r e s

Page 126: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

126

INDICADORES DE USO FRECUENTE TASAS, RAZONES Y PROPORCIONES

Cuando se hace un recuento del número de veces que se presenta un hecho en una población, como por ejemplo: 30 casos de dengue 10 personas intoxicadas 40 alumnos repitentes

Sabemos, que éstos números obtenidos se denominan “frecuencias absolutas”.

Algunas veces los valores absolutos son suficientes para el análisis de un

problema determinado, por ejemplo: 1 caso de viruela 1 caso de niño con problemas por sobredosis de droga

Casos como los planteados anteriormente no se esperan que ocurran, (con frecuencia esperada = 0), por lo tanto, cualquier numero adquiere importancia y permite el análisis del problema.

Pero, ¿Qué pasaría si se dice que en la Provincia de Formosa en el año 1.997,

el total de repitientes del segundo año de la modalidad agropecuaria es igual a 15?.

¿Es éste un número de repitentes, alto o bajo?.

Page 127: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

127

Para contestar la pregunta se deben hacer comparaciones, por ejemplo, con otras modalidades.

En el mismo año en la modalidad bachiller los repitentes fueron 620.

Ahora se tiene un punto de referencia, pero, para sacar conclusiones, ¿son suficientes estas dos cifras absolutas? Repitentes de 2º año modalidad agropecuaria = 15 Repitentes de 2º año modalidad bachiller = 620

Es correcto decir que en el segundo año de la modalidad agropecuaria repiten menos que en la modalidad bachiller, pues es menor el numero de repitentes?. Absolutamente no.

Es necesario el número de alumnos en cada modalidad y relacionar los repitentes con esa población en ambas modalidades.

Los de matriculado para el segundo año son: Modalidad agropecuaria = 72 Modalidad bachiller = 4.041

Si relaciono el número de repitentes y los matriculados para el segundo año, tendré: 15 / 72 = 0,20833 620 / 4041 = 0,15342

El resultado de estos dos cocientes permitirán comparar la magnitud del

problema del segundo año, en una y otra modalidad. Pero los resultados de estas divisiones son: 0,20833 y 0,15342

Aunque no se redondea en: 0,208 y 0,153 Estos números son difíciles de manejar para describir el problema y sacar

conclusiones, por ello se acostumbra a multiplicarlos por un factor de ampliación que nos permita trabajar con un número entero. Este número de ampliación puede ser 100, 1.000, 10.000 o 100.000 según la magnitud de la relación entre el numerador y el denominador.

Page 128: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

128

0,208 x 100 = 20,8 % 0,153 x 100 = 15,3 %

TASA: éste termino se utiliza generalmente para referirse a aquellos cálculos que

implican la probabilidad de ocurrencia de algún evento. Una tasa se expresa de la forma: a ------------- k a + b Donde: a = a la frecuencia con la cual se ha presentado un evento durante algún periodo especificado. a + b = al numero de personas expuestas al riesgo del evento durante el mismo periodo. K = a un factor de ampliación como 10, 100, 1.000, 10.000 o 100.000.

El numerador de una tasa es una parte componente de del denominador. La tasa se multiplica por el factor de ampliación (K), para evitar resultados que

comprendan números muy pequeños que puedan surgir en cálculo de las mismas, y facilitar su comprensión. El valor elegido de k depende de la magnitud del numerador y del denominador.

O sea q la tasa relaciona el número de veces que se presenta, un hecho

cualquiera, en la población de un área determinada, durante un periodo de tiempo también determinado, y la población correspondiente a esa área estimada a la mitad del periodo de tiempo.

Lo fundamental en la construcción de una tasa, es relacionar un hecho con la

población expuesta al riesgo de que el hecho ocurra.

Las tasas se pueden clasificar en:

- Generales o brutas - Especificas

Tasas generales: son aquellas cuyo denominador es total de la población.

Por ejemplo, la tasa de mortalidad que se obtiene de la siguiente manera: T.M.G. = total de defunciones de un lugar x, en un periodo z . 1000 Población del lugar x en, en el periodo z Tasas específicas: el denominador contiene un subgrupo de la población.

Page 129: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

129

Por ejemplo tasa de la mortalidad infantil, que se obtiene: T.M.I. = defunciones de un niño menor de un año, lugar x, periodo z . 1000 Nacidos vivos del lugar x, periodo z

Según el tipo de riesgo que miden. Algunas de las tasas de uso mas frecuente son:

a) las referidas especialmente a la educación:

- Tasas de repitencia - Tasas de escolarización - Tasas de retención - Tasas de desgranamiento - Tasas de incorporación

b) las referidas a las estadísticas vitales:

- Tasas de natalidad - Tasas de mortalidad - Tasas de letalidad

Se definen las primeras en la forma siguiente:

Tasas de repitencia: relacionan el número estudiantes que permanecen en el mismo

grado durante mas de un año lectivo, en un establecimiento determinado, con la misma matricula de ese mismo grado en igual ciclo lectivo y establecimiento educativo.

Tasas de escolarización: relacionan la población en edad escolar que asiste

efectivamente a un establecimiento escolar, en un año y lugar geográfico determinado, con la población en edad escolar en edad escolar en el mismo año y lugar geográfico.

Tasas de retención: relacionan los alumnos pertenecientes a una cohorte que

después de transitar los años de estudios correspondiente al plan, finalizan un nivel educativo en un establecimiento educativo determinado, con los alumnos matriculados en el primer año de estudio del mismo plan, en el mismo establecimiento educativo.

Tasas de desgranamiento: relacionan los alumnos pertenecientes a una cohorte

que no llegan a finalizar el nivel en los años de estudios correspondiente al plan, en un establecimiento educativo determinado con los alumnos matriculados en el primer año del estudio del mismo plan, en el mismo establecimiento educativo. Los alumnos pueden no llegar a completar el ciclo por repitencia, por abandono temporario o definitivo.

Page 130: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

130

Tasas de incorporación: relacionan el número de matriculados del primer año de un

determinado nivel y establecimiento educativo en un año calendario determinado, con el número de egresados del último año del año lectivo anterior correspondiente al mismo establecimiento educativo.

Tasas de mortalidad: relacionan el total de defunciones de un área geográfica determinada, en un año determinado, con la población de la misma área geográfica en igual periodo de tiempo. Por ejemplo la tasa de mortalidad materna, se obtiene: T.M.M. = muertes por causas maternas . k Nacidos vivos

Esta tasa, es general o especifica? Tasa mortalidad por cáncer.

T.M. por cáncer = números de muertes por cáncer . k Población total

Tasas de morbilidad: relacionan los enfermos de un área geográfica y tiempos

determinados, con la población total de la misma área geográfica en el mismo tiempo.

Por ejemplo tasa de morbilidad por sarampión: T.M. sarampión = nº de enfermos de sarampión, área x, periodo z . k Población del área x, en el periodo z Las tasas de morbilidad más usuales son las de:

- incidencia: que relacionan los casos nuevos de una determinada

enfermedad en la unidad de tiempo, (generalmente un año), con la población del mismo lugar y tiempo.

Por ejemplo: Tasa de incidencia de T.B.C. = casos nuevos de T.B.C. . K Población total

- Prevalencia: se obtiene haciendo el total de casos de una determinada enfermedad en un tiempo determinado, con la población total.

Ejemplo:

Page 131: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

131

T. de prev. De T.B.C. = total de casos de T.B.C. en un periodo determinado. k Población total

De ataque: se obtiene relacionado el total de casos de un brote localizado, con

la población expuesta al riesgo. Por ejemplo es posible que se presente un problema, planteado por la aparición inesperada de casos de una determinada patología, ya sea por una epidemia o un episodio de breve duración, en toda una comunidad o un sector pequeño de población como ser, asistentes a una comida, empleados de una fabrica, vecinos de un barrio. Por ejemplo: Nº de intoxicados en una determinada fiesta . k Asistentes a la fiesta Tasas de letalidad: relacionan las muertes ocurridas por determinada causa, en un área geográfica y año determinado, con los enfermos por la misma causa en iguala área geográfica y periodo de tiempo. Ejemplo: Muertes por sida, área x, tiempo z . k Enfermos de sida, área x tiempo z

Se definen seguidamente un conjunto de tasas de uso frecuente en epidemiología.

Page 132: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

132

Tasas de usos frecuentes en epidemiología referidas a unidad de tiempo y lugar.

Tasa de

Numerador (numero de)

Denominación

(población)

Por

Observaciones

1)AREA MATERNO INFANTIL

Nupcialidad

Personas que se casan

Población estimada a mitad del periodo

1.000

Natalidad

Nacidos

vivos en 1 año

Población estimada a mitad del periodo

1.000

Mortalidad fetal

Defunciones fetales

Numero de nacidos vivos

1.000

Defunción fetal: Muerte del producto

de la concepción que ocurre antes de

su expulsión o extracción completa

del cuerpo de la madre,

independientemente del embarazo.

Temprana

Defunciones fetales de menos de

20 semanas de

gestación.

Id.

1.000

Intermedia

Id. 20-27 semanas de

estación.

Id.

1.000

Tardía

Defunciones fetales de 28

1.000

Page 133: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

133

(o mortinalidad)

semanas y más de

gestación.

Número de nacidos vivos

Tasas de usos frecuentes en epidemiología

referidas a unidad de tiempo y lugar.

Tasa de

Numerador (numero de)

Denominación

(población)

Por

Observaciones

Mortalidad perinatal

Suma de:

defunciones fetales

tardías mas defunciones neonatales.

Numero de

nacidos vivos

1.000

Los ingleses usan como numerador

la suma de la mortalidad de la

primera semana y como

denominador el número total de nacidos (vivos y

muertos).

Mortalidad

infantil

Muertes

menores de 1 año

Número de

nacidos vivos

1.000

Mortalidad neonatal

Defunciones

de menos de 28 días

Número de

nacidos vivos

1.000

Tiene valor la relación

porcentual que la mortalidad

neonatal guarda con la mortalidad

infantil

mortalidad

infantil tardía

Defunciones de niños de 28 días, 11

meses

Número de

nacidos vivos

1.000

Refleja mejor el

peso de los factores

ambientales

Mortalidad

materna

Muertes

maternas

Número de

nacidos vivos

1.000

10.000

Muerte materna: aquella por causa

de muerte obstétrica de

embarazo, parto o puerperio

Page 134: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

134

2)MORTALIDAD Muertes por todas las causas

ocurridas en 1 año

Población estimada al centro del

periodo

1.000

Tasas de usos frecuentes en epidemiología referidas a unidad de tiempo y lugar.

Tasa de

Numerador (numero de)

Denominación

(población)

Por

Observaciones

Mortalidad especifica por

su edad

Muertes en grupo de edad

especifico

Población estimada en ese

mismo grupo de edad al centro del

periodo

1.000

Mortalidad por causa

especifica de su edad

Muertes por una causa

determinada en su grupo de

edad especifico

Población estimada en ese

mismo grupo de edad al centro del

periodo

100.000

Letalidad

Muertes por causas

determinadas

Número de enfermos por la

misma causa

100

1.000

Mide riesgo de morir entre

enfermos. Es más bien una razón

porcentual entre muertos y

enfermos. No debe confundirse con

tasa de mortalidad

3)MORBILIDAD incidencia

Casos nuevos en la unidad de tiempo (1 año

habitualmente)

Población estimada a mitad del periodo

1.000 10.000

100.000

Prevalencia Numero de casos

existentes en un periodo o

fecha determinados

Población estimada para

el mismo periodo o fecha

100 1.000

10.000 100.000

Page 135: ESTADÍSTICA Y PROBABILIDAD NOTAS DE CATEDRA

135

Ataque

Total de casos secundarios

Población expuesta al

riesgo (contactos)

100

1.000

Usada en epidemia o episodios de breve duración

Ataque secundario

Numero de casos

secundarios

Población expuesta al

riesgo (contactos)

100

1.000

Usada en epidemias.

El denominador puede

circunscribirse a contactos

susceptibles