Download - estadistica texto paralelo

Transcript
Page 1: estadistica texto paralelo

UNIVERSIDAD RURAL DE GUATEMALAFacultad de Ciencias Jurídicas y Sociales4to. SemestreSección “B”ESTADISTICA

TEXTO PARALELO

Page 2: estadistica texto paralelo

INTRODUCCIÓN

Estadística es el Conjunto de informes numéricos derivados de los censos de población, de datos del registro del estado civil y de informes de apropiaciones. Estadística es la disciplina que estudia cuantitativamente los fenómenos de masa o colectivos, o sea, aquellos fenómenos cuyo estudio solo puede efectuarse a través de una colección de observaciones

Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.

Conjunto de métodos científicos ligados a la toma, organización, recopilación, presentación y análisis de datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo con tales análisis.

Page 3: estadistica texto paralelo

ESTADÍSTICA La estadística es una ciencia referente a la recolección, análisis e interpretación de datos, ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadística es mucho más que eso, dado que en otras palabras es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica.También se denominan estadísticas (en plural) a los datos estadísticos.

Distribución normal.Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.La estadística se divide en dos grandes áreas:

La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, entre otros.

La estadística inferencial, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras

Page 4: estadistica texto paralelo

observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, entre otros

HISTORIA

Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.

En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población.

También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera.

Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio.

Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.

Page 5: estadistica texto paralelo

Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media.

Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos.

Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística.

Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática.

En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida

Page 6: estadistica texto paralelo

humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.

Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones.

Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia.

Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones.

Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.

SU RELACIÓN CON OTRAS CIENCIAS

La estadística es una rama de la matemática que se refiere a la recolección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e instituciones gubernamentales.

Page 7: estadistica texto paralelo

Cada vez es mayor la proporción de investigadores, en las más diversas disciplinas científicas, que realizan análisis estadísticos de datos como procedimiento formal para llegar a conclusiones o apoyar procesos de decisión sobre las hipótesis de la investigación .

Los recursos de la estadística para la investigación científica pueden considerarse como un conjunto de herramientas conceptuales que poseen sus propias condiciones de aplicación y pautas de uso. Respetando ambos aspectos, las conclusiones que se realizan sobre las informaciones tratadas convenientemente con herramientas estadísticas, tendrán una base sólida. En caso contrario, las conclusiones pueden ser erróneas e, incluso, engañosas.

Estadística: es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos.

Kendall y Buckland (citados por Gini V. Glas / Julian C. Stanley, 1980) definen la estadística como un valor resumido, calculado, como base en una muestra de observaciones que generalmente, aunque no por necesidad, se considera como una estimación de parámetro de determinada población; es decir, una función de valores de muestra.

"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares".

Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.

"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos". (Yale y Kendal, 1954).

Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística, debido al gran campo de aplicación que posee.

La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos si no es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante. Los diseños complejos de investigación y análisis, las aportaciones más recientes de la informática para la aplicación de técnicas avanzadas de manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y

Page 8: estadistica texto paralelo

aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente, otras especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y retransmitido, preocupadas más por los resultados y posibilidades que por las condiciones de aplicación y el fundamentos de uso, de tal forma que se ha propiciado la utilización de las técnicas estadísticas, sin considerar la adecuación de éstas a las condiciones en las que se aplican.

A su vez, las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas (Manheim, 1982; Rossi y otros, 1983), y muy especialmente en la psicología (Judd y otros, 1995), lo que favorece una absorción de poca calidad por parte de los especialistas en áreas no metodológicas. Por otro lado, la adopción de procedimientos informáticos para realizar tareas metodológicas no parece ser una solución inmediata, considerando la ansiedad que generan los ordenadores, fenómeno muy generalizado (Fariña y Arce, 1993).

La fusión de esta creciente complicación de las herramientas de análisis, junto con la discrepancia entre los objetivos de formación y la necesidad de uso de los recursos estadísticos, consigue finalmente que el especialista en áreas aplicadas tienda a descuidar aspectos muy básicos, previos a la aplicación de estos recursos estadísticos complejos. Por otro lado, en muchas ocasiones, la aplicación de herramientas estadísticas se deja arrastrar por hipótesis de comodidad, en el sentido de aplicarse para permitir la ejecución de una prueba o el ajuste de un modelo, no porque son las estrategias más adecuadas, sino porque son las más cómodas.

ESTADISTICA DESCRIPTIVA

ESTADÍSTICA Es el conjunto de procedimientos y técnicas empleadas para recolectar, organizar y analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de incertidumbre que plantean las ciencias sociales o naturales. ESTADÍSTICA INDUCTIVA Y DEDUCTIVA Uno de los problemas fundamentales de la Estadística es el estudio de la relación existente entre una población y sus muestras. Según la dirección de tal relación la Estadística puede ser: Deductiva, cuando a partir del conocimiento de la población se trata de caracterizar cada muestra posible. Inductiva, cuando a partir del conocimiento derivado de una muestra se pretende caracterizar la población. ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Estadística Descriptiva se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadística Descriptiva es el método de obtener de un conjunto de datos

Page 9: estadistica texto paralelo

conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se conocen los elementos de una muestra. Estadística Inferencial se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, población, partiendo de lo específico, muestra. las cuales llevan implícitos una serie de riesgos. Para que éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos errores. La estadística inferencial es el conjunto de técnicas que se utiliza para obtener conclusiones que sobrepasan los límites del conocimiento aportado por los datos, busca obtener información de un colectivo mediante un metódico procedimiento del manejo de datos de la muestra. En sus particularidades la Inferencia distingue la Estimación y la Contrastación de Hipótesis. Es estimación cuando se usan las características de la muestra para hacer inferencias sobre las características de la población. Es contrastación de hipótesis cuando se usa la información de la muestra para responder a interrogantes sobre la población. ANALISIS ESTADÍSTICO El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación de datos para realizar inferencias. DATOS Y VARIABLES Cuando se consideran los métodos de organización, reducción y análisis de datos estadísticos, se hace necesario aclarar los siguientes conceptos. Variables: es toda característica que varía de un elemento a otro de la población. Datos: son medidas o valores de las características susceptibles de observar y contar, se originan por la observación de una o más variables de un grupo de elementos o unidades CLASIFICACIÓN DE VARIABLES Las variables pueden clasificarse en: categóricas o cualitativas (atributos), no tienen ningún grado de comparación numérica, ejemplo: sexo, estado civil; y numéricas o cuantitativas, son características factibles de expresar por medio de números, estas pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y Continuas, que pueden tomar cualquier valor en un intervalo. REPRESENTACIÓN DE DATOS Los datos son colecciones de un número cualquiera de observaciones relacionadas entre si, para que sean útiles se deben organizar de manera que faciliten su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario conocer lo métodos de Organización y Representación, la finalidad de éstos métodos es permitir ver rápidamente todas las características posibles de los datos que se han recolectado. Representación Tabular: Presenta las variable y las frecuencias con que los valores de éstas se encuentran presentes en el estudio.

Page 10: estadistica texto paralelo

Representación Gráfica : Se llaman gráficas a las diferentes formas de expresar los datos utilizando los medios de representación que proporciona la geometría. METODOS DE REPRESENTACIÓN DE DATOS CUANTITATIVOS Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o descendente. Ofrece las ventajas siguientes: describe los valores mínimos y máximos, en él se pueden dividir los datos fácilmente en secciones, permite darse cuenta de los valores que aparecen más de una vez, se puede observar la distancia entre valores consecutivos. Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los valores Diagrama de Tallo y Hoja. Es útil para realizar una exploración preliminar del conjunto, genera una imagen adecuada de ellos sin perder información. Distribución de Frecuencias. Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar los datos según su magnitud, en ella se señala el número de veces que aparece cada uno de los valores. Cuando se dispone de un gran número de valores discretos o cuando las variables son continuas, tiene sentido formar una tabla que presente la distribución de frecuencias de los datos agrupados en intervalos o clases, de igual tamaño si es posible, sin embargo una tabla de este tipo supone una concentración de datos que produce pérdida de información. DISTRIBUCIÓN DE FRECUENCIAS Organización de datos agrupados Definiciones Clases o intervalos de clase: Grupo de valores que describen una característica. Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen los límites de clase que son los puntos extremos del intervalo. Se denominan intervalos cerrados, cuando contienen ambos límites e intervalos abiertos si incluyen solo un límite. Limites Reales: Sirven para mantener la continuidad de las clases Anchura o tamaño del intervalo: es la diferencia entre los límites reales de una clase Número de clases: es el número total de grupos en que se clasifica la información, se recomienda que no sea menor que 5 ni mayor que 15 Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que los puntos medios coincidan con los datos observados para minimizar el error. Frecuencia: es el número de veces que aparece un valor Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado valor o límite de clase. Frecuencia Relativa: Indica la proporción que representa la frecuencia de cada intervalo de clase en relación al total, es útil para comparar varias distribuciones con parámetros de referencia uniformes. Frecuencia Acumulada Relativa: Indica la proporción de datos que se encuentra por arriba o debajo de cierto valor o límite de clase. Gráficos de una Distribución de Frecuencias Los gráficos son útiles porque ponen en relieve y aclaran las tendencias que no se captan fácilmente en la tabla, ayudan a estimar valores con una simple ojeada y brinda una verificación gráfica de la veracidad de las soluciones. Histograma:

Page 11: estadistica texto paralelo

Esta formado por rectángulos cuya base es la amplitud del intervalo y tiene la característica que la superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamaño o diferente ( intervalo variable). La utilización de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos , de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea mucho mayor que la de los demás, logrando así que las observaciones se hallen mejor repartidas dentro del intervalo. Polígono de Frecuencias Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del áreas. Curvas de frecuencia No es más que la curva suavizada que se traza sobre el polígono y representa la asimetría y la curtosis que tiene la distribución, permite visualizar un esquema más claro del patrón de datos. Existen varios tipos de curva de frecuencia: Curvas J, Simétricas o Asimétricas (sesgada a la derecha o a la izquierda), Unimodales, Bimodales y Multimodales. Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estándar, la frecuencia relativa. La ojiva representa gráficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una medida de los cuartiles, deciles , percentiles.

POBLACION Y MUESTRA

Es un subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más abajo).

Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los sujetos realmente estudiados.

Page 12: estadistica texto paralelo

El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo.

DISTRIBUCION DE FRECUENCIAS

Agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.

Elementos fundamentales para elaborar una distribución de frecuencia:

1) RANGO.Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y el número menor de los datos.R = N_max - N_minEjemplo. Dados los números: 5, 10, 12, 8, 13, 9, 15 R= 15- 5

2) AMPLITUD TOTAL.Simplemente se obtiene sumándole 1 al rango. AT = (R+1)

3) LAS CLASES.Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama límite superior. hay distintos tipos de clases.Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)

4)EL NUMERO DE CLASES.Se determina a través de la formula de Sturges, la cual es valida cuando el No de observaciones sea menor o igual a 500. Formula.Nc= 1 + 3.33log ( N )Donde:Nc es el número de clases. N es la cantidad de muestras tomadas.

5) VALOR DEL INTERVALO O AMPLITUDSe Obtiene por medio de la ecuación de dicta:Vi = AT / NcDonde:Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase

Page 13: estadistica texto paralelo

MEDIDAS DE TENDENCIA CENTRAL MEDIA, MEDIANA Y MODA

Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Las medidas de posición son de dos tipos:

a) Medidas de posición central: informan sobre los valores medios de la serie de datos.b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie.a) Medidas de posición centralLas principales medidas de posición central son las siguientes:1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

Xm =

(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)---------------------------------------------------------------------------------------n

b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).

Page 14: estadistica texto paralelo

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada. Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido).3.- Moda: es el valor que más se repite en la muestra.

Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los alumnos que vimos en la lección 2ª.

Variable Frecuencias absolutas Frecuencias relativas(Valor) Simple Acumulada Simple Acumuladax x x x x1,20 1 1 3,3% 3,3%1,21 4 5 13,3% 16,6%1,22 4 9 13,3% 30,0%1,23 2 11 6,6% 36,6%1,24 1 12 3,3% 40,0%1,25 2 14 6,6% 46,6%1,26 3 17 10,0% 56,6%1,27 3 20 10,0% 66,6%1,28 4 24 13,3% 80,0%1,29 3 27 10,0% 90,0%1,30 3 30 10,0% 100,0%

Vamos a calcular los valores de las distintas posiciones centrales:

1.- Media aritmética:

Xm

(1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)

Page 15: estadistica texto paralelo

= --------------------------------------------------------------------------------------------------30

Luego:

Xm = 1,253

Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

2.- Media geométrica:

X = ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30)

Luego:

Xm = 1,253

En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por qué ser así.

3.- Mediana:La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas.

En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior.

4.- Moda:

Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas.

Medidas de Dispersión Desviación Estándar, Varianza

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos.

Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:

Page 16: estadistica texto paralelo

1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo.

2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las difrencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.

3.- Desviación típica: Se calcula como raíz cuadrada de la varianza.

4.- Coeficiente de varización de Pearson: se calcula como cociente entre la desviación típica y la media.

Ejemplo: vamos a utilizar la serie de datos de la estatura de los alumnos de una clase (lección 2ª) y vamos a calcular sus medidas de dispersión.

Variable Frecuencias absolutas Frecuencias relativas(Valor) Simple Acumulada Simple Acumuladax x x x x1,20 1 1 3,3% 3,3%1,21 4 5 13,3% 16,6%1,22 4 9 13,3% 30,0%1,23 2 11 6,6% 36,6%1,24 1 12 3,3% 40,0%1,25 2 14 6,6% 46,6%1,26 3 17 10,0% 56,6%1,27 3 20 10,0% 66,6%1,28 4 24 13,3% 80,0%1,29 3 27 10,0% 90,0%1,30 3 30 10,0% 100,0%

1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es 10 cm.

2.- Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula: Por lo tanto, la varianza es 0,0010

Page 17: estadistica texto paralelo

3.- Desviación típica: es la raíz cuadrada de la varianza. Luego:

4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media de la muestra.

Cv = 0,0320 / 1,253 Luego,Cv = 0,0255 El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desvación típica, ya que viene expresada en las mismas unidas que los datos de la serie.

Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.

MOMENTOS, SESGO Y CURTOSIS

veremos que la media y la varianza son casos particulares de cantidades más generales llamadas momentos.

Consideremos la función g(X) = Xk, k =1, 2,¼ A la esperanza matemática de Xk se le denomina k-ésimo momento de X.

[4.6]

Si k = 1 , se tiene que el primer momento de X es la media de X, es decir

[4.7]

E[X1] = m (compare con la definición de la sección 4.4). [4.8]

Si g(X) = (X-m )k,, obtenemos el k-ésimo momento central de X. Esto es:

Page 18: estadistica texto paralelo

[4.9]

Si el primer momento central existe, debe ser igual a cero.

El segundo momento central de X es la varianza (compare con la definición de varianza de la sección 4.4). Por lo tanto la varianza de puede obtener como el segundo momento de X menos el cuadrado de la media.

[4.10]

[4.11]

Obsérvese que de aquí se llega a

[4.12]

SESGO Y CURTOSIS DE UNA DISTRIBUCIÓN

Si una distribución es simétrica con respecto a la media m y si el tercer momento central E[(X - m )3] existe, entonces éste debe ser cero.

Cabe hacer notar que, si E[(X - m )3] = 0, no implica que la distribución sea simétrica, pero si es simétrica, entonces E[(X - m )3] = 0. Sin embargo es costumbre usar la expresión

como la medida de la simetría, ya que cuando una distribución es simétrica, g = 0 y toma un valor positivo (o negativo) para una distribución que tiene una gran cola en el lado derecho (izquierdo) y g es llamado sesgo de la distribución.

Page 19: estadistica texto paralelo

Fig. 4. 10 Distribución simétrica

Distribución con sesgo positivo

Distribución con sesgo negativo

g = 0 g > 0 g < 0

La cantidad se usa como la medida de la altura o curtosis de una distribución.

Fig. 4. 11 Distribución platocúrtica

Distribución mesocúrtica Distribución leptocúrtica

g * < 30 g * = 3 g * > 3

FUNCION GENERATRIZ DE MOMENTOS

En algunos casos se pueden calcular los momentos directamente usando la definición, sin embargo, habrá ocasiones en que resulta más sencillo si usamos una función auxiliar,

y calculamos su esperanza, esto es:

[4.13]

Derivando esta expresión

Page 20: estadistica texto paralelo

Derivando k veces, se tiene:

Cuando t = 0, la expresión del lado derecho es el k-ésimo momento de X

[4.14]

Cuando t = 1,

[4.15]

TEORÍA ELEMENTAL DE LA PROBABILIDAD

Las probabilidades son muy útiles, ya que pueden servir para desarrollar estrategias. Por ejemplo, algunos automovilistas parecen mostrar una mayor tendencia a aumentar la velocidad si creen que existe un riesgo pequeño de ser multados; los inversionistas estarán más interesados en invertirse dinerosi las posibilidades de ganar son buenas. El punto central en todos estos casos es la capacidad de cuantificar cuan probable es determinado evento. En concreto decimos que las probabilidades se utilizan para expresar cuan probable es un determinado evento.

2.1.1 Conceptoclásico y como frecuencia relativa. 1 Definición Clásico. La probabilidad clásica: el enfoque clásico o a priori de la probabilidad se basa en la consideración de que los resultados de un experimento son igualmente posibles. Empleando el punto de vista clásico, la probabilidad de que suceda un evento se calcula dividiendo el número de resultados favorables, entre el número de resultados posibles.

2 La probabilidad clásica de un evento E, que denotaremos por P(E), se define como el número de eventoselementales que componen al evento E, entre el número de eventos elementales que componen el espacio maestral:

Como frecuencia relativa 1 probabilística: se basa en las frecuencias relativas. La probabilidad de que un evento ocurra a largo plazo se determina observando en que fracción de tiempo sucedieron eventos semejantes en el pasado. La probabilidad de que un evento suceda se calcula por medio de:

Page 21: estadistica texto paralelo

P (E) número de veces que el evento ocurrió en el pasado

Numero total de observaciones

2 Definición Frecuencia. La definición frecuentita consiste en definir la probabilidad como el límite cuando n tiende a infinito de la proporción o frecuencia relativa del suceso. Sea un experimento aleatorio cuyo espacio maestral es E Sea A cualquier suceso perteneciente a E Si repetimos n veces el experimento en las mismas Condiciones, la frecuencia relativa del suceso A será: Cuando el número n de repeticiones se hace muy grande la frecuencia relativa converge hacia un valorque llamaremos probabilidad del suceso A. Es imposible llegar a este límite, ya que no podemos repetir el experimento un número infinito de veces, pero si podemos repetirlo muchas veces y observar como las frecuencias relativas tienden a estabilizarse Esta definición frecuentita de la probabilidad se llama también probabilidad a posteriori ya que sólo podemos dar la probabilidad de un suceso después de repetir y observar un gran número de veces el experimento aleatorio correspondiente. Algunos autores las llaman probabilidades teóricas.

2.1.2 interpretación subjetiva de probabilidad

1 La probabilidad subjetiva de un evento: se la asigna la personaque hace el estudio, y depende del conocimientoque esta persona tenga sobre el tema. Precisamente por su carácter de subjetividad no se considera con validez científica, aunque en la vida diaria es de las más comunes que se utilizan al no apoyarse más que en el sentido común y los conocimientos previos, y no en resultados estadísticos.

DISTRIBUCION BIMONIAL, NORMAL Y DE POISSON

DISTRIBUCIÓN BINOMIAL

La distribución Binomial es un caso particular de probabilidadde variable aleatoria discreta, y por sus aplicaciones, es posiblemente la más importante.

Esta distribución corresponde a la realización de un experimento aleatorio que cumple con las siguientes condiciones:

* Al realizar el experimento sólo son posible dos resultados: el suceso A, llamado éxito, o su contrario A’, llamado fracaso.

* Al repetir el experimento, el resultado obtenido es independiente de los resultados obtenidos anteriormente.

* La probabilidad del suceso A es constante, es decir, no varía de una prueba del experimento a otra. Si llamamos p a la probabilidad de A, p(A) = P, entonces p(A’) = 1 – p = q

* En cada experimento se realizan n pruebas idénticas.

Page 22: estadistica texto paralelo

Todo experimento que tenga estas características se dice que sigue el modelo de la distribución Binomial o distribución de Bernoulli.

En general, si se tienen n ensayos Bernoulli con probabilidad de éxito p y de fracaso q, entonces la distribución de probabilidad que la modela es la distribución de probabilidad binomialy su regla de correspondencia es:

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que facilitan el trabajo.

Calculo de la distribución de probabilidad binomial por tres métodos:

a) Utilización del Minitab 15.

b) Utilización de la fórmula

c) Utilización de las tablas binomiales

Por ejemplo:

¿Cuál es la probabilidad de obtener exactamente 2 caras al lanzar una misma moneda 6 veces ?

Donde:

P(X) es la probabilidad de ocurrencia del evento

p es la probabilidad de éxito del evento (en un intento) (0.5)

q es la probabilidad de fracaso del evento (en un intento) y se define como

q = 1 – p (0.50)

X = ocurrencia del evento o éxitos deseados = 2 (para efectos de la tabla binomial tómese como r)

n = número de intentos

DISTRIBUCIÓN DE POISSON La distribución de POISSON es también un caso particular de probabilidad de

variable aleatoria discreta, el cual debe su nombre a Siméon Denis Poisson (1781-

Page 23: estadistica texto paralelo

1840), un francés que la desarrolló a partir de los estudios que realizó durante la última etapa de su vida.

Esta distribución se utiliza para describir ciertos procesos. Características: En este tipo de experimentos los éxitos buscados son expresados por unidad de

área, tiempo, pieza, etc: - # de defectos de una tela por m2 - # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc. - # de bacterias por c m2 de cultivo - # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc. - # de llegadas de embarcaciones a un puerto por día, mes, etc, etc. Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo,

área, o producto, la fórmula a utilizar es:

donde: p(X) = probabilidad de que ocurran x éxitos, cuando el número promedio de

ocurrencia de ellos es l. l = media o promedio de éxitos por unidad de tiempo, área o producto e = 2.718 (base de logaritmo neperiano o natural) X = variable que nos denota el número de éxitos que se desea que ocurra Hay que hacer notar que en esta distribución el número de éxitos que ocurren por

unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra área dada y cada producto es independiente de otro producto dado.

Cálculo de la distribución de probabilidad de Poisson por tres métodos: a) Utilización del Minitab 15. b) Utilización de la fórmula c) Utilización de las tablas de Poisson

Por ejemplo: Si un banco recibe en promedio (l=) 6 cheques sin fondo por día, ¿cuáles son las

probabilidades de que reciba: a) cuatro cheques sin fondo en un día dado (x), b) 10 cheques sin fondos en cualquiera de dos días consecutivos? (e= 2.718281828)

DISTRIBUCIÓN NORMAL

Page 24: estadistica texto paralelo

La distribución normal es también un caso particular de probabilidad de variable aleatoria contínua, fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se le conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media (µ) y su desviación estándar (σ). Con esta notación, la densidad de la normal viene dada por la ecuación:

que determina la curva en forma de campana que tan bien conocemos

Existen dos razones básicas por las cuales la distribución normal ocupa un lugar tan prominente en la estadística:

Tiene algunas propiedades que la hacen aplicable a un gran número de situaciones en la que es necesario hacer inferencias mediante la toma de muestras.

La distribución normal casi se ajusta a las distribuciones de frecuencias reales observadas en muchos fenómenos, incluyendo características humanas, resultados de procesos físicos y muchas otras medidas de interés para los administradores, tanto en el sector público como en el privado.

Propiedad:

No importa cuáles sean los valores de µ y σ para una distribución de probabilidad normal, el área total bajo la curva siempre es 1, de manera que podemos pensar en áreas bajo la curva como si fueran probabilidades. Matemáticamente es verdad que:

1. Aproximadamente el 68% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 1 desviación estándar de la media.

Page 25: estadistica texto paralelo

2. Aproximadamente el 95.5% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 2 desviaciones estándar de la media.

3. Aproximadamente el 99.7% de todos los valores de una población normalmente distribuida se encuentra dentro de ± 3 desviaciones estándar de la media.

Relación entre el área bajo la curva de distribución normal de probabilidad y la distancia a la media medida en desviaciones estándar.

Estas gráficas muestran tres formas diferentes de medir el área bajo la curva normal. Sin embargo, muy pocas de las aplicaciones de la distribución normal de probabilidad implican intervalos de exactamente (más o menos) 1, 2 ó 3 desviaciones estándar a partir de la media. Para estos casos existen tablas estadísticas que indican porciones del área bajo la curva normal que están contenidas dentro de cualquier número de desviaciones estándar (más o menos) a partir de la media.

Afortunadamente también se puede utilizar una distribución de probabilidad normal estándar para encontrar áreas bajo cualquier curva normal. Con esta tabla se determina el área o la probabilidad de que la variable aleatoria distribuida normalmente esté dentro de

Page 26: estadistica texto paralelo

ciertas distancias a partir de la media. Estas distancias están definidas en términos de desviaciones estándar.

Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el mismo número de desviaciones estándar a partir de la media contendrán la misma fracción del área total bajo la curva para cualquier distribución de probabilidad normal. Esto hace que sea posible usar solamente una tabla de la distribución de probabilidad normal estándar.

El valor de z está derivado de la fórmula:

En la que:

x = valor de la variable aleatoria de interés.

µ = media de la distribución de la variable aleatoria.

σ = desviaciσn estándar de la distribución.

z = número de desviaciones estándar que hay desde x a la media de la distribución. (El uso de z es solamente un cambio de escala de medición del eje horizontal)

TEORÍA ELEMENTAL DEL MUESTREO

Muestreo AleatorioUna muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada una muestra probabilística son generalmente preferidas por los estadísticos porque la selección de las muestras es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de conglomerados.

Error Estándar:La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la media. De la misma manera, la desviación

Page 27: estadistica texto paralelo

estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la proporción. La diferencia entre los términos "desviación estándar" y "error de estándar" es que la primera se refiere a los valoresoriginales, mientras que la última está relacionada con valores calculados. Un estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra.

TEORÍA DE LA ESTIMACIÓN ESTADÍSTICA

Estimación de Parámetros

La teoría de muestreo puede emplearse para obtener información acerca de muestras obtenidas aleatoriamente de una población conocida. Sin embargo, desde un punto de vista practico, suele ser mas importante y ser capaz de inferir información acerca de una población a partir de muestras de ellas. Dichos problemas son tratados por la inferencia estadística que utiliza principios de muestreo. Un problema importante de la inferencia estadística es la estimación de parámetros poblacionales o simplemente parámetros ( como la media y la varianza poblacionales ), a partir de los estadísticos muéstrales correspondientes o estadísticos ( como la media y la varianza muestral.

Estimados sin Sesgo

Si la media de la distribución muestral de un estadístico es igual al parámetro poblacional correspondiente, el estadístico se denomina estimador sin sesgo del parámetro; de otra manera, es denominado estimador sesgado. Los valores correspondientes de dichos estadísticos se llaman estimados sin sesgo o sesgados, respectivamente.

1.- La media de la distribución muestral de las medias es x , la media poblacional. Por lo tanto, la media muestral x es un estimado sin sesgo de la media poblacional .

2.- La media de la distribución muestral de las varianzas es :

s2 = ( N-1/ N ) 2

donde 2 es la varianza poblacional y N es el tamaño de la muestra .Entonces, la varianza muestral s2 es un estimado sesgado de la varianza poblacional 2. Usando la varianza modificada.

2 =( N/ N-1 )s2

Se encuentra que 2 = 2 , de modo que 2 es un estimado sin sesgo de 2 .Sin embargo es un estimado de .En términos de esperanza matemática se podía decir que un estadístico no esta sesgado si su esperanza es igual al parámetro poblacional correspondiente. Por lo tanto, x y 2 no están sesgados , porque E

Estimados Eficientes

Page 28: estadistica texto paralelo

Si las distribuciones muéstrales de dos estadísticos tienen la misma media o esperanza matemática entonces el estadístico con la menor varianza se denomina estimador eficiente de la media , mientras que el otro estadístico se le llama estimador ineficiente. Los valores correspondientes de los estadísticos se conocen, respectivamente , como estimadores eficientes. Si se consideran todos los estadísticos posibles, cuyas distribuciones muéstrales tienen la misma media, aquel con la menor varianza suele denominarse el mejor o mas eficiente estimador de dicha media.

La distribución muestral de la media y la mediana tienen la misma media; a saber la media poblacional. Sin embargo, la varianza de la distribución muestral de las medias es mas pequeña que la varianza de la distribución muestral de las medianas . por lo tanto, la media muestral ofrece un estimado ineficiente de esta De todos los estadísticos que estiman la media poblacional, la media muestral ofrece el mejor o mas eficiente estimado. En la practica , suelen usarse los estimados ineficientes debido a la relativa facilidad con que se obtienen algunos de ellos.

TEORÍA ESTADÍSTICA DE LA DECISIÓN

Errores de tipo I y de tipo II

De Wikipedia, la enciclopedia libreSaltar a navegación, búsqueda

En un estudio de investigación, el error de tipo I también mal llamado error de tipo alfa (α) (α es la probabilidad de que ocurra este error), es el error que se comete cuando el investigador rechaza la hipótesis nula (Ho) siendo ésta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe. es también conocido como nivel de significancia, si el nivel de confianza es 95% el nivel de significancia vendría a ser 5%

En un estudio de investigación, el error de tipo II, también llamado error de tipo beta (β) (β es la probabilidad de que exista éste error), se comete cuando el investigador no rechaza la hipótesis nula siendo ésta falsa en la población. Es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusión de que ha sido incapaz de encontrar una diferencia que existe en la realidad.

Se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%..

El poder o potencia del estudio representa la probabilidad de observar en la muestra una determinada diferencia o efecto, si existe en la población. Es el complementario del error de tipo II (1-β).

TEORÍA DE LAS MUESTRAS PEQUEÑAS

Page 29: estadistica texto paralelo

En probabilidad y estadística, la distribución t (de t-Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.

Caracterización

La distribución t de Student es la distribución de probabilidad del cociente

donde

Z tiene una distribución normal de media nula y varianza 1

V tiene una distribución chi-cuadrado con ν grados de libertad

Z y V son independientes

Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidad μ.

[editar] Aparición y especificaciones de la distribución t de Student

Supongamos que X1,..., Xn son variables aleatorias independientes distribuidas normalmente, con media μ y varianza σ2. Sea

la media muestral. Entonces

Page 30: estadistica texto paralelo

sigue una distribución normal de media 0 y varianza 1.

Sin embargo, dado que la desviación estándar no siempre es conocida de antemano, Gosset estudió un cociente relacionado,

donde

es la varianza muestral y demostró que la función de densidad de T es

donde ν es igual a n − 1.

La distribución de T se llama ahora la distribución-t de Student.

El parámetro ν representa el número de grados de libertad. La distribución depende de ν,

Intervalos de confianza derivados de la distribución t de Student

El procedimiento para el cálculo del intervalo de confianza basado en la t de Student consiste en estimar la desviación típica de los datos S y calcular el error estándar de la media= S/(raíz cuadrada de n), siendo entonces el intervalo de confianza para la media = x media +- t (alfa/2) multiplicado por (S/(raíz cuadradada de n)).

Es este resultado el que se utiliza en el test de Student: puesto que la diferencia de las medias de muestras de dos distribuciones normales se distribuye también normalmente, la distribución t puede usarse para examinar si esa diferencia puede razonablemente suponerse igual a cero.

para efectos prácticos el valor esperado y la varianza son :

E(t(n))= 0 y Var (t(n-1)) = n/(n-2) para n > 3

LA PRUEBA JI CUADRADA

Page 31: estadistica texto paralelo

Prueba de bondad de ajuste de ji-cuadrada

El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable aleatoria X, cuya función de densidad de probabilidad se desconoce. Estas n observaciones se arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 01 la frecuencia observada en el intervalo de la clase iesimo. De la distribución de probabilidad hipotética, calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E1. La estadística de prueba es:

X20 =

Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1 grados de libertad, donde p representa el numero de parámetros de la distribución hipotética estimada por el medio de estadística de muestra. Esta aproximación se mejora cuando n aumenta. Rechazaríamos la hipótesis de que X se ajusta ala distribución hipotética si X²0>X²α k-p-1

Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere ala magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas esperadas, si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo general en relación con el valor mínimo de las frecuencias esperadas, aunque los valores de 3,4 y 5 se utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado pequeña, puede combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias observadas correspondientes se combinaran también en ese caso, y k se reducirá en 1. No se requiere que los intervalos de clase sean de igual ancho.

Ejemplo

Una distribución completamente especificada Un científico de computadoras ha desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. Codifica el algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la tabla 11-3. ¿Existe evidencia de que el generador de números aleatorios esta trabajando correctamente?

Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la distribución uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir exactamente 100 veces. Esto es, las frecuencias esperadas E =100 para I=0,1,….,9 Puesto que estas frecuencias estimadas pueden estimarse sin que sea necesario estimular ningún parámetro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendrá k-p-1=10-0-1=9 grados de libertad.

Total

0 1 2 3 4 5 6 7 8 9

Frecuencia Observada O 94 93 112 101 104 95 100 99 108 94 1000

Page 32: estadistica texto paralelo

Frecuencias Esperada E 100 100 100 100 100 100 100 100 100 100 1000

El valor esperado de la estadística de prueba es 2 2 2 2

X20 = =

Puesto que X =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene de una distribución uniforme discreta. En consecuencia, el generador de números aleatorios parece estar trabajando en forma satisfactoria.

1. Test de Kolmogorov-Smirnov

Para la aplicación del test señalado, es necesario determinar la Frecuencia observada acumulada. Para la frecuencia observada en el caso especial de Gumbel, se ordena la información de menor a mayor y se aplica:

Donde:

Fn (x): frecuencia observada acumulada.

n: N° total de orden

N: N° total de datos.

En el caso de la frecuencia teórica acumulada, ésta se determina a través de la función de Gumbel.

Una vez determinadas ambas frecuencias, se obtiene el supremo de las diferencias entre ambas, en la i-ésima posición de orden, que se denomina D.

Luego, asumiendo un valor de significancia, se recurre a la tabla de valores críticos de D en la prueba de bondad de ajuste de Kolmogorov-Smirnov, y considerando el tamaño de la muestra, se establece lo siguiente:

Si D < D tabla, se acepta que (el ajuste es adecuado, con el nivel de confiabilidad asumido.

AJUSTE DE CURVA Y MÉTODO DE MÍNIMOS CUADRADOS

Representaciones de Spline

Page 33: estadistica texto paralelo

En la terminología del dibujo mecánico, una spline es una banda flexible que se utiliza paraproducir una curva suave a través de un conjunto de puntos designados. Varios pesos pequeños se distribuyen a lo largo de la banda para mantenerla en posición sobre la mesa de dibujo mientras se traza la curva. Es habitual describir la curva spline como una funcióncúbica polinómica cuyas primera y segunda derivada son continuas a través de las distintas secciones de la curva. Por otra parte, una superficie spline se puede describir como dos conjuntos de curvas ortogonales de spline

Existe una gran variedad de curvas y superficies spline. Además se les prefiere por la grandiversidad de formas que pueden tomar, Fig 1 y Fig 2

Especificación de splineExisten tres métodos equivalentes para especificar una representación de spline particular:1. Podemos establecer el conjunto de condiciones de frontera que se imponen en la spline2. Podemos establecer la matriz que caracteriza la spline3. podemos establecer un conjunto de funciones de combinación que determinan la manera en que se combinan las restricciones geométricas en la curva para calcular posiciones a lo largo de la trayectoria de la curva.

A fin de ilustrar estos procedimiento, suponga que tenemos la siguiente representación polinómica cúbica paramétrica para la coordenada de x a lo largo de la trayectoria de unasección de la spline:x(u ) = a x u 3 + bx u 2 + c x u + d x , 0 ≤ u ≤ 1Por ejemplo, se podrían establecer las condiciones de frontera para esta curva, en las coordenadas de extremo x(0) y x(1) y en las primeras derivadas paramétricas en los extremos x´(0) y x´(1). Estas cuatro condiciones de frontera son suficientes para determinar los valores de los cuatro coeficientes.

A partir de las condiciones de frontera, obtenemos la matriz que caracteriza esta curva despline al volver a expresar de nuevo la ecuación (1) como el producto

Donde U es la matriz renglón de potencias del parámetro u y C es la matriz columna de coeficientes. Al utiliza la ec. (2), es posible expresar las condiciones de frontera en forma de matriz de coeficientes C comoC = M spline ⋅ M geomDonde M geom es una matriz de columnas de cuatro elementos que contiene los valores de restricciones geométricas (condiciones de frontera) en la spline y M spline es la matriz de 4x4 que transforma loa valores de restricción geométrica a los coeficientes polinómicos y ofrece una caracterización para la curva de spline. Por podemos construirx (u ) = U ⋅ M spline ⋅ M geomPor último podemos ampliar la ec. (3), con el propósito de obtener una representación polinómica para la coordenada x en términos de parámetros de restricción geométricax(u ) = ∑ g k BFk (u ) , k =0

Page 34: estadistica texto paralelo

donde gk son los parámetros de restricción, como las coordenadas del punto de control y la pendiente de la curva en los puntos de control , y BFk(u) son las funciones de combinación polinómica.Métodos de interpolación de spline cúbicaEsta clase de spline se utiliza con mayor frecuencia para establecer las trayectorias de los movimientos de objetos o para ofrecer una representación de un objeto o trazo existente. En comparación con los polinomios de orden superior, las spline cúbicas requieren de menos cálculos y memoria computacional, a la vez que son más estables. Las spline cúbicas son más flexibles para el modelado de formas curvas arbitrarias.

Dado un conjunto de puntos de control, las spline de interpolación cúbica se obtienen al ajustar los puntos de entrada con una curva polinómica cúbica alrededor de la curva que pasa por todos los puntos de control (en este caso de interpolación). Suponga que tenemos n+1 puntos de control que se especifican con las coordenadasp k = ( x k y k z k ), k = 0, 1, 2,… , nPodemos describir el polinomio cúbico paramétrico que se debe ajustar entre cada par depuntos de control con el siguiente conjunto de ecuaciones

x(u ) = a x u 3 + bx u 2 + c x u + d x ,y (u ) = a y u 3 + b y u 2 + c y u + d y ,z (u ) = a z u 3 + bz u 2 + c z u + d z , 0 ≤ u ≤ 1Para obtener los coeficientes incógnitos, debemos establecer suficientes condiciones de frontera en las uniones entre las secciones de la curva de manera que podamos obtener los valores numéricos para todos ellos.Curvas de BézierPara cualquier nº de puntos de control, el nº de ptos de control que se debe aproximar y su posición relativa determinar el grado del polinomio de Bézier. Del mismo modo que con las spline de interpolación, se puede especificar una curva de Bézier con condiciones de frontera con una matriz característica o con funciones de combinación. Usualmente se utiliza esta última técnica.El calculo recursivo de las funciones de combinación de Bézier ,es dado por la expresión:Bk ,n (u ) = (1 − u )Bk ,n −1 (u ) + uBk −1,n −1 (u ), n > k ≥ 1

TEORÍA DE LA CORRELACIÓN

Correlación Lineal

El propósito principal del análisis de la correlación lineal es medir la exactitud de una relación lineal entre dos variables. Al examinar un diagrama scatter nos percatamos de la relación entre la x e y.

Page 35: estadistica texto paralelo

No hay correlación cuando la configuración de los puntos está esparcida.

No correlación: A medida que aumenta x los valores de y se dispersan

Tipos de correlaciones

La correlación puede ser positiva o negativa. La positiva es cuando la variable y tiende a crecer y la negativa cuando la variable y tiende a disminuir.

Correlación Lineal Positiva: cuando la variable y (eje vertical) tiende a crecer.

Page 36: estadistica texto paralelo

Correlación Lineal Negativa: cuando la variable y (eje vertical) tiende a disminuir. La relación inferior es casi perfecta

Correlación no lineal

Page 37: estadistica texto paralelo

Regresión con Mínimos Cuadrados.

Cuando se asocia un error sustancial a los datos, la interpolación polinomial es inapropiada y puede llevar a resultados no satisfactorios cuando se usa para predecir valores intermedios. Los datos experimentales a menudo son de ese tipo. Una estrategia mas apropiada en estos casos es la de obtener una función aproximada que ajuste “adecuadamente” el comportamiento o la tendencia general de los datos, sin coincidir necesariamente con cada punto en particular. Una línea recta puede usarse en la caracterización de la tendencia de los datos sin pasar cobre ningún punto en particular. Una manera de determinar la línea, es inspeccionar de manera visual los datos graficados y luego trazar la “mejor” línea a través de los puntos. Aunque este enfoque recurre al sentido común y es valido para cálculos a “simple vista” es deficiente ya que es arbitrario. Es decir, a menos que los puntos definan una línea recta perfecta (en cuyo caso la interpolación seria apropiada), cada analista trazara rectas diferentes.

La manera de quitar esta subjetividad es considerar un criterio que cuantifique la suficiencia del ajuste. Una forma de hacerlo es obtener una curva que minimice la diferencia entre los datos y la curva y el método para llevar a cabo este objetivo es al que se le llama regresión con mínimos cuadrados.

Regresión Lineal

El ejemplo mas simple de una aproximación por mínimos cuadrados es el ajuste de una línea recta a un conjunto de parejas de datos observadas: (x1,y1), (x2,y2), ...,(xn,yn). La expresión matemática de una línea recta es:

en donde a0 y a1 son coeficientes que representan la intersección con el eje de las abscisas y la pendiente, respectivamente y E es el error o residuo entre el modelo y las observaciones, que se puede representar reordenando la ecuación (1) como:

Por lo tanto, el error o residuo es la diferencia entre el valor real de y y el valor aproximado, a0+a1x, predicho por la ecuación lineal.

Criterio para un “mejor” ajuste

Una estrategia que obtiene la “mejor” línea a través de los puntos debe minimizar la suma de los errores residuales, como en:

Otro criterio seria minimizar la suma de los valores absolutos de las diferencias, esto es:Una tercera estrategia en el ajuste de una línea optima es el criterio de mínimas. En este método, la línea se escoge de tal manera que minimice la distancia máxima a la que se encuentra un punto de la línea recta. Esta estrategia esta mal condicionada para regresión ya que influye de manera indebida sobre un punto externo, aislado, cuyo error

Page 38: estadistica texto paralelo

es muy grande. Se debe notar que el criterio mínimas algunas veces esta bien condicionado para ajustar una función simple a una función complicada.

Una estrategia que ignora las restricciones anteriores es la de minimizar la suma de los cuadrados de los residuos, Sr, de la siguiente manera:

Este criterio tiene muchas ventajas, incluyendo el que ajusta una línea única a un conjunto dado de datos. Antes de analizar estas propiedades, se muestra un método que determina los valores de a0 y a1 que minimizan la ecuación.

Ajuste de una recta utilizando Mínimos Cuadrados.

Para determinar los valores de las constantes a0 y a1, se deriva la ecuación (3) con respecto a cada uno de los coeficientes:

Nótese que se han simplificado los símbolos de la sumatoria; a menos que otra cosa se indique, todas las sumatorias van desde i=1 hasta n. Igualando estas derivadas a cero, se genera un mínimo Sr. Si se hace así, las ecuaciones anteriores se expresaran como:

Ahora considerando que = n, las ecuaciones se pueden expresar como un conjunto de dos ecuaciones lineales simultaneas con dos incógnitas

A estas ecuaciones se les conoce como ecuaciones normales. Se pueden resolver simultáneamente y obtener:

Este resultado se puede usar junto con la ecuación para obtener: en donde son la media de y y x, respectivamente, quedándonos entonces la siguiente ecuación para a0:

CORRELACIÓN MÚLTIPLE Y CORRELACIÓN PARCIAL

Esta prueba estadística en su modelo matemático, significa conocer la correlación entre

tres o más variables, en las que dos de ellas se asocian y la tercera se muestra sin cambio.

Por lo tanto, cabe formular la pregunta clave: ¿qué tan estrechamente dependen las

variables a y b, cuando c se mantiene sin cambios?. En este sentido, se establece la

interpretación del presente procedimiento.

Page 39: estadistica texto paralelo

Matemáticamente, la fórmula siguiente se define como correlación múltiple:

Las fórmulas para correlación parcial se definen matemáticamente como sigue:

Pasos:

1. Elaborar una tabla en la que se ordenen las observaciones de las diferentes

variables: x, y, z, etc.

2. De acuerdo con la fórmula de coeficiente de correlación simple de Pearson, calcular

por cada pareja de variables: XY, XZ, YZ, etc.

3. Calcular el coeficiente de correlación múltiple en función de la variable

independiente considerada en la hipótesis alterna, mediante la fórmula rx.zy.

4. Calcular los coeficientes de correlación parcial para cada variable estudiada,

mediante las fórmulas rxy.z, rxz.y y rzy.x.

5. Calcular los grados de libertad (gl). gl = N tamaño de la muestra - K variables.

Page 40: estadistica texto paralelo

6. Comparar los valores de coeficiente múltiple y parcial de correlación con los valores

críticos correspondientes, distribuidos en función de la probabilidad. Tabla de

coeficientes de correlación en niveles de P 0.05 y 0.01.

7. Decidir si se acepta o rechaza la hipótesis.

Ejemplo:

Objetivo: Conocer si la cantidad de lectura en niños de 12, 13 y 14 años es una variable

dependiente de la edad o de la variable del diámetro de su cabeza.

Hipótesis.

Ha. Entre las variables cantidad de lectura, edad y diámetro de la cabeza existe correlación

significativa, así como dependencia.

Ho. Entre las variables cantidad de lectura, edad y diámetro de la cabeza no existe

correlación significativa, así como dependencia.

Page 41: estadistica texto paralelo

Aplicación de la prueba estadística.

Page 42: estadistica texto paralelo

gl = N - K = 15 - 3 = 12

Los valores de r calculados de la correlación parcial se comparan en la distribución de

valores críticos en función de la probabilidad y se observa que con 12 grados de libertad

se ubican las cifras de 0.532 y 0.661, para un nivel de significancia al 5 y 1%. Esto significa

que los valores 0.97 y 0.99 tienen una probabilidad menor que 0.01.

Page 43: estadistica texto paralelo

Entonces las variables X y Y tienen una probabilidad que cae en el nivel de significancia, se

acepta Ha y se rechaza Ho. La variable Z se acepta Ho y se rechaza Ha.

Hay significancia entre la edad de los niños y su cantidad de lectura, y no hay significancia

entre el radio de sus cerebros.

ANÁLISIS DE VARIANZA

Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.Los resultados de un anova se suelen representar en una tabla como la siguiente:

Fuente de variación G.L. SS MS F

Entre gruposTratamientos

k-1 SSA SSA/(k-1) MSA/MSE

Dentro Error (n-1)k SSE SSE/k(n-1)

Total kn-1 SST

Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región crítica para dicho contraste es F > F(k-1,(n-1)k)aAlgunas propiedadesEs fácil ver en la tabla anterior queGLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotalNo es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidado propiedad aditiva de la suma de cuadrados: SST = SSA + SSEEl análisisde la varianza se puede realizar con tamaños muestrales iguales o distintos, sin embargo es recomendable iguales tamaños por dos motivos: La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es igual.Igual tamaño minimiza la probabilidad de error tipo II.3. Modelos de análisis de la varianza El anova permite distinguir dos modelos para la hipótesis alternativa:Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.

Page 44: estadistica texto paralelo

Modelo II o de efectos aleatoriosen el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modeloI de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras. Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas.La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían distintas.Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.Análisis de la varianza de dos factoresEs un diseñode anova que permite estudiar simultáneamente los efectos de dos fuentes de variación.En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.Una observación individual se representa como:El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:

i o Ai b el efecto del nivel i del 11 factor, j es la media global, Donde o Bj e el efecto del nivel j del 2º factor y ijk las desviaciones aleatorias alrededor de las medias, que también se asume que están normalmente 2.distribuidas, son independientes y tienen media 0 y varianza A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade la de aditividad de los efectos de los factores.

Page 45: estadistica texto paralelo

B)ij, se les )ij, (AB)ij, ( A los términos ( denomina interacciónentre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles se esquematizan en la figura

En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fácilmente observables.Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interacción.Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo.La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biología se le denomina sinergiao potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como referencia).4. Análisis de Varianza a una vía: Diseño completamente aleatorizado

Page 46: estadistica texto paralelo

Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el más común es el diseño completamente aleatorizado a una vía. El término proviene del hecho que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales) pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes) de un programa de capacitación (el factor).El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.

a. Esta variación entre el número total de las 14 observaciones. Esto se llama variación total.

b. Existe variación entre los diferentes tratamientos (muestras). Esto se llama variación entre muestras.

c. Existe variación dentro de un tratamiento dado (muestra). Esto se denomina variación dentro de la muestra.

Page 47: estadistica texto paralelo

BIBLIOGRAFIA

http://www.indec.mecon.ar/

http://www.isapre.cl/lado-graficos99.htm

Utilizamos esta página para extraer los gráficos con los que apoyamos o contrariamos nuestra hipótesis.

http://www.ing.unp.edu.ar/estadisitio/graficos.htm

http://www.ull.es/publicaciones/latina/z8/r4el.htm

http://www.monografias.com/trabajos15/estadistica/estadistica.shtml

http://es.wikipedia.org/wiki/Estad%C3%ADstica

http://www.hrc.es/bioest/estadis_1.html

http://www.eumed.net/cursecon/libreria/drm/ped-drm-est.htm

http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-u-indice.html

http://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial

Page 48: estadistica texto paralelo

http://www.mitecnologico.com/iem/Main/EstadisticaInferencial

http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html

http://www.ditutor.com/inferencia_estadistica/estadistica_inferencial.html

http://www.slideshare.net/freddygarcia/estadistica-inferencial-presentation

http://eilae12007.blogspot.com/