Obtencion y Ordenamiento de Datos

10
OBTENCIÓN Y ORDENAMIENTO DE DATOS POBLACIÓN Y MUESTRA. Marco de referencia de un estudio estadístico: 1. Definir la unidad de observación (elemento sobre el que vamos a registrar los datos). Las unidades de observación pueden tener existencia natural, como una persona o una cosa –elementos tangibles -, o pueden estar definidas artificialmente, como las distintas áreas de una empresa. 2. Determinar qué vamos a medir (lo que vamos a observar). 3. Definir si el relevamiento de datos se hace sobre la totalidad (población) o sobre una muestra. Si el análisis se realiza en base a una muestra, el objetivo es obtener conclusiones acerca de la población. Por lo tanto, la muestra debe ser representativa de la población de la cual fue extraida. ORDENAMIENTO DE DATOS. Los datos son colecciones de cualquier cantidad de observaciones relacionadas. Una colección de datos se conoce como conjunto de datos, y una sola observación es un punto de dato. Para que los datos sean útiles, necesitamos organizar nuestras observaciones, de modo que podamos distinguir patrones y llegar a conclusiones lógicas. Recolección de datos: Los especialistas en estadística seleccionan sus observaciones de manera que todos los grupos relevantes estén representados en los datos. Los datos pueden provenir de observaciones reales o de registros que se mantienen para otros propósitos. Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas características en situaciones dadas. También el conocimiento de tendencias adquirido de la experiencia previa puede permitir estar al tanto de posibles resultados y actuar en consecuencia. Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar decisiones inteligentes. Los administradores deben tener mucho cuidado y asegurar que los datos utilizados están basados en suposiciones e interpretaciones correctas. Para ello, se utilizan las pruebas para datos:

description

Obtención y ordenamiento de datos estadísticos.

Transcript of Obtencion y Ordenamiento de Datos

  • OBTENCIN Y ORDENAMIENTO DE DATOS

    POBLACIN Y MUESTRA.

    Marco de referencia de un estudio estadstico:

    1. Definir la unidad de observacin (elemento sobre el que vamos a registrar los datos). Las unidades de observacin pueden tener existencia natural, como una persona o una cosa elementos tangibles -, o pueden estar definidas artificialmente, como las distintas reas de una empresa.

    2. Determinar qu vamos a medir (lo que vamos a observar).

    3. Definir si el relevamiento de datos se hace sobre la totalidad (poblacin) o sobre una muestra. Si el anlisis se realiza en base a una muestra, el objetivo es obtener conclusiones acerca de la poblacin. Por lo tanto, la muestra debe ser representativa de la poblacin de la cual fue extraida.

    ORDENAMIENTO DE DATOS. Los datos son colecciones de cualquier cantidad de observaciones relacionadas. Una coleccin de datos se conoce como conjunto de datos, y una sola observacin es un punto de dato. Para que los datos sean tiles, necesitamos organizar nuestras observaciones, de modo que podamos distinguir patrones y llegar a conclusiones lgicas. Recoleccin de datos: Los especialistas en estadstica seleccionan sus observaciones de manera que todos los grupos relevantes estn representados en los datos. Los datos pueden provenir de observaciones reales o de registros que se mantienen para otros propsitos. Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas caractersticas en situaciones dadas. Tambin el conocimiento de tendencias adquirido de la experiencia previa puede permitir estar al tanto de posibles resultados y actuar en consecuencia. Cuando los datos son ordenados de manera compacta y til, los responsables de tomar decisiones pueden obtener informacin confiable sobre el ambiente y usarla para tomar decisiones inteligentes. Los administradores deben tener mucho cuidado y asegurar que los datos utilizados estn basados en suposiciones e interpretaciones correctas. Para ello, se utilizan las pruebas para datos:

  • 1. De dnde vienen los datos? La fuente es parcial? Es posible que haya un inters en proporcionar datos que conduzcan a una cierta conclusin ms que a otras?

    2. Los datos comprueban o contradicen otras evidencias que se poseen? 3. Hace falta alguna evidencia cuya ausencia podra ocasionar que se llegue a una

    conclusin diferente? 4. Cuntas observaciones se tienen? Representan a todos los grupos que se desea

    estudiar? 5. La conclusin es lgica? Se ha llegado a conclusiones que nuestros datos no

    confirman?

    Vale la pena usar los datos o debemos esperar y recabar ms informacin antes de actuar? Diferencia entre muestras y poblaciones: Muestra y poblacin son trminos relativos. Una poblacin es un todo y una muestra es una fraccin o segmento de ese todo. Estudiaremos muestras con el fin de ser capaces de describir poblaciones. El estudio de muestras es ms sencillo que el estudio de la poblacin completa, cuesta menos y lleva menos tiempo. Adems, se ha probado que el examen de una poblacin entera todava permite la aceptacin de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones. Debemos definir dicha poblacin de modo que quede claro cundo un cierto elemento pertenece o no a la poblacin. Una muestra es una coleccin de algunos elementos de la poblacin, pero no de todos. Cualquier grupo que cumple con los requisitos de la poblacin, puede constituir una muestra, siempre y cuando el grupo sea una fraccin de la poblacin completa. Una muestra representativa contiene las caractersticas relevantes de la poblacin en las mismas proporciones en que estn incluidas en tal poblacin. Bsqueda de un patrn significativo en los datos: Existen muchas formas de organizar los datos. Podemos slo colectarlos y mantenerlos en orden; o si las observaciones estn hechas con nmeros, entonces podemos hacer una lista de los puntos de dato de menor a mayor segn su valor numrico. Pero si los datos son trabajadores especializados o los distintos tipos de automviles que ensamblan todos los fabricantes, debemos organizarlos de manera distinta. Necesitaremos presentar los puntos de dato en orden alfabtico o mediante algn principio de organizacin. Una forma comn de organizar los datos consiste en dividirlos en categoras o clases parecidas y luego contar el nmero de observaciones que quedan dentro de cada categora. Este mtodo produce una distribucin de frecuencias. El objetivo de organizar los datos es permitirnos ver rpidamente algunas de las caractersticas de los datos que hemos recogido: el alcance (los valores mayor y menor), patrones evidentes, alrededor de qu valores tienden a agruparse los datos, qu valores aparecen con mayor frecuencia, etc. RECOMENDACIONES: Al plantear un estudio estadstico, definir claramente la poblacin objeto de anlisis.

  • Si se trabaja con muestras, definir las condiciones que deben reunir antes de extraerlas. Especificar qu se va a medir, las unidades a usar y la forma de registro. Datos sin procesar: La informacin obtenida, antes de ser organizada y analizada, se conoce como datos sin procesar puesto que an no han sido tratados mediante ningn mtodo estadstico. La cantidad de datos ms grande y los detalles ms minuciosos pueden no contener la informacin ms til para la toma de decisiones administrativa. Una parte importante de la planeacin de sistemas de informacin administrativa consiste en resumir y presentar los datos de modo que se pueda obtener la informacin crtica de manera rpida y sencilla. Ordenamiento de datos utilizando su arreglo y distribucin de frecuencias: La ordenacin de datos es una de las formas ms sencillas de presentarlos, los forma en orden ascendente o descendente. Ventajas:

    1. Podemos notar rpidamente los valores mayor y menor de los datos. 2. Podemos dividir fcilmente los datos en secciones. 3. Podemos ver si algunos de los valores aparecen ms de una vez en ese ordenamiento. 4. Podemos observar la distancia entre valores sucesivos de datos.

    En ocasiones, un ordenamiento de datos no resulta til. Debido a que da una lista de todos los valores, es una forma incmoda de mostrar grandes cantidades de datos. La distribucin de frecuencias. Una forma en que podemos comprimir los datos es la tabla de frecuencias o distribucin de frecuencias. Las distribuciones de frecuencias sacrifican algunos detalles, pero ofrecen nuevas perspectivas sobre los patrones de datos. Una distribucin de frecuencias es una tabla en la que los datos se organizan en clases, es decir, en grupos de valores que describen una caractersticas de los datos. Una distribucin de frecuencias muestra el nmero de observaciones del conjunto de datos que caen en cada una de las clases. Caractersticas de las distribuciones de frecuencias relativas. Tambin podemos expresar la frecuencia de cada valor como una fraccin o un porcentaje del nmero total de observaciones. Para obtener este valor, dividimos la frecuencia de esa clase entre el nmero total de observaciones del conjunto de datos. La respuesta se puede expresar como una fraccin, un nmero decimal o un porcentaje. La suma de todas las frecuencias relativas es igual a 1,00 o a 100%. Esto es as debido a que una distribucin de frecuencias relativas aparea a cada clase con su fraccin o porcentaje apropiados del total de datos. Por consiguiente, las clases que aparecen en cualquier distribucin de frecuencias, ya sean relativas o simples, son completamente inclusivas. Todos los datos caen en una u otra categora. Las clases son mutuamente exclusivas, es decir, ningn punto de dato cae en ms de una categora. En las distribuciones de frecuencias no aparecen clases que se traslapen.

  • Podemos, tambin, clasificar la informacin de acuerdo con caractersticas cualitativas, como raza, religin y sexo, que no entran de manera natural en clasificaciones numricas. Como clases de atributos cuantitativos, stas deben ser completamente inclusivas y mutuamente exclusivas. La categora "otros" se conoce como clase de extremo abierto cuando permite que el extremo inferior o el superior de una clasificacin cuantitativa no est limitado. Los esquemas de clasificacin pueden ser tanto cuantitativos como cualitativos y tanto discretos como continuos. Las clases discretas son entidades separadas que no pasan de una clase discreta a otra sin que haya un rompimiento. Los datos discretos son aquellos que pueden tomar slo un nmero limitado de valores. Los datos continuos pasan de una clase a otra sin que haya un rompimiento. Implican mediciones numricas. Los datos continuos pueden expresarse con nmeros fraccionarios o con enteros. Las variables discretas son cosas que se pueden contar y las continuas son cosas que aparecen en algn punto de una escala. Construccin de una distribucin de frecuencias: Pasos:

    1. Decidir el tipo y nmero de clases para dividir los datos. De acuerdo con la medida cuantitativa o un atributo cualitativo. Necesitamos decidir cuntas clases distintas usar y el alcance que cada clase debe cubrir. el alcance total debe dividirse entre clases iguales, esto es, el ancho del intervalo, tomado desde el principio de una clase hasta el principio de la clase siguiente, necesita ser el mismo para todas las clases.

    El nmero de clases depende del nmero de puntos de dato y del alcance de los datos recolectados. Cuantos ms puntos de dato se tengan o cuanto ms grande sea el alcance, ms clases se necesitarn para dividir los datos. Como regla general, los estadsticos rara vez utilizan menos de 6 y ms de 15 clases.

    Debido a que necesitamos hacer los intervalos de clase de igual tamao, el nmero de clases determina el ancho de cada clase.

    Ancho de los intervalos de clase = (valor unitario siguiente despus del valor ms grande

    de los datos valor ms pequeo de los datos) / nmero total de intervalos

    Debemos utilizar el siguiente valor ms alto de las mismas unidades, ya que estamos midiendo el intervalo entre el primer valor de una clase y el primer valor de la siguiente.

  • 2. Clasificar los puntos de dato en clases y contar el nmero de datos que hay en cada clase.

    3. Ilustrar los datos en un diagrama.

    Representacin grfica de las distribuciones de frecuencias: Las grficas dan los datos en un diagrama de dos dimensiones. Sobre el eje horizontal podemos mostrar los valores de la variable (la caracterstica que estamos midiendo). Sobre el eje vertical sealamos las frecuencias de las clases mostradas en el eje horizontal. Las grficas de distribuciones de frecuencias simples y de distribuciones de frecuencias relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden distinguir fcilmente en las tablas. Atraen la atencin del que las observa hacia los patrones existentes en los datos. Las grficas pueden tambin ayudarnos a resolver problemas concernientes a las distribuciones de frecuencias. Nos permitirn estimar algunos valores con slo una mirada y nos proporcionarn una verificacin visual sobre la precisin de nuestras soluciones. Histogramas. Un histograma consiste en una serie de rectngulos, cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase, y cuya altura es proporcional al nmero de elementos que caen dentro de cada clase. Si las clases que utilizamos en la distribucin de frecuencias son del mismo ancho, entonces las barras verticales del histograma tambin tienen el mismo ancho. La altura de la barra correspondiente a cada clase representa el nmero de observaciones de la clase. Como consecuencia, el rea contenida en cada rectngulo (ancho por altura) ocupa un porcentaje del rea total de todos los rectngulos igual al porcentaje de la frecuencia de la clase correspondiente con respecto a todas las observaciones hechas. Un histograma que utiliza las frecuencias relativas de los puntos de dato de cada una de las clases, en lugar de usar el nmero real de puntos, se conoce como histograma de frecuencias relativas. Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas construido a partir del mismo conjunto de datos. Esto es as debido a que en ambos, el tamao relativo de cada rectngulo es la frecuencia de esa clase comparada con el nmero total de observaciones. Polgonos de frecuencias. Son otra forma de representar grficamente distribuciones tanto de frecuencias simples como relativas. Para construir un polgono de frecuencias sealamos stas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. A continuacin, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una lnea recta para formar un polgono. Se aaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases que contienen cero observaciones permiten que el polgono alcance el eje horizontal en ambos extremos de la distribucin. Un polgono de frecuencias es slo una lnea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el

  • trazado de lneas verticales desde los lmites de clase y luego conectando tales lneas con rectas horizontales a la altura de los puntos medios del polgono. Un polgono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases, en lugar del nmero real de puntos, se conoce como polgono de frecuencias relativas. Este polgono tiene la misma forma que el polgono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical. Ventajas de los histogramas:

    Los rectngulos muestran cada clase de la distribucin por separado. El rea de cada rectngulo, en relacin con el resto, muestra la proporcin del nmero

    total de observaciones que se encuentran en esa clase.

    Ventajas de los polgonos de frecuencias:

    Es ms sencillo que su correspondiente histograma. Traza con ms claridad el perfil del patrn de datos. Se vuelve cada vez ms liso y parecido a una curva conforme aumentamos el nmero

    de clases y el nmero de observaciones.

    Un polgono alisado mediante el aumento de clases y de puntos de dato se conoce como curva de frecuencias.Ojivas. Una distribucin de frecuencias acumuladas nos permite ver cuntas observaciones estn por encima de ciertos valores, en lugar de hacer un mero registro del nmero de elementos que hay dentro de los intervalos. La grfica de una distribucin de frecuencias acumuladas se conoce como ojiva. En ocasiones, la informacin que utilizamos se presenta en trminos de frecuencias acumuladas "mayores que". La ojiva adecuada para tal informacin tendra una inclinacin hacia abajo y hacia la derecha, en lugar de tener una inclinacin hacia arriba y a la derecha. Podemos construir una ojiva de una distribucin de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribucin de frecuencias absolutas. Slo habr un cambio: la escala del eje vertical. Del ordenamiento de datos podemos construir distribuciones de frecuencias. A partir de las distribuciones de frecuencias podemos construir distribuciones de frecuencias acumuladas. A partir de stas podemos trazar una ojiva. Y de esta ojiva podemos aproximar los valores que tenemos en el ordenamiento de datos. Sin embargo, no podemos recobrar de manera normal los datos originales exactos a partir de cualquiera de las representaciones grficas que hemos analizado. Tratamiento de una variable discreta: Se utilizan los diagramas de barras, la diferencia con el histograma es que los rectngulos no se tocan entre s; esto se debe a que, al ser la variable discreta, entre los valores sucesivos no hay valores intermedios. Las frecuencias acumuladas se grafican por medio de una ojiva en forma de escalera, debido a que la frecuencia aumenta de a saltos.

  • RECOMENDACIONES: Cuando se trabaja con muestras, recopilar el mayor nmero de datos posible. Usar 5 clases como mnimo y 15 como mximo para agrupar los datos, en funcin del nmero de datos disponibles. Trabajar con intervalos de clase de igual longitud. Tener cuidado con la clasificacin automtica que hacen los paquetes estadsticos. Al calcular frecuencias relativas como proporcin trabajar con cuatro dgitos despus de la coma, para evitar errores de redondeo en la suma. Al dibujar un grfico, no exagerar la escala vertical u horizontal. Un grfico desproporcionado complica su interpretacin y puede resultar engaoso a simple vista. CONCEPTOS:

    Unidad de observacin: persona o casa sobre la que se mide una o varias caractersticas de inters.

    Caracteres: propiedades o rasgos que se miden en cada unidad de observacin.

    Variable numrica: VARIABLE. Carcter cuantitativo.

    Variable categrica: ATRIBUTO. Carcter cualitativo.

    Poblacin: conjunto formado por todas las unidades objeto de un estudio estadstico. Coleccin de todos los elementos que se estn estudiando y sobre los cuales intentamos llegar a conclusiones.

    Muestra: subconjunto representativo de la poblacin. Coleccin de algunos elementos, pero no de todos, de la poblacin bajo estudio, utilizada para describir poblaciones.

    Muestra representativa: muestra que contiene las caractersticas importantes de la poblacin en las mismas proporciones en que estn contenidas en la poblacin.

  • Datos: coleccin de cualquier nmero de observaciones relacionadas sobre una o ms variables.

    Punto de dato: una sola observacin de un conjunto de datos.

    Arreglo de datos: organizacin de los datos sin procesar por observacin, tomados en orden ascendente o descendente.

    Clase de extremo abierto: clase que permite que el extremo superior o inferior de un esquema de clasificacin cuantitativo no tenga lmite.

    Conjunto de datos: una coleccin de datos.

    Curva de frecuencias: polgono de frecuencias alisado mediante el aumento de clases y puntos de dato a un conjunto de datos.

    Datos continuos: datos que pueden pasar de una clase a la siguiente sin interrumpirse y que pueden expresarse mediante nmeros enteros o fraccionarios. Datos numricos que admiten infinitos valores entre dos valores cualesquiera; generalmente surgen de una medicin.

    Datos discretos: datos que no pasan de una clase a la siguiente sin que haya una interrupcin; esto es, donde las clases representan categoras o cuentas distintas que pueden representarse mediante nmeros enteros. Datos numricos que no admiten valores intermedios entre dos valores sucesivos; generalmente surgen de un conteo.

    Datos sin procesar: informacin antes de ser organizada o analizada por mtodos estadsticos. Conjunto de datos que no han recibido ningn tratamiento estadstico.

    Datos tratados: conjunto de datos que ha sido objeto de algn tipo de ordenamiento o procesamiento.

    Intervalo de clase: agrupamiento de valores de una variable.

  • Alcance de los datos: diferencia entre el mayor y menor valor de la serie.

    Distribucin de frecuencias: despliegue organizado de datos que muestran el nmero de observaciones del conjunto de datos que entran en cada una de las clases de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Asignacin de frecuencias a cada uno de los valores de una variable o atributo.

    Tabla de frecuencias: tabla donde se asienta la distribucin de frecuencias.

    Distribucin de frecuencias acumuladas: despliegue de datos en forma de tabla que muestra cuntos datos estn por encima o por debajo de ciertos valores.

    Distribucin de frecuencias relativas: despliegue de un conjunto de datos en el que se muestra la fraccin o porcentaje del total del conjunto de datos que entra en cada elemento de un conjunto de clases mutuamente exclusivas y colectivamente exhaustiva.

    Histograma: grfica de un conjunto de datos compuesta de una serie de rectngulos, cada uno con un ancho proporcional al alcance de los valores de cada clase y altura proporcional al nmero de elementos que entran en la clase, o altura proporcional a la fraccin de elementos de la clase. Representacin grfica de la distribucin de frecuencias (absoluta o relativa) de una variable continua.

    Ojiva: grfica de una distribucin de frecuencias acumuladas absolutas o relativas.

    Polgono de frecuencias: lnea que une los puntos medios de cada clase de un conjunto de datos, trazada a la altura correspondiente a la frecuencia de datos. Representacin grfica de la distribucin de frecuencias en forma suavizada de una variable continua.

    Diagrama de barras: representacin grfica de la distribucin de frecuencias de un atributo o de una variable discreta.

    Frecuencia absoluta: nmero de veces que se repite un determinado valor de una variable o atributo.

  • Frecuencia relativa: proporcin o porcentaje de veces que se repite un valor.

    BIBLIOGRAFA: RICHARD I. LEVIN - DAVID S. RUBIN, ESTADSTICA PARA ADMINISTRADORES, ED. PRENTICE HALL, SEXTA ED., 1996