Herramientas de Análisis Estadísticos

21
Herramientas de análisis El objetivo de este módulo es conocer las características que subyacen en cada definición o conceptos para realizar un análisis cuantitativo de información. Específicamente la estructura de la materia está dividida en dos partes: Una que se denomina estadística descriptiva y otra la estadística analítica. La estadística trata del tratamiento de variables, más allá de que esa variable sea un dato socioeconómico, la talla o la cifra de presión arterial. El desarrollo o historia de la estadística a grandes rasgos Cuando surge la teoría estadística inferencial? Surge en Inglaterra a fines del siglo pasado, a lo largo del año 30 se terminan de desarrollar los test de hipótesis. La estadística sobre la recolección cuantitativa de información es mucha más antigua, se hacen compilaciones de datos en grandes cantidades, que es muy antigua, que comienza a permitir estudiar determinados fenómenos (nacimientos, muertes), esto permite conseguir ciertas regularidades en la presentación de ciertos resultados. Otro elemento importante en la aparición de la teoría de la probabilidad, a mediados del siglo 17, con el intercambio epistolar entre Pascal y Fermat (1550), los resultados de los juegos de azar, que se repetían con cierta frecuencia, son los primeros elementos para proponer la teoría estadística de la probabilidad. Bernoulli 1713, fórmula nuevas propuestas que engrosan la teoría probabilística, como uno de los primeros pilares. Bayes, con su teorema que resolvió algunos interrogantes de la teoría probabilística. La propuesta de Bayes se convirtió, en una propuesta que aplica los nuevos sistemas de los computadores, que requiere un gran volumen de cálculos, esto dio lugar a la inferencia bayesiana. En 1833, empezar a imaginar la mecanización del proceso de cómputo. Luego viene Gauss, desde el 1800 con la curva de Gauss. También tenemos el Chi cuadrado (x 2 ), es un desarrollo del 1900, por Karl Pearson, él fue uno de los pilares de la estadística, se le considera el padre de la estadística a Sir Ronald Peter, que publica en 1925, un libro sobre Estadística para el Investigador, es la piedra fundamental de la teoría estadística y el experimento estadístico. También tenemos a Neihman y Pearson que propusieron el test de hipótesis. A partir de allí comienza a acelerarse la producción de la técnica estadística y la técnica estadística. A partir del año 50, y nuevas teorías como la bayesiana, otros

description

Indicaciones sobre variables estadísticas

Transcript of Herramientas de Análisis Estadísticos

  • Herramientas de anlisis

    El objetivo de este mdulo es conocer las caractersticas que subyacen en cada

    definicin o conceptos para realizar un anlisis cuantitativo de informacin.

    Especficamente la estructura de la materia est dividida en dos partes: Una que

    se denomina estadstica descriptiva y otra la estadstica analtica. La estadstica

    trata del tratamiento de variables, ms all de que esa variable sea un dato

    socioeconmico, la talla o la cifra de presin arterial.

    El desarrollo o historia de la estadstica a grandes rasgos

    Cuando surge la teora estadstica inferencial? Surge en Inglaterra a fines del

    siglo pasado, a lo largo del ao 30 se terminan de desarrollar los test de hiptesis.

    La estadstica sobre la recoleccin cuantitativa de informacin es mucha ms

    antigua, se hacen compilaciones de datos en grandes cantidades, que es muy

    antigua, que comienza a permitir estudiar determinados fenmenos (nacimientos,

    muertes), esto permite conseguir ciertas regularidades en la presentacin de

    ciertos resultados.

    Otro elemento importante en la aparicin de la teora de la probabilidad, a

    mediados del siglo 17, con el intercambio epistolar entre Pascal y Fermat (1550),

    los resultados de los juegos de azar, que se repetan con cierta frecuencia, son los

    primeros elementos para proponer la teora estadstica de la probabilidad.

    Bernoulli 1713, frmula nuevas propuestas que engrosan la teora probabilstica,

    como uno de los primeros pilares. Bayes, con su teorema que resolvi algunos

    interrogantes de la teora probabilstica. La propuesta de Bayes se convirti, en

    una propuesta que aplica los nuevos sistemas de los computadores, que requiere un

    gran volumen de clculos, esto dio lugar a la inferencia bayesiana.

    En 1833, empezar a imaginar la mecanizacin del proceso de cmputo. Luego viene

    Gauss, desde el 1800 con la curva de Gauss. Tambin tenemos el Chi cuadrado (x2),

    es un desarrollo del 1900, por Karl Pearson, l fue uno de los pilares de la

    estadstica, se le considera el padre de la estadstica a Sir Ronald Peter, que

    publica en 1925, un libro sobre Estadstica para el Investigador, es la piedra

    fundamental de la teora estadstica y el experimento estadstico. Tambin

    tenemos a Neihman y Pearson que propusieron el test de hiptesis.

    A partir de all comienza a acelerarse la produccin de la tcnica estadstica y la

    tcnica estadstica. A partir del ao 50, y nuevas teoras como la bayesiana, otros

  • enfocan el anlisis estadstico como un anlisis exploratorio de un conjunto de

    datos, voy a explorar y analizar que regularidades presentan, y a partir de all,

    hacerme una idea de la realidad a partir del anlisis de este conjunto de datos. El

    desarrollo de Fisher (1922), aunque Fisher era muy abarcativo, indagar en los

    datos para ver qu elementos voy a utilizar para analizar esos datos. Luego vino la

    computadora (1990), uno tiene en la computadora una serie de datos que vamos a

    analizar le aplica un programa para obtener la informacin o plantear un modelo que

    simula lo que puede pasar para analizar el comportamiento de los fenmenos.

    Es importante definir lo que conocemos actualmente como estadstica, as podemos

    considerar una propuesta de un doctor en estadstica en Canad, que describe a la

    estadstica, bastante adecuada a la concepcin moderna de estadstica, como la

    ciencia y la prctica del desarrollo de conocimientos humano a travs de la

    utilizacin de datos empricos expresados en forma cuantitativa, como una rama de

    la teora estadstica que son modelados por la incertidumbre y por la aleatoriedad,

    como uno de los fundamentos de la teora de la probabilidad. Debido a que uno de

    los objetivos de la estadstica es producir la mejor informacin a partir de los

    datos disponibles, algunos autores consideran a la estadstica una rama de la teora

    de la decisin. La prctica estadstica incluye la planificacin, resumen e

    interpretacin de la informacin tomando en cuenta la variabilidad y la

    incertidumbre, estos dos conceptos estn siempre presentes en cualquier tcnica

    estadstica, sobre todo el de variabilidad en cualquiera de ellos y el de

    incertidumbre porque la estadstica se basa en analizar la informacin proveniente

    de una muestra y no de una poblacin completa, y esta muestra se supone que ha

    sido seleccionada por algn mecanismo aleatorio, por lo tanto tenemos un

    componente de azar dentro de los resultados que estamos analizando de nuestro

    conjunto de datos donde la aleatoriedad cumple un papel fundamental en este

    anlisis.

    Otra definicin de estadstica es la ciencia que se ocupa de la recoleccin de la

    informacin, anlisis e interpretacin de los resultados. Algunos asumen que la

    estadstica es la lgica de la medicin.

    Una vez hecho el panorama de a que nos vamos a dedicar en este mdulo, vamos a

    comenzar con lo que tiene que ver con el anlisis de distintas variables.

    En el tratamiento de los datos estadsticos vamos a suponer que tenemos a un

    conjunto de observaciones y que sobre esas observaciones hemos realizado

    medicin de variables.

    Ya aqu comienza el primer problema que es que entendemos por concepto de

    variable, podramos decir cmo es que algo que cambia de valores, es decir, que

  • vara. Los tipos de variables, y la conceptualizacin de variables son muy

    diferentes, por las diferentes definiciones de las distintas disciplinas que abordan

    estos temas. Por ejemplo, podemos tener la definicin de variable, como la

    caracterstica o propiedad de un hecho o fenmeno que puede variar entre

    unidades o conjuntos. Otra definicin, es una caracterstica que puede ser medida

    u observada. En las matemticas, una variable es un smbolo que puede tomar un

    valor de un conjunto determinado, a este valor del conjunto determinado se le

    denomina dominio de la variable.

    El tema es como llegar a la variable X y a los valores de esa variable, si estamos

    partiendo de un problema que requiere de una caracterizacin y definicin

    conceptual de un problema, que a veces no es tan sencillo de hacer, que es definir

    una caracterstica que pueda ser medida y observada, es decir, que el investigador

    tiene que poder llegar a medir, obtener un valor de la variable para luego poder

    llegar a hacer el anlisis y el procesamiento y el anlisis de esa informacin con

    distintos mtodos estadsticos.

    Ahora vamos a ver ciertos en las cuestiones de metodologa de la investigacin.

    Existen ciertos usos que no es igual a las definiciones en la estadstica que en,

    otras disciplinas, como puede ser la metodologa de la investigacin, acerca de que

    se entiende por variables o que se entiende por indicadores.

    Supongamos que tenemos un trabajo de investigacin y llegamos a plantear la

    siguiente hiptesis: los nios crecen ms rpidamente si consumen vegetales.

    Fjense que en toda hiptesis estn en juego las relaciones o se presentan las

    variables que van a ser objeto de nuestra investigacin.

    Cmo podemos hacer para medir las variables que figuran en esta hiptesis? Son

    directamente medibles? Cmo, por ejemplo? Ah ver cmo haran?

    Primero lo que podemos decir es que crecer no algo que se puede medir

    directamente, en cambio si hubiera dicho, el peso de los nios se incrementa ms

    rpidamente si comen vegetales, el peso del nio es algo que si se puede medir

    directamente, por eso tendra que decir, usando una balanza de tal tipo y de tal

    otro, tendr que buscar el instrumento para cuantificar el peso, con una balanza

    para medir el peso, que es un concepto ms claro que se puede medir, en cambio el

    concepto crece, es un concepto ms amplio que el peso. En este sentido el peso es

    una variable que se refiere a una conceptualizacin, es decir una definicin

    conceptual y esa conceptualizacin nos va a permitir definir, tambin, cul va a ser

    la forma de definicin de esa variable.

  • Lo mismo que el consumo de vegetales, podemos hacer una encuesta que diga:

    Usted consume vegetales? Seguro que vamos a querer acotar un poco, o qu se

    entiende por consumo de vegetales, cul es la frecuencia, que tipos de vegetales,

    es decir, vamos a tener distintos tipos de elementos que componen esas variables,

    por lo tanto, por lo tanto es importante definir las variables que permitan la

    reproduccin exacta del proceso de investigacin, esto es clave en cualquier

    investigacin, ya sea cualitativa o cuantitativa, el hecho de que la misma pueda ser

    reproducida, que cualquier otra persona que lea el apartado de los materiales y

    mtodos del trabajo de investigacin, puede llegar a replicar esa investigacin, y si

    yo no soy claro en lo que yo entiendo por estos conceptos y como los voy a medir,

    cualquier otra persona puede entender cualquier otra cosa y medir en forma

    diferente estas variables.

    Entonces lo primero que tenemos que hacer es identificar las variables que

    intervienen en la pregunta de investigacin, por lo tanto, se puede decir que la

    identificacin de las variables se inicia cuando se explicita el problema, los

    objetivos y contina con el marco terico, va a hacer falta conceptualizacin de las

    variables que van a intervenir en la investigacin que se realice e insisto que esa

    identificacin adecuada y conceptualizacin es crucial porque es esto lo que va a

    establecer cmo se va a medir esa variable.

    La misma variable que mencionbamos recin, el peso, estbamos hablando del

    aumento de peso de los nios, estoy presuponiendo que probablemente para este

    caso el peso en kilos de los nios con una determinada cantidad de decimales, y a su

    vez que voy a tomar esa medida a travs de una balanza. En otro mbito yo podra

    medir el peso preguntndole a la persona que cunto pesa, es tambin un

    instrumento de medicin. Tendramos dos tipos de instrumento una es a travs de

    la declaracin de la persona y la otra es un instrumento que podramos decir que es

    ms objetivo en esa medicin. Pero en otros casos el peso, podramos decir en el

    caso de los nios recin nacidos, se podra decir si pesa ms o menos de 2.500

    gramos, es lmite de bajo peso al nacer.

    Fjense que la forma en que estamos midiendo, a pesar de que el concepto es el

    mismo, es el peso de un individuo, la forma en que estamos definiendo su medicin

    es totalmente distinta, ya sea en 2 categoras, para el caso del nio, es los valores

    que me d la balanza en la que puedo predefinir niveles de precisin, o a travs de

    la declaracin de la persona, seguramente, voy a tener problemas de redondeo y

    una precisin menor que la que pueda tener con una balanza. Entonces este es el

    objetivo de identificar correctamente las variables que persigo.

  • Dentro de los ejemplos que plantea el material bibliogrfico, el libro de Pineda,

    habla por ejemplo de factores econmicos, fjense que hay variables mucho ms

    complejas que otras, hay variables mucho ms complejas que otras, si yo hablo de

    factores econmicos la amplitud de ese concepto requiere necesariamente hacer

    un recorte y definir claramente que es lo que vamos a entender por factores

    econmicos. Para hacer este recorte tenemos que basarnos en cul es nuestro

    marco terico. Quizs podamos hablar del ingreso del padre, o del ingreso del jefe

    del hogar o del ingreso del hogar en su conjunto, si adems perciben o no subsidios,

    y probablemente cuando hacemos la revisin bibliogrfica o de nuestra

    investigacin, vamos a encontrar que existen otros aspectos sobre este concepto

    de factores econmicos que sea necesario o interesante incluir, como por ejemplo,

    el nivel de instruccin del padre. Ahora una vez que hemos logrado realizar una

    definicin de nuestra variable lo que tenemos que revisar luego es lo que se conoce

    con el nombre de Proceso de Operacionalizacin de esa variable, que es uno de los

    procesos ms difciles de la investigacin cuando estamos hablando obviamente de

    variables que tienen un nivel de complejidad grande, obviamente si estamos

    hablando sobre el peso nos pondremos de acuerdo rpidamente Pero si por

    ejemplo, si tomamos la variable obstculo, que entiendo por obstculo, como

    ponemos medir obstculo, necesariamente se debe hacer la definicin operativa de

    que se entiende obstculo, una vez hecha la definicin operativa, lo que se va a

    necesitar revisar es lo que se conoce con el nombre de Operacionalizacin, es

    decir, como llevar de ese plano abstracto al plano practico que el investigador

    pueda en el estudio que estudio que est haciendo sea viable de medir, que en el

    enfoque cuantitativo se requiere medir tener una medicin, por lo tanto, esta

    operacionalizacin es la que nos lleva de un nivel abstracto a un plano ms concreto

    y en este proceso lo que vamos a lograr hacer es decir o explicar cmo se miden las

    variables que se han seleccionado en el estudio que est desarrollando el

    investigador, y su funcin bsica es precisar al mximo el significado o el valor que

    se le otorgue a la variable en un determinado estudio, que puede ser diferente, por

    ejemplo, la pobreza. Si hablamos de pobreza, como medimos la pobreza, bueno si un

    estudio decide hacerlo a travs de si el hogar es pobre o indigente tomando en

    cuenta el nivel de ingreso que tiene ese hogar, o a lo mejor otro decide hacerlo con

    otro indicador llamado Necesidades Bsicas Insatisfecha (NBI), que no toma en

    cuenta el valor monetario del ingreso. Si bien estos dos indicadores estn

    vinculados con pobreza, miden aspectos diferentes de este concepto, y no

    necesariamente son comparables uno con otro. Desde un punto de vista tcnico,

    tengo que considerar cual es mi conceptualizacin de esta variable y podra tener

    un resultado diferente a otro estudio, por eso lo importante es que est claro en el

    estudio es cul fue esa conceptualizacin, porque si no es as no puedo entender a

  • qu se debe la diferencia entre ambos estudios. El marco terico y los objetivos

    son los que van a definir porque eleg esa variable.

    Algunas variables no ofrecen mucha dificultad, o a la mejor s como es el caso del

    sexo o gnero, y en el caso de la edad, puede ser que sea aparentemente sencillo,

    pero hay que fijarse en lo que tiene que ver con los registros de mortalidad en los

    registros de internacin, las edades se consideran diferentes o el nivel de detalle

    de la edad se considera diferente si yo estoy revisando la mortalidad para un

    adulto que para la mortalidad en menores de un ao, all me va interesar

    desagregar la cantidad de meses, de das o de minutos que tenga el nio. De esta

    manera la edad puede ser distinta de acuerdo al fenmeno que se est estudiando.

    A veces, en relacin con la edad, puede considerarse tambin la edad es a qu

    momento, Est bien, sabemos que la edad son los aos cumplidos, pero los aos

    cumplidos cuando, cuando la persona desarroll la enfermedad, cuando hizo su

    primera visita al mdico, al momento de la entrevista, entonces fjense que tengo

    que definir, aunque sea edad, pero tengo que establecer la edad en que momento se

    est midiendo.

    Otras variables pueden aparentar no tener dificultades, una es el ingreso, pero

    cuando empezamos a bucear un poco, que se entiende por ingreso de una persona o

    del hogar se puede llegar a encontrar con que hace con la percepcin que tiene la

    persona sobre como obtiene ese ingreso, que es lo que hace la persona para recibir

    ese ingreso si es un trabajo retribuido, o es dinero que le deriva la familia o recibe

    ese ingreso de un determinado plan. Entonces, tengo que poder establecer en ese

    concepto de ingreso todos los elementos que vamos a considerar necesario con que

    recibe de tengo que reconocer todos esos elementos del ingreso que vamos a

    considerar y bueno, es este tipo de variables la que ameritar de un mayor esfuerzo

    para poder realizar una correcta operacionalizacin en su contenido de medicin.

    Si tenemos la variable satisfaccin del paciente o un trato humanizado, tendremos

    que saber bien que entendemos sobre estos conceptos para luego poder medirlos.

    Ahora veamos un ejemplo de un trabajo en relacin con el conocimiento que se

    tiene sobre la trasmisin sobre el HIV Sida. Para que esto se pueda medir lo

    primero que hay que establecer son los procedimientos operativos que especifican

    como se har esa medicin y al mismo tiempo definir, lo que quiere decir el

    investigador con conocimiento sobre cmo se trasmite el VIH sida.

    Conocimiento es un concepto abstracto, lo que se necesita es un evento observable

    que se pueda medir y que indique el conocimiento. Es decir, que tenemos que buscar

    algo que podamos medir y que el resultado de esa medicin sea un indicador de que

    la persona tiene o no ese conocimiento sobre el VIH Sida.

  • Ahora viene algo que es como una guia de cmo realizar este proceso, es una

    orientacin, digamos, este proceso de operacionalizacin, es una orientacin y no

    necesariamente debe realizarse con todas las variables depender del nivel de

    complejidad que tenga la variable para ver hasta donde tengo que yo descomponer

    ese concepto.

    Muchas veces es factible descomponer una variable en distintas dimensiones o en

    aspectos diferentes a pesar de que forman parte de este mismo concepto, por

    ejemplo si hablamos de pobreza, podramos relacionar pobreza por un lado con lo

    que tiene que ver con medios econmicos y otra lo que tiene que ver con pobreza

    material, digamos como lo que veamos antes, la NBI combina cosas sobre las

    caractersticas de la vivienda con las caractersticas de las personas, como nivel

    de instruccin de las personas que viven en el hogar, en cambio, otra dimensin

    podra que pudiramos medir es el nivel de ingresos econmicos del hogar. No

    todas las variables necesitan ser descompuestas en dimensiones, hay variables en

    las que uno pueda ver que hay aspectos como separados y podamos como subdividir

    ese gran concepto en distintas partes que nos permita facilitar la definicin de que

    es lo que vamos a ir a medir y por ltimo esas dimensiones pueden ser traducidas

    en indicadores que es lo que vamos a ir a medir.

    Lamentablemente la palabra indicador o indicadores, no es un trmino muy feliz

    porque se entienden distintas cosas por indicador de acuerdo con a que estemos

    trabajando. Por ejemplo en algunas presentaciones de Metodologa de la

    Investigacin, por indicador ya se habla de un ndice que est expresando una

    caracterstica del sujeto o del objeto que estemos analizando. Por ejemplo el NBI

    seria sera el indicador o el porcentaje de personas indigentes es un indicador.

    Desde la estadstica estamos como un paso antes, si vamos a construir el NBI

    vamos a necesitar distintas variables definidas desde el punto de vista estadstico,

    voy a necesitar saber si hay hacinamiento, o el nmero de personas por cuarto,

    tengo que saber cul es el nivel de instruccin del jefe del hogar, luego con cada

    uno de esos elementos que son variables desde el punto de vista estadstico yo lo

    voy a sintetizar en un solo indicador como el NBI, pero fjense, que cuando vemos

    el material de Metodologa de la Investigacin, pasan de las variables conceptuales

    a tener un indicador. En la edad, por ejemplo, cul sera ese indicador relacionado

    con la edad, en realidad si estamos hablando sobre los de bajo peso serian el

    porcentaje de nios con bajo peso, sera el porcentaje de nios que estn por

    debajo de 2.500 gramos, pero en realidad lo que yo voy a medir es el peso de los

    recin nacidos, es como una seal o caracterstica de determinado sujeto u objeto

    que estamos viendo o estudiando. Ejemplo, si yo mido la presin arterial a travs de

    un manguito eso me va a dar un valor numrico, es eso un indicador de

  • hipertensin arterial?, no porque yo tengo la medicin de la presin sangunea para

    convertirlo en un indicador de la hipertensin arterial, tengo que definir un valor a

    partir del cual yo voy a considerar que esa medicin es un indicador de la

    hipertensin arterial de esa persona. Algunos autores definen un ndice seria la

    medicin de lo que yo estoy revisando y un indicador seran los valores que me

    indican algo con respecto de ese sujeto, por ejemplo que es hipertenso.

    Vamos por ejemplo un indicador y un ndice sencillo o simple, consideremos la tasa

    de mortalidad infantil, vera la tasa como valor puede ser cualquier valor que puede

    ser desde cero hasta el valor que se produzca, pero cuando considero importante

    ese valor de mortalidad infantil, cuando ese valor supere determinados valores, que

    segn el consenso considerado en determinada poca segn el conocimiento

    cientfico y tecnolgico, y de la atencin de la salud, sabemos que una tasa de

    mortalidad infantil de ms de 15 por mil, es una situacin grave para la poblacin

    infantil. Yo cuando mido, mido el valor de la mortalidad infantil, luego hare una

    caracterizacin de esa poblacin a partir de determinado valor, es decir una tasa

    de mortalidad infantil elevada es un indicador de una situacin de salud

    desfavorable de la salud de la poblacin infantil de esa regin, por eso decimos que

    el concepto de indicador es diferente de acuerdo a la disciplina en la cual estemos

    viendo el uso de ese trmino.

    Que implica el proceso de dividir una variable en dimensiones, es como separar

    componentes en aspectos diferentes que puede tener ese concepto, es decir, por

    dimensin se entiende un componente significativo de una variable que posee una

    relativa autonoma. Una misma cualidad puede considerarse como una variable en si

    o como una dimensin de una variable mayor, segn el enfoque y el propsito que

    tiene cada investigacin. No se trata de definiciones de carcter instrumental, lo

    que significa que no siempre es necesario dividir una variable en dimensiones y una

    misma variable puede tener de acuerdo a distintos trabajos distintas dimensiones

    y a su vez cada dimensin puede tener ms dimensiones. Es un proceso, digamos,

    que nos orienta a llegar al final que nos interesa, que es la posibilidad de definir

    algo que sea medible u observable.

    Bueno como comentamos anteriormente en el trabajo de Pineda sobre indicadores,

    para ello nos informan que no siempre los indicadores son fciles de medir y a

    veces tienen que ser sustituidos por otros que son menos confiables pero ms

    accesibles al investigador. Un ejemplo de esto lo tenemos en la encuesta de

    factores de riesgo en Argentina, cmo se mide la hipertensin en la encuesta de

    factores de riesgo?, o si la persona es diabtica por referencia de la persona, este

    estudio se hizo de esa manera por la cuestin econmica de la viabilidad. Porque

    tomarle la presin a todas las personas tiene un costo adems tengo que

  • asegurarme que los aparatos sean todos iguales y que estn calibrados y dems, la

    declaracin de la persona tambin tiene un costo pero es ms barato pero podra

    llegar a tener un nivel mayor de error en la declaracin, all uno tendr que hacer

    un balance entre el nivel de error de la medicin contrastndolo con el costo

    operativo que se tendr con el uso de los tensimetros. En cambio la encuesta

    Nacional de Nutricin y Salud que se hizo en el 2004, tena una muestra y una

    submuestra a la cual se le haca extraccin de sangre, y a esa sangre se le

    realizaron una serie de anlisis para las mediciones de las variables que

    determinaron o no las carencias de la poblacin materno infantil con determinadas

    caractersticas. Bueno algunas veces uno tiene que resignar el nivel de precisin de

    la variable que tiene objeto de estudio, puede sacrificar precisin, pero se sabe

    que se va a poder hacer viable el registro de esa variable. Y otro que los

    indicadores sugeridos no midan exactamente la variable en cuestin sino un

    aspecto colateral que en realidad posee menor relevancia que si tuviramos el valor

    de la variable tal como quisiramos pero nuevamente la practicidad de la medicin

    lo hace viable. Un ejemplo de esto es lo que sucede con el indicador nivel de

    instruccin como un proxy del nivel socio econmico de la persona, pues para hacer

    una medicin ms precisa tendramos que tener entre otros elementos el nivel de

    ingresos, pero se ha demostrado que el nivel de instruccin es una caracterstica

    fuertemente relacionada con el nivel socio econmico y explica bien el fenmeno

    que uno est analizando.

    Bueno y para resumir todo este proceso, podemos decir que a partir de una

    variable terica y que es compleja, definir que es un conjunto para el cual

    necesitamos hacer una definicin. Esa definicin conceptual puede ser desagregada

    o no en distintas dimensiones. Cada una de esas dimensiones necesita de una

    definicin operacional, es decir, como vamos a realizar la medida. Eso es lo que nos

    va a permitir obtener lo que podemos llamar Variable Emprica, sobre esta variable

    emprica es que nosotros vamos a aplicar distintos mtodos de procesamiento

    estadstico.

    Vamos a revisar este ejemplo que tiene que ver con la accesibilidad de los usuarios

    al centro de salud. Entre las variables que se presentan la accesibilidad geogrfica

    medida como el tiempo que el usuario tarda en llegar al centro de salud. Fjense

    que esta es una variable que nosotros podemos medir, porque si colocamos en una

    encuesta, Cunto tarda usted en llegar al centro de salud? Eso lo podemos medir

    en minutos que tarda en llegar el usuario desde el domicilio al centro de salud. En el

    caso de accesibilidad econmica, tenemos los ejemplos de la cantidad de dinero que

    gasta para recibir la atencin y el otro dice tipo de va econmica para cubrir este

  • gasto, esto entendemos que quiere decir si tiene la disponibilidad econmica para

    cubrir el gasto de la atencin.

    Miremos ahora sobre la accesibilidad cultural los indicadores que ponen

    (percepcin y conocimiento) son sub dimensiones de esa variable que estamos

    considerando. Habra que llegar a algo equivalente a conocimiento y percepcin que

    sea medible u observables.

    En muchos trabajos publican lo que se llama las matrices de datos, donde aparecen

    las variables, la definicin conceptual de esas variables, la escala de medicin y los

    indicadores y muchas veces se observan muchos problemas para la confeccin de

    estas matrices. Otro ejemplo es un material que est enfocado a un problema

    escolar. Lo que presentan los autores nos dan como variable la integracin escolar,

    en la definicin conceptual: grado de aceptacin de la comunidad escolar regular

    para aprender y convivir con nios con capacidades especiales. Descomponen estas

    variables en distintas dimensiones, una primera dimensin hace referencia a los

    directivos de los establecimientos. Podemos notar que uno de los primeros

    indicadores es el inters y voluntad en aceptar nios con capacidades especiales,

    (parece seguir siendo un indicador medio general), seguidamente se muestran las

    preguntas en las entrevistas con las que se intenta caracterizar esta dimensin:

    desde cundo aceptan nios con capacidades especiales?; Quin tom la

    iniciativa? Y Cules fueron las estrategias para llevar a cabo este proyecto?, otra

    dimensin puede estar relacionado con los docentes o con las familias de los nios

    que concurren a la escuela. Podemos ver que otra de las dimensiones son las

    opiniones de los docentes y habla de sensibilizacin y preparacin para la atencin

    de los nios con capacidades especiales, dentro del aula. Una vez ms podemos ver

    que sensibilizacin parece un indicador algo complejo de medir, pero hay que

    insistir que la palabra indicador se usa en forma diferente en diferentes

    disciplinas y no va a estar muy claro en cual va a ser su dimensin.

    Hay un artculo en la parte final del libro de la materia que se llama Prevalencia y

    factores de riesgo del sobrepeso en colegialas de 12 a 19 aos en una regin

    semiurbana del Ecuador. En este trabajo el objetivo era determinar la prevalencia

    de factores de riesgo de sobrepeso en colegialas de 12 a 19 aos, en una regin

    suburbana del Ecuador, e investigar la posible relacin con el IMC, la actividad

    fsica que ellas desarrollaban, la ingesta de macronutrientes as como el ndice de

    masa corporal estimado de los padres. Qu es lo primero que podemos observar

    en el listado de las variables?, el trabajo es reproducible no es reproducible?,

    qu tipo de medicin se realiz?, para algunas otras cosas se omitieron detalles,

    por ejemplo, el nivel socio econmico se dividi arbitrariamente, pero porque

    utilizaron esta forma tan prctica sobre el nivel socioeconmico, porque se

  • sacrifica tanto en una variable, porque no es uno de los objetivos del trabajo, que

    si habla sobre prevalencia y factores de riesgo sobre obesidad en las

    adolescentes, no dice el nivel socioeconmico en el sobre peso, es decir, no es una

    variable fundamental, por lo tanto, es una variable secundaria y por eso uno puede

    hacer una medicin bastante sencilla, ahora, si el nivel socioeconmico hubiera sido

    una variable principal que estuviera en los objetivos, entonces hubiramos podido

    cuestionarlo y decir que deberan haberlo definido de otra manera, adems de que

    debera aparecer la definicin que all no aparece, lo que esta es cmo lo miden. A

    diferencia de eso lo que tiene que ver con la antropometra si est totalmente

    especificado hasta el modelo que usaron para registrar esa variable, que es una

    variable que es fundamental para el estudio que se est realizando. Tambin el

    clculo de sobrepeso y obesidad aparece bien definido de cmo fue que lo

    realizaron y las tablas de referencias que usaron, lo mismo pasa con la distribucin

    de la grasa. Ahora vamos a detenernos en el ndice de masa corporal de los padres,

    dice que para estimar el ndice de masa corporal de los padres usaron una tabla de

    imgenes y se les pidi a las adolescentes participantes que sealaran la imagen

    ms parecida a sus padres, este procedimiento fue validado a travs de un estudio

    especfico por qu podemos asumir que los investigadores hicieron esto? Porque

    es ms fcil obtener la informacin de las adolescentes que estaban en el colegio

    que hacer venir a los padres o ir a buscarlos para obtener la medicin, este es otro

    de los casos en que estamos dispuestos a perder un poco de precisin en cuanto a

    la medicin, pues no va a ser lo mismo que pesarlo y tallarlos para tomarle las

    medidas y estimarlo en lugar de hacerlo por el mtodo propuesto, uno obtiene una

    variable con menor poder de precisin pero que puede incorporarla en el estudio,

    con lo que se puede llevar a la prctica y realizar el procedimiento. Esto es muy

    importante en una investigacin de porque se utilizan este tipo de instrumento.

    Cuando se utilizan este tipo de instrumentos se debe hacer una validacin cultural

    del instrumento, es decir, as como la balanza tenemos que garantizar que mida

    siempre lo mismo y que no tengo en sesgo en la medicin, de esa misma manera

    tenemos que validar otros instrumentos como cuestionarios e imgenes, tenemos

    que garantizar que esto mida lo que dice que mide y es por eso que los autores

    detallan el proceso de validacin del instrumento. Lo mismo que la medicin de la

    ingesta calrica que se registra a travs del cuestionario de la ingesta de 24 horas,

    que se supone que alguien debe haber validado para garantizar que el cuestionario

    mide lo que realmente dice que mide.

    Ahora vamos a ver otra publicacin que est en la Revista Cubana de Enfermera,

    que se refiere a causas de inasistencia a la consulta de patologa de cuello. Se

    realiz un estudio descriptivo de corte transversal en el Municipio San Jos de la

    Habana en 40 mujeres entre 25 y 65 aos que tenan diagnstico de VPH, NIC I,

  • NIC II y NIC III que es estuvieron inasistentes a la consulta de patologa de

    cuello desde el 1 de enero al 31 de diciembre del 2006, se practic un cuestionario

    para identificar las distintas causas de la inasistencia y adems se supervisaron los

    consultorios donde asisten estas pacientes para constatar acciones llevadas a cabo

    en estos consultorios. Se estudiaron las variables edad, nivel de instruccin, tiempo

    de inasistencia, conocimientos sobre su enfermedad, acciones de salud precisadas

    y principales causas de inasistencia. Se concluy que las mujeres tenan

    conocimiento de su enfermedad y su pronstico, as como tambin que las acciones.

    Dentro de las causas se encontraron las vinculadas con el funcionamiento de la

    consulta y con el diagnostico. Vamos a enfocarnos en los mtodos: dice que se les

    aplico un instrumento basndose en principios ticos y polticos. Veremos la

    variable edad, tomndose como el ltimo ao cumplido al entrevistar a la mujer, es

    decir no dice la edad de la persona sino el momento en el cual se est tomando la

    edad. En estos indicadores aparecen todos multiplicados por 100, lo que hicieron

    fue calcular los valores y sacar los porcentajes, pero esto no es lo correspondiente

    al concepto de indicador que hemos venido manejando como lo explicado por Pineda

    y Alvarado, como hemos visto, es una forma diferente de presentar el indicador

    que no parece muy correcta pues de la forma como aparece porcentaje podra

    aparecer media o mediana, pues el indicador segn Pineda y Alvarado, es la

    variable emprica que vamos a medir. En el caso de nivel de escolaridad aparece el

    ltimo nivel vencido y repiten esto de los por 100, se entiende que se refiere la

    cantidad de personas segn los niveles de escolaridad y el porcentaje de cada uno

    de ellos. Sobre el nivel de escolaridad tienen que declarar si y tienen el nivel

    aprobado o se encuentran cursndolo, esto es distinto a los aos de escolaridad

    que tengan cursado la persona. En relacin con los das de inasistencia se refiere al

    ltimo da de asistencia a la consulta de patologa de cuello de nuevo por 100.

    Cuando revisamos el cuestionario, vemos que en lo referente a la edad lo deja

    abierto y las mujeres colocan su edad y al igual que el nivel de instruccin puede

    ser registrado de forma equvoca pues no hay una persona que oriente porque es un

    cuestionario auto-administrado annimo, entonces se pueden producir sesgos en los

    resultados. De esta manera tendramos que ponerle indique el ltimo nivel

    aprobado. Debemos fijarnos que en la definicin operativa de la variable, dice edad

    y nivel de instruccin y lo describen como ya lo vimos, pero en la encuesta aparece

    para ser registrado de manera diferente, esto es un error y debe tenerse en

    cuenta sobre todo si trabajamos con datos secundarios. Si estoy dando mi tabla de

    operacionalizacin de las variables tengo que registrar como voy a medir esa

    variable, pero en la encuesta colocaron edad seguido de dos puntos (:) por lo cual

    van a tener la edad en aos cumplidos que no es lo mismo a como ellos dicen que van

    a registrar la edad, ni tampoco se coloca el procesamiento de esos datos o como

  • voy a agrupar esos datos porque eso es otra etapa de la investigacin. Lo otro es

    que en el cuestionario no tiene el apartado donde registrar el ltimo da en que la

    paciente asisti a la consulta, lo que significa que este dato sale de otra fuente, lo

    cual quiere decir que en materiales y mtodos deben explicitar cual es la fuente de

    donde sale esta informacin, que seguramente fue a partir de la ficha del

    consultorio, esto debera estar indicado en el apartado de materiales y mtodos. Si

    nosotros vamos a utilizar una fuente secundaria como una matriz de datos ya esa

    matriz de datos tiene limitada esa operacionalizacin de esa variable, solo debe

    declararse la decisin operativa de cmo se midi esa variable, nunca hacer

    nosotros esa definicin porque no tenemos que mezclar lo que son definiciones mas

    para poder realizar el agrupamiento de la informacin con la definicin operativa

    de quien decidi esa definicin por la persona que hizo el relevamiento de esos

    datos. Distinto es cuando yo soy el que estoy produciendo esos datos, es una

    fuente primaria, y all yo si voy a decidir la forma de como yo voy a medir esa

    variable, en la otra opcin voy a tener que lidiar con otras limitaciones atribuidas a

    esas fuentes secundarias y acceder a las definiciones operativas para tratar de

    entender con qu material uno se va a encontrar.

    Bueno una vez que hemos llegado a identificar las variables empricas o estas que

    son viables para hacer la medicin u observacin, tenemos que comenzar con el

    proceso mismo de medicin de esas variables. La medicin es la clasificacin de

    casos o situaciones y sus propiedades de acuerdo a ciertas reglas lgicas,

    asignacin de nmeros a las observaciones de modo que los nmeros sean

    susceptibles de anlisis por medio de ciertas operaciones de acuerdo a ciertas

    reglas. En resumen, se refiere a la cuantificacin o a la cualificacin de una

    variable en estudio y las variables se clasifican segn la capacidad, el nivel o la

    fortaleza o la escala en que fueron medidas esas variables. Y ac debe hacerse una

    observacin que parece obvia, y es el hecho de que sea un estudio cuantitativo no

    implica que no contemple variables cualitativas, porque una cosa es que el abordaje

    sea cuantitativo y la variable sea cualitativa o cuantitativa, es decir, yo puedo

    hacer un abordaje cuantitativo de informacin o de variables que son de tipo

    cualitativas que explican una cualidad o caracterstica del objeto o del sujeto

    sobre el cual estoy realizando la investigacin, por ejemplo, si hablamos del nivel de

    instruccin es una cualidad o si estamos hablando del lugar de procedencia del

    paciente de un determinado servicio de salud, lo que haremos luego es resumir esa

    variable cualitativa de acuerdo a indicadores de naturaleza cuantitativa, por

    ejemplo podemos decir que un determinado porcentaje de personas tienen un lugar

    determinado de procedencia o diremos que un determinado porcentaje de personas

    tienen un nivel inferior al nivel secundario completo .

  • Ahora vamos a explicar las propiedades de las escalas de medicin, estas

    propiedades tienen naturaleza jerrquica en el sentido de que las primeras estn

    contenidas en la escala que sigue en las siguientes y estas estn contenidas en las

    otras. La primera, la mas elemental es la que se conoce como Escala Nominal y lo

    que hace es asignarle un nombre un rotulo diferente que puede asumir la variable.

    De esta manera si nuevamente estamos hablando del lugar de procedencia de esas

    personas, podemos decir que unas personas provienen del barrio A y otras personas

    provienen del barrio B, yo puedo ponerle una etiqueta un nombre diferente que

    pueda asumir esa variable y lo que yo voy a poder hacer son operaciones de

    comparacin entre esos valores. Entonces si dos personas tienen la misma etiqueta

    del barrio A entonces vienen del mismo lugar, y si tengo una persona con la

    etiqueta de barrio A y otra de barrio B entonces esas personas vienen de lugares

    diferentes, entonces all solamente puedo hacer operaciones de comparacin, de

    igualdad y de diferencia entre los valores de esa escala de medicin. La escala

    siguiente en nivel de complejidad es la Escala Ordinal como aquella que adems de

    hacer operaciones de comparacin, igualdad o diferencia me permite poner los

    valores de la variable en un determinado orden, por ejemplo no hay diferencia

    entre el barrio A y el barrio B pero si lo hay en el nivel de instruccin entre el que

    termino la primaria y el que culmin la secundaria porque tiene un nivel de

    instruccin mayor y este a su vez tiene un nivel menor que el que hizo el nivel

    universitario, entonces la caracterstica de la escala ordinal es hacer un

    ordenamiento y de all su nombre, el de poner un orden entre los valores de la

    variable. La escala siguiente es aquella que adems de permitirme poner los valores

    en orden permite cuantificar la magnitud entre la diferencia de dos valores

    parecidos, por ejemplo si yo tuviera la cantidad de aos de escolarizacin, puedo

    decir que el que tiene menos de 2 aos y tiene menos que 4 y este tiene 4 pero

    menos que 6, entonces el que tiene entre 2 y cuatro tiene dos aos de

    escolarizacin bsica menos que el que est entre el que tiene 4 y el que tiene

    menos de 6, es decir podramos hacer operaciones matemticas de diferencias

    entre los distintos valores de la variable, puedo calcular los distintos grados de

    magnitud de diferencia entre los distintos valores de la Escala de Intervalos, es la

    escala de intervalos. Ahora que le falta a esta escala para ser una escala en la cual

    podamos hacer todas las operaciones con los valores de la variable, lo que falta es

    hacer el clculo de operacin de los cocientes entre los valores de la variable, es

    decir puedo medir la diferencia entre dos valores pero no puedo establecer

    relaciones de cociente, de proporcin o de razn entre los 2 valores de la variable.

    La escala que permite realizar operaciones de cocientes se le denomina Escala de

    Razn, la diferencia es que la escala de intervalos el CERO es un cero arbitrario y

    no indica la ausencia de caracterstica y la escala de razn el cero indica la

  • ausencia de la caracterstica. Un ejemplo, es la temperatura y otra es la altura con

    respecto de un determinado punto de referencia. Supngase que un da vamos a

    hacer una observacin a un lago para medir el nivel del agua, y hay 2 postes que

    salen del agua, entonces si yo mido la altura del nivel del agua respecto de los

    postes hay diferencias entre las alturas, cual es la diferencias entre los dos, es la

    distancia entre los diferentes niveles del agua, supongamos que voy otro da y el

    nivel del agua es diferente, ahora la longitud del nivel del agua vara, la relacin de

    cociente entre los dos valores deja de ser importante cuando el punto de

    referencia es arbitrario. Entonces la escala de razn es la escala ms potente es la

    que contempla y tienen sentido todas las operaciones matemticas entre los

    valores de la variable. Porque tienen importancia todas estas escalas de medicin,

    porque hay distintos mtodos estadsticos cuya potencia depende de cmo hemos

    realizado esa escala de medicin, fjense que no es lo mismo realizar una medicin

    del peso en kilogramos que realizar la medicin de peso de ms o menos de tanto, si

    yo lo convert en ms y menos tengo solamente 2 categoras, y en su lugar lo tengo

    en kilogramo tengo una escala de razn para poder realizar con ella todas las

    operaciones que estamos planteando con el estadstico.

    La clasificacin general de las variables puede hacerse en Variables Cuantitativas y

    Variables Cualitativas y dentro de las variables cuantitativas, se diferencian dos

    tipos de variables: las que corresponden a las variables discretas y las que

    corresponden a las variables continuas. Por ejemplo, si yo mido la cantidad de hijos

    que ha tenido una mujer en un determinado momento de su vida, esa variable es

    cuantitativa, es una cantidad, pero va a tener solamente valores enteros, donde

    puede estar incluido el valor 0, y puede tener 1 hijo, 2 hijos o 3 hijos, no es posible

    obtener un valor entre los 2 nmeros enteros cualesquiera, a esto se le denomina

    valores discretos o discontinuos, lo ms frecuente en estadsticas es denominarlas

    Variables cuantitativas discretas. Y en el caso que la variable pueda asumir el valor

    entre dos nmeros enteros cualquiera se le denomina Variable Cuantitativa

    Continua, por ejemplo el peso, puedo medir kilos con gramos es decir con decimales,

    y si tengo un instrumento de medicin muy preciso puedo medir con la cantidad de

    decimales que quiera, por lo cual es una variable cuantitativa continua. Al igual que

    con la edad pues tericamente podemos medir la edad con los aos cumplidos con

    los das con los meses con los das y otros por lo cual se considera una variable

    cuantitativa continua.

    Agrupar en intervalo no me transforma en intervalo una variable de intervalo, pues

    es realidad lo que yo tendra son cuatro categoras y por lo tanto lo que yo tendra

    es una variable ordinal, porque los que estn en cada intervalo tienen menos entre

    s, lo que yo estara en realidad midiendo es una variable ordinal, cuatro grupos

  • cuatro categoras que seran los que tienen menor edad, con los cuales voy a hacer

    relaciones de orden pero no voy a hacer suma o procedimientos especficos con

    esos valores, porque le he puesto 4 rtulos a la edad y saber ordenar esos rtulos.

    Si digo ms de 25 o menos de 25 no voy a poder hacer entre esos dos grupos

    operaciones no es una variable continua. Las variables nominales se dividen en:

    Dicotmicas si tienen dos valores y cuando tienen ms de 2 valores Politmicas. Por

    ejemplo el que fuma s o no, es una variable nominal dicotmica, y politmicas como

    en este caso del nivel de instruccin tengo varias categoras. La escala es ordinal

    cuando puedo establecer distintos rdenes segn el valor de la variable. El

    problema es que si uno se queda con la escala ms baja est perdindose la

    potencialidad de la escala ms alta, puedo hacer ms cosas si tengo una escala ms

    potente que la escala nominal, as el tratamiento de una escala ordinal me permite

    hacer mayores cosas que el tratamiento de una escala nominal.

    Otro ejemplo, consideraciones clnicas epidemiolgicas de la estomatitis en la

    consulta de pacientes con prtesis de la consulta estomatolgica, se realiz un

    estudio descriptivo observacional transversal con el fin de determinar los casos de

    estomatitis prxima. Dice: operacionalizacin de las variables, nos dan nuevamente

    una descripcin de la edad y dice segn los aos cumplidos, en el caso del sexo la

    definicin dice segn sexo biolgico, la otra variable es la gravedad clnica de la

    estomatitis (1-2-3) y aqu si nos da un criterio de una variable de tipo ordinal. En la

    descripcin colocan segn el nmero de veces que el paciente lava la prtesis: una a

    dos veces, dos a tres veces, cuatro veces cada vez que ingiere alimento, que opinan

    de esta escala de medicin, tienen un problema porque la primera contiene a la

    segunda y si solo ingiere una vez alimento tambin contiene a una vez, entonces las

    propiedades de la escala de medicin son: Exhaustividad y Exclusin, es decir, si a

    una persona no la puedo asignar en un valor o si la puedo asignar a ms de un valor,

    tengo un problema con la escala de medicin. La propiedad de exhaustividad, es el

    hecho de que a todo individuo yo lo pueda poner en alguno de los valores de la

    variable, es decir una escala tiene que ser exhaustiva, sino me van a quedar

    individuos en los cuales no s qu valor de la variable tiene, y la propiedad de

    exclusin se refiere a que los valores de la variable tiene que ser mutuamente, es

    decir yo lo puedo ubicar en algn lado pero solo en un lado, no puede estar presente

    en ms de uno de los valores de la variable.

    HERRAMIENTAS DE ANLISIS (sbado 8/06/2013). Adrin Santoro

    Tema: Anlisis univariado: estadstica descriptiva.

  • Vamos a hablar de estadstica descriptiva, es la estadstica que describe, analiza, resume

    un conjunto de datos utilizando mtodos numricos y grficos que resumen y presentan

    informacin contenidos en ellos. Los mtodos son herramientas analticas que junto a los

    grficos nos permiten ir resumindolo ya sea grficamente o a travs de un indicador o

    algn estadstico.

    La estadstica inferencial es aquella que apoyndose en el clculo de probabilidades y a

    partir de los datos muestrales efecta estimaciones. Es una rama de la estadstica, en la

    que se trata de ver de qu manera con cierta probabilidad puedo inferir en una poblacin

    los datos que surgen de una muestra. Siempre que uno tiene un tema de investigacin se

    pide una poblacin de estudio, que ms all del abordaje que uno haga, que para el caso

    que nos ocupa est el anlisis cuantitativo, donde la unidad censal o la unidad de anlisis,

    en general va a tomar una porcin de esa poblacin que se le llama muestra. Entonces la

    estadstica inferencial, se va a ocupar de estudios donde se toman las muestras de una

    poblacin, con la finalidad de calcular la probabilidad de equivocarse o no y hacer una

    inferencia de esta parte de la poblacin a toda la poblacin.

    Nosotros cuando trabajamos en un estudio cuantitativo en general lo que tenemos es una

    tabla de datos, esto tiene un montn de nombres por cual tambin se le conoce como

    Matriz de Datos o Tabla de Datos, donde est la presentacin de las caractersticas y

    atributos que se relevaron de cada una de las unidades, donde una fila contiene cada una

    de las unidades observadas y la columna que representan las variables, es decir, las

    caractersticas o atributos que se relevaron dcada una de las unidades.

    Se dice que la matriz o tabla de datos tiene una estructura tripartita, pues consta de tres

    partes: las filas que representan cada una de las unidades observadas, por el otro lado

    tenemos las columnas que son las variables. Las variables son las caractersticas que de

    individuo a individuo o de unidad a unidad pueden ir variando, que pueden ser

    cuantitativas o cualitativas, si son cuantitativas continuas o discretas, si son cualitativas

    tener diferentes niveles de medicin. El tercer elemento es el valor que asume la variable

    en cada unidad de observacin, es decir la celda. Esta conjuncin entre filas y columnas o

    una unidad de anlisis y una variable existe la categora o valor de esa variable que se

    conoce como el dato.

    Tenemos que empezar a pensar en una herramienta para abordar un conjunto de datos,

    que nos permita hacer algn resumen o tener una idea ms concreta de cmo es esta

    distribucin o de cmo son las distribuciones de estas variables. De esto se ocupa

    bsicamente la estadstica descriptiva para luego poder analizarlo.

    La primera herramienta es la frecuencia de la variable. Simplemente es presentar los

    valores de una variable y la frecuencia como aparece cada uno de ellos. Tenemos la

    frecuencia absoluta y se refiere a cuantas veces se observa el valor de una variable. La

    variable tiene que un conjunto de categoras: tiene que ser excluyente y ser exhaustiva.

    Qu significa que sea excluyente? Que cada caso en funcin de la variable pueda ser

    clasificado en una sola categora y solo en una. Y exhaustiva se refiere a que cada caso sea

    clasificable en una categora.

  • La distribucin de frecuencia es una forma de tratar los datos con la cual podemos resumir

    toda esta cantidad de datos y tener una idea que no nos va a permitir hacer ningn anlisis

    pero nos va permitir hacer la descripcin de los datos de cada una de las variables.

    Hay varias maneras de calcular la frecuencia. La primera es la frecuencia absoluta tiene

    que ver con la cantidad de observaciones. Despus tenemos la frecuencia relativa o

    relativa porcentual, depende como se exprese, nos dice que proporcin o porcentaje

    representa la cantidad de observaciones. Es bastante sencillo, lo que se tata es ir

    agrupando los recuentos para saber en qu medida se van mostrando. Que tan frecuente

    es cada uno, puede estar presentado en valores absolutos o valores relativos es decir en

    porcentajes, los porcentajes nos van a permitir compararlos o relativizarlos, lo que no nos

    permiten los nmeros absolutos. La lectura es mucho ms fcil refirindonos al cien por

    ciento.

    El tener en cuenta el nivel de medicin de una variable nos va a dar la informacin sobre

    que herramienta voy a utilizar para su anlisis. Siempre que sea una variable cualitativa del

    tipo nominal tendremos que calcular la frecuencia absoluta y la frecuencia relativa, no

    mucho ms que eso.

    El estadstico con que se puede analizar una variable cuantitativa nominal es la moda o el

    modo. Hay variables que pueden ser unimodales, bimodales o polimodales. Las variables

    dicotmicas solo son unimodales. No aporta mucha informacin pero es el nico que

    tenemos para describir esa variable. Las categoras de estas variables no pueden

    clasificarse segn un orden, a diferencias de otras como el nivel de instruccin que se

    pueden clasificar segn su orden jerrquico. Tampoco las variables nominales unimodales

    pueden describirse utilizando alguna operacin aritmtica. El nico estadstico es la moda

    o el modo. Hay 2 maneras ms de presentar la frecuencia: la frecuencia relativa porcentual

    y la frecuencia relativa acumulada. Solo puede calcularse para variables que tienen

    categoras ordinales, es decir, que pueden ordenarse por categoras de menor a mayor,

    como por ejemplo, el nivel de instruccin, es decir que sean cualitativas de mayor a

    menor, para calcular que distancia hay entre un nivel mayor y un nivel menor.

    Vamos a tomar una variable la cantidad de hijos que tiene una mujer, tenemos la

    frecuencia absoluta que como habamos dicho antes es el conteo de la aparicin de cada

    una de estas categoras, la relativa y la porcentual es el porcentaje que representan. Y lo

    que vamos a sumar ahora es la frecuencia relativa porcentual y la frecuencia relativa

    acumulada. La frecuencia relativa acumulada es la frecuencia de cada una de las categoras

    sumadas a las anteriores. Y esto tambin le vamos a transformar en porcentaje y nos

    queda la frecuencia relativa acumulada lo que obviamente va a ser 100 por ciento o uno,

    en la ltima categora, lo cual quiere decir, que categora ms alta acumula a todos los

    casos.

    Pensando esto como porcentaje la utilidad que tiene esta herramienta es poder hacer

    lectura de este tipo: el 75 por ciento de los encuestados tiene 3 hijos o menos o que el

    25% de la muestra tiene ms de 3 hijos. Lo que nos permite ordenar el conjunto de datos

    en funcin de su categora de mayor o menor, de aqu podemos ir teniendo una idea de la

    condicin de la distribucin, es decir, hasta qu nivel llega la mitad de la muestra. Si

    tomamos la mitad de la muestra, de este ejemplo, hasta que cantidad de hijos llegamos,

  • vamos a llegar hasta 2 (55% tiene dos hijos o menos). Si tomamos hasta 4 hijos o menos ya

    tenemos casi toda la muestra, pero si tomamos 5 hijos es un fenmeno poco frecuente o

    ms tenemos solo el 10% o menos. Hasta aqu podemos ver que con este tipo de lectura

    vamos a poder avanzar con la distribucin, porque podemos ver la categora ms

    frecuente que para este caso es un hijo, tambin lo que podemos ir viendo es como

    acumula, por ejemplo que ms de 3 cuartas partes de la muestra tiene 4 hijos o menos. Lo

    que no sirve es para ver estn concentrados los casos en funcin de las categoras.

    Hasta aqu estamos en la distribucin de frecuencias de variables cualitativas nominal que

    es la que tiene menor capacidad de medicin, pues solo podemos calculas frecuencia

    absoluta y relativa y la categora ms frecuente que se le dice moda o modo. La variable

    cualitativa ordinal que adems de clasificarla permite ordenar los casos de mayor o menor

    en funcin de una variable y all vimos que podemos agregar la frecuencia absoluta y

    relativa acumulada, que nos permita ver cmo iban acumulando los valores ordenados a

    la moda.

    Ahora vamos a ver los estadsticos de tendencia central que van a responder esta

    pregunta: alrededor de que valor se agrupan las observaciones? Sabemos que una

    muestra o en una poblacin, puede tener una distribucin ms o menos dispersa. Lo que

    nos va a decir, ms a all de que la muestra sea ms o menos dispersa, lo que nos va a

    decir es alrededor de que valor se agrupa. Si es una medida de dispersin si es el

    promedio, o la medida que utilicemos, se compone de valores muy desiguales o ms

    parecidos.

    La media es la medida de tendencia central ms utilizada, la ms conocida. Es el promedio

    aritmtico, es la sumatoria de la variable dividida en la cantidad de casos. No tiene mayor

    complejidad que eso. La media es muy sensible a los valores sensibles de la variable. Si

    tenemos unos valores que se van alejando de los valores promedios la media se va

    corriendo para all. Esto nos dice que es indicador no es el mejor si esta variable tiene

    valores extremos. Esto no va a sesgar este estadstico porque va a estar influenciado por

    este valor atpico, por lo cual no va a ser una medida til para describir esa variable. La x

    con un sombrerito significa promedio, en la formula significa que es la sumatoria desde el

    primer caso hasta el ltimo caso, y suma la variable X, que podra ser la variable hijos,

    entonces lo que quiere decir que en la sumatoria de la variable hijos, dividido entre la

    cantidad de casos. En conclusin ms all que la media se utiliza cuando uno tiene una

    cantidad de datos numricos no usarla indiscriminadamente pues hay que tomar en

    cuenta que si es muy heterognea esa distribucin o est sesgada por un valor alto o bajo

    esta medida no va a ser tan buena. La mediana, si se considera una variable discreta X

    cuyas observaciones en una tabla estadstica han sido ordenadas de menor a mayor.

    Llamamos mediana al primer valor de la variable que deja por debajo de si al valor al 50%

    de las observaciones. Se puede calcular en variables cuyo nivel de mediciones permite

    ordenar las categoras.

  • Segunda parte de Herramientas de Anlisis II (Dr. de Santoro)

    Vamos a recapitular un poco, habamos dicho que estbamos en la estadstica descriptiva,

    de all pasamos a la distribucin de valores de frecuencia, estamos en el rea de la

    estadstica que no se preocupa por describir a la poblacin sino a un conjunto de datos,

    este conjunto de datos en funcin de la variable se puede construir una determinada

    distribucin de la frecuencia y construir una medidas que den cuenta de los valores tpicos

    de la distribucin. Por eso vamos a describir la tendencia central donde estn agrupados

    los datos. La media para datos que son ms simtricos y la mediana para observaciones

    que son ms asimtricos, para que aquellos valores que son ms asimtricos no nos

    sesguen la tendencia central.

    Ahora vamos a pasar a la variabilidad de esta distribucin, vamos a calcular estadsticos

    que nos cuantifiquen si esa distribucin es muy ancha o muy angosta, si es ms

    concentrada o es ms heterognea o est formada por valores ms distantes, es decir de

    qu manera se agrupan alrededor de esta medida de tendencia central, de la media o de la

    mediana.

    Una medida de dispersin es como quedan agrupados los datos alrededor de la medida de

    centralizacin que uno est usando. No hay medidas de dispersin para variables

    cualitativas nominales mucho menos para ordinales. Estamos en el campo de las variables

    cuantitativas. Ahora quiero ver si esa media que yo calcule es el resultado de promediar

    valores parecidos o no tan parecidos o son ms o menos parecidos. Estos estadsticos de

    dispersin son la varianza y el desvo estndar.

    La varianza a lo que remite es hacer un resumen de dispersin con respecto de la media,

    nos va a cuantificar la varianza si todos esos valores que nosotros sumamos para obtener

    la media son parecidos o no a la media. Imaginemos que tenemos una distribucin que va

    de 0 a 100 con promedio de 50, el caso que este promedio sea el resultado de estos dos la

    varianza va a ser baja, es en promedio cuanto se alejan estos puntos de la media o del

    promedio, cuanto ms se alejen del promedio va a ser ms baja y cuanto ms se alejen va

    a ser ms alta. Esto nos dice que si es alta este promedio est compuesto de valores muy

    distintos. La varianza y el desvo estndar lo que van a hacer es promediar esas diferencias.

    La varianza es al cuadrado para que no me den nmeros negativos, como mide distancias

    que pueden tener distintos valores tienen que estar al cuadrado para que estn distancias

    no se compensen y llegue a 0. La varianza no tiene unidad de medida porque es una

    sumatoria de distancias al cuadrado, por eso se calcula el desvo estndar que es la raz,

    luego se anula con la raz el cuadrado. La varianza no tiene demasiado poder explicativo

    por que no es comparable, es un insumo para el desvo estndar y el coeficiente de

    variacin, que si son indicadores de la variabilidad.

    El desvo estndar es una expresin de la varianza, es la raz cuadrada de la varianza,

    permite ganar en capacidad de interpretacin. El desvo estndar sobre la media nos da el

    coeficiente de variacin, que se expresa por 100 y se refiere a cuanto se presenta la

    varianza en la media, es el indicador ms fcil de interpretar porque si tenemos por

    ejemplo un coeficiente de variacin del 30 % y un coeficiente de variacin del 10 %, en el

    primer caso va a haber ms variabilidad en la muestra.

  • El rango es sensible a valores extremos, pero es una herramienta til de medir el ancho de

    distribucin medir el rango.

    El rango intercuartil, es decir la amplitud que hay entre el tercer cuartil y el primero, es

    decir entre el 75% y el 25%, el 50% que est en el medio nos va a permitir ver si la

    distribucin es ms o menos homognea, y con eso lo que nos va a permitir es

    deshacernos de las 2 puntas, es decir, el 25 % ms alto y el 25% ms bajo, donde estn los

    extremos.

    La mediana est en la mitad de la distribucin es lo mismo que el segundo cuartil, este

    rango intercuartil del que hablamos recin es el rango de la distribucin que est entre el

    primer cuartil y el tercer cuartil. El primer cuartil corresponde al 25% por lo tanto coincide

    con el percentil 25, la mediana coincide con el 50 y el tercer cuartil con e 75, lo que nos

    permite marcar otros puntos de la distribucin. Esto nos da una idea de cuan cerca estn

    las observaciones que componen el promedio. El rango abarca toda la distribucin desde

    donde termina hasta donde comienza. El rango nos puede advertir sobre la presencia de

    un extremo.

    El clculo de la varianza y el desvo estndar en Excel, es muy fcil porque de lo que se

    trata es de que a cada valor de la variable es restarle la media y elevarlo al cuadrado y eso

    dividirlo por N.

    Si la media es 50 aos con un desvo estndar de 4, son 4 aos, esto quiere decir que en

    promedio los valores se diferencian de la media en 4 aos. Lo que tiene adems el desvo

    estndar es que es comparable porque tiene una unidad de medida.

    Las formas de distribucin, es una manera de analizar los datos. Si esa distribucin esta

    sesgada para un lado o esta sesgada para otro no es lo mismo, siempre hay que hacer un

    anlisis grafico de la distribucin.

    Un histograma es una manera til de graficar la distribucin, que es un grfico donde las

    columnas representan un agrupamiento en clase de la variable cuantitativa. En las curvas

    asimtricas hay mayor concentracin en los valores bajos, aunque hay valores atpicos o

    extremos hacia la derecha, el lado hacia el que se alarga es lo que caracteriza el sesgo por

    eso dice que tiene sesgo a la derecha, y tiene los valores concentrados a la izquierda se

    llama asimetra positiva. La mediana se corre a la derecha de la media.