EXTRAPOLACION

Predicción y EstadísticaJornadas de Estadística 2007

IIMAS

9 de mayo

Dr. Ignacio Méndez Ramírez IIMAS UNAM

Panorama de la Plática

• Extrapolación - predicción

• Causalidad. Conceptos

• Modelos.

• Aleatoriedad y probabilidad

• Cuatro ejemplos de modelos estadísticos, con predicción

La palabra riesgo deriva del latín risicare, que significa

“atreverse”.

En este sentido, es una elección, antes que una suerte.

Las acciones que nos atrevemos a tomar,

dependen de que tan libres somos para efectuar

la elección.

El concepto de predecir posibles evoluciones de un

fenómeno, para escoger entre alternativas es inherente

al ser humano.

La expresión de la visión determinística: si conocemos

perfectamente el comportamiento de todas las

partículas que existe en el universo, podremos

predecir el futuro (Laplace)

¿Me enfermarési como el fruto rojo?

Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, si se mueren todos, concluyo “Todos los frutos

rojos son dañinos”. Me enfermaré si como un fruto rojo

Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 14% de ellos, concluyo “Es poco probable que me enferme si como el fruto rojo”

Estudio unos pocos frutos “iguales”, se extrae un compuesto que interfiere con la

digestión en ratones. Concluyo “Esos frutos rojos son dañinos” Me enfermaré

si como un fruto rojo

Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 92% de

ellos, concluyo “Es probable que me enferme, si como el fruto rojo”

Conocimiento

¿Me enfermaré si como un fruto como ese?

Dudas:¿todos los frutos rojos semejantes son indigestos? ¿influye el tamaño del fruto?¿el tono de rojo? ¿la época del año? ¿el tipo de árbol o arbusto? ¿la persona que lo consume?etcétera. ¿Qué es ser semejante o semejante o ““igualigual””?

Extrapolación “Predicción”

¿¿Me enfermaré si como un fruto rojo??

La CCiencia hace extrapolaciones y con ellas predicciones.

Ejemplo de ello son las investigaciones que se llevan a cabo con ciertos ciertos elementoselementos (enfermos de amibiasis, fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer bacterias, etcétera), cuyas conclusiones se aplican a otros otros elementos semejanteselementos semejantes a los estudiados.

Extrapolación

Elementos

estudiados

Elementossemejantesa los estudiadosExtrapolación

Predicción

Extrapolación

Se puede considerar que lo estudiado, o experiencia previa, es una muestramuestra de todo un conjunto de otros elementos o nuevas experiencias semejantes a los estudiados.

Este conjunto no estudiado es la poblacipoblacióónn.

Poblaciones y Muestras

Muestra Población

Extrapolación


¿ Es la Extrapolación(predicion) Válida?

Nos preguntamos: ¿la extrapolación no se equivoca?, ¿cómo hacer que no se equivoque?

La respuesta es ssíí ,, se puede equivocar, pero frecuentemente nono se equivoca.


Si se pueden encontrar leyes deterministasdeterministas que expresen relaciones (necesarias y suficientes) entre propiedades de las instancias estudiadas (muestrasmuestras), entonces:

se pueden aplicar los resultados o conclusiones a todas las instancias (poblacipoblacióónn) no estudiadas aún, que cumplan con las propiedades requeridas.


Aquí están muchas leyes de la naturaleza, principalmente inorgánicas, como la física clásica, termodinámica (macroscópica), etcétera.

Así la experiencia (traducida en leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros; con ciertas moléculas se aplica a otras; etcétera.


¿Por que hay aleatoriedad?

1. Complejidad de los fenómenos y no se

conoce todos los aspectos y leyes

involucradas, pero el mundo es determinado.

2. Hay aleatoriedad intrínseca.

3. Pequeños cambios de condiciones iniciales

tienen efectos muy grandes (t. Caos)

Admitir la aleatoriedad. Heisenberg

Rechazar la aleatoriedad. Einstein: “Diós no juega dados”

Bifurcaciones, atractores

No se puede predecir con certeza el resultado de un estudio o evento

No hay modelos matemáticos que liguen todos los

elementos del fenómeno

ALEATORIEDAD

Para estudiar fenómenos aleatorios se usa la probabilidad

Hay procesos o fenómenos en los que nono se pueden encontrar relaciones entre sus propiedades, que sean necesarias y suficientes.

Hay mucha variabilidadvariabilidad, hay indeterminismoindeterminismo.

Se pueden encontrar ciertas “leyes” pero son de naturaleza probabilprobabilíísticastica y no determinística.

Aleatoriedad e indeterminismoAleatoriedad e indeterminismo

Estas leyes nos permiten hacer extrapolaciones, pero nunca son seguras, siempre hay la posibilidadposibilidad de equivocarse.

La estadística lo que busca es que la ““probabilidadprobabilidad”” de equivocarse sea ““pequepequeññaa””.

Aleatoriedad e indeterminismo

Ejemplo:

Considere el esquema siguiente donde se tienen datos de desarrollo de enfermedad cardiovascular en 50,000 personas.

Aquí hay dos tipos de extrapolación, una es a toda la población de la cual los 50,000 se consideran una muestra; y la otra a una persona en el futuro que es considerada un elemento tomado al azar de la población.


Se estudian 5,000 personasde 40 años que fuman (20cigarros al día o más) y con colesterol elevado. Seencuentra que 15% de ellasdesarrolla enfermedadcardiovascular antes decumplir 50 años.

Se tiene una población de un millón de personasque fuman, semejantes alas estudiadas.Se espera “alrededor” de150,000 con enfermedadcardiovascular antes delos 50 años.

Una persona de 40 años que fuma, concolesterol elevado, semejante a losestudiados, tiene una probabilidad de 0.15 de enfermedad cardiovascular antes de cumplir 50 años.

población

elemento

extrapolación

extrapolación

Aleatoriedad e indeterminismomuestra

En la primera inferencia o extrapolación se puede predecir con poco error cucuáántasntaspersonas en ese millón desarrollarán la enfermedad; en cambio en el caso de una persona no se puede predecirno se puede predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la enfermedad de la población a que pertenece.

En estos razonamientos es crucial la validez del supuesto que las condiciones de la muestra sean semejantessean semejantes a las de la población o individuo.


tiempo

PredicciónPredicción: si se da esa configuración va a ocurrir el efecto. La causalidad La causalidad determinísticadeterminística

tiempo

PredicciónPredicción: si se da esa configuración van a ocurrir los efectos con ciertas probabilidades. La causalidad probabilísticaLa causalidad probabilística

CAUSALIDAD

yxHipótesis Teórica. Un concepto influye en otro(s)-

Conceptos o “Constructos”Conceptos o “Constructos”

X1

X2

X3

X4...

Xk

Y1

Y2

Y3

Y4...

Ym

Hipótesis Empírica (s)

Relaciones entre Indicadores de los conceptos.

Pobreza SaludRepresión AgresiónEducación Ingresos

Ejemplos

CONCEPTOS DE CAUSALIDAD

X Y

Causalidad determinística

La causa es necesaria y suficiente para el efecto. La

configuración del mundo está totalmente determinada por la

configuración anterior.

X Y

X Y

Causa necesaria pero no suficiente

Causa suficiente pero no necesaria

Trisomía 21

Sx. Down

Amiba Amibiasis

AnemiaDeficiencia Fe

CONCEPTOS DE CAUSALIDAD

X Y

Causalidad probabilística

•Causa no necesaria ni suficiente

•Asociación estadística

•Las probabilidades de Y cambian al cambiar X

Tabaquismo

Cáncer pulmonar

Se decubren leyes que describen matemáticamente las variables importantes de un proceso, sin incluir

consideraciones aleatorias. E=mc2 , f=ma, mecánica clásica, ecuaciones diferenciales para muy variados fenómenos, fluidos, dinámica poblacional, etc.

No se encuentran leyes que sin incluir consideraciones aleatorias, describan matemáticamente a las variables del proceso. Se encuentran modelos, pero ahora son probabilísticos

• Con un modelo matemático, determinístico o probabilísticopodemos derivar consecuencias siguiendo su lógica interna y en esta medida, efectuar predicciones. Estas siempre están sujetas a la validez del modelo. En el caso de los modelos probabilísticos, además se debe tener una idea del grado de incertidumbre en predicciones individuales.

El uso de los modelos en el trabajo de investigación se da de acuerdo al esquema:

2. Probabilidad clásica o de “juegos”• La probabilidad de un

evento A es el cociente

del número de posibles

resultados favorables al

evento entre el número

total de resultados

posibles.

totalesresultadosAconresultados

AP_

__)( =

Supone un “espacio muestral” equiprobable. Todos los

posibles resultados son igualmente probables. Por esto es “a priori” y “subjetiva”.

Espacio muestral: El conjunto que comprende a todos los resultados posibles

En el mundo no hay espacios equiprobables exactos.

• Probabilidad de “águila” al lanzar una moneda es igual a ½, que resulta de tener un caso favorable entre dos posibles.

• Probabilidad de un número mayor de 4 al lanzar un dado, es 2/6=1/3, ya que el 5 y el 6, dos resultados son mayores que 4, y hay 6 posibles resultados.

• Se dice que debe ser una moneda “ honesta “ o un dado “honesto”. ¿Qué es esto? Que sean igualmente probables los posibles resultados.

• ¿Hay dados y monedas honestos en el mundo?

• ¿Se aplica a aspectos biológicos, sociales, económicos, etc.

2. Probabilidad clásica o de “juegos”

La regularidad estadística consiste en el hecho

universalmente observado ,que funciona como un supuesto

muy apoyado, que al estudiar un número grande de veces

un fenómeno en condiciones constantes (o casi ) las

proporciones en las que ocurren los posibles resultados son

muy estables (casi no cambian ) .

Es decir, no se puede predecir el resultado al estudiar uno o

unos pocos elementos, pero en conjuntos grandes de

elementos si es posible la predicción con poco error de las

proporciones o porcentajes con los que ocurren los diversos

resultados.

3.- MODELACION BASADA EN LA REGULARIDAD ESTADISTICA

J. Bernoulli, Ars Conjectandi, 1713

Muestra aleatoria de n elementos

La proporción de ellos con A es p

La proporción de elementos con A es P

PP

pp Liga con representatividad de las muestras

Limn→∝→∝→∝→∝

P │p-P│< ε = 1

Limn→∝→∝→∝→∝

p=P

Población muy grande o infinita o un proceso que genera elementos

A

A

REGULARIDAD ESTADISTICA EN VARIABLES DICOTOMICAS

El valor en el que se estabilizan las proporciones se le conceptualiza como la probabilidad de sobrevida para esos pacientes con esa técnica quirúrgica, la población

1

0

1

0

1

0

1

0

1

0

××××

1 n 1 n2

×××× ×××× ×××× ××××

1 n2

××××.66

3

.66.5

1 n2 3 4

×××× ××××

××××××××

1 2 3 4

×××× ××××

××××××××

∞∞∞∞

×××× ×××× ××××××××...

P(S)Fre

(S)

Fre

(S)

pocos cambios en la frecuencia

100

p

p

p p

p

Pudo ocurrir así o de otro modo, es impredecible

Predecible

REGULARIDAD ESTADÍSTICAAl estudiar un fenómeno aleatorio muchas veces, en condiciones

casi constantes (población), los diferentes resultados ocurren con

una proporción estable.

A esa proporción le llamamos probabilidad de cada resultado.

¿Se muere el paciente, dentro del

próximo año?

...

La proporción de pacientes muertos es estable, en la población

...

En el futuro, el paciente se muere o no se muere; si se llega a morir, se muere “todito”,

no el 32%.

¡Se le aplica a un elemento una característica de la población a la que pertenece.!

Regularidad Estadística Variables Categóricas

El auto durante el

recorrido de 80,000Km.,

¿se descompone de

clutch, frenos, motor o

no se descompone?

Constancia de Proporciones = Probabilidades

P(F

)

0

0.2

0.4

0.6

0.8

1

FrenosClutchMotorNo

Población de Autos

P1P2

P3

P4

-4 -3 -2 -1 0 1 2 3 4

α/2 =0.025 0.4750.475

X = Diámetro del pecho

X

Los diámetros del pecho de los soldados se modelan bien con una distribución normal

Regularidad estadística, base de la probabilidad frecuentista

• Al estudiar un fenómeno muchas veces en condiciones

constantes o casi (la población), la frecuencia de los

posibles resultados es muy estable.

• La definición de los resultados de interés (espacio

muestral) y las condiciones de estudio (población) es

subjetiva, sin embargo, los valores en los que se

estabilizan las frecuencias relativas o probabilidades

son objetivos.

• Para entender, describir y predecir fenómenos

aleatorios, se pretende conocer esas probabilidades

Uso de modelos en la regularidad Uso de modelos en la regularidad estadísticaestadística

1. Experiencias empíricas previas.

2. Consideraciones teóricas sobre la naturaleza del fenómeno estudiado, y

3. Combinaciones de las dos anteriores.

4. Simplicidad

Para describir, entender y predecir los fenómenos aleatorios, frecuentemente se recure a postular modelos probabilísticos. Estos pueden haber surgido por tres vías:

)( θxf

FUMAR Y ENFERMEDAD CARDIACA

Relación causal determinada en forma no experimental

En un estudio de seguimiento por varios años de toda una

población de personas, se construyó el modelo logístico

que permite concluir, que en hombres de 45 años la

probabilidad de ataque cardiaco dentro de 12 años se

estima como sigue:

� 0.03, si no fuma, con presión y colesterol normales

� 0.05. si fuma 20 cigarros al día

� 0.075, si fuma y tiene presión 140/88

� 0.15, si fuma, tiene presión 140/88 y nivel sérico de

colesterol 250 mg/dL

En estadística es común que se plantee un modelo para explicar las características de generación de los datos. El modelo puede representar la situación esperada de una hipótesis de causalidad, o bien puede ser el modelo de negación de una hipótesis dada (Hipótesis de nulidad)En ambos casos, se evalúa la concordancia entre los datos observados, O y los esperados E, si el modelo es cierto. Usualmente esta discordancia se valora de acuerdo a la probabilidad de una discordancia como la obtenida o aún mayor suponiendo cierto el modelo. Es el ”Valor de P”

Significancia Estadística¿Que tanto es tantito?

¿ Cuándo las diferencias entre los datos obtenidos y los esperados bajo un modelo

probabilistico son “grandes”?

Razonamiento de Fisher : Se supone que el modelo es cierto, se evalúa la probabilidadde una discrepancia entre los datos observados y los esperados, como la obtenida o aun mayor. Este es el llamado Valor de P. Si la P es menor de .05 , es decir 5%, se considera que el modelo no es compatible con los datos. Se dice las diferencias son significativassignificativas

Reaccionamos ante lo improbable

! Es improbable encontrar tres elefantes en la calle !

¿QUE?

La significancia estadística, no demuestra que el modelo sea falso, solo que los datos son incompatibles (poco probables) con ese modelo.

0

100

NU

EV

A

0.050

0.100

0.150

0.2000.250

0.300

0.350

0.350

0.400

0.450

20 30 40 50 60

EDAD

P(asma, mv)

413 trabajadores de una industria del cemento, con su historia de trabajo por varios años, se construyó un índice del grado de exposición a los polvos de la caliza y otros componentes del cemento, se le llamó “nueva”. Además la edad de los trabajadores es una variable confusora para la presencia de asma y

otros padecimientos. Estimación de probabilidades de asma en modelo logístico. Se nota claramente la interacción en el “efecto del trabajador sano”

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Pro

b[co

r.m

v]

20 30 40 50 60 70EDAD

Probabilidades de CorazónMáxima Verosimilitud Interacción Edad*Esf*Abu

-Abu

Esf-

EsfAb...

--

800 trabajadores de una empresa siderúrgica. (Datos del Dr. Mariano Noriega, Maestría “Salud en el Trabajo”, UAM-X). Entre varios diagnósticos y varias exigencias de trabajo, se selecciona la relación entre la edad, el trabajo aburrido y con esfuerzos como factores de riesgo (causa) para el diagnóstico de patología del corazón. Esta relación se selecciona por que es donde hay una fuerte interacción triple. Las probabilidades aumentan con la edad pero mucho más si sólo hay trabajo aburrido, un poco menos con sólo esfuerzos y poco con ambos, casi nada cuando no esta ninguna de las dos exigencias. Hay un efectoantagónico, la presencia de ambos riesgos produce menores probabilidades de diagnóstico corazón, que cada uno de ellos por separado

2.226.0Rural

2.112.4Urbano

Estrato

2.047.6si

2.114.4no

Indigenismo

1.810.33 (mejor condición)

2.430.52 (Peor condición)

2.718.81 (intermedio)

Grupo nivel socioeconómico

Emaciación %Bajo peso y desmedro %Variable

Datos de la Encuesta Nacional de Nutrición.1999. Gráfica 5. Probabilidades de bajo peso para la edad y desmedro (baja talla para la

edad), y también de emaciación (bajo peso para la t alla).

4

6

8

10

12

14

16

18

20

22

24

26

28F

BG

end

7 8 9 10 11 12 13 14 15 16 17 18 19 20

FBG beg

Linear Fit Treatment=="Glibencamide"Linear Fit Treatment=="Placebo"Linear Fit Treatment=="V-411"

glibencamide: FBG end = 2.7 + 0.63 FBG beg

Placebo: FBG end = -2.43 + 1.16 FBG beg

V-411: FBG end = 1.8 + 0.62 FBG beg

Ensayo clínico doble ciego para probar dos fármacos y un placebo para disminuir glucosa en diabéticos

Los dos fármacos producen disminuciones semejantes de glucosa, y el placebo produce ligeros aumentos

Glucosa inicial

Glucosa final

V-411

Glibenclamida

Placebo

EXTRAPOLACION

Documents

Transcript of EXTRAPOLACION