EXTRAPOLACION
-
Upload
gladys-gutierrez -
Category
Documents
-
view
2.275 -
download
0
Transcript of EXTRAPOLACION
Predicción y EstadísticaJornadas de Estadística 2007
IIMAS
9 de mayo
Dr. Ignacio Méndez Ramírez IIMAS UNAM
Panorama de la Plática
• Extrapolación - predicción
• Causalidad. Conceptos
• Modelos.
• Aleatoriedad y probabilidad
• Cuatro ejemplos de modelos estadísticos, con predicción
La palabra riesgo deriva del latín risicare, que significa
“atreverse”.
En este sentido, es una elección, antes que una suerte.
Las acciones que nos atrevemos a tomar,
dependen de que tan libres somos para efectuar
la elección.
El concepto de predecir posibles evoluciones de un
fenómeno, para escoger entre alternativas es inherente
al ser humano.
La expresión de la visión determinística: si conocemos
perfectamente el comportamiento de todas las
partículas que existe en el universo, podremos
predecir el futuro (Laplace)
¿Me enfermarési como el fruto rojo?
¿Me enfermarési como el fruto rojo?
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, si se mueren todos, concluyo “Todos los frutos
rojos son dañinos”. Me enfermaré si como un fruto rojo
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 14% de ellos, concluyo “Es poco probable que me enferme si como el fruto rojo”
Estudio unos pocos frutos “iguales”, se extrae un compuesto que interfiere con la
digestión en ratones. Concluyo “Esos frutos rojos son dañinos” Me enfermaré
si como un fruto rojo
Estudio unos pocos frutos “iguales”, se los doy a comer a ratones, se mueren 92% de
ellos, concluyo “Es probable que me enferme, si como el fruto rojo”
Conocimiento
¿Me enfermaré si como un fruto como ese?
Dudas:¿todos los frutos rojos semejantes son indigestos? ¿influye el tamaño del fruto?¿el tono de rojo? ¿la época del año? ¿el tipo de árbol o arbusto? ¿la persona que lo consume?etcétera. ¿Qué es ser semejante o semejante o ““igualigual””?
Extrapolación “Predicción”
¿¿Me enfermaré si como un fruto rojo??
La CCiencia hace extrapolaciones y con ellas predicciones.
Ejemplo de ello son las investigaciones que se llevan a cabo con ciertos ciertos elementoselementos (enfermos de amibiasis, fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer bacterias, etcétera), cuyas conclusiones se aplican a otros otros elementos semejanteselementos semejantes a los estudiados.
Extrapolación
Elementos
estudiados
Elementossemejantesa los estudiadosExtrapolación
Predicción
Extrapolación
Se puede considerar que lo estudiado, o experiencia previa, es una muestramuestra de todo un conjunto de otros elementos o nuevas experiencias semejantes a los estudiados.
Este conjunto no estudiado es la poblacipoblacióónn.
Poblaciones y Muestras
Muestra Población
Extrapolación
Poblaciones y Muestras
¿ Es la Extrapolación(predicion) Válida?
Nos preguntamos: ¿la extrapolación no se equivoca?, ¿cómo hacer que no se equivoque?
La respuesta es ssíí ,, se puede equivocar, pero frecuentemente nono se equivoca.
Poblaciones y Muestras
Si se pueden encontrar leyes deterministasdeterministas que expresen relaciones (necesarias y suficientes) entre propiedades de las instancias estudiadas (muestrasmuestras), entonces:
se pueden aplicar los resultados o conclusiones a todas las instancias (poblacipoblacióónn) no estudiadas aún, que cumplan con las propiedades requeridas.
Poblaciones y Muestras
Aquí están muchas leyes de la naturaleza, principalmente inorgánicas, como la física clásica, termodinámica (macroscópica), etcétera.
Así la experiencia (traducida en leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros; con ciertas moléculas se aplica a otras; etcétera.
Poblaciones y Muestras
¿Por que hay aleatoriedad?
1. Complejidad de los fenómenos y no se
conoce todos los aspectos y leyes
involucradas, pero el mundo es determinado.
2. Hay aleatoriedad intrínseca.
3. Pequeños cambios de condiciones iniciales
tienen efectos muy grandes (t. Caos)
Admitir la aleatoriedad. Heisenberg
Rechazar la aleatoriedad. Einstein: “Diós no juega dados”
Bifurcaciones, atractores
No se puede predecir con certeza el resultado de un estudio o evento
No hay modelos matemáticos que liguen todos los
elementos del fenómeno
ALEATORIEDAD
Para estudiar fenómenos aleatorios se usa la probabilidad
Hay procesos o fenómenos en los que nono se pueden encontrar relaciones entre sus propiedades, que sean necesarias y suficientes.
Hay mucha variabilidadvariabilidad, hay indeterminismoindeterminismo.
Se pueden encontrar ciertas “leyes” pero son de naturaleza probabilprobabilíísticastica y no determinística.
Aleatoriedad e indeterminismoAleatoriedad e indeterminismo
Estas leyes nos permiten hacer extrapolaciones, pero nunca son seguras, siempre hay la posibilidadposibilidad de equivocarse.
La estadística lo que busca es que la ““probabilidadprobabilidad”” de equivocarse sea ““pequepequeññaa””.
Aleatoriedad e indeterminismo
Ejemplo:
Considere el esquema siguiente donde se tienen datos de desarrollo de enfermedad cardiovascular en 50,000 personas.
Aquí hay dos tipos de extrapolación, una es a toda la población de la cual los 50,000 se consideran una muestra; y la otra a una persona en el futuro que es considerada un elemento tomado al azar de la población.
Aleatoriedad e indeterminismo
Se estudian 5,000 personasde 40 años que fuman (20cigarros al día o más) y con colesterol elevado. Seencuentra que 15% de ellasdesarrolla enfermedadcardiovascular antes decumplir 50 años.
Se tiene una población de un millón de personasque fuman, semejantes alas estudiadas.Se espera “alrededor” de150,000 con enfermedadcardiovascular antes delos 50 años.
Una persona de 40 años que fuma, concolesterol elevado, semejante a losestudiados, tiene una probabilidad de 0.15 de enfermedad cardiovascular antes de cumplir 50 años.
población
elemento
extrapolación
extrapolación
Aleatoriedad e indeterminismomuestra
En la primera inferencia o extrapolación se puede predecir con poco error cucuáántasntaspersonas en ese millón desarrollarán la enfermedad; en cambio en el caso de una persona no se puede predecirno se puede predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la enfermedad de la población a que pertenece.
En estos razonamientos es crucial la validez del supuesto que las condiciones de la muestra sean semejantessean semejantes a las de la población o individuo.
Aleatoriedad e indeterminismo
tiempo
PredicciónPredicción: si se da esa configuración va a ocurrir el efecto. La causalidad La causalidad determinísticadeterminística
tiempo
PredicciónPredicción: si se da esa configuración van a ocurrir los efectos con ciertas probabilidades. La causalidad probabilísticaLa causalidad probabilística
CAUSALIDAD
yxHipótesis Teórica. Un concepto influye en otro(s)-
Conceptos o “Constructos”Conceptos o “Constructos”
X1
X2
X3
X4...
Xk
Y1
Y2
Y3
Y4...
Ym
Hipótesis Empírica (s)
Relaciones entre Indicadores de los conceptos.
Pobreza SaludRepresión AgresiónEducación Ingresos
Ejemplos
CONCEPTOS DE CAUSALIDAD
X Y
Causalidad determinística
La causa es necesaria y suficiente para el efecto. La
configuración del mundo está totalmente determinada por la
configuración anterior.
X Y
X Y
Causa necesaria pero no suficiente
Causa suficiente pero no necesaria
Trisomía 21
Sx. Down
Amiba Amibiasis
AnemiaDeficiencia Fe
CONCEPTOS DE CAUSALIDAD
X Y
Causalidad probabilística
•Causa no necesaria ni suficiente
•Asociación estadística
•Las probabilidades de Y cambian al cambiar X
Tabaquismo
Cáncer pulmonar
Se decubren leyes que describen matemáticamente las variables importantes de un proceso, sin incluir
consideraciones aleatorias. E=mc2 , f=ma, mecánica clásica, ecuaciones diferenciales para muy variados fenómenos, fluidos, dinámica poblacional, etc.
No se encuentran leyes que sin incluir consideraciones aleatorias, describan matemáticamente a las variables del proceso. Se encuentran modelos, pero ahora son probabilísticos
• Con un modelo matemático, determinístico o probabilísticopodemos derivar consecuencias siguiendo su lógica interna y en esta medida, efectuar predicciones. Estas siempre están sujetas a la validez del modelo. En el caso de los modelos probabilísticos, además se debe tener una idea del grado de incertidumbre en predicciones individuales.
El uso de los modelos en el trabajo de investigación se da de acuerdo al esquema:
2. Probabilidad clásica o de “juegos”• La probabilidad de un
evento A es el cociente
del número de posibles
resultados favorables al
evento entre el número
total de resultados
posibles.
totalesresultadosAconresultados
AP_
__)( =
Supone un “espacio muestral” equiprobable. Todos los
posibles resultados son igualmente probables. Por esto es “a priori” y “subjetiva”.
Espacio muestral: El conjunto que comprende a todos los resultados posibles
En el mundo no hay espacios equiprobables exactos.
• Probabilidad de “águila” al lanzar una moneda es igual a ½, que resulta de tener un caso favorable entre dos posibles.
• Probabilidad de un número mayor de 4 al lanzar un dado, es 2/6=1/3, ya que el 5 y el 6, dos resultados son mayores que 4, y hay 6 posibles resultados.
• Se dice que debe ser una moneda “ honesta “ o un dado “honesto”. ¿Qué es esto? Que sean igualmente probables los posibles resultados.
• ¿Hay dados y monedas honestos en el mundo?
• ¿Se aplica a aspectos biológicos, sociales, económicos, etc.
2. Probabilidad clásica o de “juegos”
La regularidad estadística consiste en el hecho
universalmente observado ,que funciona como un supuesto
muy apoyado, que al estudiar un número grande de veces
un fenómeno en condiciones constantes (o casi ) las
proporciones en las que ocurren los posibles resultados son
muy estables (casi no cambian ) .
Es decir, no se puede predecir el resultado al estudiar uno o
unos pocos elementos, pero en conjuntos grandes de
elementos si es posible la predicción con poco error de las
proporciones o porcentajes con los que ocurren los diversos
resultados.
3.- MODELACION BASADA EN LA REGULARIDAD ESTADISTICA
J. Bernoulli, Ars Conjectandi, 1713
Muestra aleatoria de n elementos
La proporción de ellos con A es p
La proporción de elementos con A es P
PP
pp Liga con representatividad de las muestras
Limn→∝→∝→∝→∝
P │p-P│< ε = 1
Limn→∝→∝→∝→∝
p=P
Población muy grande o infinita o un proceso que genera elementos
A
A
REGULARIDAD ESTADISTICA EN VARIABLES DICOTOMICAS
El valor en el que se estabilizan las proporciones se le conceptualiza como la probabilidad de sobrevida para esos pacientes con esa técnica quirúrgica, la población
1
0
1
0
1
0
1
0
1
0
××××
1 n 1 n2
×××× ×××× ×××× ××××
1 n2
××××.66
3
.66.5
1 n2 3 4
×××× ××××
××××××××
1 2 3 4
×××× ××××
××××××××
∞∞∞∞
×××× ×××× ××××××××...
P(S)Fre
(S)
Fre
(S)
pocos cambios en la frecuencia
100
p
p
p p
p
Pudo ocurrir así o de otro modo, es impredecible
Predecible
REGULARIDAD ESTADÍSTICAAl estudiar un fenómeno aleatorio muchas veces, en condiciones
casi constantes (población), los diferentes resultados ocurren con
una proporción estable.
A esa proporción le llamamos probabilidad de cada resultado.
¿Se muere el paciente, dentro del
próximo año?
...
La proporción de pacientes muertos es estable, en la población
...
En el futuro, el paciente se muere o no se muere; si se llega a morir, se muere “todito”,
no el 32%.
¡Se le aplica a un elemento una característica de la población a la que pertenece.!
Regularidad Estadística Variables Categóricas
El auto durante el
recorrido de 80,000Km.,
¿se descompone de
clutch, frenos, motor o
no se descompone?
Constancia de Proporciones = Probabilidades
P(F
)
0
0.2
0.4
0.6
0.8
1
FrenosClutchMotorNo
Población de Autos
P1P2
P3
P4
-4 -3 -2 -1 0 1 2 3 4
α/2 =0.025 0.4750.475
X = Diámetro del pecho
X
Los diámetros del pecho de los soldados se modelan bien con una distribución normal
Regularidad estadística, base de la probabilidad frecuentista
• Al estudiar un fenómeno muchas veces en condiciones
constantes o casi (la población), la frecuencia de los
posibles resultados es muy estable.
• La definición de los resultados de interés (espacio
muestral) y las condiciones de estudio (población) es
subjetiva, sin embargo, los valores en los que se
estabilizan las frecuencias relativas o probabilidades
son objetivos.
• Para entender, describir y predecir fenómenos
aleatorios, se pretende conocer esas probabilidades
Uso de modelos en la regularidad Uso de modelos en la regularidad estadísticaestadística
1. Experiencias empíricas previas.
2. Consideraciones teóricas sobre la naturaleza del fenómeno estudiado, y
3. Combinaciones de las dos anteriores.
4. Simplicidad
Para describir, entender y predecir los fenómenos aleatorios, frecuentemente se recure a postular modelos probabilísticos. Estos pueden haber surgido por tres vías:
)( θxf
FUMAR Y ENFERMEDAD CARDIACA
Relación causal determinada en forma no experimental
En un estudio de seguimiento por varios años de toda una
población de personas, se construyó el modelo logístico
que permite concluir, que en hombres de 45 años la
probabilidad de ataque cardiaco dentro de 12 años se
estima como sigue:
� 0.03, si no fuma, con presión y colesterol normales
� 0.05. si fuma 20 cigarros al día
� 0.075, si fuma y tiene presión 140/88
� 0.15, si fuma, tiene presión 140/88 y nivel sérico de
colesterol 250 mg/dL
En estadística es común que se plantee un modelo para explicar las características de generación de los datos. El modelo puede representar la situación esperada de una hipótesis de causalidad, o bien puede ser el modelo de negación de una hipótesis dada (Hipótesis de nulidad)En ambos casos, se evalúa la concordancia entre los datos observados, O y los esperados E, si el modelo es cierto. Usualmente esta discordancia se valora de acuerdo a la probabilidad de una discordancia como la obtenida o aún mayor suponiendo cierto el modelo. Es el ”Valor de P”
Significancia Estadística¿Que tanto es tantito?
¿ Cuándo las diferencias entre los datos obtenidos y los esperados bajo un modelo
probabilistico son “grandes”?
Razonamiento de Fisher : Se supone que el modelo es cierto, se evalúa la probabilidadde una discrepancia entre los datos observados y los esperados, como la obtenida o aun mayor. Este es el llamado Valor de P. Si la P es menor de .05 , es decir 5%, se considera que el modelo no es compatible con los datos. Se dice las diferencias son significativassignificativas
Reaccionamos ante lo improbable
! Es improbable encontrar tres elefantes en la calle !
¿QUE?
La significancia estadística, no demuestra que el modelo sea falso, solo que los datos son incompatibles (poco probables) con ese modelo.
0
100
NU
EV
A
0.050
0.100
0.150
0.2000.250
0.300
0.350
0.350
0.400
0.450
20 30 40 50 60
EDAD
P(asma, mv)
413 trabajadores de una industria del cemento, con su historia de trabajo por varios años, se construyó un índice del grado de exposición a los polvos de la caliza y otros componentes del cemento, se le llamó “nueva”. Además la edad de los trabajadores es una variable confusora para la presencia de asma y
otros padecimientos. Estimación de probabilidades de asma en modelo logístico. Se nota claramente la interacción en el “efecto del trabajador sano”
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Pro
b[co
r.m
v]
20 30 40 50 60 70EDAD
Probabilidades de CorazónMáxima Verosimilitud Interacción Edad*Esf*Abu
-Abu
Esf-
EsfAb...
--
800 trabajadores de una empresa siderúrgica. (Datos del Dr. Mariano Noriega, Maestría “Salud en el Trabajo”, UAM-X). Entre varios diagnósticos y varias exigencias de trabajo, se selecciona la relación entre la edad, el trabajo aburrido y con esfuerzos como factores de riesgo (causa) para el diagnóstico de patología del corazón. Esta relación se selecciona por que es donde hay una fuerte interacción triple. Las probabilidades aumentan con la edad pero mucho más si sólo hay trabajo aburrido, un poco menos con sólo esfuerzos y poco con ambos, casi nada cuando no esta ninguna de las dos exigencias. Hay un efectoantagónico, la presencia de ambos riesgos produce menores probabilidades de diagnóstico corazón, que cada uno de ellos por separado
2.226.0Rural
2.112.4Urbano
Estrato
2.047.6si
2.114.4no
Indigenismo
1.810.33 (mejor condición)
2.430.52 (Peor condición)
2.718.81 (intermedio)
Grupo nivel socioeconómico
Emaciación %Bajo peso y desmedro %Variable
Datos de la Encuesta Nacional de Nutrición.1999. Gráfica 5. Probabilidades de bajo peso para la edad y desmedro (baja talla para la
edad), y también de emaciación (bajo peso para la t alla).
4
6
8
10
12
14
16
18
20
22
24
26
28F
BG
end
7 8 9 10 11 12 13 14 15 16 17 18 19 20
FBG beg
Linear Fit Treatment=="Glibencamide"Linear Fit Treatment=="Placebo"Linear Fit Treatment=="V-411"
glibencamide: FBG end = 2.7 + 0.63 FBG beg
Placebo: FBG end = -2.43 + 1.16 FBG beg
V-411: FBG end = 1.8 + 0.62 FBG beg
Ensayo clínico doble ciego para probar dos fármacos y un placebo para disminuir glucosa en diabéticos
Los dos fármacos producen disminuciones semejantes de glucosa, y el placebo produce ligeros aumentos
Glucosa inicial
Glucosa final
V-411
Glibenclamida
Placebo