Modelos de clasificación de datos astronómicos utilizando técnicas de active learning

38
Modelos de clasificación de datos astronómicos utilizando técnicas de Active Learning Presentador: Javier Machin Matos Profesor Supervisor: Karim Pichara Baksai

Transcript of Modelos de clasificación de datos astronómicos utilizando técnicas de active learning

Presentacin de PowerPoint

https://www.youtube.com/watch?v=pohG07w2JhM

Modelos de clasificacin de datos astronmicos utilizando tcnicas de Active Learning

Presentador: Javier Machin MatosProfesor Supervisor: Karim Pichara Baksai

AgendaMotivacinMarco TericoPregunta de InvestigacinSolucin PropuestaLimitacionesEstado de la Investigacin

Motivacin

NASA. 2015. https://www.youtube.com/watch?v=6tmbeLTHC_0

El sol es una enana amarilla.El Sol solo varia un 0.1% dentro de su ciclo solar (11 aos).

5

No todas las estrellas son tan tranquilas como nuestro Sol

Binarias Eclipsantes

Sistema estelar compuesto por dos estrellas.

Se observan disminuciones regulares de luminosidad.

Orbitanmutuamente alrededor de uncentro de masas comnSolo se observan cuando sus rbitas estas alineadas con las de la tierra y esto permite que se observen disminuciones regulares de luminosidad6

Estrellas variables eruptivas

Muestran un brillo irregular causado por el material que se pierde de la estrella.

No todas las estrellas son tan tranquilas como nuestro Sol

El sol tiene 1 400 000 kilmetros de dimetro.

Estrellas variables eruptivasEstrellas variables eruptivas muestran variaciones de brillo irregulares o semi-regulares causadas por el material que se pierdan de la estrella, o en algunos casos se acretaron a ella.

Gigantes y super gigantesEta Carinae es 5 millones de veces mas grande que nuestro sol.Vitel Jus es 300 veces mas grande que Eta Carinae, si fuera el sol llegara a Jupiter,Tambin esta el monstruo VYgriega Calis Majori, una de las estrellas mas grandes que se haya descubierto

7

Como estas existen millones de estrellas con diferente caractersticas

Las observaciones de las estrellas pueden ayudar a entender:Como evoluciona los grupos de estrellas.Como ha evolucionado el universo.La composicin qumica del universo.Estudiamos los procesos de formacin de planetas y las galaxias.Medir distancias.8

Experimento pionero de AtacamaObservatorio Cerro TololoConjunto Very Large TelescopeLarge Synoptic Survey TelescopeAURA and NOAO. 1962. http://www.ctio.noao.edu/noao APEX.. http://www.eso.org/public/chile/teles-instr/apex/ ESO. 1999. http://www.eso.org/public/chile/teles-instr/paranal/ LSST. 2019. http://www.lsst.org/

Chile cubre el 40 % de la observaciones en promedio.

1: Observatorio Cerro Tololo.Es un conjunto de 7 telescopios ubicados en la Serena, de los cuales solo 5 se mantiene operando.El proyecto se encuentra en funcionamiento desde el ao 1962. El propsito de este proyecto es descubrir enanas rojas, blancas y marrones que se encuentran en la vecindad solar.

2: El experimento pionero de Atacama (APEX). Esta ubicado a 5.100 metros de altura, es un telescopio de 12 metros de dimetro que opera a longitudes de onda, entre luz infrarroja y ondas de radio.El Objetivos cientfico es la Astroqumica.

3: Conjunto Very Large Telescope. Se encuentra en el desierto de Atacama. Es un conjunto de 4 telescopios ptico-infrarrojo, donde cada espejo mide 8,2 metros. Es actualmente uno de los mejores observatorios del mundo. El Objetivo general es observar galaxias con alto desplazamiento al rojo, formaciones estelares y exoplanetas.9

Ubicacin del Large Synoptic Survey Telescope (LSST)

LSSTConstruir un mapa de la Va Lctea.

Una imagen del LSST es el equivalente a 3000 imgenes del Hubble.

Cada imagen cubre 40 lunas llenas.

LSST

Cada 3 das tendremos un mapa del cielo en Chile.

Cmara con 3200 megapxel.1.7 metros de dimetro.

40 mil millones de estrellas y galaxias.

En resumen este telescopio esta tirando fotos constantemente al cielo, y todas estas fotos generan una serie de tiempo para cada objeto y fotometra obtengo la curva de luz

12

SDSS (Sloan Digital Sky Survey)SDSS.2000. http://www.sdss.org/

13

Big DataCada noche de observacin LSST obtendr 30 terabytes de informacin.

La transferencia de la informacin por la red es muy lenta.

Es importante solo tener las observaciones importante.

14

Los catlogos no se comunican entre siSesgo en las observaciones.

i.e, las observaciones no distribuyen uniforme.

Los astrnomos se interesan por trabajos diferentes.

Supernovas.

Clasificacin de estrellas variables.

R. Angelon et, al. 2014. The VVV Templates Project Towards an automated classification of VVV light-curves

Uno de los problemas es el sesgo.Los tipos de objetos no distribuyen uniforme en el espacio.15

Ciclo de Investigacin

Qu datos vamos a procesar?

Marco Terico

Curvas de LuzSeries de tiempo que muestran la variacin del brillo de las estrellas en diferentes instantes de tiempo.

Se mide el brillo con fotometra sobre las imgenes midiendo el valor de cada pixel.

Basados en las caractersticas de variabilidad, las curvas de luz son clasificadas en diferente grupos.

Las curvas de luz son medidas del brillo de una estrella en distintos instantes de tiempo. Si el brillo de la estrella vara, entonces podemos ver esa variacin en funcin del tiempo. Para hacer estas mediciones, se toman varias imgenes en distintos das. En estas imgenes podemos hacer fotometra para medir el brillo. La fotometra se hace sobre la imagen, midiendo el valor de cada pixel.

Esto permite un estudio mas en profundidad

18

Ciclo de Investigacin

Qu caractersticas poseen?Cules son importantes?

19

Caractersticas que describen Curvas de Luz

Estas caractersticas tiene el rol de ser informativas y discriminativas para utilizar mtricas de Maching Learning como:

Clasificacin de estrellas variables.Deteccin de objetos atpico.Anlisis general de los datos.Karim Pichara et,al. 2013. An improved quasar detection method in EROS-2 and MACHO LMC datasets

Decir que es discriminativa y informativas.

Utilizan un conjunto de caractersticas de la variabilidad, incluyendo parmetros de un modelo autor regresivo continua. Se muestra que los parmetros de un modelo autor regresivo son discriminadores continuas muy importante en el proceso de clasificacin. Utilizan un algoritmo de RF con un Adaboost. Ellos utilizan 14 caracterstica y mejoran la clasificacin. 3 de estas caractersticas los estimas con un modelo auto regresivo maximizando la likelihood

20

Caractersticas que describen Curvas de Luz

Isadora Num et.al. 2015 FATS: FEATURE ANALYSIS FOR TIME SERIES

La Media, La Desviacin Estndar

La Auto correlacin: La auto correlacin o correlacin en serie, es la dependencia lineal de una seal consigo misma en dos puntos en el tiempo.A menudo se utiliza para detectar la no aleatoriedad en los datos o para encontrar patrones que se repiten.

21

Ciclo de Investigacin

Existe un set de entrenamientos lo suficientemente representativos?

22

Active Learning

23

Active Learning

Burr Settles. 2010. Active Learning Literature Survey

Utiliza datos etiquetados y no etiquetados.Se realizan consultas en cualquier lugar del espacio. i.e, se pueden generar distribuciones y realizar una consulta en base a esa distribucin.

Asume que el proceso de etiquetar una instancia es gratis.Selecciona una instancia y decide si la utiliza o no. i.e: mide cuanta informacin aporta o sigue cierta estrategia de consulta.Consulta regiones ambiguas.

24

Pool-Based SamplingAsume que existe un conjunto de objetos etiquetados (L) y un conjunto de objetos no etiquetados (U).

Evala toda la coleccin de los objetos antes de realizar la consulta.

D. Lewis and J. Catlett. 1994. Heterogeneous uncertainty sampling for supervised learning. In Proceedings of the International Conference on Machine Learning (ICML), pages 148156. Morgan Kaufmann.

Ciclo de Investigacin

26

Pregunta de Investigacin

Pregunta de Investigacin

Como confeccionar un set de entrenamiento representativo para modelos de clasificacin en datos astronmicos utilizando tcnicas de Active Learning ?

Solucin Propuesta

Solucin Propuesta

Query by Committee

Analiza el comportamiento de varios clasificadores.

Consulto la etiqueta del objeto mas incierto.

Solucin Propuesta

31

Limitaciones

Algunas estrellas no se encuentran bien representadas por lo tanto no podremos obtener un buena cuerva de luz32

LimitacionesObservaciones realizadas en diferentes frecuencias.Ejemplo: La fotometra de ASAS es menos precisa que Hippacros y OGLE por lo que en ASAS muchas observaciones son errneas o clasificadas mal.

Las observaciones no son informativas.

Consume mucho tiempo de Observacin.

Dependiendo de las coordenadas muchas veces no se puede observar una curva de luz con espectroscopia de seguimiento.

Estado de la Investigacin

Estado de la InvestigacinActividades2014-22015-12015-22016-12016-22017-12017 -22018-11Revisin de la Literatura2Obtencin de catlogos3Desarrollo de la metodologa4Obtencin de las Caractersticas5Candidatura6Limpieza y descripcin de los datos 7Artculo # 18Pasanta Investigacin9Integracin de los Catlogos10Aplicacin de metodologa propuesta11Artculo # 2, ISI12Escritura de documento de Tesis

Referencias[1] NASA. 2015. https://www.youtube.com/watch?v=6tmbeLTHC_0

[2] APEX. http://www.eso.org/public/chile/teles-instr/apex/

[3] AURA and NOAO. 1962. http://www.ctio.noao.edu/noao

[4] Burr Settles. 2010. Active Learning Literature Survey

[5] D. Cohn. Neural network exploration using optimal experiment design. In Advances in Neural Information Processing Systems (NIPS), volume 6, pages 679686. Morgan Kaufmann, 1994.

[6] D. Lewis and J. Catlett. 1994. Heterogeneous uncertainty sampling for supervised learning. In Proceedings of the International Conference on Machine Learning (ICML), pages 148156. Morgan Kaufmann.

[7] ESO. 1999. http://www.eso.org/public/chile/teles-instr/paranal/

Referencias[8] Isadora Num et.al. 2015 FATS: FEATURE ANALYSIS FOR TIME SERIES

[9] Karim Pichara et,al. 2013. An improved quasar detection method in EROS-2 and MACHO LMC datasets

[10] K. Lang and E. Baum. Query learning can work poorly when a human oracle is used. In Proceedings of the IEEE International Joint Conference on Neural Networks, pages 335340. IEEE Press, 1992.

[11] LSST. http://www.lsst.org/

[12] R. Angelon et, al. 2014. The VVV Templates Project Towards an automated classification of VVV light-curves

[13] SDSS.2000. http://www.sdss.org/

Modelos de clasificacin de datos astronmicos utilizando tcnicas de Active Learning

Presentador: Javier Machin MatosProfesor Supervisor: Karim Pichara Baksai

Anexos